프리세일즈 도큐멘토 나라장터 입찰 제안서 다운로드 제공, 시간을 줄여주는 세일즈 문서, 홈페이지 구축 제안서 판매

AI가 얼굴 인식하고 실시간 대화까지…오픈AI, ‘GPT-4o’ 공개




새 모델의 ‘o는 ‘옴니(omni)’로 다중 모드를 의미한다

실시간으로 시각 기능이 제공되는 모습도 확인됐다. 사용자가 ‘3x+1=4’라는 간단한 수식을 작성하고 카메라로 이를 보여주자 이를 정확히 인식하고 문제 풀이를 위한 답변을 내놓았다. 또한 사용자가 얼굴을 비추며 ‘내가 어떤 감정을 느끼고 있다고 생각하나’고 질문하자 ‘활짝 웃는 얼굴에 약간의 흥분까지 더해져 꽤 행복한 기분인 것 같다. 좋은 기분의 이유를 공유해주세요’라고 대답하기도 했다.


1. ChatGPT 데스크탑 버전 공개
2. GPT-4o 무료 공개
- 50개 언어 성능/속도 향성
- 멀티모달
3. GPT-4o API 공개 (2배 빠름, 50% 저렴, 5배 높은 rate limit)
4. 순차적으로 사용 가능하도록 풀 예정

시연에서 보여준 점
1. 실시간 소통 지연시간 상당히 짧음, 실제 소통하듯 자연스럽게 끊고 중간에 말할 수 있음
2. 음성 대화 감정 엄청 풍부함, 심지어 노래도 함
3. 멀티모달 가능 - 단순히 사진 넣는 것이 아닌 실시간 카메라 화면 공유로 소통 가능 (수학 과외 선생님 역할, 코딩 문제 해결)
4. 실시간 번역
5. 표정 감정 분석 가능


https://openai.com/index/hello-gpt-4o/?fbclid=IwZXh0bgNhZW0CMTAAAR3YVIV1xJ7RwZQT93lacNCm8ioe-JfMXj1qIs0FilJlkxKrcbytxdXCVXA_aem_AVifBArtCPAe4_9MGJ95javRoHFD5Koli6Jd8tW8FABsXW8XgwInStJ0De3ghiH2Bt2dzvxkZ4he5aRH3gSZWnX9


GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.


Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.

With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.


--------------------------------------------------------

바로가기 (새창) : https://www.epnc.co.kr/news/articleView.html?idxno=300935

도큐멘토에서는 일부 내용만을 보여드리고 있습니다.

세부적인 내용은 바로가기로 확인하시면 됩니다.



고객센터

10:30~16:00

주말,공휴일 휴무

프리세일즈 도큐멘토  |  정부지원 나라장터 입찰 제안서 및 실무 기획서 등 제공

문서는 포멧만으로도 가이드가 된다, 문서에서 받는 멘토링은 사수보다 많다

---

아마란스  |  682-53-00808  |  제2023-수원권선-0773호

출판사 신고번호 : 제 2023-000074호

경기도 광명시 소하로 190, 12층 비1216-50(소하동, 광명G타워) 

전화번호 : 010-2617-7051

이  메  일 : korea@amarans.co.kr
입금계좌 : 카카오뱅크, 아마란스, 3333-26-7731937


제안서 도큐멘토 브런치 게시글 바로가기