실시간으로 시각 기능이 제공되는 모습도 확인됐다. 사용자가 ‘3x+1=4’라는 간단한 수식을 작성하고 카메라로 이를 보여주자 이를 정확히 인식하고 문제 풀이를 위한 답변을 내놓았다. 또한 사용자가 얼굴을 비추며 ‘내가 어떤 감정을 느끼고 있다고 생각하나’고 질문하자 ‘활짝 웃는 얼굴에 약간의 흥분까지 더해져 꽤 행복한 기분인 것 같다. 좋은 기분의 이유를 공유해주세요’라고 대답하기도 했다.
1. ChatGPT 데스크탑 버전 공개 2. GPT-4o 무료 공개 - 50개 언어 성능/속도 향성 - 멀티모달 3. GPT-4o API 공개 (2배 빠름, 50% 저렴, 5배 높은 rate limit) 4. 순차적으로 사용 가능하도록 풀 예정
시연에서 보여준 점 1. 실시간 소통 지연시간 상당히 짧음, 실제 소통하듯 자연스럽게 끊고 중간에 말할 수 있음 2. 음성 대화 감정 엄청 풍부함, 심지어 노래도 함 3. 멀티모달 가능 - 단순히 사진 넣는 것이 아닌 실시간 카메라 화면 공유로 소통 가능 (수학 과외 선생님 역할, 코딩 문제 해결) 4. 실시간 번역 5. 표정 감정 분석 가능
GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.
Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.
With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.
새 모델의 ‘o는 ‘옴니(omni)’로 다중 모드를 의미한다
실시간으로 시각 기능이 제공되는 모습도 확인됐다. 사용자가 ‘3x+1=4’라는 간단한 수식을 작성하고 카메라로 이를 보여주자 이를 정확히 인식하고 문제 풀이를 위한 답변을 내놓았다. 또한 사용자가 얼굴을 비추며 ‘내가 어떤 감정을 느끼고 있다고 생각하나’고 질문하자 ‘활짝 웃는 얼굴에 약간의 흥분까지 더해져 꽤 행복한 기분인 것 같다. 좋은 기분의 이유를 공유해주세요’라고 대답하기도 했다.
1. ChatGPT 데스크탑 버전 공개
2. GPT-4o 무료 공개
- 50개 언어 성능/속도 향성
- 멀티모달
3. GPT-4o API 공개 (2배 빠름, 50% 저렴, 5배 높은 rate limit)
4. 순차적으로 사용 가능하도록 풀 예정
시연에서 보여준 점
1. 실시간 소통 지연시간 상당히 짧음, 실제 소통하듯 자연스럽게 끊고 중간에 말할 수 있음
2. 음성 대화 감정 엄청 풍부함, 심지어 노래도 함
3. 멀티모달 가능 - 단순히 사진 넣는 것이 아닌 실시간 카메라 화면 공유로 소통 가능 (수학 과외 선생님 역할, 코딩 문제 해결)
4. 실시간 번역
5. 표정 감정 분석 가능
https://openai.com/index/hello-gpt-4o/?fbclid=IwZXh0bgNhZW0CMTAAAR3YVIV1xJ7RwZQT93lacNCm8ioe-JfMXj1qIs0FilJlkxKrcbytxdXCVXA_aem_AVifBArtCPAe4_9MGJ95javRoHFD5Koli6Jd8tW8FABsXW8XgwInStJ0De3ghiH2Bt2dzvxkZ4he5aRH3gSZWnX9
GPT-4o (“o” for “omni”) is a step towards much more natural human-computer interaction—it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time(opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.
Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.
With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.
--------------------------------------------------------
바로가기 (새창) : https://www.epnc.co.kr/news/articleView.html?idxno=300935
도큐멘토에서는 일부 내용만을 보여드리고 있습니다.
세부적인 내용은 바로가기로 확인하시면 됩니다.