AI의 잠재력을 보여주는 OpenAI의 GPT-4o
우리가 기술과 소통하는 방식을 바꾸는 생생한 상호 작용의 고급 AI를 특징으로 하는 OpenAI의 새로운 GPT-4o를 살펴보십시오. 그 획기적인 기능을 탐구해 보십시오!

2024년 5월 13일 월요일, OpenAI는 '옴니(omni)'를 의미하는 'o'가 포함된 새로운 플래그십 모델 GPT-4o 출시를 발표했습니다. GPT-4o는 실시간 텍스트, 오디오 및 비전 상호 작용을 위한 고급 멀티모달 AI 모델로, 더 빠른 처리 속도, 다국어 지원 및 향상된 안전성을 제공합니다.
이 모델은 이전에는 볼 수 없었던 생성형 AI 기능을 제공합니다. ChatGPT의 대화형 강점을 바탕으로 하는 GPT-4o의 기능은 사람들이 AI를 인식하는 방식에 있어 상당한 진전을 의미합니다. 이제 우리는 실제 사람과 대화하듯이 GPT-4o와 대화할 수 있습니다. GPT-4o가 정확히 어떤 능력을 갖추고 있는지 자세히 살펴보겠습니다!
Link to this sectionGPT-4o 알아보기#
OpenAI의 봄 업데이트에서는 GPT-4o가 GPT-4만큼 지능적이면서도 데이터를 더 빠르게 처리하며 텍스트, 비전 및 오디오를 더 잘 처리할 수 있다는 점이 밝혀졌습니다. 모델 자체를 더 똑똑하게 만드는 데 집중했던 이전 릴리스와 달리, 이번 릴리스는 일반 사용자가 AI를 더 쉽게 사용할 수 있도록 하는 데 중점을 두었습니다.

그림 1. OpenAI의 봄 업데이트
작년 말에 출시된 ChatGPT의 음성 모드는 세 가지 서로 다른 모델이 결합하여 음성 입력을 받아쓰고, 서면 답변을 이해 및 생성하며, 사용자가 응답을 들을 수 있도록 텍스트를 음성으로 변환하는 과정을 거쳤습니다. 이 모드는 지연 시간 문제를 겪었으며 그다지 자연스럽게 느껴지지 않았습니다. GPT-4o는 텍스트, 비전, 오디오를 한 번에 기본적으로 처리하여 사용자가 마치 자연스러운 대화에 참여하고 있다는 인상을 줍니다.
또한 이전 음성 모드와 달리 이제 GPT-4o가 말하는 도중에 말을 끊을 수 있으며, 사람처럼 즉시 반응합니다. 멈추고 듣다가 당신이 말한 내용에 기반하여 실시간으로 응답할 것입니다. 또한 음성을 통해 감정을 표현할 수 있으며 당신의 어조도 이해할 수 있습니다.
Link to this section흥미로운 GPT-4o 기능#
GPT-4o의 모델 평가 결과는 이 모델이 얼마나 발전했는지를 보여줍니다. 가장 흥미로운 결과 중 하나는 GPT-4o가 Whisper-v3에 비해 모든 언어, 특히 사용 빈도가 낮은 언어에서 음성 인식 성능을 크게 향상시켰다는 점입니다.
오디오 ASR(자동 음성 인식) 성능은 모델이 음성 언어를 텍스트로 얼마나 정확하게 받아쓰는지를 측정합니다. GPT-4o의 성능은 잘못 받아쓴 단어의 비율을 보여주는 WER(단어 오류율, WER이 낮을수록 품질이 좋음)로 추적됩니다. 아래 차트는 다양한 지역에서 GPT-4o의 더 낮은 WER을 보여주며, 리소스가 적은 언어에 대한 음성 인식 개선 효과를 입증합니다.

그림 2. GPT-4o는 여러 언어에서 우수한 음성 인식 성능을 보여줍니다.
GPT-4o의 더 많은 고유 기능들을 살펴보겠습니다:
- 더 빠름 - GPT-4 Turbo보다 두 배 더 빠릅니다. 인간의 대화 응답 시간과 유사하게 오디오 입력에 232밀리초 만에 응답할 수 있습니다.
- 비용 효율적 - GPT-4o의 API 버전은 GPT-4 Turbo보다 50% 더 저렴합니다.
- 메모리 - GPT-4o는 여러 대화에 걸쳐 맥락을 유지할 수 있는 능력이 있습니다. 서로 다른 채팅에서 당신이 무엇에 대해 이야기했는지 기억할 수 있습니다.
- 다국어 - GPT-4o는 50개 언어에서 향상된 속도와 품질을 갖추도록 훈련되었습니다.
Link to this sectionGPT-4o로 할 수 있는 작업의 예시#
이제 휴대폰에서 GPT-4o를 실행하고 카메라를 켠 다음, 친구에게 하듯이 GPT-4o에게 표정을 보고 기분을 맞춰보라고 요청할 수 있습니다. GPT-4o는 카메라를 통해 당신을 보고 답변할 수 있습니다.

그림 3. 비디오를 통해 인간의 기분을 이해하는 GPT-4o.
비디오를 통해 GPT-4o에게 자신이 작성 중인 내용을 보여줌으로써 수학 문제를 해결하도록 도울 수도 있습니다. 또는 화면을 공유하면 아래와 같이 기하학에서 삼각형의 여러 부분을 가리키도록 요청하여 Khan Academy의 유용한 튜터로 활용할 수도 있습니다.

그림 4. Khan Academy에서 튜터 역할을 하는 GPT-4o.
아이들이 수학 공부하는 것을 돕는 것 외에도 개발자는 GPT-4o와 대화하며 코드를 디버깅할 수 있습니다. 이는 데스크톱 앱으로 ChatGPT가 도입되었기에 가능합니다. 데스크톱 GPT-4o 음성 앱과 대화하는 동안 CTRL "C"를 사용하여 코드를 복사하면, 앱이 코드를 읽을 수 있습니다. 또는 서로 다른 언어를 사용하는 개발자 간의 대화를 통역하는 데 사용할 수도 있습니다.
GPT-4o의 가능성은 무궁무진해 보입니다. OpenAI의 가장 흥미로운 데모 중 하나는 두 대의 휴대폰을 사용하여 GPT-4o가 서로 다른 인스턴스와 대화하고 함께 노래하는 모습을 보여주었습니다.

그림 5. AI와 대화하고 노래하는 AI.
Link to this sectionGPT-4o 애플리케이션#
데모에서 볼 수 있듯이, GPT-4o는 시각 장애인을 위해 세상을 더 접근하기 쉽게 만들 수 있습니다. 그들이 더 안전하고 독립적으로 상호 작용하고 이동할 수 있도록 도울 수 있습니다. 예를 들어, 사용자는 비디오를 켜고 GPT-4o에게 거리의 모습을 보여줄 수 있습니다. 그러면 GPT-4o는 장애물 식별, 거리 표지판 읽기, 특정 위치로 안내하기 등 환경에 대한 실시간 설명을 제공할 수 있습니다. 택시가 다가오면 알림을 주어 택시를 잡는 데 도움을 줄 수도 있습니다.

그림 6. 택시가 다가오는 것을 알리는 GPT-4o.
마찬가지로 GPT-4o는 고급 기능을 통해 다양한 산업을 변화시킬 수 있습니다. 소매업 분야에서는 실시간 지원을 제공하고, 문의에 답변하며, 고객이 온라인과 매장 모두에서 제품을 찾도록 도와 고객 서비스를 개선할 수 있습니다. 예를 들어, 제품 진열대를 보고 있는데 찾고 있는 제품을 고를 수 없다면, GPT-4o가 도움을 줄 수 있습니다.
의료 분야에서 GPT-4o는 환자 데이터를 분석하고, 증상에 기반한 가능한 상태를 제안하며, 치료 옵션에 대한 지침을 제공하여 진단을 지원할 수 있습니다. 또한 환자 기록을 요약하고, 의학 문헌에 대한 빠른 접근을 제공하며, 심지어 다른 언어를 사용하는 환자와 통신하기 위한 실시간 언어 번역을 제공하여 의료 전문가를 지원할 수 있습니다. 이는 몇 가지 예시일 뿐입니다. GPT-4o의 애플리케이션은 맞춤형 컨텍스트 인식 지원을 제공하고 정보와 통신에 대한 장벽을 허물어 일상생활을 더 쉽게 만들어 줍니다.
Link to this sectionGPT-4o와 모델 안전성#
수억 명의 삶에 영향을 준 이전 버전의 GPT와 마찬가지로, GPT-4o는 전 세계적으로 실시간 오디오 및 비디오와 상호 작용할 가능성이 높으며, 이는 이러한 애플리케이션에서 안전성을 핵심 요소로 만듭니다. OpenAI는 잠재적인 위험을 완화하는 데 집중하여 GPT-4o를 구축하는 데 매우 신중을 기했습니다.
안전성과 신뢰성을 보장하기 위해 OpenAI는 엄격한 안전 조치를 구현했습니다. 여기에는 학습 데이터 필터링, 학습 후 모델 동작 개선, 음성 출력 관리를 위한 새로운 안전 시스템 도입이 포함됩니다. 또한, GPT-4o는 사회 심리학, 편향성과 공정성, 허위 정보와 같은 분야의 70명 이상의 외부 전문가에 의해 광범위하게 테스트되었습니다. 외부 테스트는 새로운 기능에 의해 도입되거나 증폭된 위험이 식별되고 해결되도록 보장합니다.
높은 안전 표준을 유지하기 위해 OpenAI는 향후 몇 주에 걸쳐 점진적으로 GPT-4o 기능을 출시할 예정입니다. 단계적 출시를 통해 OpenAI는 성능을 모니터링하고 문제를 해결하며 사용자 피드백을 수집할 수 있습니다. 신중한 접근 방식을 취함으로써 GPT-4o가 최고 수준의 안전성과 윤리적 사용을 유지하면서 고급 기능을 제공하도록 합니다.
Link to this sectionGPT-4o 직접 사용해 보기#
GPT-4o는 무료로 이용할 수 있습니다. 위에서 언급한 실시간 대화 기능을 직접 사용해보려면 Google Play 스토어 또는 Apple App Store에서 ChatGPT 앱을 휴대폰으로 직접 다운로드하면 됩니다.
로그인 후, 화면 오른쪽 상단에 있는 점 3개를 탭하여 표시되는 목록에서 GPT-4o를 선택할 수 있습니다. GPT-4o가 활성화된 채팅으로 이동한 후, 화면 왼쪽 하단에 있는 더하기(+) 기호를 탭하면 여러 입력 옵션이 나타납니다. 화면 오른쪽 하단에는 헤드폰 아이콘이 표시됩니다. 헤드폰 아이콘을 선택하면 핸즈프리 버전의 GPT-4o를 경험해 보시겠냐는 질문이 나옵니다. 동의하면 아래와 같이 GPT-4o를 사용해 볼 수 있습니다.

그림 7. ChatGPT 모바일 앱에서 GPT-4o 사용해 보기.
GPT-4o의 고급 기능을 자신의 프로젝트에 통합하고 싶다면, 개발자를 위한 API로 이용할 수 있습니다. 이를 통해 GPT-4o의 강력한 음성 인식, 다국어 지원 및 실시간 대화 능력을 애플리케이션에 통합할 수 있습니다. API를 사용하면 사용자 경험을 향상시키고, 더 스마트한 앱을 구축하며, 다양한 분야에 최첨단 AI 기술을 도입할 수 있습니다.
Link to this sectionGPT-4o: 아직 완벽한 인간 수준은 아님#
GPT-4o가 이전 AI 모델보다 훨씬 더 발전했지만, GPT-4o에도 고유한 제한 사항이 있다는 점을 기억하는 것이 중요합니다. OpenAI는 가끔 대화 도중 영어에서 프랑스어로 언어를 무작위로 전환할 수 있다고 언급했습니다. 또한 GPT-4o가 언어 간 번역을 잘못 수행하는 경우도 확인되었습니다. 더 많은 사람들이 모델을 사용해 봄에 따라 GPT-4o가 뛰어난 점과 추가적인 개선이 필요한 부분을 이해하게 될 것입니다.
Link to this section결론#
OpenAI의 GPT-4o는 고급 텍스트, 비전 및 오디오 처리를 통해 AI의 새로운 장을 열며 자연스럽고 인간과 유사한 상호 작용을 제공합니다. 속도, 비용 효율성 및 다국어 지원 측면에서 뛰어납니다. GPT-4o는 교육, 접근성 및 실시간 지원을 위한 다재다능한 도구입니다. 사용자들이 GPT-4o의 기능을 탐색함에 따라 피드백이 모델의 진화를 주도할 것입니다. GPT-4o는 AI가 진정으로 세상을 변화시키고 있으며 우리의 일상생활의 일부가 되고 있음을 증명합니다.
AI에 대해 더 깊이 알고 싶다면 GitHub 저장소를 탐색하고 커뮤니티에 참여하세요. 제조 및 농업과 같은 산업에서 AI가 어떻게 변화를 주도하고 있는지 확인하려면 당사의 솔루션 페이지를 방문하세요.






