Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

GPT-4o от OpenAI демонстрирует потенциал ИИ

Исследуй новую GPT-4o от OpenAI, оснащенную продвинутым ИИ с реалистичным взаимодействием, которые меняют то, как мы общаемся с технологиями. Изучи ее революционные возможности!

АБАбирами Вина
5 min read
GPT-4o от OpenAI демонстрирует потенциал ИИ

В понедельник, 13 мая 2024 года, OpenAI объявила о выпуске своей новой флагманской модели GPT-4o, где «o» означает «omni» (всеобъемлющий). GPT-4o — это передовая мультимодальная ИИ-модель для взаимодействия с текстом, аудио и видео в реальном времени, обеспечивающая более быструю обработку, многоязычную поддержку и повышенную безопасность.

Она предлагает ранее невиданные возможности генеративного ИИ. Развивая разговорные сильные стороны ChatGPT, функции GPT-4o знаменуют собой значительный шаг вперед в том, как люди воспринимают ИИ. Теперь мы можем разговаривать с GPT-4o, как с настоящим человеком. Давай углубимся и посмотрим, на что именно способен GPT-4o!

Link to this sectionЗнакомство с GPT-4o#

На весеннем обновлении OpenAI было раскрыто, что, хотя GPT-4o так же интеллектуальна, как GPT-4, она может обрабатывать данные быстрее и лучше оснащена для работы с текстом, видео и аудио. В отличие от предыдущих релизов, которые фокусировались на повышении «интеллекта» моделей, этот выпуск был создан с учетом необходимости сделать ИИ проще в использовании для широкой аудитории.

Весеннее обновление OpenAI

Рис. 1. Весеннее обновление OpenAI

Голосовой режим ChatGPT, выпущенный в конце прошлого года, объединял три разные модели для транскрибирования голосового ввода, понимания и генерации письменных ответов, а также преобразования текста в речь, чтобы пользователь мог услышать ответ. Этот режим сталкивался с проблемами задержки и не казался очень естественным. GPT-4o может нативно обрабатывать текст, видео и аудио за один проход, создавая у пользователя впечатление естественного разговора.

Кроме того, в отличие от голосового режима, теперь ты можешь перебивать GPT-4o во время разговора, и она отреагирует так же, как человек. Она сделает паузу, выслушает, а затем выдаст ответ в реальном времени, основанный на твоих словах. Она также может выражать эмоции своим голосом и понимать твою интонацию.

Link to this sectionЗахватывающие возможности GPT-4o#

Оценка модели GPT-4o показывает, насколько она продвинута. Один из самых интересных результатов заключается в том, что GPT-4o значительно улучшает распознавание речи по сравнению с Whisper-v3 на всех языках, особенно на тех, которые используются реже.

Производительность аудио ASR (автоматического распознавания речи) измеряет, насколько точно модель транскрибирует устную речь в текст. Производительность GPT-4o отслеживается с помощью показателя WER (Word Error Rate), который показывает процент неверно транскрибированных слов (чем ниже WER, тем лучше качество). Приведенная ниже диаграмма демонстрирует более низкий WER у GPT-4o в различных регионах, что подтверждает эффективность улучшения распознавания речи для языков с ограниченными ресурсами.

GPT-4o обладает превосходным распознаванием речи на нескольких языках

Рис. 2. GPT-4o обладает превосходным распознаванием речи на нескольких языках.

Вот еще несколько уникальных функций GPT-4o:

  • Быстрее — она в два раза быстрее, чем GPT-4 Turbo. Она может отвечать на аудиоввод всего за 232 миллисекунды, что сопоставимо со временем реакции в человеческом разговоре.
  • Экономичность — API-версия GPT-4o на 50% дешевле, чем GPT-4 Turbo.
  • Память — GPT-4o обладает способностью сохранять осведомленность в разных разговорах. Она может помнить, о чем ты говорил в других чатах.
  • Многоязычность — GPT-4o прошла обучение для повышения скорости и качества работы на 50 разных языках.

Link to this sectionПримеры того, что может делать GPT-4o#

Теперь ты можешь достать телефон с GPT-4o, включить камеру и попросить её, как друга, угадать твое настроение по выражению лица. GPT-4o может видеть тебя через камеру и ответить.

GPT-4o понимает настроение человека через видео

Рис. 3. GPT-4o понимает настроение человека через видео.

Ты даже можешь использовать её для решения математических задач, показывая GPT-4o то, что пишешь на видео. Альтернативно ты можешь показать свой экран, и она станет полезным тьютором в Khan Academy, прося тебя указать различные части треугольника в геометрии, как показано ниже.

GPT-4o в роли репетитора в Khan Academy

Рис. 4. GPT-4o выступает в роли тьютора в Khan Academy.

Помимо помощи детям с математикой, разработчики могут общаться с GPT-4o для отладки своего кода. Это стало возможным благодаря внедрению ChatGPT как десктопного приложения. Если ты выделишь и скопируешь свой код с помощью CTRL + C во время разговора с десктопным голосовым приложением GPT-4o, она сможет прочитать твой код. Или ты можешь использовать её для перевода разговоров между разработчиками, говорящими на разных языках.

Возможности GPT-4o кажутся безграничными. В одной из самых интересных демонстраций OpenAI использовала два телефона, чтобы показать, как GPT-4o общается с разными своими экземплярами и поет вместе с ними.

ИИ разговаривает и поет с ИИ

Рис. 5. ИИ общается и поет с ИИ.

Link to this sectionПриложения GPT-4o#

Как было показано в демонстрации, GPT-4o может сделать мир доступнее для людей с нарушениями зрения. Она может помочь им взаимодействовать и передвигаться более безопасно и независимо. Например, пользователи могут включить видео и показать GPT-4o вид улицы. GPT-4o затем может предоставить описание окружающей среды в реальном времени, например, выявляя препятствия, читая дорожные знаки или направляя их к конкретному месту. Она может даже помочь им вызвать такси, оповестив их о приближении машины.

GPT-4o предупреждает о приближении такси

Рис. 6. GPT-4o оповещает о приближении такси.

Аналогично, GPT-4o может трансформировать различные отрасли благодаря своим продвинутым возможностям. В розничной торговле она может улучшить обслуживание клиентов, предоставляя помощь в реальном времени, отвечая на запросы и помогая клиентам находить товары как онлайн, так и в магазине. Допустим, ты смотришь на полку с товарами и не можешь выбрать тот, который ищешь — GPT-4o может тебе помочь.

В здравоохранении GPT-4o может помочь с диагностикой, анализируя данные пациентов, предлагая возможные состояния на основе симптомов и давая рекомендации по вариантам лечения. Она также может поддержать медицинских работников, обобщая записи пациентов, предоставляя быстрый доступ к медицинской литературе и даже предлагая перевод в реальном времени для общения с пациентами, говорящими на разных языках. Это лишь пара примеров. Приложения GPT-4o делают повседневную жизнь проще, предлагая индивидуальную, контекстно-зависимую помощь и устраняя барьеры для информации и общения.

Link to this sectionGPT-4o и безопасность модели#

Как и предыдущие версии GPT, которые повлияли на жизни сотен миллионов людей, GPT-4o, вероятно, будет взаимодействовать с аудио и видео в реальном времени по всему миру, что делает безопасность критически важным элементом в этих приложениях. OpenAI очень тщательно подошла к созданию GPT-4o, сосредоточившись на смягчении потенциальных рисков.

Для обеспечения безопасности и надежности OpenAI внедрила строгие меры безопасности. Они включают фильтрацию обучающих данных, уточнение поведения модели после обучения и внедрение новых систем безопасности для управления голосовыми ответами. Более того, GPT-4o была всесторонне протестирована более чем 70 внешними экспертами в таких областях, как социальная психология, предвзятость и справедливость, а также дезинформация. Внешнее тестирование гарантирует, что любые риски, вызванные или усиленные новыми функциями, будут выявлены и устранены.

Чтобы поддерживать высокие стандарты безопасности, OpenAI выпускает функции GPT-4o постепенно в течение следующих нескольких недель. Поэтапное развертывание позволяет OpenAI контролировать производительность, решать любые проблемы и собирать отзывы пользователей. Осторожный подход гарантирует, что GPT-4o предоставляет передовые возможности, сохраняя при этом высочайшие стандарты безопасности и этического использования.

Link to this sectionПопробуй GPT-4o сам#

GPT-4o доступна бесплатно. Чтобы попробовать возможности разговора в реальном времени, упомянутые выше, ты можешь загрузить приложение ChatGPT из Google Play Store или Apple App Store прямо на свой телефон.

После входа в систему ты сможешь выбрать GPT-4o из списка, отображаемого при нажатии на три точки в верхнем правом углу экрана. Перейдя в чат с поддержкой GPT-4o, если ты нажмешь на знак плюса в левом нижнем углу экрана, ты увидишь несколько вариантов ввода. В нижнем правом углу экрана ты увидишь иконку наушников. Выбрав иконку наушников, тебя спросят, хочешь ли ты попробовать версию GPT-4o без использования рук (hands-free). Согласившись, ты сможешь опробовать GPT-4o, как показано ниже.

Тестируем GPT-4o в мобильном приложении ChatGPT

Рис. 7. Пробуем GPT-4o в мобильном приложении ChatGPT.

Если ты хочешь интегрировать передовые возможности GPT-4o в свои проекты, она доступна как API для разработчиков. Это позволяет включить мощное распознавание речи, многоязычную поддержку и возможности разговора в реальном времени GPT-4o в твои приложения. Используя API, ты можешь улучшить пользовательский опыт, создавать более умные приложения и привнести передовые ИИ-технологии в различные сектора.

Link to this sectionGPT-4o: Еще не совсем человек#

Хотя GPT-4o гораздо продвинутее предыдущих ИИ-моделей, важно помнить, что у GPT-4o есть свои ограничения. OpenAI упоминала, что она может иногда случайным образом переключать языки во время разговора, переходя с английского на французский. Они также видели, как GPT-4o неверно переводит между языками. По мере того как больше людей будут пробовать модель, мы поймем, в чем GPT-4o преуспевает, а что требует дальнейшего улучшения.

Link to this sectionИтог#

GPT-4o от OpenAI открывает новые двери для ИИ благодаря продвинутой обработке текста, видео и аудио, предлагая естественное, человекоподобное взаимодействие. Она превосходит аналоги по скорости, экономической эффективности и многоязычной поддержке. GPT-4o — это универсальный инструмент для образования, доступности и помощи в реальном времени. По мере того как пользователи будут изучать возможности GPT-4o, отзывы будут способствовать её эволюции. GPT-4o доказывает, что ИИ действительно меняет наш мир и становится частью нашей повседневной жизни.

Исследуй наш GitHub repository и присоединяйся к нашему сообществу, чтобы глубже погрузиться в ИИ. Посети наши страницы решений, чтобы увидеть, как ИИ трансформирует такие отрасли, как производство и сельское хозяйство.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения