Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Глубокое погружение в возможности GPT-4o Mini от OpenAI

Абирами Вина

6 мин чтения

25 июля 2024 г.

Изучите возможности и приложения GPT-4o Mini. Новейшая и самая экономичная модель OpenAI предлагает расширенные возможности ИИ на 60% дешевле, чем GPT-3.5 Turbo.

В мае 2024 года OpenAI выпустила GPT-4o, и теперь, всего три месяца спустя, они вернулись с еще одной впечатляющей моделью: GPT-4o Mini. 18 июля 2024 года OpenAI представила GPT-4o Mini. Они называют ее своей “самой экономичной моделью”! GPT-4o Mini - это компактная модель, которая опирается на возможности предыдущих моделей и направлена на то, чтобы сделать передовой AI более доступным и доступным по цене.

GPT-4o Mini в настоящее время поддерживает текстовое и визуальное взаимодействие, и в будущих обновлениях ожидается добавление возможностей для обработки изображений, видео и аудио. В этой статье мы рассмотрим, что такое GPT-4o Mini, его выдающиеся особенности, как его можно использовать, различия между GPT-4 и GPT-4o Mini, и как его можно использовать в различных вариантах использования компьютерного зрения. Давайте углубимся и посмотрим, что может предложить GPT-4o Mini!

Что такое GPT-4o Mini?

GPT-4o Mini — это новейшее дополнение к линейке моделей ИИ от OpenAI, разработанное, чтобы быть более экономичным и доступным. Это мультимодальная большая языковая модель (LLM), что означает, что она может обрабатывать и генерировать различные типы данных, такие как текст, изображения, видео и аудио. Модель опирается на сильные стороны предыдущих моделей, таких как GPT-4 и GPT-4o, чтобы предложить мощные возможности в компактном корпусе. 

GPT-4o Mini на 60% дешевле, чем GPT-3.5 Turbo, и стоит 15 центов за миллион входных токенов (единиц текста или данных, которые обрабатывает модель) и 60 центов за миллион выходных токенов (единиц, которые модель генерирует в ответ). Чтобы представить это в перспективе, один миллион токенов примерно эквивалентен обработке 2500 страниц текста. С контекстным окном в 128 тысяч токенов и возможностью обрабатывать до 16 тысяч выходных токенов на запрос, GPT-4o Mini разработан, чтобы быть одновременно эффективным и доступным.

__wf_reserved_inherit
Рис. 1. GPT-4o Mini на 60% дешевле, чем GPT-3.5 Turbo.

Основные характеристики GPT-4o Mini 

GPT-4o Mini поддерживает ряд задач, которые делают его отличным вариантом для различных приложений. Его можно использовать при одновременном выполнении нескольких операций, таких как вызов нескольких API, работа с большими объемами данных, такими как полные базы кода или истории разговоров, и предоставление быстрых ответов в режиме реального времени в чат-ботах поддержки клиентов.

Вот еще несколько ключевых особенностей:

  • Обновленная база знаний: Модель содержит информацию по октябрь 2023 года.
  • Улучшенный токенизатор: GPT-4o Mini делает обработку неанглоязычного текста более экономичной.
  • Надежные меры безопасности: Эти меры включают фильтрацию вредоносного контента и защиту от проблем безопасности, таких как инъекции подсказок и манипуляции с системой.

Начало работы с GPT-4o Mini 

Вы можете попробовать использовать GPT-4o Mini через интерфейс ChatGPT. Он доступен для бесплатных пользователей, пользователей Plus и Team, заменяя GPT-3.5, как показано ниже. Пользователи Enterprise также скоро получат доступ в соответствии с целью OpenAI — предоставить преимущества ИИ всем. GPT-4o Mini также доступен через API для разработчиков, которые хотят интегрировать его возможности в свои приложения. На данный момент возможности компьютерного зрения доступны только через API.

__wf_reserved_inherit
Рис. 2. Варианты моделей в ChatGPT.

Разница между GPT-4o и GPT-4o Mini 

GPT-4o Mini и GPT-4o демонстрируют впечатляющие результаты по различным тестам. Хотя GPT-4o в целом превосходит GPT-4o Mini, GPT-4o Mini по-прежнему является экономически эффективным решением для повседневных задач. Тесты включают задачи рассуждения, математические и кодировочные навыки, а также мультимодальное рассуждение. Как показано на изображении ниже, GPT-4o Mini показывает довольно высокие результаты по сравнению с другими популярными моделями.

__wf_reserved_inherit
Рис. 3. Сравнение GPT-4o Mini с другими популярными моделями.

Практическое знакомство с GPT-4o и GPT-4o Mini

Интересный вопрос, который обсуждался в сети, касается некорректного сравнения десятичных чисел популярными LLM. Когда мы подвергли GPT-4o и GPT-4o Mini испытанию, их способности к рассуждению показали явные различия. На изображении ниже мы спросили обе модели, что больше: 9,11 или 9,9, а затем попросили их объяснить свои рассуждения.

__wf_reserved_inherit
Рис. 4. Тестирование GPT-4o и GPT-4o Mini.

Обе модели изначально отвечают неверно и утверждают, что 9.11 больше. Однако GPT-4o может логически прийти к правильному ответу и заявляет, что 9.9 больше. Он предоставляет подробное объяснение и точно сравнивает десятичные дроби. В отличие от него, GPT-4o Mini упорно придерживается своего первоначального неправильного ответа, несмотря на то, что правильно понял логику, лежащую в основе того, что 9.9 больше.

Обе модели демонстрируют сильные навыки рассуждения. Способность GPT-4o исправлять себя делает его превосходным и полезным для более сложных задач. GPT-4o Mini, хотя и менее адаптивен, по-прежнему предлагает четкие и точные рассуждения для более простых задач. 

Использование GPT-4o Mini для различных вариантов использования компьютерного зрения

Если вы предпочитаете изучить возможности машинного зрения GPT-4o Mini, не углубляясь в код, вы можете легко протестировать API на OpenAI Playground. Мы сами попробовали это, чтобы увидеть, насколько хорошо GPT-4o Mini справляется с различными вариантами использования, связанными с компьютерным зрением.

Классификация изображений с использованием GPT-4o Mini

Мы попросили GPT-4o Mini классифицировать два изображения: одно с бабочкой, а другое с картой. Модель ИИ успешно идентифицировала бабочку и карту. Это довольно простая задача, учитывая, что изображения очень разные.

__wf_reserved_inherit
Рис. 5. Классификация изображений с помощью GPT-4o Mini.

Мы пошли дальше и пропустили через модель еще два изображения: одно с бабочкой, сидящей на растении, и другое с бабочкой, сидящей на земле. ИИ снова отлично справился, правильно определив бабочку на растении и бабочку на земле. Итак, мы пошли еще дальше.

__wf_reserved_inherit
Рис. 6. Классификация похожих изображений с помощью GPT-4o Mini.

Затем мы попросили GPT-4o Mini классифицировать два изображения: одно с бабочкой, питающейся цветами ваточника сирийского, а другое с бабочкой, питающейся цветком циннии. Удивительно, что модель смогла классифицировать метку, которая настолько специфична, без дальнейшей тонкой настройки. Эти быстрые примеры показывают, что GPT-4o Mini, возможно, можно использовать для задач классификации изображений без необходимости специального обучения.

__wf_reserved_inherit
Рис. 7. Классификация детализированных изображений с помощью GPT-4o Mini.

Понимание поз с использованием GPT-4o Mini

На данный момент задачи компьютерного зрения, такие как обнаружение объектов и сегментация экземпляров, не могут быть обработаны с помощью GPT-4o Mini. GPT-4o испытывает трудности с точностью, но может использоваться для таких задач. В связи с этим, что касается понимания поз, мы не можем обнаружить или оценить позу на изображении, но мы можем классифицировать и понять позу.

__wf_reserved_inherit
Рис. 8. Использование GPT-4o Mini для понимания поз на изображении. 

На изображении выше показано, как GPT-4o Mini может классифицировать и понимать позы, несмотря на то, что не может обнаруживать или оценивать точные координаты позы. Это может быть полезно в различных приложениях. Например, в спортивной аналитике он может в общих чертах оценивать движения спортсменов и помогать предотвращать травмы. Аналогично, в физиотерапии он может помогать контролировать упражнения, чтобы убедиться, что пациенты выполняют правильные движения во время реабилитации. Также для видеонаблюдения он может помочь выявить подозрительные действия путем анализа общего языка тела. Хотя GPT-4o Mini не может обнаруживать конкретные ключевые точки, его способность классифицировать общие позы делает его полезным в этих и других областях.

Приложения GPT-4o Mini подходят для

Мы рассмотрели, что может делать GPT-4o Mini. Теперь давайте обсудим приложения, в которых наиболее оптимально использовать GPT-4o Mini.

GPT-4o Mini отлично подходит для приложений, требующих расширенного понимания естественного языка и небольшой вычислительной нагрузки. Он позволяет интегрировать ИИ в приложения, где это обычно было бы слишком дорого. Фактически, подробный анализ, проведенный Artificial Analysis, показывает, что GPT-4o Mini обеспечивает высококачественные ответы с молниеносной скоростью по сравнению с большинством других моделей.

__wf_reserved_inherit
Рис. 9. Соотношение качества и скорости вывода GPT-4o Mini.

Вот некоторые ключевые области, в которых он может проявить себя в будущем:

  • Виртуальные помощники и чат-боты: GPT-4o Mini может предоставлять быстрые и интеллектуальные ответы для улучшения взаимодействия с пользователем.
  • Образовательные инструменты: Модель может быть использована для создания инструментов, предлагающих персонализированное обучение и генерацию контента.
  • Инструменты повышения производительности: Он может улучшить такие задачи, как обобщение документов, составление электронных писем и перевод языков для повышения эффективности.
  • Перевод языков: Последняя версия GPT может использоваться для разработки переводчиков, которые обеспечивают точный и оперативный перевод языков для улучшения коммуникации на разных языках.

GPT-4o Mini открывает новые двери

GPT-4o Mini открывает новые возможности для будущего мультимодального ИИ. Расходы на обработку каждого фрагмента текста или данных, известные как стоимость за токен, значительно снизились — почти на 99% — с 2022 года, когда была выпущена модель GPT-3 text-davinci-003. Снижение стоимости показывает четкую тенденцию к тому, чтобы сделать передовой ИИ более доступным. Поскольку модели ИИ продолжают совершенствоваться, становится все более вероятным, что интеграция ИИ в каждое приложение и веб-сайт станет экономически целесообразной!

Хотите поработать с ИИ на практике? Посетите наш репозиторий на GitHub, чтобы ознакомиться с нашими инновациями и стать частью нашего активного сообщества. Узнайте больше о применении ИИ в производстве и сельском хозяйстве на страницах с нашими решениями.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена