Vision AI

Последние обновления OpenAI: Canvas, дообучение для работы со зрением и многое другое

Присоединяйся к нам, чтобы подробнее рассмотреть недавние обновления ChatGPT, выпущенные OpenAI. Мы изучим Canvas, дообучение для визуальных возможностей и последнюю функцию поиска.

АБАбирами Вина

4 min readNovember 7, 2024

Обзор последних обновлений ChatGPT от OpenAI

После того, как в сентябре мы в последний раз рассматривали модели o1 от OpenAI (которые были разработаны для улучшения рассуждений), в ChatGPT было добавлено много новых и интересных функций. Некоторые из этих выпусков ориентированы на разработчиков, а другие предназначены для улучшения пользовательского опыта. В целом каждое обновление помогает сделать взаимодействие с ChatGPT более интуитивно понятным и эффективным.

Обновления, такие как Canvas, предназначенный для совместной работы над текстом и кодом, и точная настройка функций зрения, которая улучшает работу ChatGPT с изображениями, вызвали большой интерес, побуждая пользователей исследовать больше творческих возможностей. Тем временем технические обновления, такие как новые API и отчеты о проверке справедливости, затрагивают такие аспекты, как интеграция моделей и принципы этичного ИИ. Давай углубимся и лучше поймем новейшие функции ChatGPT от OpenAI!

Link to this sectionОбзор функции Canvas от OpenAI#

Canvas — это первое крупное обновление пользовательского интерфейса (UI) ChatGPT с момента его выпуска. Это новый интерфейс с двухэкранной компоновкой, промптами на левой боковой панели и ответами в окне справа. Новый UI устраняет привычный рабочий процесс со структурой чата на одном экране и переходит к двухэкранной компоновке, которая подходит для многозадачности, чтобы повысить продуктивность.

Canvas добавляет обновления интерфейса в ChatGPT

Рис. 1. Canvas добавляет UI-обновления в ChatGPT.

До появления Canvas работа с длинными документами в ChatGPT означала, что тебе приходилось постоянно прокручивать страницу вверх и вниз. В новой раскладке промпты отображаются на левой боковой панели, а текстовый документ или фрагмент кода занимает большую часть экрана. При необходимости ты можешь даже настроить размер левой боковой панели и экрана вывода. Кроме того, можно выделить часть текста или фрагмент кода и отредактировать конкретный раздел, не изменяя весь документ.

Редактирование конкретных фрагментов текста с помощью Canvas

Рис. 2. Редактирование определенных фрагментов текста с помощью Canvas.

Если ты используешь Canvas, то заметишь, что в интерфейсе ChatGPT нет специальной кнопки или переключателя для его открытия. Вместо этого, когда ты работаешь с моделью GPT-4o, Canvas открывается автоматически, если обнаруживает, что ты редактируешь, пишешь или пишешь код. Для простых промптов он остается неактивным. Если ты хочешь открыть его вручную, можешь использовать промпты вроде "Open the Canvas" или "Get me the Canvas layout."

В настоящее время Canvas находится в бета-версии и доступен только с GPT-4o. Однако OpenAI упомянула, что Canvas будет доступен всем бесплатным пользователям, когда выйдет из бета-версии.

Link to this sectionОбновления API ChatGPT#

OpenAI выпустила три новых обновления API ChatGPT, направленных на повышение эффективности, масштабируемости и универсальности. Давай подробнее рассмотрим каждое из этих обновлений.

Link to this sectionДистилляция модели#

Используя функцию Дистилляции модели через API OpenAI, разработчики могут использовать выходные данные продвинутых моделей, таких как GPT-4o или o1-preview, для улучшения производительности более компактных и экономичных моделей, таких как GPT-4o mini. Дистилляция модели — это процесс, который включает обучение меньших моделей имитировать поведение более продвинутых, что делает их более эффективными для конкретных задач.

До появления этой функции разработчикам приходилось вручную координировать множество задач, используя разные инструменты. Эти задачи включали создание наборов данных, измерение производительности моделей и тонкую настройку моделей, что часто делало процесс сложным и подверженным ошибкам. Обновление Model Distillation позволяет разработчикам использовать Stored Completions — инструмент, который дает возможность автоматически генерировать наборы данных путем захвата и сохранения пар «вход-выход», созданных продвинутыми моделями через API.

Еще одна функция дистилляции модели, Evals (в настоящее время в бета-версии), помогает измерить, насколько хорошо модель работает с конкретными задачами, без необходимости создавать пользовательские сценарии оценки или использовать отдельные инструменты. Используя наборы данных, созданные с помощью Stored Completions, и оценивая производительность с помощью Evals, разработчики могут выполнять тонкую настройку своих собственных кастомных моделей GPT.

Использование Evals для оценки производительности модели

Рис. 3. Ты можешь использовать Evals для измерения производительности модели.

Link to this sectionКэширование промптов#

Часто при создании AI-приложений, особенно чат-ботов, один и тот же контекст (фоновая информация или история предыдущей беседы, необходимые для понимания текущего запроса) используется повторно для нескольких вызовов API. Кэширование промптов (Prompt Caching) позволяет разработчикам повторно использовать недавно примененные входные токены (сегменты текста, которые модель обрабатывает, чтобы понять промпт и сгенерировать ответ), что помогает снизить затраты и задержки.

С 1 октября OpenAI автоматически применяет кэширование промптов к своим моделям, таким как GPT-4o, GPT-4o mini, o1-preview и o1-mini. Это означает, что когда разработчики используют API для взаимодействия с моделью с длинным промптом (более 1024 токенов), система сохраняет уже обработанные части.

Таким образом, если те же или похожие промпты используются снова, можно пропустить пересчет этих частей. Система автоматически кэширует самую длинную часть промпта, с которой она ранее сталкивалась, начиная с 1024 токенов и добавляя порции по 128 токенов по мере удлинения промпта.

Link to this sectionRealtime API#

Создание голосового помощника обычно требует транскрибации аудио в текст, обработки текста, а затем преобразования его обратно в аудио для воспроизведения ответа. Realtime API от OpenAI нацелен на выполнение всего этого процесса с помощью одного запроса к API. Упрощая этот процесс, API позволяет вести беседы с ИИ в режиме реального времени.

Например, голосовой помощник, интегрированный с Realtime API, может выполнять определенные действия, такие как оформление заказа или поиск информации, на основе запросов пользователя. API делает голосового помощника более отзывчивым и способным быстро адаптироваться к потребностям пользователей. Realtime API стал доступен через публичную бета-версию 1 октября с шестью голосами. 30 октября было добавлено еще пять голосов, что в сумме составило одиннадцать доступных голосов.

Использование Realtime API для практики общения на новом языке

Рис. 4. Пример использования Realtime API для практики общения на новом языке.

Link to this sectionТонкая настройка ChatGPT для задач компьютерного зрения#

Изначально мультимодальная модель GPT-4o могла быть настроена и доработана только с использованием текстовых наборов данных. Теперь, с выпуском API для точной настройки зрения, разработчики могут обучать и кастомизировать GPT-4o с помощью наборов изображений. С момента своего выпуска тонкая настройка зрения стала главной темой интереса среди разработчиков и инженеров компьютерного зрения.

Для тонкой настройки возможностей зрения GPT-4o разработчики могут использовать наборы изображений объемом от 100 до 50 000 штук. Убедившись, что набор данных соответствует формату, требуемому OpenAI, его можно загрузить на платформу OpenAI, и модель можно будет настроить для конкретных приложений.

Например, Automat, компания по автоматизации, использовала набор скриншотов, чтобы обучить GPT-4o распознавать элементы UI на экране на основе описания. Это помогает упростить Robotic Process Automation (RPA), облегчая ботам взаимодействие с пользовательскими интерфейсами. Вместо того чтобы полагаться на фиксированные координаты или сложные правила селекторов, модель может идентифицировать элементы UI на основе простых описаний, делая настройки автоматизации более адаптируемыми и простыми в обслуживании при изменении интерфейсов.

Использование дообученной модели GPT-4o для обнаружения элементов пользовательского интерфейса

Рис. 5. Использование доработанной версии модели GPT-4o для обнаружения элементов UI.

Link to this sectionChatGPT: справедливость и обнаружение предвзятости#

Этические проблемы, связанные с ИИ-приложениями, являются заметной темой для обсуждения по мере того, как ИИ становится все более продвинутым. Поскольку ответы ChatGPT основаны на предоставленных пользователем промптах и данных, доступных в Интернете, бывает сложно настроить его язык так, чтобы он всегда был ответственным. Отчеты гласят, что ответы ChatGPT предвзяты в отношении имени, пола и расы. Чтобы решить эту проблему, собственная команда OpenAI провела проверку на справедливость.

Имена часто содержат тонкие намеки на нашу культуру и географические факторы. В большинстве случаев ChatGPT игнорирует тонкие намеки в именах. Однако в некоторых случаях имена, отражающие расу или культуру, приводят к различным ответам от ChatGPT, причем около 1% из них отражают вредный контент. Устранение предвзятости и вредного языка — сложная задача для языковой модели. Однако, публично делясь этими выводами и признавая ограничения модели, OpenAI помогает пользователям уточнять свои промпты для получения более нейтральных, беспристрастных ответов.

Пример различных ответов ChatGPT в зависимости от имени пользователя

Рис. 6. Пример различающихся ответов из-за имени пользователя.

Link to this sectionПонимание поиска в ChatGPT#

Когда ChatGPT был впервые запущен, в ИИ-сообществе велись дискуссии о том, сможет ли он заменить традиционный веб-браузинг. Сейчас многие пользователи используют ChatGPT вместо Google Search.

Новое обновление от OpenAI, функция поиска, идет еще дальше. Благодаря поиску ChatGPT генерирует актуальные ответы и включает ссылки на соответствующие источники. По состоянию на 31 октября функция поиска доступна всем пользователям ChatGPT Plus и Team, благодаря чему ChatGPT функционирует больше как поисковая система на базе ИИ.

Пример использования новой функции поиска в ChatGPT

Рис. 7. Пример использования новой функции поиска ChatGPT.

Link to this sectionДальнейший путь#

Последние обновления ChatGPT направлены на то, чтобы сделать ИИ более полезным, гибким и справедливым. Новая функция Canvas помогает пользователям работать эффективнее, а точная настройка зрения позволяет разработчикам настраивать модели для лучшего выполнения визуальных задач. Устранение несправедливости и снижение предвзятости также являются ключевыми приоритетами, гарантирующими, что ИИ хорошо работает для всех, независимо от того, кто они. Независимо от того, являешься ли ты разработчиком, настраивающим модели, или просто используешь новейшие функции, ChatGPT развивается, чтобы удовлетворить широкий спектр потребностей. Благодаря возможностям реального времени, визуальной интеграции и акценту на ответственном использовании, эти обновления создают более надежный и заслуживающий доверия ИИ-опыт для каждого.

Узнай больше об ИИ, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Узнай больше о приложениях ИИ в беспилотном транспорте и здравоохранении.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Последние обновления OpenAI: Canvas, дообучение для работы со зрением и многое другое

Link to this sectionОбзор функции Canvas от OpenAI#

Link to this sectionОбновления API ChatGPT#

Link to this sectionДистилляция модели#

Link to this sectionКэширование промптов#

Link to this sectionRealtime API#

Link to this sectionТонкая настройка ChatGPT для задач компьютерного зрения#

Link to this sectionChatGPT: справедливость и обнаружение предвзятости#

Link to this sectionПонимание поиска в ChatGPT#

Link to this sectionДальнейший путь#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!