Последние обновления OpenAI: Canvas, точная настройка зрения и многое другое

Абирами Вина

4 мин. чтения

7 ноября 2024 г.

Присоединяйтесь к нам, чтобы поближе познакомиться с недавними обновлениями ChatGPT, выпущенными OpenAI. Мы рассмотрим Canvas, тонкую настройку возможностей зрения и новейшую функцию поиска.

После того как в сентябре мы в последний раз рассмотрели модели o1 от OpenAI (которые были разработаны для улучшения рассуждений), в ChatGPT появилось множество новых и интересных функций. Некоторые из этих релизов ориентированы на разработчиков, а другие направлены на улучшение пользовательского опыта. В целом, каждое обновление помогает сделать взаимодействие с ChatGPT более интуитивным и эффективным.

Такие обновления, как Canvas, предназначенный для совместного написания и кодирования, и тонкая настройка возможностей зрения, улучшающая работу ChatGPT с изображениями, вызвали большой интерес, побуждая пользователей к поиску новых творческих возможностей. В то же время технические обновления, такие как новые API и отчеты о проверке справедливости, касаются таких аспектов, как интеграция моделей и этические практики ИИ . Давайте окунемся в эту тему и узнаем больше о новейших функциях ChatGPT от OpenAI!

Обзор функции холста в OpenAI

Canvas - это первое крупное обновление пользовательского интерфейса (UI) ChatGPT с момента его выпуска. Это новый интерфейс с двухэкранным расположением, подсказками на левой боковой панели и ответами в правом окне. Новый пользовательский интерфейс позволяет отказаться от привычной одноэкранной структуры чата и перейти к двухэкранной схеме, которая подходит для многозадачности и повышает производительность.

Рис. 1. Canvas приносит обновления пользовательского интерфейса в ChatGPT.

До появления Canvas работа с длинными документами на ChatGPT означала необходимость прокручивать экран вверх и вниз. В новом макете подсказки отображаются на левой боковой панели, а текстовый документ или фрагмент кода занимает большую часть экрана. При необходимости можно даже настроить размер левой боковой панели и экрана вывода. Кроме того, вы можете выделить часть текста или фрагмент кода и отредактировать его, не изменяя весь документ.

Рис. 2. Редактирование определенных участков текста с помощью Canvas.

Если вы используете Canvas, то заметите, что в интерфейсе ChatGPT нет специальной кнопки или тумблера для его открытия. Вместо этого, когда вы работаете с моделью GPT-4o, Canvas открывается автоматически, если обнаруживает, что вы редактируете, пишете или кодируете. Для более простых подсказок он остается неактивным. Если вы хотите открыть его вручную, можно воспользоваться такими подсказками, как "Открыть холст" или "Дайте мне макет холста".

В настоящее время Canvas находится в бета-версии и доступен только для GPT-4o. Однако OpenAI заявила, что после выхода из бета-версии Canvas будет доступен всем бесплатным пользователям.

Обновления API ChatGPT

OpenAI выпустила три новых обновления API ChatGPT, направленных на повышение эффективности, масштабируемости и универсальности. Давайте рассмотрим каждое из этих обновлений подробнее.

Модель дистилляции

С помощью функции дистилляции моделей через API OpenAI разработчики могут использовать результаты работы продвинутых моделей, таких как GPT-4o или o1-preview, для повышения производительности более мелких и экономичных моделей, таких как GPT-4o mini. Дистилляция моделей - это процесс, который включает в себя обучение более мелких моделей имитировать поведение более продвинутых моделей, делая их более эффективными для решения конкретных задач.

До появления этой функции разработчикам приходилось вручную координировать множество задач с помощью различных инструментов. Эти задачи включали генерацию наборов данных, измерение производительности модели и тонкую настройку моделей, что часто делало процесс сложным и подверженным ошибкам. Обновление Model Distillation позволяет разработчикам использовать Stored Completions - инструмент, позволяющий автоматически генерировать наборы данных, захватывая и сохраняя пары вход-выход, созданные продвинутыми моделями через API.

Другая функция Model Distillation, Evals (в настоящее время находится в бета-версии), помогает измерить, насколько хорошо модель справляется с определенными задачами, без необходимости создавать собственные сценарии оценки или использовать отдельные инструменты. Используя наборы данных , созданные с помощью Stored Completions, и оценивая производительность с помощью Evals, разработчики могут точно настроить свои собственные модели GPT.

Рис. 3. Вы можете использовать Evals для измерения производительности модели.

Кэширование подсказок

Часто при создании приложений искусственного интеллекта, особенно чат-ботов, один и тот же контекст (фоновая информация или история предыдущих разговоров, необходимая для понимания текущего запроса) неоднократно используется для нескольких вызовов API. Кэширование подсказок позволяет разработчикам повторно использовать недавно использованные входные маркеры (сегменты текста, которые модель обрабатывает, чтобы понять подсказку и сгенерировать ответ), что помогает сократить затраты и задержки.

С 1 октября OpenAI автоматически применяет кэширование подсказок в своих моделях, таких как GPT-4o, GPT-4o mini, o1-preview и o1-mini. Это означает, что когда разработчики используют API для взаимодействия с моделью с длинным запросом (более 1024 токенов), система сохраняет уже обработанные части. 

Таким образом, при повторном использовании одинаковых или похожих подсказок можно не пересчитывать эти части. Система автоматически кэширует самую длинную часть подсказки, с которой она уже сталкивалась, начиная с 1024 лексем и добавляя фрагменты по 128 лексем по мере увеличения длины подсказки.

API реального времени

При создании голосового помощника обычно требуется перевести звук в текст, обработать текст, а затем снова преобразовать его в звук, чтобы воспроизвести ответ. API реального времени OpenAI призван обрабатывать весь этот процесс с помощью одного API-запроса. Упрощая этот процесс, API позволяет общаться с ИИ в режиме реального времени. 

Например, голосовой помощник, интегрированный с Realtime API, может выполнять определенные действия, такие как оформление заказа или поиск информации, на основе запросов пользователя. API делает голосового помощника более отзывчивым и способным быстро адаптироваться к потребностям пользователей. API Realtime стал доступен в публичной бета-версии 1 октября с шестью голосами. 30 октября было добавлено еще пять голосов, таким образом, всего стало доступно одиннадцать голосов.

Рис. 4. Пример использования Realtime API для тренировки разговорной речи на новом языке.

Тонкая настройка ChatGPT для задач, связанных со зрением

Изначально языковая модель зрения GPT-4o могла быть настроена только на основе текстовых данных. Теперь, с выходом API для тонкой настройки зрения, разработчики могут обучать и настраивать GPT-4o с помощью наборов данных изображений. С момента выпуска API тонкая настройка зрения стала одной из главных тем, интересующих разработчиков и инженеров по компьютерному зрению.

Для точной настройки возможностей зрения GPT-4o разработчики могут использовать наборы данных изображений от 100 до 50 000 штук. Убедившись, что набор данных соответствует формату, требуемому OpenAI, его можно загрузить на платформу Openai и доработать модель под конкретные задачи. 

Например, компания Automat, специализирующаяся на автоматизации, использовала набор скриншотов для обучения GPT-4o умению определять элементы пользовательского интерфейса на экране на основе описания. Это помогает оптимизировать автоматизацию роботизированных процессов (RPA), упрощая взаимодействие ботов с пользовательскими интерфейсами. Вместо того чтобы полагаться на фиксированные координаты или сложные правила выбора, модель может идентифицировать элементы пользовательского интерфейса на основе простых описаний, что делает настройки автоматизации более адаптируемыми и простыми в обслуживании при изменении интерфейсов.

Рис. 5. Использование уточненной версии модели GPT-4o для обнаружения элементов пользовательского интерфейса.

Справедливость и обнаружение предвзятости в ChatGPT

Этические проблемы, связанные с применением искусственного интеллекта, являются одной из самых обсуждаемых тем по мере того, как ИИ становится все более и более совершенным. Поскольку ответы ChatGPT основаны на подсказках пользователя и данных, доступных в Интернете, может быть непросто настроить его язык так, чтобы он всегда был ответственным. В отчетах говорится, что ответы ChatGPT необъективны в отношении имени, пола и расы. Чтобы решить эту проблему, команда OpenAI провела тест на справедливость ответов от первого лица.

Имена часто несут в себе тонкие подсказки о нашей культуре и географических факторах. В большинстве случаев ChatGPT игнорирует тонкие намеки в именах. Однако в некоторых случаях имена, отражающие расовую или культурную принадлежность, вызывают разные реакции ChatGPT, причем около 1 % из них отражают вредную лексику. Устранение предвзятости и вредных высказываний - сложная задача для языковой модели. Однако, публикуя эти результаты и признавая ограничения модели, OpenAI помогает пользователям уточнить свои подсказки, чтобы получить более нейтральные и непредвзятые ответы. 

Рис. 6. Пример различий в ответах, обусловленных именем пользователя.

Понимание поиска в ChatGPT

Когда ChatGPT только появился, в сообществе ИИ обсуждалось, сможет ли он заменить традиционный веб-серфинг. Сейчас многие пользователи используют ChatGPT вместо Google Search

Новое обновление OpenAI, функция поиска, делает этот шаг еще дальше. С помощью функции "Поиск" ChatGPT генерирует актуальные ответы и включает ссылки на соответствующие источники. С 31 октября функция поиска доступна всем пользователям ChatGPT Plus и Team, что делает ChatGPT более похожим на поисковую систему на базе искусственного интеллекта.

Рис. 7. Пример использования новой функции поиска в ChatGPT.

Дорога вперед

Последние обновления ChatGPT направлены на то, чтобы сделать ИИ более полезным, гибким и справедливым. Новая функция Canvas помогает пользователям работать эффективнее, а тонкая настройка зрения позволяет разработчикам настраивать модели, чтобы они лучше справлялись с визуальными задачами. Справедливость и снижение предвзятости также являются ключевыми приоритетами, обеспечивая работу ИИ для всех, независимо от того, кем они являются. Независимо от того, являетесь ли вы разработчиком, настраивающим модели, или просто используете новейшие функции, ChatGPT развивается, чтобы удовлетворить широкий спектр потребностей. Благодаря возможностям реального времени, визуальной интеграции и ориентации на ответственное использование, эти обновления создают более надежный и достоверный опыт использования ИИ для всех.

Узнайте больше об искусственном интеллекте, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Узнайте больше о применении искусственного интеллекта в сфере вождения и здравоохранения.

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена