Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Последние обновления OpenAI: Canvas, Vision Fine-Tuning и многое другое

Абирами Вина

4 мин чтения

7 ноября 2024 г.

Присоединяйтесь к нам, чтобы поближе познакомиться с недавними обновлениями ChatGPT , выпущенными OpenAI. Мы рассмотрим Canvas, тонкую настройку возможностей зрения и новейшую функцию поиска.

После того как в сентябре мы в последний раз рассмотрели модели o1 от OpenAI (которые были разработаны для улучшения рассуждений), в ChatGPT появилось множество новых и интересных функций. Некоторые из этих релизов ориентированы на разработчиков, а другие направлены на улучшение пользовательского опыта. В целом, каждое обновление помогает сделать взаимодействие с ChatGPT более интуитивным и эффективным.

Такие обновления, как Canvas, предназначенный для совместного написания и кодирования, и тонкая настройка возможностей зрения, улучшающая работу ChatGPT с изображениями, вызвали большой интерес, побуждая пользователей к поиску новых творческих возможностей. В то же время технические обновления, такие как новые API и отчеты о проверке справедливости, касаются таких аспектов, как интеграция моделей и этические практики ИИ . Давайте окунемся в эту тему и узнаем больше о новейших функциях ChatGPT от OpenAI!

Обзор функции canvas от OpenAI

Canvas - это первое крупное обновление пользовательского интерфейса (UI) ChatGPTс момента его выпуска. Это новый интерфейс с двухэкранной компоновкой, подсказками в левой боковой панели и ответами в правом окне. Новый пользовательский интерфейс позволяет отказаться от привычной одноэкранной структуры чата и перейти к двухэкранной схеме, которая подходит для многозадачности и повышает производительность.

Рис. 1. Canvas приносит обновления пользовательского интерфейса в ChatGPT.

До появления Canvas работа с длинными документами на ChatGPT означала необходимость прокручивать экран вверх и вниз. В новом макете подсказки отображаются на левой боковой панели, а текстовый документ или фрагмент кода занимает большую часть экрана. При необходимости можно даже настроить размер левой боковой панели и экрана вывода. Кроме того, вы можете выделить часть текста или фрагмент кода и отредактировать его, не изменяя весь документ.

Рис. 2. Редактирование определенных разделов текста с помощью Canvas.

Если вы используете Canvas, то заметите, что в интерфейсе ChatGPT нет специальной кнопки или тумблера для его открытия. Вместо этого, когда вы работаете с моделью GPT-4o, Canvas открывается автоматически, если обнаруживает, что вы редактируете, пишете или кодируете. Для более простых подсказок он остается неактивным. Если вы хотите открыть его вручную, можно воспользоваться такими подсказками, как "Открыть холст" или "Дайте мне макет холста".

В настоящее время Canvas находится на стадии бета-тестирования и доступен только с GPT-4o. Однако OpenAI упомянула, что Canvas будет доступен всем бесплатным пользователям, когда выйдет из бета-версии.

Обновления API ChatGPT

OpenAI выпустила три новых обновления API ChatGPT , направленных на повышение эффективности, масштабируемости и универсальности. Давайте рассмотрим каждое из этих обновлений подробнее.

Дистилляция моделей

Используя функцию дистилляции моделей через OpenAI API, разработчики могут использовать выходные данные продвинутых моделей, таких как GPT-4o или o1-preview, для повышения производительности более мелких, экономичных моделей, таких как GPT-4o mini. Дистилляция моделей — это процесс, который включает в себя обучение небольших моделей имитации поведения более продвинутых, что делает их более эффективными для конкретных задач.

До появления этой функции разработчикам приходилось вручную координировать различные задачи с использованием разных инструментов. Эти задачи включали в себя создание наборов данных, измерение производительности моделей и тонкую настройку моделей, что часто делало процесс сложным и подверженным ошибкам. Обновление Model Distillation позволяет разработчикам использовать Stored Completions, инструмент, который позволяет им автоматически генерировать наборы данных путем захвата и хранения пар вход-выход, создаваемых передовыми моделями через API.

Еще одна функция Model Distillation, Evals (в настоящее время в бета-версии), помогает измерить, насколько хорошо модель работает над конкретными задачами, без необходимости создавать пользовательские скрипты оценки или использовать отдельные инструменты. Используя наборы данных, сгенерированные с помощью Stored Completions, и оценивая производительность с помощью Evals, разработчики могут точно настроить свои собственные пользовательские модели GPT.

Рис. 3. Вы можете использовать Evals для измерения производительности модели.

Кэширование промптов

Зачастую при создании AI-приложений, особенно чат-ботов, один и тот же контекст (справочная информация или предыдущая история разговоров, необходимая для понимания текущего запроса) будет использоваться повторно для нескольких вызовов API. Кэширование подсказок позволяет разработчикам повторно использовать недавно использованные входные токены (сегменты текста, которые модель обрабатывает для понимания подсказки и создания ответа), что помогает снизить затраты и задержку.

С 1 октября OpenAI автоматически применяет Prompt Caching к своим моделям, таким как GPT-4o, GPT-4o mini, o1-preview и o1-mini. Это означает, что когда разработчики используют API для взаимодействия с моделью с длинным промптом (более 1024 токенов), система сохраняет части, которые она уже обработала. 

Таким образом, если те же или похожие запросы используются снова, он может пропустить пересчет этих частей. Система автоматически кэширует самую длинную часть запроса, с которой она сталкивалась ранее, начиная с 1024 токенов и добавляя фрагменты по 128 токенов по мере увеличения длины запроса.

API в реальном времени

Создание голосового помощника обычно включает в себя необходимость транскрибировать аудио в текст, обрабатывать текст, а затем преобразовывать его обратно в аудио для воспроизведения ответа. Realtime API от OpenAI стремится обрабатывать весь этот процесс с помощью одного запроса API. Упрощая процесс, API обеспечивает общение с ИИ в реальном времени. 

Например, голосовой помощник, интегрированный с Realtime API, может выполнять определенные действия, такие как размещение заказа или поиск информации, на основе запросов пользователя. API делает голосового помощника более отзывчивым и способным быстро адаптироваться к потребностям пользователей. Realtime API стал доступен через публичную бета-версию 1 октября с шестью голосами. 30 октября было добавлено еще пять голосов, в результате чего общее количество доступных голосов достигло одиннадцати.

Рис. 4. Пример использования Realtime API для практики разговорной речи на новом языке.

Тонкая настройка ChatGPT для задач, связанных со зрением

Первоначально языковая модель GPT-4o с визуальным восприятием могла быть точно настроена и адаптирована только с использованием текстовых наборов данных. Теперь, с выпуском API для тонкой настройки зрения, разработчики могут обучать и настраивать GPT-4o с использованием наборов изображений. С момента своего выпуска тонкая настройка зрения стала главной темой интереса среди разработчиков и инженеров компьютерного зрения.

Для тонкой настройки возможностей GPT-4o в области компьютерного зрения разработчики могут использовать наборы изображений, содержащие от 100 до 50 000 изображений. Убедившись, что набор данных соответствует формату, требуемому OpenAI, его можно загрузить на платформу OpenAI и выполнить тонкую настройку модели для конкретных приложений. 

Например, компания Automat, занимающаяся автоматизацией, использовала набор скриншотов для обучения GPT-4o распознаванию элементов пользовательского интерфейса на экране на основе описания. Это помогает оптимизировать роботизированную автоматизацию процессов (RPA), упрощая взаимодействие ботов с пользовательскими интерфейсами. Вместо того чтобы полагаться на фиксированные координаты или сложные правила выбора, модель может идентифицировать элементы пользовательского интерфейса на основе простых описаний, что делает настройки автоматизации более адаптируемыми и простыми в обслуживании при изменении интерфейсов.

Рис. 5. Использование уточненной версии модели GPT-4o для detect элементов пользовательского интерфейса.

Справедливость и обнаружение предвзятости ChatGPT

Этические проблемы, связанные с применением искусственного интеллекта, являются одной из самых обсуждаемых тем по мере того, как ИИ становится все более и более совершенным. Поскольку ответы ChatGPTоснованы на подсказках пользователя и данных, доступных в Интернете, может быть непросто настроить его язык так, чтобы он всегда был ответственным. В отчетах говорится, что ответыChatGPTнеобъективны в отношении имени, пола и расы. Чтобы решить эту проблему, команда OpenAI провела тест на справедливость ответов от первого лица.

Имена часто несут в себе тонкие подсказки о нашей культуре и географических факторах. В большинстве случаев ChatGPT игнорирует тонкие намеки в именах. Однако в некоторых случаях имена, отражающие расовую или культурную принадлежность, вызывают разные реакции ChatGPT, причем около 1 % из них отражают вредную лексику. Устранение предвзятости и вредных высказываний - сложная задача для языковой модели. Однако, публикуя эти результаты и признавая ограничения модели, OpenAI помогает пользователям уточнить свои подсказки, чтобы получить более нейтральные и непредвзятые ответы. 

Рис. 6. Пример различных ответов в зависимости от имени пользователя.

Понимание поиска в ChatGPT

Когда ChatGPT только появился, в сообществе ИИ обсуждалось, сможет ли он заменить традиционный веб-серфинг. Сейчас многие пользователи используют ChatGPT вместо Google Search

Новое обновление OpenAI, функция поиска, делает этот шаг еще дальше. С помощью функции "Поиск" ChatGPT генерирует актуальные ответы и включает ссылки на соответствующие источники. С 31 октября функция поиска доступна всем пользователям ChatGPT Plus и Team, что делает ChatGPT более похожим на поисковую систему на основе искусственного интеллекта.

Рис. 7. Пример использования новой функции поиска в ChatGPT.

Перспективы

Последние обновления ChatGPT направлены на то, чтобы сделать ИИ более полезным, гибким и справедливым. Новая функция Canvas помогает пользователям работать эффективнее, а тонкая настройка зрения позволяет разработчикам настраивать модели, чтобы они лучше справлялись с визуальными задачами. Справедливость и снижение предвзятости также являются ключевыми приоритетами, обеспечивая работу ИИ для всех, независимо от того, кем они являются. Независимо от того, являетесь ли вы разработчиком, настраивающим модели, или просто используете новейшие функции, ChatGPT развивается, чтобы удовлетворить широкий спектр потребностей. Благодаря возможностям реального времени, визуальной интеграции и ориентации на ответственное использование, эти обновления создают более надежный и достоверный опыт использования ИИ для всех.

Узнайте больше об ИИ, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Узнайте больше о применении ИИ в автономном вождении и здравоохранении.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно