Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Последние обновления OpenAI: Canvas, Vision Fine-Tuning и многое другое

Абирами Вина

4 мин чтения

7 ноября 2024 г.

Присоединяйтесь к нам, и мы внимательнее рассмотрим последние обновления ChatGPT, выпущенные OpenAI. Мы изучим Canvas, тонкую настройку для возможностей компьютерного зрения и новейшую функцию поиска.

После того, как мы в последний раз рассматривали модели o1 от OpenAI в сентябре (которые были разработаны для улучшения логического мышления), в ChatGPT было добавлено много новых и интересных функций. Некоторые из этих выпусков ориентированы на разработчиков, а другие предназначены для улучшения пользовательского опыта. В целом, каждое обновление помогает сделать взаимодействие с ChatGPT более интуитивным и эффективным.

Такие обновления, как Canvas, предназначенный для совместной написания кода, и тонкая настройка для возможностей компьютерного зрения, которые улучшают работу ChatGPT с изображениями, вызвали большой интерес, побуждая пользователей исследовать больше творческих возможностей. Между тем, технические обновления, такие как новые API и отчеты об испытаниях на справедливость, касаются таких аспектов, как интеграция моделей и этические нормы ИИ. Давайте углубимся и лучше поймем последние функции ChatGPT от OpenAI!

Обзор функции canvas от OpenAI

Canvas — это первое крупное обновление пользовательского интерфейса (UI) ChatGPT с момента его выпуска. Это новый интерфейс с двухэкранной компоновкой: подсказки в левой боковой панели и ответы в правом окне. Новый UI устраняет обычный рабочий процесс одноэкранной структуры, похожей на чат, и переходит к двухэкранной компоновке, которая подходит для многозадачности и повышения производительности.

Рис. 1. Canvas добавляет обновления пользовательского интерфейса в ChatGPT.

До появления Canvas работа с длинными документами в ChatGPT означала необходимость прокручивать их вверх и вниз. В новом макете запросы отображаются на левой боковой панели, а текстовый документ или фрагмент кода занимает большую часть экрана. При необходимости можно даже настроить размер левой боковой панели и экрана вывода. Кроме того, можно выбрать часть текста или раздел кода и отредактировать конкретный раздел, не изменяя весь документ.

Рис. 2. Редактирование определенных разделов текста с помощью Canvas.

Если вы используете Canvas, вы заметите, что на интерфейсе ChatGPT нет специальной кнопки или переключателя для его открытия. Вместо этого, когда вы работаете с моделью GPT-4o, Canvas открывается автоматически, если он обнаруживает, что вы редактируете, пишете или кодируете. Для более простых запросов он остается неактивным. Если вы хотите открыть его вручную, вы можете использовать такие запросы, как "Открыть Canvas" или "Покажи мне макет Canvas".

В настоящее время Canvas находится на стадии бета-тестирования и доступен только с GPT-4o. Однако OpenAI упомянула, что Canvas будет доступен всем бесплатным пользователям, когда выйдет из бета-версии.

Обновления API ChatGPT

OpenAI выпустила три новых обновления ChatGPT API, направленных на повышение эффективности, масштабируемости и универсальности. Давайте подробнее рассмотрим каждое из этих обновлений.

Дистилляция моделей

Используя функцию дистилляции моделей через OpenAI API, разработчики могут использовать выходные данные продвинутых моделей, таких как GPT-4o или o1-preview, для повышения производительности более мелких, экономичных моделей, таких как GPT-4o mini. Дистилляция моделей — это процесс, который включает в себя обучение небольших моделей имитации поведения более продвинутых, что делает их более эффективными для конкретных задач.

До появления этой функции разработчикам приходилось вручную координировать различные задачи с использованием разных инструментов. Эти задачи включали в себя создание наборов данных, измерение производительности моделей и тонкую настройку моделей, что часто делало процесс сложным и подверженным ошибкам. Обновление Model Distillation позволяет разработчикам использовать Stored Completions, инструмент, который позволяет им автоматически генерировать наборы данных путем захвата и хранения пар вход-выход, создаваемых передовыми моделями через API.

Еще одна функция Model Distillation, Evals (в настоящее время в бета-версии), помогает измерить, насколько хорошо модель работает над конкретными задачами, без необходимости создавать пользовательские скрипты оценки или использовать отдельные инструменты. Используя наборы данных, сгенерированные с помощью Stored Completions, и оценивая производительность с помощью Evals, разработчики могут точно настроить свои собственные пользовательские модели GPT.

Рис. 3. Вы можете использовать Evals для измерения производительности модели.

Кэширование промптов

Зачастую при создании AI-приложений, особенно чат-ботов, один и тот же контекст (справочная информация или предыдущая история разговоров, необходимая для понимания текущего запроса) будет использоваться повторно для нескольких вызовов API. Кэширование подсказок позволяет разработчикам повторно использовать недавно использованные входные токены (сегменты текста, которые модель обрабатывает для понимания подсказки и создания ответа), что помогает снизить затраты и задержку.

С 1 октября OpenAI автоматически применяет Prompt Caching к своим моделям, таким как GPT-4o, GPT-4o mini, o1-preview и o1-mini. Это означает, что когда разработчики используют API для взаимодействия с моделью с длинным промптом (более 1024 токенов), система сохраняет части, которые она уже обработала. 

Таким образом, если те же или похожие запросы используются снова, он может пропустить пересчет этих частей. Система автоматически кэширует самую длинную часть запроса, с которой она сталкивалась ранее, начиная с 1024 токенов и добавляя фрагменты по 128 токенов по мере увеличения длины запроса.

API в реальном времени

Создание голосового помощника обычно включает в себя необходимость транскрибировать аудио в текст, обрабатывать текст, а затем преобразовывать его обратно в аудио для воспроизведения ответа. Realtime API от OpenAI стремится обрабатывать весь этот процесс с помощью одного запроса API. Упрощая процесс, API обеспечивает общение с ИИ в реальном времени. 

Например, голосовой помощник, интегрированный с Realtime API, может выполнять определенные действия, такие как размещение заказа или поиск информации, на основе запросов пользователя. API делает голосового помощника более отзывчивым и способным быстро адаптироваться к потребностям пользователей. Realtime API стал доступен через публичную бета-версию 1 октября с шестью голосами. 30 октября было добавлено еще пять голосов, в результате чего общее количество доступных голосов достигло одиннадцати.

Рис. 4. Пример использования Realtime API для практики разговорной речи на новом языке.

Тонкая настройка ChatGPT для задач компьютерного зрения

Первоначально языковая модель GPT-4o с визуальным восприятием могла быть точно настроена и адаптирована только с использованием текстовых наборов данных. Теперь, с выпуском API для тонкой настройки зрения, разработчики могут обучать и настраивать GPT-4o с использованием наборов изображений. С момента своего выпуска тонкая настройка зрения стала главной темой интереса среди разработчиков и инженеров компьютерного зрения.

Для тонкой настройки возможностей GPT-4o в области компьютерного зрения разработчики могут использовать наборы изображений, содержащие от 100 до 50 000 изображений. Убедившись, что набор данных соответствует формату, требуемому OpenAI, его можно загрузить на платформу OpenAI и выполнить тонкую настройку модели для конкретных приложений. 

Например, компания Automat, занимающаяся автоматизацией, использовала набор скриншотов для обучения GPT-4o распознаванию элементов пользовательского интерфейса на экране на основе описания. Это помогает оптимизировать роботизированную автоматизацию процессов (RPA), упрощая взаимодействие ботов с пользовательскими интерфейсами. Вместо того чтобы полагаться на фиксированные координаты или сложные правила выбора, модель может идентифицировать элементы пользовательского интерфейса на основе простых описаний, что делает настройки автоматизации более адаптируемыми и простыми в обслуживании при изменении интерфейсов.

Рис. 5. Использование точно настроенной версии модели GPT-4o для обнаружения элементов пользовательского интерфейса.

Справедливость ChatGPT и обнаружение предвзятости

Этические вопросы, связанные с применением ИИ, являются важной темой для обсуждения, поскольку ИИ становится все более и более продвинутым. Поскольку ответы ChatGPT основаны на подсказках, предоставленных пользователями, и данных, доступных в Интернете, может быть сложно точно настроить его язык, чтобы он всегда был ответственным. В отчетах говорится, что ответы ChatGPT предвзяты по отношению к имени, полу и расе. Чтобы решить эту проблему, внутренняя команда OpenAI провела тест на справедливость от первого лица.

Имена часто несут в себе тонкие намеки на нашу культуру и географические факторы. В большинстве случаев ChatGPT будет игнорировать тонкие намеки в именах. Однако в некоторых случаях имена, отражающие расу или культуру, приводят к различным ответам от ChatGPT, причем около 1% из них отражают вредоносную лексику. Устранение предвзятости и вредоносной лексики является сложной задачей для языковой модели. Однако, публикуя эти результаты и признавая ограничения модели, OpenAI помогает пользователям уточнять свои запросы для получения более нейтральных, непредвзятых ответов. 

Рис. 6. Пример различных ответов в зависимости от имени пользователя.

Понимание поиска ChatGPT

Когда ChatGPT был впервые запущен, в AI-сообществе велись дискуссии о том, сможет ли он заменить традиционный веб-браузинг. Сейчас многие пользователи используют ChatGPT вместо Google Search

Новое обновление OpenAI, функция поиска, делает еще один шаг вперед. С помощью поиска ChatGPT генерирует актуальные ответы и включает ссылки на соответствующие источники. С 31 октября функция поиска доступна всем пользователям ChatGPT Plus и Team, что делает ChatGPT больше похожим на поисковую систему на базе ИИ.

Рис. 7. Пример использования новой функции поиска ChatGPT.

Перспективы

Последние обновления ChatGPT направлены на то, чтобы сделать ИИ более полезным, гибким и справедливым. Новая функция Canvas помогает пользователям работать более эффективно, а тонкая настройка зрения позволяет разработчикам настраивать модели для лучшей обработки визуальных задач. Обеспечение справедливости и снижение предвзятости также являются ключевыми приоритетами, гарантируя, что ИИ хорошо работает для всех, независимо от того, кто они есть. Независимо от того, являетесь ли вы разработчиком, выполняющим тонкую настройку моделей, или просто используете новейшие функции, ChatGPT развивается, чтобы удовлетворить широкий спектр потребностей. Благодаря возможностям в реальном времени, визуальной интеграции и ориентации на ответственное использование эти обновления создают более надежный и безопасный опыт работы с ИИ для всех.

Узнайте больше об ИИ, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Узнайте больше о применении ИИ в автономном вождении и здравоохранении.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена