Vision AI

OpenAI o1: новая серия моделей OpenAI для рассуждения ИИ

Узнай о недавно запущенных моделях OpenAI o1 и о том, что делает их особенными. Мы также рассмотрим, как они работают и их влияние на будущее ИИ.

АБАбирами Вина

5 min readSeptember 13, 2024

OpenAI o1, новая серия моделей OpenAI для рассуждения ИИ

Сообщество ИИ вовсю строило догадки о следующем шаге в развитии GPT-моделей OpenAI, многие называли его «Project Strawberry». Причина в том, что если ты попросишь GPT-4o посчитать количество букв «R» в слове «strawberry», он ответит, что в слове «strawberry» их две. Это может показаться странным, учитывая мощь GPT-4o. Однако модель настроена на обработку подтекста, а не буквальное написание. Ходили слухи, что новая модель призвана решить эту проблему. Сэм Альтман подогрел эти слухи, опубликовав изображения клубники в своем аккаунте в X (ранее Twitter).

Благодаря последнему анонсу OpenAI, сделанному в четверг, 12 сентября, мы наконец получили ответ на все догадки! OpenAI o1 — это новая серия моделей ИИ, разработанных для того, чтобы «замедляться» и обдумывать ответ перед тем, как его дать. Интересно, что OpenAI o1 может лучше рассуждать и правильно ответить на вопрос про клубнику! В этой статье мы обсудим, что такое OpenAI o1, как он работает, где его можно применять и что это значит для будущего ИИ. Давай начнем!

Пример запроса к OpenAI o1 о клубнике

Рис. 1. Пример запроса к OpenAI o1 о клубнике.

Link to this sectionНовые достижения в области ИИ от OpenAI#

В июле 2024 года руководство OpenAI сообщило, что исследования компании приближаются к человеческому уровню решения задач, который называют уровнем 2 ИИ. Очевидно, что этот уровень сфокусирован на логическом мышлении, поскольку OpenAI представляет свою новую серию OpenAI o1, способную «думать» перед ответом. OpenAI o1 — это новая LLM (большая языковая модель), которая понимает и генерирует текст, похожий на человеческий, обучаясь на паттернах огромных объемов языковых данных. Она разработана для работы со сложными задачами, требующими глубокого анализа.

Взгляд OpenAI на этапы развития ИИ

Рис. 2. Взгляд OpenAI на этапы развития ИИ.

Модель была обучена с помощью reinforcement learning — техники, при которой модель учится принимать лучшие решения методом проб и ошибок, получая вознаграждения или штрафы за свои действия. Алгоритм reinforcement learning помогает модели мыслить эффективнее, следуя цепочке рассуждений. В OpenAI также поделились, что производительность o1 продолжает улучшаться благодаря увеличению объема обучения и времени, затрачиваемому на «размышление» при решении задач, что доказывает эффективность как расширенного обучения, так и вдумчивой обработки данных для развития способностей модели.

Хотя OpenAI o1 — значительный шаг вперед в области сложного логического мышления, это всё еще ранняя модель, которой не хватает некоторых функций, делающих ChatGPT удобным, таких как поиск в интернете или загрузка файлов и изображений. Для многих повседневных задач GPT-4o может оставаться более функциональным на текущий момент. Однако OpenAI o1 знаменует собой большой прогресс в способности ИИ к сложным рассуждениям, поэтому OpenAI начинает новую серию и называет её OpenAI o1.

Link to this sectionКак новые модели OpenAI улучшают логическое мышление ИИ#

OpenAI o1 можно использовать для таких задач, как расшифровка кодов, решение задач по программированию, математических проблем, разгадывание кроссвордов и даже работа со сложными темами в науке, безопасности и здравоохранении. С забавной отсылкой к кодовому имени проекта, OpenAI продемонстрировали способности модели к рассуждению, взломав шифр, который раскрыл сообщение «THERE ARE THREE R’S IN STRAWBERRY».

Помимо решения шифров, OpenAI o1 хорошо пишет код. Модель отлично показывает себя в соревнованиях по программированию, например, на Codeforces — платформе, где программисты решают сложные задачи на время. В таких состязаниях модель достигает высоких рейтингов Elo (система оценки уровня мастерства на основе результатов против других участников) и превосходит предыдущие версии. Она также сильна в математике и успешно справляется с экзаменами, такими как American Invitational Mathematics Examination (AIME).

Тестирование навыков программирования o1

Рис. 3. Бенчмаркинг навыков программирования o1.

Эти достижения делают OpenAI o1 значительным шагом вперед по сравнению с более ранними моделями, такими как GPT-4o. Это открывает новые возможности для ИИ в таких областях, как бизнес, разработка, исследования и здравоохранение. Например, в генетических исследованиях OpenAI o1 может быстро обрабатывать огромное количество научных работ, выделяя ключевые результаты и связи между генетическими маркерами и заболеваниями. Она понимает сложный научный язык и может резюмировать важные моменты, помогая исследователям сфокусироваться на самой актуальной информации.

Link to this sectionВзгляд на «цепочку рассуждений»#

Ранее мы увидели, что OpenAI o1 внедряет процесс логического мышления «Chain of Thought». Это позволяет модели подходить к сложным задачам так же, как это делают когнитивные стратегии человека. Модель может разбивать проблемы на более мелкие, управляемые этапы и итеративно уточнять свой подход. В отличие от предыдущих моделей, которые полагались на мгновенное распознавание паттернов, o1 оптимизирует процесс принятия решений, исследуя несколько путей рассуждений и обучаясь как на успехах, так и на ошибках с помощью reinforcement learning.

OpenAI решила скрыть «сырые» цепочки рассуждений от пользователей, предлагая вместо них краткие выжимки, которые дают представление о ходе мыслей модели, не раскрывая каждый шаг. Это решение помогает предотвратить злоупотребление мыслительным процессом модели, позволяя разработчикам отслеживать и совершенствовать безопасность и согласованность ИИ. Наблюдая за внутренними скрытыми цепочками, разработчики могут быть уверены, что o1 придерживается этических принципов и избегает вредоносного поведения.

Link to this sectionБенчмаркинг OpenAI o1#

OpenAI o1 демонстрирует значительные улучшения по сравнению с GPT-4o в ряде бенчмарков, тестирующих навыки рассуждения и решения задач. На экзамене American Invitational Mathematics Examination (AIME) 2024, сложном тесте для старшеклассников, o1 достигла 74% точности с одной попыткой на задачу, по сравнению с 12% у GPT-4o. При достижении консенсуса среди 64 попыток точность возросла до 83%, а при использовании уточненного метода переранжирования на 1000 попытках — до 93%, что ставит модель в число 500 лучших учащихся страны.

Помимо математики, o1 также исключительно хорошо проявила себя в тестах на научные знания, таких как GPQA Diamond, охватывающий вопросы уровня PhD по химии, физике и биологии. Примечательно, что o1 превзошла экспертов с ученой степенью PhD в этом тесте, став первой моделью ИИ, совершившей подобное. Она также обошла GPT-4o в 54 из 57 категорий бенчмарка MMLU, который проверяет понимание широкого спектра дисциплин, включая историю, право и науку.

Тестирование OpenAI o1

Рис. 4. Бенчмаркинг OpenAI o1.

Link to this sectionПопробуй OpenAI o1 в работе#

OpenAI представила две новые модели в серии o1: o1-preview и o1-mini. Модель o1-preview создана для более глубокого обдумывания перед ответом, превосходно справляясь со сложными задачами в науке, кодинге и математике. Она предлагает продвинутые возможности решения задач для пользователей, занятых сложными проектами. В то же время o1-mini — это более компактная, быстрая и экономичная модель, оптимизированная специально для задач STEM, особенно математики и программирования. Хотя у неё менее обширные общие знания о мире, o1-mini почти достигает производительности o1-preview в ключевых тестах, таких как математическое соревнование AIME и задачи по программированию на Codeforces, при этом стоимость её использования на 80% ниже.

Сравнение моделей OpenAI

Рис. 5. Сравнение моделей OpenAI.

Ты можешь попробовать эти модели через различные платформы OpenAI. Пользователи ChatGPT Plus и Team могут получить доступ к обеим моделям, o1-preview и o1-mini, через переключатель моделей, ощутив улучшенные способности к рассуждению прямо в ChatGPT. Разработчики с доступом уровня 5 к API могут начать прототипирование на базе этих моделей, хотя некоторые продвинутые функции всё еще находятся в стадии разработки. OpenAI также планирует вскоре сделать o1-mini доступной для всех пользователей ChatGPT Free. Исследуя эти модели, ты сможешь лично убедиться в достижениях в области логического мышления ИИ и выбрать ту, которая лучше всего соответствует твоим потребностям.

Link to this sectionЭтические соображения OpenAI при разработке ИИ#

При разработке серии моделей o1 компания OpenAI уделила особое внимание этике и безопасности. Перед выпуском моделей o1-preview и o1-mini они провели тщательную оценку, включая внешние тестирования и внутренние проверки на наличие таких рисков, как запрещенный контент, галлюцинации и предвзятость. Модели спроектированы с продвинутыми способностями к рассуждению, чтобы лучше понимать и соблюдать правила безопасности.

OpenAI также внедрила меры защиты, такие как черные списки и классификаторы безопасности для управления рисками. Модель o1 имеет средний общий рейтинг риска. У неё низкие риски в таких областях, как кибербезопасность и автономность модели, и средние риски в таких сферах, как контент CBRN (химические, биологические, радиологические и ядерные угрозы) и методы убеждения. Группа по консультациям по безопасности и Совет OpenAI пересмотрели эти меры безопасности, чтобы гарантировать, что использование модели является безопасным и этичным.

Таблица показателей OpenAI o1

Рис. 6. Системная карточка OpenAI o1.

Link to this sectionОт слухов к реальности: OpenAI o1 выходит на сцену#

OpenAI o1 — это большой шаг вперед в области логического мышления ИИ, превращающий ранние слухи в реальность. В отличие от GPT-4o, серия o1 мыслит глубже, используя подход «Chain of Thought», разбивая сложные задачи на более мелкие этапы для получения более качественных ответов. В настоящее время доступная в ранней версии для предварительного просмотра в ChatGPT и через API, OpenAI планирует добавить функции веб-серфинга, а также загрузки файлов и изображений. OpenAI также сообщила о намерении продолжать разработку и выпуск моделей серии GPT наряду с новой серией OpenAI o1. По мере эволюции ИИ такие достижения прокладывают путь к более мощным, интуитивно понятным и универсальным системам ИИ, которые смогут лучше помогать человеку и понимать его потребности.

Будь в курсе последних новостей ИИ, присоединившись к нашему сообществу! Заходи в наш репозиторий на GitHub, чтобы увидеть, как мы внедряем инновационные ИИ-решения в такие сектора, как производство и здравоохранение. 🚀

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

OpenAI o1: новая серия моделей OpenAI для рассуждения ИИ

Link to this sectionНовые достижения в области ИИ от OpenAI#

Link to this sectionКак новые модели OpenAI улучшают логическое мышление ИИ#

Link to this sectionВзгляд на «цепочку рассуждений»#

Link to this sectionБенчмаркинг OpenAI o1#

Link to this sectionПопробуй OpenAI o1 в работе#

Link to this sectionЭтические соображения OpenAI при разработке ИИ#

Link to this sectionОт слухов к реальности: OpenAI o1 выходит на сцену#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!