Глоссарий

Конституционный искусственный интеллект

Узнай, как конституционный ИИ обеспечивает этичность, безопасность и непредвзятость результатов ИИ, согласуя модели с заранее определенными принципами и человеческими ценностями.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Конституционный ИИ - это подход, призванный согласовать модели искусственного интеллекта (ИИ), в частности большие языковые модели (БЯМ), с человеческими ценностями и этическими принципами. Вместо того чтобы полагаться исключительно на прямую обратную связь от человека, направляющую поведение, этот метод использует заранее определенный набор правил или принципов - "конституцию" - чтобы помочь ИИ оценить и пересмотреть свои собственные ответы в процессе обучения. Цель состоит в том, чтобы создать системы ИИ, которые будут полезными, безвредными и честными, снижая риск генерации предвзятых, токсичных или иным образом нежелательных результатов. Эта методика, впервые разработанная исследователями из Anthropic, призвана сделать выравнивание ИИ более масштабируемым и менее зависимым от широкого человеческого контроля.

Как работает конституционный искусственный интеллект

Основная идея конституционного ИИ предполагает двухфазный процесс обучения:

  1. Фаза контролируемого обучения: Сначала стандартной предварительно обученной языковой модели предлагаются сценарии, призванные вызвать потенциально вредные или нежелательные реакции. Модель генерирует несколько ответов. Затем эти ответы критикуются другой моделью ИИ на основе принципов, изложенных в конституции. ИИ критикует свои собственные ответы, определяя, почему тот или иной ответ может нарушать тот или иной принцип (например, быть неконсенсуальным или вредным). Затем модель настраивается на основе этих самокритичных ответов, обучаясь генерировать результаты, которые лучше согласуются с конституцией. На этом этапе используются методы контролируемого обучения.
  2. Фаза обучения с применением подкрепления: После этапа супервизии модель дорабатывается с помощью обучения с подкреплением (RL). На этом этапе ИИ генерирует ответы, а модель ИИ (обученная на основе конституции) оценивает эти ответы, выдавая сигнал вознаграждения в зависимости от того, насколько хорошо они соответствуют конституционным принципам. Этот процесс, часто называемый Reinforcement Learning from AI Feedback (RLAIF), оптимизирует модель, чтобы она постоянно выдавала результаты, соответствующие конституции, по сути, обучая ИИ предпочитать поведение, соответствующее конституции.

Этот механизм самокоррекции, руководствующийся явными принципами, отличает конституционный ИИ от таких методов, как Reinforcement Learning from Human Feedback (RLHF), которые в значительной степени полагаются на людей, оценивающих результаты модели.

Ключевые понятия

  • Конституция: Это не буквальный юридический документ, а набор явных этических принципов или правил, которыми руководствуется ИИ в своем поведении. Эти принципы могут быть взяты из различных источников, таких как универсальные декларации (например, Декларация прав человека ООН), условия предоставления услуг или пользовательские этические рекомендации, разработанные для конкретных приложений. Эффективность во многом зависит от качества и полноты этих принципов.
  • Самокритика и пересмотр ИИ: Фундаментальный аспект, в котором модель ИИ учится оценивать свои собственные результаты в сравнении с конституцией и генерировать пересмотры. Этот внутренний цикл обратной связи снижает необходимость постоянного вмешательства человека.
  • Выравнивание ИИ: Конституционный ИИ - это техника, вносящая вклад в более широкую область согласования ИИ, которая стремится обеспечить соответствие целей и поведения систем ИИ человеческим намерениям и ценностям. Она решает проблемы безопасности ИИ и возможности непредвиденных последствий.
  • Масштабируемость: Автоматизируя процесс обратной связи с помощью ИИ, основанного на конституции, этот метод стремится быть более масштабируемым, чем RLHF, который может быть трудоемким и потенциально вносить человеческие предубеждения(алгоритмическая предвзятость).

Примеры из реальной жизни

  1. Клодовые моделиAnthropic: Самый яркий пример - семейство Клод-ЛЛМ от Anthropic. Anthropic разработал конституционный ИИ специально для того, чтобы обучить эти модели быть "полезными, безвредными и честными". Используемая конституция включает в себя принципы, препятствующие созданию токсичного, дискриминационного или незаконного контента, частично основанные на Декларации прав человека ООН и других этических источниках. Подробнее читай в их статье о коллективном конституционном ИИ.
  2. Системы ИИ для модерации контента: Принципы конституционного ИИ можно применить для обучения моделей для платформ модерации контента. Вместо того чтобы полагаться исключительно на людей-модераторов или жесткие фильтры ключевых слов, ИИ может использовать конституцию, определяющую вредный контент (например, язык вражды, дезинформация), для оценки пользовательского текста или изображений, что приведет к более тонкой и последовательной модерации в соответствии с политикой платформы и правилами этики ИИ.

Конституционный искусственный интеллект в сравнении со смежными терминами

  • Reinforcement Learning from Human Feedback (RLHF): Хотя обе эти технологии направлены на выравнивание ИИ, в RLHF используется обратная связь, генерируемая людьми, которые оценивают результаты работы моделей. Конституционный ИИ в основном использует генерируемую ИИ обратную связь, основанную на заранее определенной конституции, что делает его потенциально более масштабируемым и последовательным, хотя качество сильно зависит от самой конституции.
  • Этика ИИ и ответственный ИИ: Этика ИИ - это широкая область, изучающая моральные последствия ИИ. Ответственный ИИ включает в себя принципы и практики (такие как справедливость, прозрачность(XAI), подотчетность, конфиденциальность данных) для разработки и внедрения систем ИИ безопасно и этично. Конституционный ИИ - это особый технический метод, используемый во время обучения моделей, чтобы реализовать определенные этические принципы и внести свой вклад в развитие ответственного ИИ.

Применение и будущий потенциал

В настоящее время конституциональный ИИ в основном применяется в LLM для решения таких задач, как генерация диалогов и резюмирование текста. Однако лежащие в основе принципы потенциально могут распространяться и на другие области ИИ, включая компьютерное зрение (КЗ). Например:

Разработка и совершенствование эффективных конституций, а также обеспечение точного следования им ИИ в различных контекстах остаются активными областями исследований в таких организациях, как Google AI и Институт безопасности ИИ. Такие инструменты, как Ultralytics HUB, облегчают обучение и развертывание различных моделей ИИ, и включение в них принципов, схожих с конституционным ИИ, может стать все более важным для обеспечения ответственного развертывания.

Читать полностью