Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, как конституционный ИИ помогает моделям следовать этическим правилам, принимать более безопасные решения и поддерживать справедливость в языковых системах и системах компьютерного зрения.
Искусственный интеллект (ИИ) быстро становится ключевой частью нашей повседневной жизни. Он интегрируется в инструменты, используемые в таких областях, как здравоохранение, рекрутинг, финансы и общественная безопасность. По мере расширения этих систем также высказываются опасения по поводу их этики и надежности.
Например, иногда системы AI, которые построены без учета справедливости или безопасности, могут выдавать результаты, которые являются предвзятыми или ненадежными. Это связано с тем, что многие модели до сих пор не имеют четкого способа отражать и согласовываться с человеческими ценностями.
Для решения этих проблем исследователи в настоящее время изучают подход, известный как конституционный ИИ. Проще говоря, он вводит письменный набор принципов в процесс обучения модели. Эти принципы помогают модели оценивать собственное поведение, меньше полагаться на отзывы людей и делать ответы более безопасными и понятными.
В этой статье мы рассмотрим, как работает конституционный ИИ, рассмотрим реальные примеры и обсудим его потенциальные применения в системах компьютерного зрения.
Рис. 1. Характеристики конституционного ИИ. Изображение автора.
Что такое конституционный ИИ?
Конституционный ИИ — это метод обучения моделей, который определяет поведение моделей ИИ, предоставляя четкий набор этических правил. Эти правила действуют как кодекс поведения. Вместо того чтобы полагаться на то, что модель сама определит, что является приемлемым, она следует письменному набору принципов, которые формируют ее ответы во время обучения.
Эта концепция была представлена компанией Anthropic, исследовательской компанией, ориентированной на безопасность ИИ, которая разработала семейство Claude LLM в качестве метода повышения самоконтроля систем ИИ при принятии решений.
Вместо того чтобы полагаться исключительно на отзывы людей, модель учится критиковать и совершенствовать свои собственные ответы на основе предопределенного набора принципов. Этот подход похож на правовую систему, где судья обращается к конституции, прежде чем вынести решение.
В этом случае модель становится одновременно и судьей, и учеником, используя один и тот же набор правил для проверки и совершенствования своего собственного поведения. Этот процесс укрепляет согласованность моделей ИИ и поддерживает разработку безопасных и ответственных систем ИИ.
Как работает конституционный ИИ?
Цель конституционного ИИ — научить модель ИИ принимать безопасные и справедливые решения, следуя четкому набору письменных правил. Вот простое описание того, как работает этот процесс:
Определение конституции: Создается письменный список этических принципов, которым должна следовать модель. Конституция определяет, чего AI следует избегать и какие ценности он должен отражать.
Обучение с помощью контролируемых примеров: Модели показывают примеры ответов, которые соответствуют конституции. Эти примеры помогают ИИ понять, как выглядит приемлемое поведение.
Распознавание и применение закономерностей: Со временем модель начинает улавливать эти закономерности. Она учится применять те же значения при ответе на новые вопросы или при работе с новыми ситуациями.
Критика и улучшение результатов: Модель анализирует свои собственные ответы и корректирует их на основе установленных правил. Этот этап самоанализа помогает ей совершенствоваться, не полагаясь только на отзывы людей.
Создание согласованных и более безопасных ответов: Модель обучается на основе последовательных правил, что помогает снизить предвзятость и повысить надежность при использовании в реальных условиях. Такой подход делает ее более соответствующей человеческим ценностям и более управляемой.
Рис. 2. Обзор использования конституционного ИИ для обучения моделей.
Основные принципы этичного проектирования ИИ
Чтобы модель ИИ следовала этическим правилам, эти правила должны быть четко определены. Когда речь идет о конституционном ИИ, эти правила основаны на наборе основных принципов.
Например, вот четыре принципа, составляющие основу эффективной конституции ИИ:
Прозрачность: Должно быть легко понять, как модель пришла к ответу. Если ответ основан на фактах, оценках или закономерностях, он будет прозрачен для пользователя. Это укрепляет доверие и помогает людям судить, могут ли они полагаться на результаты модели.
Равенство: Ответы должны оставаться согласованными для разных пользователей. Модель не должна изменять свои выходные данные в зависимости от имени, происхождения или местоположения человека. Равенство помогает предотвратить предвзятость и способствует равному обращению.
Подотчетность: Должна быть возможность отслеживать, как была обучена модель и что повлияло на ее поведение. Если что-то пойдет не так, команды должны иметь возможность определить причину и улучшить ее. Это поддерживает прозрачность и долгосрочную подотчетность.
Безопасность: Модели должны избегать создания контента, который может причинить вред. Если запрос приводит к рискованным или небезопасным результатам, система должна распознать это и остановиться. Это защищает как пользователя, так и целостность системы.
Примеры конституционного ИИ в больших языковых моделях
Конституционный ИИ перешел от теории к практике и в настоящее время постепенно используется в больших моделях, взаимодействующих с миллионами пользователей. Два наиболее распространенных примера — это LLM от OpenAI и Anthropic.
Хотя обе организации придерживаются разных подходов к созданию более этичных систем ИИ, их объединяет общая идея: научить модель следовать набору письменных руководящих принципов. Давайте подробнее рассмотрим эти примеры.
Конституционный подход к ИИ от OpenAI
OpenAI представила документ под названием Model Spec в рамках процесса обучения для своих моделей ChatGPT. Этот документ действует как конституция. В нем изложены цели, к которым должна стремиться модель в своих ответах, включая такие ценности, как полезность, честность и безопасность. В нем также определяется, что считается вредным или вводящим в заблуждение результатом.
Эта структура использовалась для точной настройки моделей OpenAI путем оценки ответов в соответствии с тем, насколько хорошо они соответствуют правилам. Со временем это помогло сформировать ChatGPT таким образом, чтобы он выдавал меньше вредных результатов и лучше соответствовал тому, что действительно хотят пользователи.
Рис. 3. Пример ответа ChatGPT с использованием Model Spec от OpenAI.
Этичные модели ИИ от Anthropic
Конституция, которой следует модель Anthropic, Claude, основана на этических принципах из таких источников, как Всеобщая декларация прав человека, правила платформы, такие как условия обслуживания Apple, и исследования из других лабораторий ИИ. Эти принципы помогают обеспечить безопасность, справедливость и соответствие ответов Claude важным человеческим ценностям.
Claude также использует Reinforcement Learning from AI Feedback (RLAIF), где он анализирует и корректирует свои ответы на основе этих этических принципов, а не полагается на отзывы людей. Этот процесс позволяет Claude со временем совершенствоваться, делая его более масштабируемым и способным предоставлять полезные, этичные и безопасные ответы даже в сложных ситуациях.
Рис. 4. Понимание подхода Anthropic к конституционному ИИ.
Применение конституционного ИИ в компьютерном зрении
Поскольку конституционный ИИ положительно влияет на поведение языковых моделей, это естественным образом приводит к вопросу: может ли аналогичный подход помочь системам машинного зрения реагировать более справедливо и безопасно?
Хотя модели компьютерного зрения работают с изображениями, а не с текстом, потребность в этических принципах так же важна. Например, ключевыми факторами являются справедливость и отсутствие предвзятости, поскольку эти системы должны быть обучены относиться ко всем одинаково и избегать вредных или несправедливых результатов при анализе визуальных данных.
Рис. 5. Этические проблемы, связанные с компьютерным зрением. Изображение автора.
В настоящее время использование конституционных методов ИИ в компьютерном зрении все еще изучается и находится на ранних стадиях, в этой области ведутся постоянные исследования.
Например, Meta недавно представила CLUE, фреймворк, который применяет конституционное мышление к задачам обеспечения безопасности изображений. Он превращает общие правила безопасности в точные шаги, которым может следовать мультимодальный AI (системы AI, которые обрабатывают и понимают несколько типов данных). Это помогает системе рассуждать более четко и уменьшать вредные результаты.
Кроме того, CLUE повышает эффективность оценки безопасности изображений, упрощая сложные правила, позволяя моделям ИИ действовать быстро и точно без необходимости обширного участия человека. Используя набор руководящих принципов, CLUE делает системы модерации изображений более масштабируемыми, обеспечивая при этом высокое качество результатов.
Основные выводы
По мере того как системы ИИ берут на себя все больше ответственности, акцент смещается с того, что они могут делать, на то, что они должны делать. Этот сдвиг является ключевым, поскольку эти системы используются в областях, которые напрямую влияют на жизнь людей, таких как здравоохранение, правоохранительные органы и образование.
Чтобы системы ИИ действовали надлежащим и этичным образом, им нужна прочная и последовательная основа. Эта основа должна отдавать приоритет справедливости, безопасности и доверию.
Письменная конституция может обеспечить эту основу во время обучения, направляя процесс принятия решений системой. Она также может предоставить разработчикам основу для анализа и корректировки поведения системы после развертывания, гарантируя, что она будет и впредь соответствовать ценностям, которые она призвана поддерживать, и облегчая адаптацию по мере возникновения новых задач.