Конституционный ИИ: структурирование поведения ИИ на основе человеческих ценностей

Искусственный интеллект (ИИ) быстро становится ключевой частью нашей повседневной жизни. Он интегрируется в инструменты, используемые в таких областях, как здравоохранение, рекрутинг, финансы и общественная безопасность. По мере расширения этих систем также высказываются опасения по поводу их этики и надежности.

Например, иногда системы AI, которые построены без учета справедливости или безопасности, могут выдавать результаты, которые являются предвзятыми или ненадежными. Это связано с тем, что многие модели до сих пор не имеют четкого способа отражать и согласовываться с человеческими ценностями.

Для решения этих проблем исследователи в настоящее время изучают подход, известный как конституционный ИИ. Проще говоря, он вводит письменный набор принципов в процесс обучения модели. Эти принципы помогают модели оценивать собственное поведение, меньше полагаться на отзывы людей и делать ответы более безопасными и понятными.

До сих пор этот подход в основном использовался в отношении больших языковых моделей (LLM). Однако та же структура может помочь системам компьютерного зрения принимать этические решения при анализе визуальных данных.

В этой статье мы рассмотрим, как работает конституционный ИИ, рассмотрим реальные примеры и обсудим его потенциальные применения в системах компьютерного зрения.

Рис. 1. Характеристики конституционного ИИ. Изображение автора.

‍

Что такое конституционный ИИ?

Конституционный ИИ — это метод обучения моделей, который определяет поведение моделей ИИ, предоставляя четкий набор этических правил. Эти правила действуют как кодекс поведения. Вместо того чтобы полагаться на то, что модель сама определит, что является приемлемым, она следует письменному набору принципов, которые формируют ее ответы во время обучения.

Это понятие было введено Anthropicисследовательская компания, специализирующаяся на безопасности ИИ, которая разработала семейство Claude LLM в качестве метода, позволяющего сделать системы ИИ более самоконтролируемыми в принятии решений.

Вместо того чтобы полагаться исключительно на отзывы людей, модель учится критиковать и совершенствовать свои собственные ответы на основе предопределенного набора принципов. Этот подход похож на правовую систему, где судья обращается к конституции, прежде чем вынести решение.

В этом случае модель становится одновременно и судьей, и учеником, используя один и тот же набор правил для анализа и совершенствования собственного поведения. Этот процесс усиливает согласованность моделей ИИ и способствует разработке безопасных и ответственных систем ИИ.

Как работает конституционный ИИ?

Цель конституционного ИИ — научить модель ИИ принимать безопасные и справедливые решения, следуя четкому набору письменных правил. Вот простое описание того, как работает этот процесс:

Определение конституции: Создается письменный список этических принципов, которым должна следовать модель. Конституция определяет, чего AI следует избегать и какие ценности он должен отражать.
Обучение с под наблюдением примерами: Модели показываются примеры ответов, которые соответствуют конституции. Эти примеры помогают ИИ понять, как выглядит приемлемое поведение.
Распознавание и применение закономерностей: Со временем модель начинает улавливать эти закономерности. Она учится применять те же значения при ответе на новые вопросы или при работе с новыми ситуациями.
Критика и улучшение результатов: Модель анализирует свои собственные ответы и корректирует их на основе установленных правил. Этот этап самоанализа помогает ей совершенствоваться, не полагаясь только на отзывы людей.
Создание согласованных и более безопасных ответов: Модель обучается на основе последовательных правил, что помогает снизить предвзятость и повысить надежность при использовании в реальных условиях. Такой подход делает ее более соответствующей человеческим ценностям и более управляемой.

Рис. 2. Обзор использования конституционного ИИ для обучения моделей.

‍

Основные принципы этичного проектирования ИИ

Чтобы модель ИИ следовала этическим правилам, эти правила должны быть четко определены. Когда речь идет о конституционном ИИ, эти правила основаны на наборе основных принципов.

Например, вот четыре принципа, составляющие основу эффективной конституции ИИ:

Прозрачность: Должно быть легко понять, как модель пришла к ответу. Если ответ основан на фактах, оценках или закономерностях, он будет прозрачен для пользователя. Это укрепляет доверие и помогает людям судить, могут ли они полагаться на результаты модели.
Равенство: Ответы должны оставаться согласованными для разных пользователей. Модель не должна изменять свои выходные данные в зависимости от имени, происхождения или местоположения человека. Равенство помогает предотвратить предвзятость и способствует равному обращению.
Подотчетность: Должна быть возможность отслеживать, как была обучена модель и что повлияло на ее поведение. Если что-то пойдет не так, команды должны иметь возможность определить причину и улучшить ее. Это поддерживает прозрачность и долгосрочную подотчетность.
Безопасность: Модели должны избегать создания контента, который может нанести вред. Если запрос приводит к рискованным или небезопасным результатам, система должна распознать это и остановиться. Это защищает и пользователя, и целостность системы.

Примеры конституционного ИИ в больших языковых моделях

Конституционный ИИ перешел от теории к практике и теперь постепенно используется в крупных моделях, взаимодействующих с миллионами пользователей. Два наиболее распространенных примера - LLM от OpenAI и Anthropic.

Хотя обе организации придерживаются разных подходов к созданию более этичных систем ИИ, их объединяет общая идея: научить модель следовать набору письменных руководящих принципов. Давайте подробнее рассмотрим эти примеры.

Конституционный подход к ИИ от OpenAI

OpenAI ввела документ под названием Model Spec как часть процесса обучения своих моделей ChatGPT . Этот документ действует как конституция. В нем описывается, к чему должна стремиться модель в своих ответах, включая такие ценности, как полезность, честность и безопасность. В нем также определено, что считается вредным или вводящим в заблуждение результатом.

Эта основа использовалась для тонкой настройки моделей OpenAI, оценивая ответы в зависимости от того, насколько они соответствуют правилам. Со временем это помогло сформировать ChatGPT чтобы он выдавал меньше вредных результатов и лучше соответствовал тому, что на самом деле хотят пользователи.

Рис. 3. Пример ChatGPT , использующего Model Spec от OpenAI для ответа.

‍

Этические модели ИИ от Anthropic

Конституция, которой следует модель Anthropic, Клод, основана на этических принципах из таких источников, как Всеобщая декларация прав человека, правила платформы, такие как условия обслуживания Apple, и исследования других лабораторий ИИ. Эти принципы помогают гарантировать, что ответы Клода будут безопасными, справедливыми и соответствующими важным человеческим ценностям.

Claude также использует Reinforcement Learning from AI Feedback (RLAIF), где он анализирует и корректирует свои ответы на основе этих этических принципов, а не полагается на отзывы людей. Этот процесс позволяет Claude со временем совершенствоваться, делая его более масштабируемым и способным предоставлять полезные, этичные и безопасные ответы даже в сложных ситуациях.

Рис. 4. Понимание подхода Anthropicк конституционному ИИ.

‍

Применение конституционного ИИ в компьютерном зрении

Поскольку конституционный ИИ положительно влияет на поведение языковых моделей, это естественным образом приводит к вопросу: может ли аналогичный подход помочь системам машинного зрения реагировать более справедливо и безопасно?

Хотя модели компьютерного зрения работают с изображениями, а не с текстом, потребность в этических принципах так же важна. Например, ключевыми факторами являются справедливость и отсутствие предвзятости, поскольку эти системы должны быть обучены относиться ко всем одинаково и избегать вредных или несправедливых результатов при анализе визуальных данных.

Рис. 5. Этические проблемы, связанные с компьютерным зрением. Изображение автора.

‍

В настоящее время использование конституционных методов ИИ в компьютерном зрении все еще изучается и находится на ранних стадиях, в этой области ведутся постоянные исследования.

Например, Meta недавно представила CLUE, фреймворк, который применяет конституционное мышление к задачам обеспечения безопасности изображений. Он превращает общие правила безопасности в точные шаги, которым может следовать мультимодальный AI (системы AI, которые обрабатывают и понимают несколько типов данных). Это помогает системе рассуждать более четко и уменьшать вредные результаты.

Кроме того, CLUE повышает эффективность оценки безопасности изображений, упрощая сложные правила, позволяя моделям ИИ действовать быстро и точно без необходимости обширного участия человека. Используя набор руководящих принципов, CLUE делает системы модерации изображений более масштабируемыми, обеспечивая при этом высокое качество результатов.

Основные выводы

По мере того как системы ИИ берут на себя все больше ответственности, акцент смещается с того, что они могут делать, на то, что они должны делать. Этот сдвиг является ключевым, поскольку эти системы используются в областях, которые напрямую влияют на жизнь людей, таких как здравоохранение, правоохранительные органы и образование.

Чтобы системы ИИ действовали надлежащим и этичным образом, им нужна прочная и последовательная основа. Эта основа должна отдавать приоритет справедливости, безопасности и доверию.

Письменная конституция может обеспечить эту основу во время обучения, направляя процесс принятия решений системой. Она также может предоставить разработчикам основу для анализа и корректировки поведения системы после развертывания, гарантируя, что она будет и впредь соответствовать ценностям, которые она призвана поддерживать, и облегчая адаптацию по мере возникновения новых задач.

Присоединяйтесь к нашему растущему сообществу уже сегодня! Углубите свои знания в области ИИ, изучив наш репозиторий на GitHub. Хотите создать собственные проекты в области компьютерного зрения? Ознакомьтесь с нашими вариантами лицензирования. Узнайте, как компьютерное зрение в здравоохранении повышает эффективность, и оцените влияние ИИ в производстве, посетив страницы наших решений!

Конституционный ИИ направлен на приведение моделей ИИ в соответствие с человеческими ценностями

Что такое конституционный ИИ?

Как работает конституционный ИИ?

Основные принципы этичного проектирования ИИ

Примеры конституционного ИИ в больших языковых моделях

Конституционный подход к ИИ от OpenAI

Этические модели ИИ от Anthropic

Применение конституционного ИИ в компьютерном зрении

Основные выводы

Читать больше в этой категории

Развертывание моделей Ultralytics YOLO с помощью интеграции ExecuTorch

Руководство по архитектуре U-Net и ее приложениям

Популярные модели OCR с открытым исходным кодом и принципы их работы

Давайте строить будущее
ИИ вместе!

Конституционный ИИ направлен на приведение моделей ИИ в соответствие с человеческими ценностями

Что такое конституционный ИИ?

Как работает конституционный ИИ?

Основные принципы этичного проектирования ИИ

Примеры конституционного ИИ в больших языковых моделях

Конституционный подход к ИИ от OpenAI

Этические модели ИИ от Anthropic

Применение конституционного ИИ в компьютерном зрении

Основные выводы

Читать больше в этой категории

Развертывание моделей Ultralytics YOLO с помощью интеграции ExecuTorch

Руководство по архитектуре U-Net и ее приложениям

Популярные модели OCR с открытым исходным кодом и принципы их работы

Давайте строить будущее ИИ вместе!

Давайте строить будущее
ИИ вместе!