Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Узнайте, как конституционный ИИ помогает моделям следовать этическим правилам, принимать более безопасные решения и поддерживать справедливость в языковых системах и системах компьютерного зрения.
Искусственный интеллект (ИИ) быстро становится ключевой частью нашей повседневной жизни. Он интегрируется в инструменты, используемые в таких областях, как здравоохранение, подбор персонала, финансы и общественная безопасность. По мере развития этих систем все чаще высказываются опасения по поводу их этичности и надежности.
Например, иногда системы искусственного интеллекта, созданные без учета принципов справедливости и безопасности, могут давать необъективные или ненадежные результаты. Это происходит потому, что многие модели до сих пор не имеют четкого способа отражения и согласования с человеческими ценностями.
Для решения этих проблем исследователи сейчас изучают подход, известный как конституционный ИИ. Проще говоря, он вводит в процесс обучения модели записанный набор принципов. Эти принципы помогают модели оценивать собственное поведение, меньше полагаться на обратную связь от человека, а также делают ответы более безопасными и понятными.
До сих пор этот подход использовался в основном в отношении больших языковых моделей (LLM). Однако та же структура может помочь системам компьютерного зрения принимать этические решения при анализе визуальных данных.
В этой статье мы узнаем, как работает конституциональный ИИ, рассмотрим реальные примеры и обсудим возможности его применения в системах компьютерного зрения.
Рис. 1. Характеристики конституционного ИИ. Изображение автора.
Что такое конституционный искусственный интеллект?
Конституционный ИИ - это метод обучения моделей, который направляет поведение моделей ИИ, предоставляя четкий набор этических правил. Эти правила действуют как кодекс поведения. Вместо того чтобы полагаться на то, что модель сама сделает вывод о том, что приемлемо, она следует написанному набору принципов, которые формируют ее реакцию в процессе обучения.
Эта концепция была представлена компанией Anthropic, специализирующейся на исследованиях в области безопасности ИИ, которая разработала семейство Claude LLM в качестве метода, позволяющего сделать системы ИИ более самоконтролируемыми в принятии решений.
Вместо того чтобы полагаться исключительно на обратную связь с человеком, модель учится критиковать и совершенствовать свои собственные ответы на основе заранее определенного набора принципов. Этот подход похож на правовую систему, где судья, прежде чем вынести решение, обращается к конституции.
В этом случае модель становится одновременно и судьей, и учеником, используя один и тот же набор правил для анализа и совершенствования собственного поведения. Этот процесс усиливает согласованность моделей ИИ и способствует разработке безопасных и ответственных систем ИИ.
Как работает конституционный искусственный интеллект?
Цель конституционного ИИ - научить модель ИИ принимать безопасные и справедливые решения, следуя четкому набору записанных правил. Вот простая схема того, как работает этот процесс:
Определение конституции: Составляется письменный список этических принципов, которым должна следовать модель. В конституции описывается, чего должна избегать ИИ и какие ценности она должна отражать.
Обучение с под наблюдением примерами: Модели показываются примеры ответов, которые соответствуют конституции. Эти примеры помогают ИИ понять, как выглядит приемлемое поведение.
Распознавание и применение закономерностей: Со временем модель начинает улавливать эти закономерности. Она учится применять одни и те же значения при ответе на новые вопросы или в новых ситуациях.
Критика и уточнение результатов: Модель анализирует свои собственные ответы и корректирует их на основе полученных данных. Этот этап самоанализа помогает ей совершенствоваться, не полагаясь только на отзывы людей.
Выработка согласованных и более безопасных ответов: Модель обучается на основе последовательных правил, что позволяет снизить предвзятость и повысить надежность в реальных условиях. Такой подход позволяет в большей степени учитывать человеческие ценности и облегчает управление.
Рис. 2. Обзор использования конституционального ИИ для обучения моделей.
Основные принципы этичного проектирования ИИ
Чтобы модель ИИ следовала этическим правилам, эти правила должны быть четко определены. Когда речь идет о конституционном ИИ, эти правила основываются на наборе основных принципов.
Вот, например, четыре принципа, которые лежат в основе эффективной конституции ИИ:
Прозрачность: Должно быть легко понять, как модель пришла к тому или иному ответу. Если ответ основан на фактах, оценках или закономерностях, он должен быть прозрачным для пользователя. Это укрепляет доверие и помогает людям понять, можно ли полагаться на результаты модели.
Равенство: Ответы должны быть одинаковыми для разных пользователей. Модель не должна менять свои результаты в зависимости от имени, происхождения или местоположения человека. Равенство помогает предотвратить предвзятость и способствует равному отношению.
Подотчетность: Должен быть способ отследить, как модель обучалась и что повлияло на ее поведение. Когда что-то идет не так, команды должны иметь возможность определить причину и устранить ее. Это способствует прозрачности и долгосрочной подотчетности.
Безопасность: Модели должны избегать создания контента, который может причинить вред. Если запрос приводит к рискованным или небезопасным результатам, система должна распознать это и остановиться. Это защищает как пользователя, так и целостность системы.
Примеры конституционного ИИ в больших языковых моделях
Конституционный ИИ перешел от теории к практике и теперь постепенно используется в крупных моделях, взаимодействующих с миллионами пользователей. Два наиболее распространенных примера - LLM от OpenAI и Anthropic.
Хотя обе организации применяют разные подходы к созданию более этичных систем искусственного интеллекта, их объединяет общая идея: научить модель следовать набору записанных руководящих принципов. Давайте рассмотрим эти примеры подробнее.
Подход OpenAI к конституционному искусственному интеллекту
OpenAI ввела документ под названием Model Spec как часть процесса обучения своих моделей ChatGPT. Этот документ действует как конституция. В нем описывается, к чему должна стремиться модель в своих ответах, включая такие ценности, как полезность, честность и безопасность. В нем также определено, что считается вредным или вводящим в заблуждение результатом.
Эта система использовалась для тонкой настройки моделей OpenAI, оценивая ответы в зависимости от того, насколько они соответствуют правилам. Со временем это помогло сформировать ChatGPT таким образом, чтобы он выдавал меньше вредных результатов и лучше соответствовал тому, что на самом деле хотят пользователи.
Рис. 3. Пример ChatGPT, использующего Model Spec от OpenAI для ответа.
Этические модели ИИ от Anthropic
Конституция, которой следует модель Anthropic, Клод, основана на этических принципах из таких источников, как Всеобщая декларация прав человека, правила платформы, такие как условия обслуживания Apple, и исследования других лабораторий ИИ. Эти принципы помогают гарантировать, что ответы Клода будут безопасными, справедливыми и соответствующими важным человеческим ценностям.
Кроме того, Claude использует технологию Reinforcement Learning from AI Feedback (RLAIF), в рамках которой он анализирует и корректирует свои собственные ответы, основываясь на этических рекомендациях, а не полагаясь на отзывы людей. Этот процесс позволяет Claude совершенствоваться с течением времени, что делает его более масштабируемым и позволяет ему лучше давать полезные, этичные и не причиняющие вреда ответы даже в сложных ситуациях.
Рис. 4. Понимание подхода Anthropic к конституционному ИИ.
Применение конституционного ИИ в компьютерном зрении
Поскольку конституциональный ИИ оказывает положительное влияние на поведение языковых моделей, это естественным образом приводит к вопросу: Может ли аналогичный подход помочь системам на основе зрения реагировать более справедливо и безопасно?
Хотя модели компьютерного зрения работают с изображениями, а не с текстом, потребность в этическом руководстве не менее важна. Например, справедливость и предвзятость являются ключевыми факторами, которые необходимо учитывать, поскольку эти системы должны быть обучены одинаково относиться ко всем и избегать вредных или несправедливых результатов при анализе визуальных данных.
Рис. 5. Этические проблемы, связанные с компьютерным зрением. Изображение автора.
В настоящее время использование методов конституционального ИИ в компьютерном зрении все еще изучается и находится на ранних стадиях, а исследования в этой области продолжаются.
Например, компания Meta недавно представила CLUE- фреймворк, применяющий конституционально-подобные рассуждения к задачам безопасности изображений. Она превращает широкие правила безопасности в точные шаги, которым может следовать мультимодальный ИИ (системы ИИ, обрабатывающие и понимающие несколько типов данных). Это помогает системе рассуждать более четко и снижать вредные результаты.
Кроме того, CLUE повышает эффективность суждений о безопасности изображений за счет упрощения сложных правил, позволяя моделям искусственного интеллекта действовать быстро и точно, не требуя значительного участия человека. Используя набор руководящих принципов, CLUE делает системы модерации изображений более масштабируемыми, обеспечивая при этом высокое качество результатов.
Основные выводы
По мере того как системы искусственного интеллекта берут на себя все больше ответственности, внимание смещается с того, что они могут делать, на то, что они должны делать. Этот сдвиг имеет ключевое значение, поскольку такие системы используются в областях, непосредственно влияющих на жизнь людей, таких как здравоохранение, правоохранительные органы и образование.
Чтобы системы искусственного интеллекта действовали адекватно и этично, им необходима прочная и последовательная основа. Приоритетами этой основы должны быть справедливость, безопасность и доверие.
Письменная конституция может стать основой для обучения, направляя процесс принятия решений в системе. Она также может дать разработчикам основу для анализа и корректировки поведения системы после развертывания, обеспечивая ее соответствие ценностям, для поддержания которых она была создана, и облегчая ее адаптацию при возникновении новых проблем.