Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Конституционный ИИ

Узнайте, как Constitutional AI обеспечивает этичные, безопасные и непредвзятые результаты ИИ, приводя модели в соответствие с предопределенными принципами и человеческими ценностями.

Конституционный ИИ (КАИ) - это методология обучения, разработанная для согласования системы искусственного интеллекта (ИИ) с человеческими ценностями путем встраивания заранее определенного набора правил, или "конституции", непосредственно в процесс обучения. процесс обучения. В отличие от традиционных подходов, которые в значительной степени зависят от обратной связи с человеком для каждого конкретного результата, CAI позволяет модели модель критиковать и пересматривать собственное поведение, основываясь на таких принципах, как полезность, честность и безвредность. Этот подход удовлетворяет растущую потребность в безопасности ИИ, поскольку автоматизации процесса согласования, что позволяет обучать способных помощников, соблюдающих этические принципы не требуя неуправляемого контроля со стороны человека. Регулируя поведение модели с помощью явных инструкций, разработчики смогут уменьшить предвзятость алгоритмов и предотвратить создание токсичного или небезопасного контента.

Как работает Конституционный ИИ

Процесс работы над конституционным ИИ обычно включает в себя два отдельных этапа, которые выходят за рамки стандартного контролируемого обучения. Эти этапы позволяют модели модели обучаться на основе собственных отзывов, руководствуясь конституцией, а не только на основе внешних человеческих оценок.

  1. Контролируемое обучение с самокритикой: Модель генерирует ответы на подсказки, а затем критикует свой собственный результат, основываясь на принципах конституции. Если ответ нарушает какое-либо правило - например, является грубым или например, грубость или предвзятость, модель пересматривает его. Таким образом создается высококачественная база данных соответствующих примеров для обучения модели.
  2. Обучение с подкреплением на основе обратной связи ИИ (RLAIF): На этом этапе модель или отдельная модель обратной связи оценивает пары ответов и выбирает тот, который лучше соответствует конституции. Эти данные о предпочтениях используются для обучения модели предпочтений, которая затем направляет основную модель с помощью Обучение с подкреплением. Это эффективно заменяет человеческие метки предпочтений на сгенерированные ИИ, упрощая процесс тонкой настройки.

Конституционный ИИ против RLHF

Очень важно отличать CAI от Обучение с подкреплением на основе человеческой обратной связи (RLHF), поскольку они представляют собой разные стратегии выравнивания.

  • RLHF: полагается на людей-аннотаторов, которые вручную оценивают результаты работы моделей. Несмотря на свою эффективность, этот процесс трудно масштабировать, и во время маркировки данных работники могут подвергаться воздействию тревожного или травмирующего контента. маркировки данных.
  • Конституционный ИИ: использует RLAIF для автоматизации обратной связи. Определяя "конституцию" в явном виде, разработчики получают большую прозрачности в поведении ИИ, поскольку правила определяющие решения, написаны открытым текстом, а не выучены неявно из тысяч индивидуальных человеческих оценок. Это повышает масштабируемость и защищает людей аннотаторов.

Применение в реальном мире

Хотя конституциональный ИИ зародился в контексте Большие языковые модели (LLM), разработанные такими организациями, как Anthropic, его принципы все чаще адаптируются для решения более широких задач машинного обучения, включая Компьютерное зрение (CV).

  • Этичные чатботы: CAI широко используется для обучения разговорных агентов, которые отказываются генерировать ненавистническую речь, инструкции к незаконным действиям или политически предвзятый контент. Это гарантирует, что что инструменты генеративного ИИ остаются безопасными для публичного развертывания.
  • Критически важные системы технического зрения: В автономных транспортных средствах "конституционный" подход может определять иерархические правила принятия решений. Например, правило, гласящее. "безопасность человека превыше эффективности движения" может служить руководством для модели при анализе сложных дорожных сцен, обеспечивая, чтобы результаты обнаружения объектов интерпретации результатов обнаружения объектов с учетом приоритета безопасности.

Реализация проверок политики в выводах

Хотя полноценное обучение конституционного ИИ предполагает сложные циклы обратной связи, разработчики могут применять концепцию "конституционных проверок" во время для фильтрации результатов на основе политики безопасности политики безопасности. Следующий пример демонстрирует использование YOLO11 для detect объектов и применения гипотетического правила безопасности для фильтрации маловероятных обнаружений, обеспечивая высокую надежность.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Будущее выравнивания ИИ

По мере того как модели развиваются в направлении искусственного общего интеллекта (ИОИ), возрастает важность надежных стратегий выравнивания, таких как конституционный ИИ. Эти методы необходимы для соответствия новым стандартам, разработанным такими организациями, как NIST AI Safety Institute.

Ultralytics активно изучает возможности интеграции функций безопасности и выравнивания в жизненный цикл модели. На сайте Готовящаяся архитектура YOLO26, которая в настоящее время находится в стадии разработки, нацелена на включение расширенных возможностей интерпретации функции интерпретируемости, которые соответствуют этим целям безопасности, обеспечивая развертывание моделей остается безопасным и эффективным во всех отраслях. Кроме того, единая платформа Ultralytics Platform предоставит инструменты для управления данными и мониторинга поведения моделей, что облегчит создание ответственных систем искусственного интеллекта.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас