Узнайте, как Constitutional AI обеспечивает этичные, безопасные и непредвзятые результаты ИИ, приводя модели в соответствие с предопределенными принципами и человеческими ценностями.
Конституционный ИИ (КАИ) - это методология обучения, разработанная для согласования системы искусственного интеллекта (ИИ) с человеческими ценностями путем встраивания заранее определенного набора правил, или "конституции", непосредственно в процесс обучения. процесс обучения. В отличие от традиционных подходов, которые в значительной степени зависят от обратной связи с человеком для каждого конкретного результата, CAI позволяет модели модель критиковать и пересматривать собственное поведение, основываясь на таких принципах, как полезность, честность и безвредность. Этот подход удовлетворяет растущую потребность в безопасности ИИ, поскольку автоматизации процесса согласования, что позволяет обучать способных помощников, соблюдающих этические принципы не требуя неуправляемого контроля со стороны человека. Регулируя поведение модели с помощью явных инструкций, разработчики смогут уменьшить предвзятость алгоритмов и предотвратить создание токсичного или небезопасного контента.
Процесс работы над конституционным ИИ обычно включает в себя два отдельных этапа, которые выходят за рамки стандартного контролируемого обучения. Эти этапы позволяют модели модели обучаться на основе собственных отзывов, руководствуясь конституцией, а не только на основе внешних человеческих оценок.
Очень важно отличать CAI от Обучение с подкреплением на основе человеческой обратной связи (RLHF), поскольку они представляют собой разные стратегии выравнивания.
Хотя конституциональный ИИ зародился в контексте Большие языковые модели (LLM), разработанные такими организациями, как Anthropic, его принципы все чаще адаптируются для решения более широких задач машинного обучения, включая Компьютерное зрение (CV).
Хотя полноценное обучение конституционного ИИ предполагает сложные циклы обратной связи, разработчики могут применять концепцию "конституционных проверок" во время для фильтрации результатов на основе политики безопасности политики безопасности. Следующий пример демонстрирует использование YOLO11 для detect объектов и применения гипотетического правила безопасности для фильтрации маловероятных обнаружений, обеспечивая высокую надежность.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
# Filter boxes with confidence > 0.5 to ensure reliability
safe_boxes = [box for box in result.boxes if box.conf > 0.5]
print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
# Further processing would only use 'safe_boxes'
По мере того как модели развиваются в направлении искусственного общего интеллекта (ИОИ), возрастает важность надежных стратегий выравнивания, таких как конституционный ИИ. Эти методы необходимы для соответствия новым стандартам, разработанным такими организациями, как NIST AI Safety Institute.
Ultralytics активно изучает возможности интеграции функций безопасности и выравнивания в жизненный цикл модели. На сайте Готовящаяся архитектура YOLO26, которая в настоящее время находится в стадии разработки, нацелена на включение расширенных возможностей интерпретации функции интерпретируемости, которые соответствуют этим целям безопасности, обеспечивая развертывание моделей остается безопасным и эффективным во всех отраслях. Кроме того, единая платформа Ultralytics Platform предоставит инструменты для управления данными и мониторинга поведения моделей, что облегчит создание ответственных систем искусственного интеллекта.