헌법적 AI가 모델을 미리 정의된 원칙 및 인간 가치에 맞춰 윤리적이고 안전하며 편향 없는 AI 결과를 보장하는 방법을 알아보세요.
헌법적 인공지능(CAI)은 사전 정의된 원칙 집합—즉 "헌법"—을 학습 과정에 직접 내장함으로써 인공지능(AI) 시스템을 인간 가치와 일치시키도록 설계된 특수 훈련 방법론입니다. 모든 특정 출력에 대해 인간의 피드백에 크게 의존하는 기존 방법과 달리, CAI는 모델이 유용성, 정직성, 무해성 같은 명시적 규칙에 기반해 자신의 행동을 비판하고 수정할 수 있게 합니다. 이 접근법은 정렬 과정을 자동화함으로써 AI 안전성의 확장성 문제를 해결하며, 개발자가 데이터 라벨링 과정에서 인간 주석자가 유해하거나 불쾌한 콘텐츠에 노출되지 않도록 하면서도 윤리적 지침을 준수하는 유능한 보조 시스템을 훈련할 수 있게 합니다.
헌법적 인공지능의 워크플로는 일반적으로 자기 개선 루프를 통합함으로써 표준 감독 학습을 넘어섭니다. 이 과정은 일반적으로 모델의 의사 결정 능력을 정교화하는 두 가지 별개의 단계로 구분됩니다:
CAI와 인간 피드백 기반 강화 학습(RLHF)을 구분하는 것이 중요합니다. 이는 서로 다른 정렬 전략을 나타내기 때문입니다.
헌법적 인공지능은 대규모 언어 모델(LLM) 의 맥락에서 비롯되었으며, 이러한 모델은 Anthropic과 같은 기관에서 개발한 대규모 언어 모델 (LLM)의 맥락에서 비롯되었지만, 그 원칙은 컴퓨터 비전(CV)을 포함한 더 광범위한 기계 학습 작업에 점점 더 관련성이 높아지고 있습니다.
완전한 헌법적 AI 훈련에는 복잡한 피드백 루프가 수반되지만, 개발자는 추론 과정에서 "헌법적 검증" 개념을 적용하여 안전 정책에 기반해 출력을 필터링할 수 있습니다. 다음 예시는 YOLO26을 사용해 detect 신뢰도 낮은 탐지 결과를 필터링하는 안전 규칙을 적용하는 방식으로, 신뢰성 헌법을 모방한 사례를 보여줍니다.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://docs.ultralytics.com/usage/python/")
# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
# Filter boxes with confidence > 0.5 to ensure reliability
safe_boxes = [box for box in result.boxes if box.conf > 0.5]
print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
# Further processing would only use 'safe_boxes'
모델이 다음과 같은 방향으로 진화함에 따라 인공 일반 지능(AGI)으로 진화함에 따라 헌법 AI와 같은 강력한 정렬 전략의 중요성이 커지고 있습니다. 이러한 방법은 다음과 같은 경우에 필수적입니다. 다음과 같은 기관의 새로운 표준을 준수하는 데 필수적입니다. NIST AI 안전 연구소.
Ultralytics 데이터 거버넌스 및 모델 모니터링 관리 도구를 제공하여 책임 있는 AI 시스템 구축을 지원합니다. 데이터 수집부터 모델 배포에이르는 AI 개발 라이프사이클 전반에 이러한 윤리적 고려 사항을 통합함으로써 조직은 위험을 완화하고 자사 기술이 사회에 긍정적으로 기여하도록 보장할 수 있습니다.