Yolo 비전 선전
선전
지금 참여하기
용어집

헌법적 AI

헌법적 AI가 모델을 미리 정의된 원칙 및 인간 가치에 맞춰 윤리적이고 안전하며 편향 없는 AI 결과를 보장하는 방법을 알아보세요.

헌법적 인공지능(CAI)은 사전 정의된 원칙 집합—즉 "헌법"—을 학습 과정에 직접 내장함으로써 인공지능(AI) 시스템을 인간 가치와 일치시키도록 설계된 특수 훈련 방법론입니다. 모든 특정 출력에 대해 인간의 피드백에 크게 의존하는 기존 방법과 달리, CAI는 모델이 유용성, 정직성, 무해성 같은 명시적 규칙에 기반해 자신의 행동을 비판하고 수정할 수 있게 합니다. 이 접근법은 정렬 과정을 자동화함으로써 AI 안전성의 확장성 문제를 해결하며, 개발자가 데이터 라벨링 과정에서 인간 주석자가 유해하거나 불쾌한 콘텐츠에 노출되지 않도록 하면서도 윤리적 지침을 준수하는 유능한 보조 시스템을 훈련할 수 있게 합니다.

메커니즘: 지도 학습과 RLAIF

헌법적 인공지능의 워크플로는 일반적으로 자기 개선 루프를 통합함으로써 표준 감독 학습을 넘어섭니다. 이 과정은 일반적으로 모델의 의사 결정 능력을 정교화하는 두 가지 별개의 단계로 구분됩니다:

  1. 자기 비판을 통한 지도 학습: 모델은 프롬프트에 대한 응답을 생성한 후, 자신의 헌장에 명시된 원칙에 따라 자체 출력을 비판합니다. 예를 들어 알고리즘적 편향을보여주는 등 응답이 규칙을 위반할 경우, 모델은 이를 수정합니다. 이를 통해 추가 모델 훈련을 위한 고품질의 준수 사례 데이터셋이 생성됩니다.
  2. 인공지능 피드백 기반 강화 학습(RLAIF): 이 단계에서 모델은 응답 쌍을 평가하여 헌법에 더 부합하는 응답을 선택합니다. 이 선호도 데이터는 선호도 모델을 훈련하는 데 사용되며, 이 모델은 강화 학습을 통해 주 모델을 안내합니다. 이는 효과적으로 인간 선호도 라벨을 인공지능 생성 라벨로 대체하여 미세 조정 과정을 간소화합니다.

헌법 AI와 RLHF

CAI와 인간 피드백 기반 강화 학습(RLHF)을 구분하는 것이 중요합니다. 이는 서로 다른 정렬 전략을 나타내기 때문입니다.

  • RLHF: 모델 출력물을 수동으로 평가하기 위해 인간 주석 작업자에 의존합니다. 효과적이긴 하지만, 이 과정은 자원 집약적이며 확장하기 어렵습니다. 또한 유해한 콘텐츠를 검토하여 안전하지 않다고 표시해야 하는 작업자들에게 심리적으로 부담이 될 수 있습니다.
  • 헌법적 AI: RLAIF를 활용해 피드백 루프를 자동화합니다. "헌법"을 명시적으로 정의함으로써 개발자는 AI 행동에 대한 더 큰 투명성을 확보합니다. 의사결정을 주도하는 규칙들은 수천 건의 불투명한 인간 평가로부터 암묵적으로 학습되는 대신 명확한 자연어로 작성됩니다. 이는 확장성과 일관성을 향상시킵니다.

실제 애플리케이션

헌법적 인공지능은 대규모 언어 모델(LLM) 의 맥락에서 비롯되었으며, 이러한 모델은 Anthropic과 같은 기관에서 개발한 대규모 언어 모델 (LLM)의 맥락에서 비롯되었지만, 그 원칙은 컴퓨터 비전(CV)을 포함한 더 광범위한 기계 학습 작업에 점점 더 관련성이 높아지고 있습니다.

  • 윤리적 챗봇: CAI는 증오 발언, 불법 행위 지시 또는 정치적 편향 콘텐츠 생성을 거부하는 대화형 에이전트 훈련에 광범위하게 활용됩니다. 이를 통해 생성형 AI 도구가 공공 배포에 안전하게 유지되고 EU AI 법과 같은 규정을 준수하도록 보장합니다.
  • 안전에 중요한 비전 시스템: In 자율 주행 차량에서는 "헌법적" 접근 방식은 의사 결정을 위한 계층적 규칙을 정의할 수 있습니다. 예를 들어, 다음과 같은 규칙을 정의할 수 있습니다. "사람의 안전이 교통 효율보다 우선한다"는 규칙은 복잡한 도로 장면을 분석할 때 모델을 안내할 수 있습니다, 물체 감지 결과가 안전을 최우선으로 해석하도록 모델을 안내할 수 있습니다.

비전 AI에서 정책 검증 구현하기

완전한 헌법적 AI 훈련에는 복잡한 피드백 루프가 수반되지만, 개발자는 추론 과정에서 "헌법적 검증" 개념을 적용하여 안전 정책에 기반해 출력을 필터링할 수 있습니다. 다음 예시는 YOLO26을 사용해 detect 신뢰도 낮은 탐지 결과를 필터링하는 안전 규칙을 적용하는 방식으로, 신뢰성 헌법을 모방한 사례를 보여줍니다.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://docs.ultralytics.com/usage/python/")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

정렬의 미래

모델이 다음과 같은 방향으로 진화함에 따라 인공 일반 지능(AGI)으로 진화함에 따라 헌법 AI와 같은 강력한 정렬 전략의 중요성이 커지고 있습니다. 이러한 방법은 다음과 같은 경우에 필수적입니다. 다음과 같은 기관의 새로운 표준을 준수하는 데 필수적입니다. NIST AI 안전 연구소.

Ultralytics 데이터 거버넌스 및 모델 모니터링 관리 도구를 제공하여 책임 있는 AI 시스템 구축을 지원합니다. 데이터 수집부터 모델 배포에이르는 AI 개발 라이프사이클 전반에 이러한 윤리적 고려 사항을 통합함으로써 조직은 위험을 완화하고 자사 기술이 사회에 긍정적으로 기여하도록 보장할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기