Yolo 비전 선전
선전
지금 참여하기
용어집

헌법적 AI

헌법적 AI가 모델을 미리 정의된 원칙 및 인간 가치에 맞춰 윤리적이고 안전하며 편향 없는 AI 결과를 보장하는 방법을 알아보세요.

구성적 AI(CAI)는 학습 방법론입니다. 인공 지능(AI) 시스템 사전 정의된 규칙 집합, 즉 '헌법'을 훈련 과정에 직접 포함시켜 인간의 가치에 맞게 조정하도록 설계된 프로세스. 모든 특정 결과에 대해 사람의 피드백에 크게 의존하는 기존 접근 방식과 달리 CAI는 모델이 유용성, 정직성, 무해성 등의 원칙에 따라 자신의 행동을 비판하고 수정할 수 있습니다. 이 접근 방식은 다음과 같은 방식으로 AI 안전에 대한 증가하는 요구를 해결합니다. 조정 프로세스를 자동화하여 윤리적 가이드라인을 준수하는 유능한 어시스턴트를 훈련할 수 있습니다. 윤리적 가이드라인을 준수하는 유능한 어시스턴트를 양성할 수 있습니다. 명시적인 지침을 통해 모델의 행동을 관리함으로써 지침을 통해 모델의 행동을 관리함으로써 개발자는 알고리즘의 편견을 줄이고 유해하거나 안전하지 않은 콘텐츠의 생성을 방지할 수 있습니다.

Constitutional AI는 어떻게 작동하나요?

헌법 AI의 워크플로에는 일반적으로 표준을 뛰어넘는 두 가지 단계가 포함됩니다. 감독 학습. 이러한 단계를 통해 모델이 외부의 인간 레이블이 아닌 체질에 따라 자체 피드백을 통해 학습할 수 있도록 합니다.

  1. 자기 비평을 통한 지도 학습: 이 모델은 프롬프트에 대한 응답을 생성한 다음 헌법의 원칙에 따라 응답을 생성한 다음 헌장의 원칙에 따라 자체적으로 비판합니다. 응답이 무례하거나 편견이 있는 등 규칙을 위반하는 경우(예: 무례하거나 응답이 무례하거나 편향된 등 규칙을 위반하는 경우 모델이 이를 수정합니다. 이렇게 하면 규칙을 준수하는 고품질의 예시 데이터 세트가 생성됩니다. 모델 학습.
  2. AI 피드백을 통한 강화 학습(RLAIF): 이 단계에서는 모델 또는 별도의 피드백 모델이 응답 쌍을 평가하여 구성에 더 잘 부합하는 응답을 선택합니다. 이 선호도 데이터 은 선호도 모델을 훈련하는 데 사용되며, 이 모델은 다음을 사용하여 기본 모델을 안내합니다. 강화 학습. 이를 통해 효과적으로 사람의 선호도 라벨을 AI가 생성한 라벨로 대체하여 미세 조정 프로세스를 간소화합니다.

헌법 AI와 RLHF

CAI는 다음과 구별하는 것이 중요합니다. 강화 학습을 통한 휴먼 피드백(RLHF)과 구별하는 것이 중요합니다. 왜냐하면 이 둘은 서로 다른 정렬 전략을 대표하기 때문입니다.

  • RLHF: 모델 결과물을 수동으로 평가하기 위해 인간 어노테이터에 의존합니다. 이 프로세스는 효과적이기는 하지만 확장하기 어렵고, 데이터 라벨링 작업 중에 작업자가 불안하거나 충격적인 콘텐츠에 노출될 수 있습니다. 데이터 라벨링.
  • 헌법 AI: RLAIF를 사용하여 피드백 루프를 자동화합니다. "구성"을 명시적으로 정의함으로써 "헌법"을 명시적으로 정의함으로써 개발자는 더 큰 AI 행동의 투명성을 높일 수 있습니다. 결정을 내리는 규칙이 수천 명의 개별 인간으로부터 암묵적으로 학습되는 것이 아니라 명확한 텍스트로 작성되기 때문에 평가. 이를 통해 확장성이 향상되고 인간 주석자를 보호합니다.

실제 애플리케이션

헌법 AI는 다음과 같은 맥락에서 시작되었지만 대규모 언어 모델(LLM) 의 맥락에서 시작되었지만 같은 조직에서 개발한 Anthropic과 같은 조직에서 개발된 대규모 언어 모델(LLM)의 맥락에서 시작되었지만, 그 원리는 점점 더 다음과 같은 광범위한 머신 러닝 작업에 적용되고 있습니다. 컴퓨터 비전(CV).

  • 윤리적 챗봇: CAI는 혐오 발언, 불법 행위 지시, 정치적 콘텐츠 생성을 거부하는 대화형 에이전트를 훈련하는 데 광범위하게 사용됩니다. 혐오 발언, 불법 행위에 대한 지시 또는 정치적으로 편향된 콘텐츠를 생성하지 않도록 대화 에이전트를 훈련하는 데 사용됩니다. 이를 통해 생성 AI 도구를 대중에게 안전하게 배포할 수 있습니다.
  • 안전에 중요한 비전 시스템: In 자율 주행 차량에서는 "헌법적" 접근 방식은 의사 결정을 위한 계층적 규칙을 정의할 수 있습니다. 예를 들어, 다음과 같은 규칙을 정의할 수 있습니다. "사람의 안전이 교통 효율보다 우선한다"는 규칙은 복잡한 도로 장면을 분석할 때 모델을 안내할 수 있습니다, 물체 감지 결과가 안전을 최우선으로 해석하도록 모델을 안내할 수 있습니다.

추론에서 정책 검사 구현하기

전체 체질 AI 학습에는 복잡한 피드백 루프가 필요하지만, 개발자는 다음과 같은 개념을 적용할 수 있습니다. "체질 검사" 개념을 추론하여 안전에 따라 출력을 필터링하는 정책을 기반으로 출력을 필터링할 수 있습니다. 다음 예시에서는 YOLO11 을 사용하여 객체를 detect 가상의 안전 규칙을 적용하여 신뢰도가 낮은 감지를 필터링하여 높은 신뢰도를 보장하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable Ultralytics release)
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

AI 얼라이언스의 미래

모델이 다음과 같은 방향으로 진화함에 따라 인공 일반 지능(AGI)으로 진화함에 따라 헌법 AI와 같은 강력한 정렬 전략의 중요성이 커지고 있습니다. 이러한 방법은 다음과 같은 경우에 필수적입니다. 다음과 같은 기관의 새로운 표준을 준수하는 데 필수적입니다. NIST AI 안전 연구소.

Ultralytics 안전 및 정렬 기능을 모델 라이프사이클에 통합하는 방법을 적극적으로 연구하고 있습니다. 현재 연구개발 중인 현재 연구개발 중인 YOLO26 아키텍처는 이러한 안전 목표에 부합하는 고급 해석 가능성 기능을 통합하여 다음과 같은 안전 목표를 달성하는 것을 목표로 합니다. 모델 배포를 안전하고 효율적으로 유지 모델 배포가 안전하고 효율적으로 유지되도록 보장하는 것을 목표로 합니다. 또한, 통합된 Ultralytics 플랫폼은 데이터 거버넌스를 관리하고 모델 동작을 모니터링하여 책임감 있는 AI 시스템을 구축할 수 있도록 지원합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기