YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

헌법적 AI

헌법적 AI가 모델을 미리 정의된 원칙 및 인간 가치에 맞춰 윤리적이고 안전하며 편향 없는 AI 결과를 보장하는 방법을 알아보세요.

Constitutional AI(CAI)는 Anthropic에서 AI 모델, 특히 대규모 언어 모델(LLM)을 특정 규칙 또는 원칙(일명 "헌법")에 맞게 훈련하기 위해 개발한 방법입니다. CAI의 주요 목표는 광범위한 인간 피드백 없이도 AI 시스템을 유용하고 무해하며 더 제어하기 쉽게 만드는 것입니다. 인간이 지속적으로 유해한 출력을 라벨링하는 대신 AI는 헌법의 지침 원칙에 따라 자체 응답을 비판하고 수정하는 방법을 학습합니다. 이 접근 방식은 유해 콘텐츠 생성 방지 및 알고리즘 편향 감소와 같은 AI 윤리의 주요 과제를 해결하는 데 도움이 됩니다.

Constitutional AI는 어떻게 작동하나요?

CAI 훈련 프로세스는 일반적으로 두 가지 주요 단계로 구성됩니다.

  1. 지도 학습 단계: спочатку 기반 모델에 응답을 생성하라는 메시지가 표시됩니다. 그런 다음 동일한 모델에 헌법에 따라 자체 응답을 비판하고 원칙에 더 잘 부합하도록 다시 작성하도록 요청합니다. 이를 통해 개선된 헌법에 부합하는 예제의 새로운 데이터 세트가 생성됩니다. 이 자체 비판 메커니즘은 간단한 규칙 목록이거나 UN 인권 선언과 같은 복잡한 소스에서 가져올 수 있는 헌법에 의해 안내됩니다.
  2. 강화 학습 단계: 그런 다음 강화 학습(RL)을 사용하여 모델을 미세 조정합니다. 이 단계에서 AI는 응답 쌍을 생성하고 (첫 번째 단계의 자체 비판 데이터에서 훈련된) 선호도 모델은 헌법을 가장 잘 준수하는 응답을 선택합니다. 이 프로세스는 AI가 핵심 원칙과 일치하는 출력을 본질적으로 선호하도록 가르칩니다.

CAI의 주요 실제 사례는 Anthropic의 AI 어시스턴트인 Claude에 구현된 것입니다. Claude의 구성은 유해한 지침을 생성하지 않고, 불법적인 활동에 관여하지 않으며, 유해하지 않은 방식으로 소통하면서도 유용성을 유지하도록 안내합니다. 또 다른 응용 분야는 자동화된 콘텐츠 조정으로, CAI 기반 모델을 사용하여 미리 정의된 윤리적 지침에 따라 온라인에서 혐오 발언이나 허위 정보를 식별하고 플래그를 지정할 수 있습니다.

헌법적 AI vs. 관련 개념

CAI를 유사한 용어와 구별하는 것이 중요합니다.

  • 인간 피드백 기반 강화 학습(RLHF): RLHF는 AI가 생성한 응답에 대한 피드백 제공 및 순위 결정에 인간을 활용하므로 시간이 오래 걸리고 확장하기 어렵습니다. CAI는 인간 피드백 루프를 AI 기반 루프로 대체하며, 여기서 모델의 구성이 피드백을 안내합니다. 이를 통해 정렬 프로세스를 더욱 확장 가능하고 일관성 있게 만듭니다.
  • AI 윤리(AI Ethics): 이는 책임감 있는 AI를 만드는 데 있어 도덕적 원칙과 기술적 문제와 관련된 광범위한 분야입니다. Constitutional AI는 명시적인 윤리적 규칙을 모델의 훈련 과정에 직접 포함시켜 AI 윤리를 구현하는 실질적인 프레임워크로 볼 수 있습니다.

응용 분야 및 미래 잠재력

현재 Constitutional AI는 주로 대화 생성 및 텍스트 요약과 같은 작업에 LLM에 적용됩니다. 그러나 기본 원리는 컴퓨터 비전(CV)을 포함한 다른 AI 영역으로 확장될 가능성이 있습니다. 예를 들어:

효과적인 규칙의 개발 및 개선과 AI가 다양한 컨텍스트에서 규칙을 충실히 준수하도록 보장하는 것은 Google AIAI 안전 연구소와 같은 조직 내에서 활발히 연구되는 분야입니다. Ultralytics HUB와 같은 도구는 다양한 AI 모델의 학습 및 배포를 용이하게 하며, Constitutional AI와 유사한 원칙을 통합하는 것은 책임감 있는 모델 배포를 보장하는 데 점점 더 중요해질 것입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.