헌법적 AI가 모델을 미리 정의된 원칙 및 인간 가치에 맞춰 윤리적이고 안전하며 편향 없는 AI 결과를 보장하는 방법을 알아보세요.
Constitutional AI(CAI)는 Anthropic에서 AI 모델, 특히 대규모 언어 모델(LLM)을 특정 규칙 또는 원칙(일명 "헌법")에 맞게 훈련하기 위해 개발한 방법입니다. CAI의 주요 목표는 광범위한 인간 피드백 없이도 AI 시스템을 유용하고 무해하며 더 제어하기 쉽게 만드는 것입니다. 인간이 지속적으로 유해한 출력을 라벨링하는 대신 AI는 헌법의 지침 원칙에 따라 자체 응답을 비판하고 수정하는 방법을 학습합니다. 이 접근 방식은 유해 콘텐츠 생성 방지 및 알고리즘 편향 감소와 같은 AI 윤리의 주요 과제를 해결하는 데 도움이 됩니다.
CAI 훈련 프로세스는 일반적으로 두 가지 주요 단계로 구성됩니다.
CAI의 주요 실제 사례는 Anthropic의 AI 어시스턴트인 Claude에 구현된 것입니다. Claude의 구성은 유해한 지침을 생성하지 않고, 불법적인 활동에 관여하지 않으며, 유해하지 않은 방식으로 소통하면서도 유용성을 유지하도록 안내합니다. 또 다른 응용 분야는 자동화된 콘텐츠 조정으로, CAI 기반 모델을 사용하여 미리 정의된 윤리적 지침에 따라 온라인에서 혐오 발언이나 허위 정보를 식별하고 플래그를 지정할 수 있습니다.
CAI를 유사한 용어와 구별하는 것이 중요합니다.
현재 Constitutional AI는 주로 대화 생성 및 텍스트 요약과 같은 작업에 LLM에 적용됩니다. 그러나 기본 원리는 컴퓨터 비전(CV)을 포함한 다른 AI 영역으로 확장될 가능성이 있습니다. 예를 들어:
효과적인 규칙의 개발 및 개선과 AI가 다양한 컨텍스트에서 규칙을 충실히 준수하도록 보장하는 것은 Google AI 및 AI 안전 연구소와 같은 조직 내에서 활발히 연구되는 분야입니다. Ultralytics HUB와 같은 도구는 다양한 AI 모델의 학습 및 배포를 용이하게 하며, Constitutional AI와 유사한 원칙을 통합하는 것은 책임감 있는 모델 배포를 보장하는 데 점점 더 중요해질 것입니다.