용어집

헌법 AI

Constitutional AI가 미리 정의된 원칙과 인간의 가치에 따라 모델을 조정하여 윤리적이고 안전하며 편견 없는 AI 결과물을 보장하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

헌법적 AI는 인공 지능(AI) 모델, 특히 대규모 언어 모델(LLM)을 인간의 가치와 윤리적 원칙에 맞게 조정하기 위해 고안된 접근 방식입니다. 이 방법은 인간의 직접적인 피드백에만 의존하여 행동을 유도하는 대신 미리 정의된 규칙이나 원칙, 즉 '헌법'을 사용하여 AI가 학습 과정에서 스스로의 반응을 평가하고 수정하도록 돕습니다. 목표는 유용하고 무해하며 정직한 AI 시스템을 만들어 편향되거나 유해하거나 바람직하지 않은 결과물을 생성할 위험을 줄이는 것입니다. 이 기술은 다음 연구자들이 개척한 기술입니다. Anthropic의 연구원들이 개척한 이 기술은 AI 조정의 확장성을 높이고 광범위한 인간 감독에 대한 의존도를 낮추는 것을 목표로 합니다.

헌법 AI의 작동 방식

헌법 AI의 핵심 아이디어는 두 단계의 훈련 과정을 포함합니다:

  1. 지도 학습 단계: 처음에는 사전 학습된 표준 언어 모델에 잠재적으로 유해하거나 바람직하지 않은 응답을 유도하도록 설계된 시나리오가 표시됩니다. 이 모델은 여러 가지 응답을 생성합니다. 그런 다음 헌장에 명시된 원칙에 따라 다른 AI 모델이 이러한 응답을 비판합니다. AI는 자신의 응답을 비판하여 응답이 원칙을 위반할 수 있는 이유(예: 비합의적이거나 해롭다)를 파악합니다. 그런 다음 모델은 이러한 자체 비평된 응답을 미세 조정하여 헌장에 더 부합하는 결과를 생성하는 방법을 학습합니다. 이 단계에서는 지도 학습 기법을 사용합니다.
  2. 강화 학습 단계: 감독 단계에 이어 강화 학습(RL)을 사용하여 모델을 더욱 정교하게 다듬습니다. 이 단계에서는 AI가 응답을 생성하고, (헌법을 사용하여 학습된) AI 모델이 이러한 응답을 평가하여 헌법의 원칙을 얼마나 잘 준수하는지에 따라 보상 신호를 제공합니다. 이 프로세스를 흔히 RLAIF(Reinforcement Learning from AI Feedback)라고 부르는 이 과정은 헌법에 부합하는 결과를 일관되게 생성하도록 모델을 최적화하여 AI가 헌법에 부합하는 행동을 선호하도록 가르칩니다.

명시적인 원칙에 따른 이러한 자기 수정 메커니즘은 헌법 AI를 인간 라벨러가 모델 결과를 평가하는 데 크게 의존하는 인간 피드백을 통한 강화 학습(RLHF)과 같은 방법과 차별화합니다.

주요 개념

  • 헌법: 이는 문자 그대로의 법률 문서가 아니라 AI의 행동을 안내하는 일련의 명시적인 윤리적 원칙 또는 규칙입니다. 이러한 원칙은 유엔 인권 선언과 같은 보편적 선언, 서비스 약관 또는 특정 애플리케이션에 맞춘 맞춤형 윤리 지침 등 다양한 출처에서 도출될 수 있습니다. 이러한 원칙의 품질과 포괄성에 따라 그 효과는 크게 달라집니다.
  • AI 자체 비평 및 수정: AI 모델이 자신의 결과물을 구성과 비교하여 평가하고 수정 사항을 생성하는 방법을 학습하는 기본적인 측면입니다. 이러한 내부 피드백 루프는 사람의 지속적인 개입의 필요성을 줄여줍니다.
  • AI 조정: 헌법적 AI는 AI 시스템의 목표와 행동이 인간의 의도와 가치에 부합하도록 하는 광범위한 AI 조정 분야에 기여하는 기술입니다. 이는 AI 안전과 의도하지 않은 결과의 가능성에 대한 우려를 해결합니다.
  • 확장성: 이 방법은 체질에 기반한 AI를 사용하여 피드백 프로세스를 자동화함으로써 노동 집약적이고 잠재적으로 인간의 편견(알고리즘 편향)이 개입될 수 있는 RLHF보다 확장성을 높이는 것을 목표로 합니다.

실제 사례

  1. Anthropic 클로드 모델: 가장 눈에 띄는 예는 Anthropic 클로드 LLM 제품군입니다. Anthropic 이러한 모델을 "도움이 되고, 무해하며, 정직"하도록 훈련하기 위해 특별히 헌법 AI를 개발했습니다. 사용된 헌법에는 부분적으로 유엔 인권 선언과 기타 윤리적 출처를 기반으로 유해하거나 차별적이거나 불법적인 콘텐츠 생성을 금지하는 원칙이 포함되어 있습니다. 집단 헌법 AI에 관한 논문에서 자세한 내용을 읽어보세요.
  2. AI 콘텐츠 검토 시스템: 콘텐츠 검토 플랫폼의 모델을 학습시키는 데 AI 헌장 원칙을 적용할 수 있습니다. AI는 인간 모더레이터나 엄격한 키워드 필터에만 의존하는 대신 유해한 콘텐츠(예: 혐오 발언, 잘못된 정보)를 정의하는 헌법을 사용하여 사용자가 생성한 텍스트 또는 이미지를 평가함으로써 플랫폼 정책 및 AI 윤리 가이드라인에 따라 보다 미묘하고 일관성 있는 모더레이션을 수행할 수 있습니다.

헌법 AI와 관련 용어

  • 인간 피드백을 통한 강화 학습(RLHF): 두 가지 모두 AI를 조정하는 것을 목표로 하지만, RLHF는 사람이 모델 결과물을 평가하여 생성한 피드백을 사용합니다. 구성 AI는 주로 사전 정의된 구성을 기반으로 AI가 생성한 피드백을 사용하므로 잠재적으로 더 확장 가능하고 일관성이 높지만 품질은 구성 자체에 따라 크게 달라집니다.
  • AI 윤리책임감 있는 AI: AI 윤리는 AI의 도덕적 함의를 연구하는 광범위한 분야입니다. 책임 있는 AI는 AI 시스템을 안전하고 윤리적으로 개발하고 배포하기 위한 원칙과 관행( 공정성, 투명성(XAI), 책임성, 데이터 프라이버시 등)을 포괄합니다. 헌법적 AI는 특정 윤리적 원칙을 구현하고 책임 있는 AI 개발에 기여하기 위해 모델 학습 중에 사용되는 특정 기술적 방법입니다.

애플리케이션 및 향후 잠재력

현재 헌법 AI는 주로 대화 생성 및 텍스트 요약과 같은 작업을 위해 LLM에 적용되고 있습니다. 그러나 기본 원칙은 잠재적으로 컴퓨터 비전(CV)을 비롯한 다른 AI 영역으로 확장될 수 있습니다. 예를 들어

  • 헌법 규정에 따라 유해하거나 편향적이거나 합의되지 않은 이미지가 생성되지 않도록 이미지 생성 모델 (예: 안정적 확산 또는 DALL-E)을 안내합니다.
  • 자율주행차 또는 로봇공학의 의사 결정에 정보를 제공하여 헌법에 정의된 안전 프로토콜에 따라 행동하도록 보장합니다.
  • 인구통계학적 편향에 대한 원칙을 통합하여 얼굴 인식 또는 객체 감지와 같은 CV 작업의 공정성을 보장하고 다음과 같은 모델을 개선할 수 있습니다. Ultralytics YOLO11.

효과적인 헌법의 개발과 개선, 그리고 AI가 다양한 상황에서 헌법을 충실히 준수하도록 하는 것은 Google AI와 AI 안전 연구소와 같은 조직 내에서 활발히 연구되고 있는 분야입니다. Ultralytics HUB와 같은 도구는 다양한 AI 모델의 훈련과 배포를 용이하게 하며, 책임감 있는 배포를 보장하기 위해 헌법적 AI와 유사한 원칙을 통합하는 것이 점점 더 중요해질 수 있습니다.

모두 보기