YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

헌법적 AI는 AI 모델을 인간의 가치에 맞추는 것을 목표로 합니다.

Abirami Vina

4분 소요

2025년 4월 8일

헌법적 AI가 모델이 윤리적 규칙을 따르고, 더 안전한 결정을 내리며, 언어 및 컴퓨터 비전 시스템에서 공정성을 지원하는 데 어떻게 도움이 되는지 알아보세요.

인공 지능(AI)은 빠르게 우리 일상 생활의 핵심 부분이 되고 있습니다. 의료, 채용, 금융 및 공공 안전과 같은 분야에서 사용되는 도구에 통합되고 있습니다. 이러한 시스템이 확장됨에 따라 윤리 및 신뢰성에 대한 우려도 제기되고 있습니다.

예를 들어, 공정성이나 안전을 고려하지 않고 구축된 AI 시스템은 편향되거나 신뢰할 수 없는 결과를 생성할 수 있습니다. 이는 많은 모델이 여전히 인간의 가치를 반영하고 일치시키는 명확한 방법이 없기 때문입니다.

이러한 문제점을 해결하기 위해 연구자들은 현재 헌법적 AI라고 알려진 접근 방식을 모색하고 있습니다. 간단히 말해서 모델의 학습 과정에 서면으로 작성된 일련의 원칙을 도입하는 것입니다. 이러한 원칙은 모델이 자체 행동을 판단하고, 인간의 피드백에 덜 의존하며, 응답을 더 안전하고 이해하기 쉽게 만드는 데 도움이 됩니다.

지금까지 이 접근 방식은 주로 대규모 언어 모델(LLM)과 관련하여 사용되었습니다. 그러나 동일한 구조가 컴퓨터 비전 시스템이 시각적 데이터를 분석하는 동안 윤리적인 결정을 내리도록 안내하는 데 도움이 될 수 있습니다. 

본 문서에서는 Constitutional AI의 작동 방식, 실제 사례, 그리고 컴퓨터 비전 시스템에서의 잠재적 응용 분야에 대해 살펴보겠습니다.

__wf_reserved_inherit
그림 1. Constitutional AI의 특징. 이미지 출처: 작성자.

헌법적 AI란 무엇인가요?

헌법적 AI는 명확한 윤리 규칙 세트를 제공하여 AI 모델의 작동 방식을 안내하는 모델 훈련 방법입니다. 이러한 규칙은 행동 강령 역할을 합니다. 모델이 무엇이 허용 가능한지 추론하도록 하는 대신 훈련 중에 응답을 형성하는 서면 원칙 세트를 따릅니다.

이 개념은 AI 시스템이 의사 결정을 할 때 자율성을 높이는 방법으로 Claude LLM 제품군을 개발한 AI 안전 중심 연구 기업인 Anthropic에서 소개했습니다. 

모델은 인간의 피드백에만 의존하는 대신 미리 정의된 일련의 원칙에 따라 자체 응답을 비판하고 개선하는 방법을 학습합니다. 이 접근 방식은 판사가 판결을 내리기 전에 헌법을 참조하는 법률 시스템과 유사합니다.

이 경우 모델은 자체 행동을 검토하고 개선하기 위해 동일한 규칙 세트를 사용하여 심판이자 학생이 됩니다. 이 프로세스는 AI 모델 정렬을 강화하고 안전하고 책임감 있는 AI 시스템 개발을 지원합니다.

헌법적 AI는 어떻게 작동하나요?

헌법 AI의 목표는 AI 모델이 명확한 규칙 집합을 준수하여 안전하고 공정한 결정을 내리는 방법을 가르치는 것입니다. 다음은 이 프로세스가 작동하는 방식에 대한 간단한 분석입니다.

  • 헌법 정의: 모델이 따라야 할 윤리적 원칙의 서면 목록이 작성됩니다. 헌법은 AI가 피해야 할 사항과 반영해야 할 가치를 간략하게 설명합니다.

  • 지도 예제를 사용한 학습: 모델은 헌법을 따르는 샘플 응답을 보여줍니다. 이러한 예제는 AI가 허용 가능한 행동이 무엇인지 이해하는 데 도움이 됩니다.

  • 패턴 인식 및 적용: 시간이 지남에 따라 모델은 이러한 패턴을 파악하기 시작합니다. 새로운 질문에 답하거나 새로운 상황을 처리할 때 동일한 값을 적용하는 방법을 배웁니다.

  • 결과물 비평 및 개선: 모델은 자체 응답을 검토하고 헌법에 따라 조정합니다. 이 자체 검토 단계는 인간의 피드백에만 의존하지 않고도 개선하는 데 도움이 됩니다.

  • 일관되고 더 안전한 응답 생성: 모델은 일관된 규칙으로부터 학습하므로 실제 사용에서 편향을 줄이고 신뢰성을 향상시키는 데 도움이 됩니다. 이 접근 방식은 인간의 가치에 더 부합하고 관리하기 쉽습니다.
__wf_reserved_inherit
Fig 2. Constitutional AI를 사용하여 모델을 훈련하는 것에 대한 개요입니다.

윤리적 AI 설계를 위한 핵심 원칙

AI 모델이 윤리 규칙을 따르려면 먼저 해당 규칙이 명확하게 정의되어야 합니다. 헌법 AI에 관해서는 이러한 규칙이 일련의 핵심 원칙을 기반으로 합니다. 

예를 들어, 효과적인 AI 헌법의 기초를 구성하는 네 가지 원칙은 다음과 같습니다.

  • 투명성: 모델이 어떻게 답변에 도달했는지 이해하기 쉬워야 합니다. 응답이 사실, 추정 또는 패턴을 기반으로 하는 경우 사용자에게 투명하게 제공됩니다. 이는 신뢰를 구축하고 사람들이 모델의 결과에 의존할 수 있는지 판단하는 데 도움이 됩니다.

  • 평등성: 응답은 사용자마다 일관성을 유지해야 합니다. 모델은 개인의 이름, 배경 또는 위치에 따라 출력을 변경해서는 안 됩니다. 평등성은 편향을 방지하고 공정한 대우를 장려합니다.

  • 책임성: 모델이 어떻게 훈련되었고 무엇이 모델의 행동에 영향을 미쳤는지 추적할 수 있는 방법이 있어야 합니다. 문제가 발생하면 팀은 원인을 파악하고 개선할 수 있어야 합니다. 이는 투명성과 장기적인 책임성을 지원합니다.

  • 안전: 모델은 해를 끼칠 수 있는 콘텐츠를 생성하지 않아야 합니다. 요청이 위험하거나 안전하지 않은 결과로 이어질 경우 시스템은 이를 인식하고 중단해야 합니다. 이는 사용자와 시스템의 무결성을 모두 보호합니다.

대규모 언어 모델에서 헌법 AI의 예

헌법적 AI는 이론에서 실제 적용으로 전환되었으며 현재 수백만 명의 사용자와 상호 작용하는 대규모 모델에서 서서히 사용되고 있습니다. 가장 일반적인 예로는 OpenAI 및 Anthropic의 LLM이 있습니다. 

두 조직 모두 더 윤리적인 AI 시스템을 만들기 위해 서로 다른 접근 방식을 취했지만, 공통된 아이디어를 공유합니다. 즉, 모델이 일련의 서면 지침 원칙을 따르도록 가르치는 것입니다. 이러한 예제를 자세히 살펴보겠습니다.

OpenAI의 헌법적 AI 접근 방식

OpenAI는 ChatGPT 모델의 학습 과정의 일부로 모델 사양이라는 문서를 도입했습니다. 이 문서는 헌법과 같은 역할을 합니다. 여기에는 유용성, 정직성 및 안전과 같은 가치를 포함하여 모델이 응답에서 목표로 해야 하는 사항이 요약되어 있습니다. 또한 유해하거나 오해의 소지가 있는 결과물로 간주되는 항목도 정의합니다. 

이 프레임워크는 응답이 규칙과 얼마나 잘 일치하는지에 따라 응답을 평가하여 OpenAI의 모델을 미세 조정하는 데 사용되었습니다. 시간이 지남에 따라 이는 ChatGPT가 유해한 결과물을 덜 생성하고 사용자가 실제로 원하는 바에 더 잘 부합하도록 만드는 데 도움이 되었습니다. 

__wf_reserved_inherit
Fig 3. OpenAI의 모델 사양을 사용하여 응답하는 ChatGPT의 예시입니다.

Anthropic의 윤리적 AI 모델

Anthropic의 모델 Claude가 따르는 규칙은 세계 인권 선언, Apple의 서비스 약관과 같은 플랫폼 지침, 다른 AI 연구소의 연구 등 윤리적 원칙에 기반합니다. 이러한 원칙은 Claude의 응답이 안전하고 공정하며 중요한 인간 가치에 부합하도록 보장하는 데 도움이 됩니다.

Claude는 또한 인간 피드백에 의존하기보다는 이러한 윤리적 지침에 따라 자체 응답을 검토하고 조정하는 AI 피드백을 통한 강화 학습(RLAIF)을 사용합니다. 이 프로세스를 통해 Claude는 시간이 지남에 따라 개선되어 확장성이 향상되고 까다로운 상황에서도 유용하고 윤리적이며 무해한 답변을 제공하는 데 더 능숙해집니다.

__wf_reserved_inherit
Fig 4. Anthropic의 Constitutional AI 접근 방식 이해.

컴퓨터 비전에 헌법적 AI 적용

헌법적 AI가 언어 모델의 작동 방식에 긍정적인 영향을 미치고 있으므로 자연스럽게 다음과 같은 질문이 제기됩니다. 유사한 접근 방식이 비전 기반 시스템이 더 공정하고 안전하게 대응하도록 도울 수 있을까요? 

컴퓨터 비전 모델은 텍스트 대신 이미지를 사용하지만, 윤리적 지침의 필요성은 똑같이 중요합니다. 예를 들어, 공정성과 편향은 중요한 고려 사항입니다. 이러한 시스템은 시각적 데이터를 분석할 때 모든 사람을 동등하게 대하고 유해하거나 불공정한 결과를 피하도록 훈련되어야 하기 때문입니다.

__wf_reserved_inherit
그림 5. 컴퓨터 비전과 관련된 윤리적 과제. 작성자 제공 이미지.

현재 컴퓨터 비전에서 헌법적 AI 방법의 사용은 아직 탐구 단계에 있으며 이 분야에 대한 연구가 진행 중입니다.

예를 들어, Meta는 최근 이미지 안전 작업에 헌법과 유사한 추론을 적용하는 프레임워크인 CLUE를 도입했습니다. 이는 광범위한 안전 규칙을 멀티모달 AI(여러 유형의 데이터를 처리하고 이해하는 AI 시스템)가 따를 수 있는 정확한 단계로 전환합니다. 이는 시스템이 더 명확하게 추론하고 유해한 결과를 줄이는 데 도움이 됩니다. 

또한 CLUE는 복잡한 규칙을 단순화하여 이미지 안전성 판단을 더욱 효율적으로 만들어 AI 모델이 광범위한 사람의 개입 없이도 빠르고 정확하게 작동할 수 있도록 합니다. CLUE는 일련의 지침 원칙을 사용하여 이미지 조정 시스템의 확장성을 높이는 동시에 고품질 결과를 보장합니다.

주요 내용

AI 시스템이 더 많은 책임을 맡게 됨에 따라 관심은 단순히 AI가 무엇을 할 수 있는지에서 무엇을 해야 하는지로 옮겨가고 있습니다. 이러한 변화는 AI 시스템이 의료, 법 집행, 교육과 같이 사람들의 삶에 직접적인 영향을 미치는 영역에서 사용되기 때문에 중요합니다. 

AI 시스템이 적절하고 윤리적으로 작동하도록 하려면 견고하고 일관된 기반이 필요합니다. 이 기반은 공정성, 안전 및 신뢰를 우선시해야 합니다. 

서면 헌법은 시스템의 의사 결정 프로세스를 안내하여 학습 중에 기반을 제공할 수 있습니다. 또한 개발자에게 배포 후 시스템의 동작을 검토하고 조정하기 위한 프레임워크를 제공하여 시스템이 설계된 가치에 계속 부합하도록 하고 새로운 문제가 발생함에 따라 더 쉽게 적응할 수 있도록 합니다.

지금 바로 성장하는 커뮤니티에 참여하세요! GitHub 저장소를 탐색하여 AI에 대해 더 자세히 알아보세요. 자체 컴퓨터 비전 프로젝트를 구축하고 싶으신가요? 라이선스 옵션을 살펴보세요. 솔루션 페이지에서 헬스케어 분야의 컴퓨터 비전이 어떻게 효율성을 향상시키고 있는지 알아보고 제조 분야의 AI가 미치는 영향에 대해 알아보세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.