용어집

환각(LLM에서)

대규모 언어 모델(LLM)의 오류를 일으키는 원인을 알아보고 AI 생성 콘텐츠의 부정확성을 완화하는 효과적인 전략을 살펴보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

환각은 대규모 언어 모델(LLM) 이 자신감 있고 일관성 있게 보이지만 제공된 입력 문맥과 무관하거나 사실과 맞지 않거나 무의미한 텍스트를 생성하는 현상을 말합니다. 이러한 출력은 모델의 학습 데이터나 외부 현실에 근거한 것이 아니라 다음으로 가장 가능성이 높은 단어나 토큰을 예측하려는 모델 내부 프로세스의 인공물입니다. 특히 챗봇이나 가상 비서와 같은 플랫폼 내에서 정보 검색, 콘텐츠 제작 또는 의사 결정에 사용되는 인공 지능(AI) 시스템을 책임감 있게 개발하고 배포하려면 환각을 이해하는 것이 중요합니다.

환각이 발생하는 이유

Transformer와 같은 아키텍처('주의만 기울이면 됩니다' 백서에서 소개됨)를 기반으로 구축되는 LLM은 기본적으로 확률론적 모델입니다. 다음과 같은 프레임워크를 사용하여 학습하는 동안 방대한 양의 텍스트 데이터에서 패턴, 문법, 사실적 연관성을 학습합니다. PyTorch 또는 TensorFlow. 그러나 진정한 이해, 의식 또는 정보를 본질적으로 검증할 수 있는 능력은 부족합니다. 환각은 여러 가지 요인으로 인해 발생할 수 있습니다:

  • 학습 데이터의 한계: 모델이 노이즈가 많거나 편향되거나 사실과 다른 데이터로 학습되었거나 특정 주제에 대한 충분한 정보가 부족할 수 있습니다. 학습된 패턴을 기반으로 '부족한 부분을 채우려고' 하기 때문에 조작으로 이어질 수 있습니다.
  • 모델 아키텍처 및 훈련: GPT-4와 같은 모델이 정보를 처리하고 한 단어씩 시퀀스를 생성하는 방식은 통계적으로 그럴듯하지만 실제로는 잘못된 경로로 인도할 수 있습니다. 딥러닝 모델의 복잡성으로 인해 예측할 수 없는 동작이 발생하기 쉽습니다.
  • 디코딩 전략: '온도'와 같이 텍스트 생성(추론) 중에 사용되는 매개변수는 무작위성에 영향을 미칩니다. 온도가 높을수록 창의력은 향상되지만 환각의 위험은 높아집니다.
  • 근거 부족: 생성된 텍스트를 실제 지식이나 특정 소스 문서에 다시 연결하는 메커니즘이 없으면 모델이 지원되지 않는 문장으로 표류할 수 있습니다. 접지와 같은 기술은 이러한 문제를 해결하기 위한 것입니다.
  • 프롬프트 모호성: 모호하거나 제대로 공식화되지 않은 프롬프트는 모델이 가정을 하거나 제약이 덜한 결과를 생성하도록 유도하여 부정확한 결과를 초래할 가능성을 높일 수 있습니다. 효과적인 프롬프트 엔지니어링이 핵심입니다.

실제 사례 및 영향

환각은 다양한 방식으로 나타날 수 있으며, 잘못된 정보를 퍼뜨리거나 유해한 콘텐츠를 생성하거나 AI 시스템에 대한 사용자 신뢰를 약화시키는 등 심각한 위험을 초래할 수 있습니다.

  1. 챗봇의 사실 조작: 사용자가 챗봇에게 특정 과학적 발견에 대해 질문하면 챗봇은 세부 사항을 지어내거나, 잘못된 사람의 발견으로 돌리거나, 존재하지 않는 사건을 높은 신뢰도로 설명할 수 있습니다.
  2. 법률 인용을 발명하다: 널리 보도된 한 사건에서 변호사는 법률 조사에 AI 도구를 사용하여 완전히 조작된 판례 인용을 생성하고 이를 법원 문서에 제시하여 제재를 받기도 했습니다.

이러한 영향은 단순한 오류를 넘어 검색 엔진( Google AI 오버뷰 등), 가상 비서, 콘텐츠 제작 도구에 통합되면서 AI 시스템의 신뢰성에까지 영향을 미칩니다. 이 문제를 해결하는 것은 AI 윤리 및 안전의 핵심 과제이며, 강력한 검증모니터링 전략이 필요합니다.

환각과 다른 오류 구별하기

환각을 다른 유형의 AI 오류와 구별하는 것이 중요합니다:

  • AI의 편향: 학습 데이터에 존재하는 편견(예: 성별 또는 인종적 고정관념)을 반영하는 체계적인 오류 또는 왜곡된 출력을 말합니다. 환각은 일반적으로 일관되고 편향된 결과보다는 무작위로 조작된 결과입니다. 따라서 데이터 세트 편향을 이해하는 것이 중요합니다.
  • 과적합: 모델이 노이즈를 포함한 학습 데이터를 너무 잘 학습하여 보이지 않는 새로운 데이터(검증 데이터)로 일반화하지 못할 때 발생합니다. 과적합은 성능 저하로 이어지지만 완전히 새로운 잘못된 정보를 생성하는 것과는 구별됩니다.
  • 오래된 정보: 학습 데이터가 최신이 아니기 때문에 LLM이 잘못된 정보를 제공할 수 있습니다. 이는 정보가 만들어지는 환각이 아니라 지식 단절에 따른 사실상의 오류입니다.

완화 전략

연구자와 개발자들은 LLM 환각을 줄이기 위해 적극적으로 노력하고 있습니다:

  • 향상된 학습 데이터: 고품질의 다양하고 사실 확인이 완료된 데이터 세트를 큐레이팅합니다. 고품질 벤치마크 데이터 세트를 사용하면 도움이 됩니다.
  • 검색 증강 생성(RAG): 응답을 생성하기 전에 신뢰할 수 있는 외부 지식 기반(예: 벡터 데이터베이스)에서 정보를 가져와 인용할 수 있는 기능을 LLM에 탑재합니다.
  • 미세 조정 및 RLHF: 특정 작업 또는 데이터 세트에 대한 기본 모델을 개선하고, 인간 피드백을 통한 강화 학습(RLHF) 과 같은 기술을 사용하여 모델 동작을 원하는 결과(예: 진실성)에 맞출 수 있습니다.
  • 더 나은 프롬프트: 연쇄적 사고 프롬프트와 같은 기술은 모델이 '단계적으로 생각'하도록 유도하여 잠재적으로 오류를 줄일 수 있습니다.
  • 출력 확인: 생성된 문장을 알려진 사실 또는 여러 출처와 교차 확인하는 메커니즘을 구현합니다.
  • 추론 매개변수 조정하기: '온도'와 같은 설정을 낮추면 출력이 더 집중되고 무작위성이 줄어들어 환각 위험을 줄일 수 있습니다.

LLM은 언어에 중점을 두지만, 다음과 같은 컴퓨터 비전(CV)에 특화된 모델도 있습니다. Ultralytics YOLO 와 같은 객체 감지에 특화된 모델은 작동 방식이 다르며 감지 정확도 보장과 같은 고유한 과제에 직면합니다. 그러나 언어와 비전을 결합하는 멀티모달 모델(예: CLIP)을 선호하는 추세는 환각과 같은 문제를 이해하는 것이 여러 도메인에 걸쳐 관련성이 있다는 것을 의미합니다. Ultralytics HUB와 같은 플랫폼은 다양한 AI 모델의 훈련과 배포를 지원하여 여러 모달리티에 걸쳐 개발을 용이하게 합니다.

모두 보기