Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO)이 AI 정렬을 어떻게 단순화하는지 알아보십시오. 이 효율적인 방법이 어떻게 RLHF를 대체하여 모델 안전성과 성능을 향상시키는지 확인하십시오.

Direct Preference Optimization (DPO)은 인공지능 모델을 미세 조정하여 인간의 선호도, 안전 표준 및 윤리적 지침에 부합하도록 만드는 안정적이고 효율적인 알고리즘 기법입니다. 인간의 피드백을 포착하기 위해 복잡한 다단계 파이프라인이 필요한 기존 방식과 달리, DPO는 선호도 학습을 표준 기계 학습의 분류 작업으로 직접 처리하여 정렬 프로세스를 수학적으로 단순화합니다. 주석 작성자가 "승리" 응답과 "패배" 응답을 선택하는 인간 선호도 데이터셋을 기반으로 모델을 직접 최적화함으로써, 개발자는 대규모 기초 모델과 현대적인 생성형 AI 시스템의 유용성, 정직성 및 안전성을 크게 향상시킬 수 있습니다.

Link to this sectionDPO가 모델 정렬을 단순화하는 방법#

Direct Preference Optimization의 주요 혁신은 아키텍처상의 "중개자"를 제거했다는 점에 있습니다. 역사적으로 대규모 언어 모델(LLM)이나 시각-언어 모델을 정렬하는 작업에는 인간 피드백 기반 강화학습(RLHF)이라는 복잡한 과정이 포함되었습니다. RLHF는 인간의 점수를 근사화하기 위해 별도의 보상 모델을 학습시켜야 하며, 그 후 Proximal Policy Optimization과 같이 불안정하기 쉬운 강화학습 알고리즘을 사용하여 메인 모델을 업데이트해야 합니다.

DPO는 이러한 별도의 보상 모델이 필요 없도록 수학적으로 제거합니다. 대신, "선호되는" 출력의 가능성을 높이는 동시에 "거부된" 출력의 가능성을 낮추는 유도된 손실 함수에 의존합니다. 이 기법은 참조 모델을 사용하여 Kullback-Leibler 발산을 제한함으로써, 업데이트된 모델이 원래의 학습 데이터 분포에서 너무 멀어지지 않도록 보장합니다. 이러한 수학적 단순화로 인해 프로세스가 표준 지도 학습과 훨씬 유사하게 작동하며, 결과적으로 더 빠른 수렴과 GPU 하드웨어에서의 낮은 메모리 사용량을 실현합니다. 이는 본질적으로 모델 붕괴 위험을 줄이고 광범위한 하이퍼파라미터 튜닝 과정을 없애줍니다.

Link to this section실제 애플리케이션 사례#

Direct Preference Optimization은 강력한 AI 안전을 추구하는 다양한 고위험 산업 전반에서 대화형 AI 시스템이 구축되고 배포되는 방식을 근본적으로 재편하고 있습니다.

대화형 에이전트 향상: 챗봇 및 가상 비서 영역에서 DPO는 독성을 줄이고 응답을 엄격한 OpenAI 안전 모범 사례 및 AI 정렬에 관한 Anthropic 연구에 맞추는 데 사용됩니다. 인간 주석 작성자가 프롬프트에 대한 두 가지 답변을 검토하고 예의 바르고 사실적인 답변을 "선택됨"으로 표시합니다. 그런 다음 DPO는 이 특정 대화 스타일을 선호하도록 모델 가중치를 업데이트하면서 환각 현상에는 페널티를 부여합니다.
시각-언어 모델 개선: 이미지 인식 기술이 발전함에 따라 모델은 인간 운영자에게 자신이 보는 것을 설명해야 할 필요성이 점점 커지고 있습니다. 시각적 질의 응답과 같은 애플리케이션의 경우, DPO를 통해 연구자는 모델의 텍스트 출력을 상세한 인간 선호도에 맞출 수 있습니다. 예를 들어, 사용자가 Ultralytics YOLO26 기반 로봇 시스템에 객체 설명을 요청하면, DPO는 모델이 모호한 해석보다는 사실적이고 간결한 설명을 우선시하도록 학습시키며, 엄격한 AI 윤리 지침을 밀접하게 준수합니다.

Link to this section실전에서의 DPO#

DPO를 구현하려면 고품질의 쌍 데이터가 필요합니다. 현대적인 워크플로우는 Ultralytics Platform과 같은 포괄적인 도구를 활용하여 이러한 데이터셋을 원활하게 관리하며, 데이터 주석 프로세스가 명확한 "승자" 및 "패자" 예시를 산출하도록 보장합니다. 이에 대한 기초 연구는 논문 Direct Preference Optimization: Your Language Model is Secretly a Reward Model에서 탐구하거나 Stanford HAI의 정렬 및 인간 선호도에 관한 내용을 읽어보시기 바랍니다.

다음 Python 코드 조각은 PyTorch API 참조에서 찾을 수 있는 함수들을 사용하여 DPO 방식의 손실 계산에 필요한 기본적인 데이터 구조를 보여줍니다.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")