Direct Preference Optimization

Direct Preference Optimization (DPO)이 AI 정렬을 어떻게 단순화하는지 알아보십시오. 기존의 RLHF보다 더 효율적으로 모델 안전성과 성능을 개선하는 방법을 확인하십시오.

Direct Preference Optimization (DPO)은 인공지능 모델을 미세 조정(fine-tuning)하는 데 사용되는 안정적이고 효율적인 알고리즘 기술로, 특히 모델이 인간의 선호도와 안전 기준을 따르도록 보장합니다. 복잡한 보상 모델링이 필요한 기존의 강화 학습 방식과 달리, DPO는 선호도 학습 문제를 분류 작업(classification task)으로 처리하여 정렬 프로세스를 간소화합니다. 주석 작성자가 "승리"한 응답과 "패배"한 응답을 선택하는 인간 선호도 데이터셋을 기반으로 모델을 직접 최적화함으로써, 개발자는 foundation models 및 generative AI 시스템의 유용성, 정직성, 안전성을 크게 향상할 수 있습니다. 이 접근 방식은 훨씬 적은 컴퓨팅 오버헤드로 최첨단 결과를 달성할 수 있다는 점 때문에 2024년과 2025년에 엄청난 주목을 받고 있습니다.

Link to this sectionDPO가 모델 정렬을 단순화하는 방법#

Direct Preference Optimization의 주요 혁신은 기존의 정렬 파이프라인에 존재하던 "중간 매개체"를 제거했다는 점에 있습니다. 역사적으로 Large Language Model (LLM) 또는 Vision-Language Model을 정렬하는 과정에는 Reinforcement Learning from Human Feedback (RLHF)라고 알려진 다단계 프로세스가 포함되었습니다. RLHF는 인간의 점수를 근사화하기 위해 별도의 보상 모델을 학습시켜야 하며, 그 후 PPO(Proximal Policy Optimization)와 같이 불안정하기 쉬운 알고리즘을 사용하여 메인 모델을 업데이트해야 합니다.

DPO는 수학적으로 이러한 별도의 보상 모델이 필요 없도록 합니다. 대신, "선호되는" 출력의 생성 가능성은 높이고 "거부된" 출력의 가능성은 낮추는 도출된 loss function을 사용합니다. 이는 업데이트된 모델이 원래의 training data 분포에서 너무 멀어지지 않도록 참조 모델(reference model)에 의존합니다. 이러한 수학적 단순화 덕분에 프로세스는 표준 supervised learning과 훨씬 더 유사하게 작동하며, 결과적으로 더 빠른 수렴과 GPU hardware에서의 더 낮은 메모리 사용량을 제공합니다.

Link to this sectionRLHF와의 차이점#

DPO와 RLHF 모두 AI Safety 및 정렬이라는 목표를 공유하지만, 구현 방식에는 상당한 차이가 있습니다:

복잡성: RLHF는 학습 중에 여러 모델(액터, 크리틱, 보상 모델, 참조 모델)을 동시에 유지해야 합니다. DPO는 학습 중인 모델과 고정된(frozen) 참조 모델만 있으면 됩니다.
안정성: 강화 학습은 hyperparameter tuning에 매우 민감하기로 유명합니다. DPO는 일반적으로 표준 분류 작업과 같은 안정성을 가지고 실행되므로 model collapse의 위험을 줄여줍니다.
효율성: 보상 모델 추론 단계를 제거함으로써 DPO는 계산 부담을 줄여 조직이 더 작은 클러스터에서도 더 큰 모델을 정렬할 수 있게 합니다.

Link to this section실제 애플리케이션 사례#

Direct Preference Optimization은 현재 다양한 산업 전반에서 대화형 AI 시스템이 구축되는 방식을 재편하고 있습니다.

Link to this section대화형 에이전트 향상#

chatbots 및 가상 비서 분야에서 DPO는 독성을 줄이고 사실적 정확성을 개선하는 데 사용됩니다. 개발자는 인간 주석 작성자가 프롬프트에 대한 두 가지 답변(하나는 환각이 있거나 무례한 답변, 다른 하나는 정확하고 정중한 답변)을 검토하는 데이터셋을 큐레이션합니다. 인간은 정중한 답변을 "선택됨(chosen)"으로 표시합니다. 그러면 DPO는 선택된 스타일을 선호하도록 model weights를 업데이트합니다. 이는 엄격한 AI Ethics 가이드라인을 준수하는 고객 서비스 에이전트를 배포하는 데 매우 중요합니다.

Link to this sectionVision-Language Model 정제#

컴퓨터 비전이 발전함에 따라 모델은 자신이 보는 것을 설명해야 하는 요구가 점점 커지고 있습니다. image captioning이나 시각적 질문 답변과 같은 애플리케이션의 경우, DPO는 연구자가 모델의 텍스트 출력을 상세한 인간 선호도에 맞춰 정렬할 수 있게 해줍니다. 예를 들어, 사용자가 security system에 "침입자를 묘사하라"고 요청하는 경우, DPO는 모델이 시적이고 모호한 설명보다 사실적인 설명(예: "빨간 셔츠, 파란 모자")을 우선시하도록 학습시켜 computer vision system의 유용성을 높일 수 있습니다.

Link to this section현대 AI 워크플로에서의 DPO#

DPO를 구현하려면 고품질의 쌍 데이터(pairwise data)가 필요합니다. 최신 워크플로는 종종 Ultralytics Platform과 같은 도구를 사용하여 데이터셋을 관리하고, data annotation 프로세스를 통해 명확한 "승자" 및 "패자" 예시를 얻도록 합니다. DPO는 텍스트를 위해 개척되었지만, 그 원리는 품질 지표를 선호도 쌍으로 구성함으로써 object detection architectures 및 기타 양식을 최적화하는 데 점점 더 많이 적용되고 있습니다.

torch를 사용하는 다음 Python 코드 조각은 DPO 방식의 손실 계산에 필요한 기초적인 데이터 구조를 보여줍니다. 이는 현대적인 model optimization에 중요한 개념인 "선택된(chosen)" 응답과 "거부된(rejected)" 응답이 배치(batch)로 어떻게 준비되는지를 보여줍니다.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

DPO와 같은 기술을 활용함으로써 개발자는 Ultralytics YOLO26과 같은 모델의 성능 한계를 뛰어넘어 자동화된 의사 결정이 정확할 뿐만 아니라 인간의 의도와 일치하도록 보장할 수 있습니다. 이는 신뢰성이 가장 중요한 autonomous vehicles 및 medical image analysis와 같은 고위험 환경에서 필수적입니다.

Link to this section외부 리소스#

원문 논문: Rafailov 외(2023)의 Direct Preference Optimization: Your Language Model is Secretly a Reward Model에 관한 기초 연구를 읽어보십시오.
Stanford HAI: 스탠퍼드 대학교에서 제공하는 Alignment and Human Preferences에 대한 통찰을 살펴보십시오.
PyTorch 문서: PyTorch API reference에서 특정 손실 함수 구현에 대한 기술적 세부 정보를 검토하십시오.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Direct Preference Optimization

Link to this sectionDPO가 모델 정렬을 단순화하는 방법#

Link to this sectionRLHF와의 차이점#

Link to this section실제 애플리케이션 사례#

Link to this section대화형 에이전트 향상#

Link to this sectionVision-Language Model 정제#

Link to this section현대 AI 워크플로에서의 DPO#

Link to this section외부 리소스#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!