YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Direct Preference Optimization (DPO)

Direct Preference Optimization (DPO)이 어떻게 AI 정렬을 단순화하는지 알아보십시오. 이 효율적인 방법이 어떻게 RLHF를 대체하여 모델 안전성과 성능을 향상시키는지 확인해 보십시오.

Direct Preference Optimization (DPO)은 인공지능 모델을 미세 조정하는 데 사용되는 안정적이고 효율적인 알고리즘 기법으로, 모델이 인간의 의도, 안전 표준 및 윤리 지침에 부합하도록 보장합니다. 인간의 피드백을 포착하기 위해 복잡한 다단계 파이프라인이 필요한 기존 방식과 달리, DPO는 선호도 학습을 기계 학습의 분류 작업으로 직접 처리하여 정렬 프로세스를 수학적으로 단순화합니다. 주석 작성자가 "승리한" 응답을 "패배한" 응답보다 선택하는 인간 선호도 데이터셋을 기반으로 모델을 직접 최적화함으로써, 개발자는 대규모 기반 모델과 현대적인 생성형 AI 시스템의 유용성, 정직성 및 안전성을 크게 향상시킬 수 있습니다.

Link to this sectionDPO가 모델 정렬을 단순화하는 방법#

Direct Preference Optimization의 주요 혁신은 구조적 "중개자"를 제거한 데 있습니다. 과거에는 대규모 언어 모델(LLM) 또는 시각 언어 모델을 정렬하려면 인간 피드백 기반 강화 학습(RLHF)으로 알려진 복잡한 과정이 필요했습니다. RLHF는 인간의 점수를 근사화하기 위해 별도의 보상 모델을 훈련해야 하며, 이후 Proximal Policy Optimization과 같이 불안정한 강화 학습 알고리즘을 사용하여 메인 모델을 업데이트해야 합니다.

DPO는 이 별도의 보상 모델이 필요 없도록 수학적으로 제거합니다. 대신, "선호되는" 출력 생성 가능성을 높이는 동시에 "거부된" 출력 가능성을 낮추는 파생된 손실 함수에 의존합니다. 이 방법은 Kullback-Leibler divergence를 제한하기 위해 참조 모델을 사용하여 업데이트된 모델이 원래의 훈련 데이터 분포에서 너무 멀어지지 않도록 합니다. 이러한 수학적 단순화는 프로세스가 표준 지도 학습과 훨씬 유사하게 작동하게 하여, GPU 하드웨어에서 더 빠른 수렴과 낮은 메모리 사용량을 유도합니다. 이는 본질적으로 모델 붕괴 위험을 줄이고 광범위한 하이퍼파라미터 튜닝의 필요성을 제거합니다.

Link to this section실제 응용 분야#

Direct Preference Optimization은 견고한 AI 안전을 추구하며 다양한 고위험 산업 전반에서 대화형 AI 시스템이 구축되고 배포되는 방식을 근본적으로 재편하고 있습니다.

  • 대화형 에이전트 향상: 챗봇 및 가상 비서 영역에서 DPO는 유해성을 줄이고 OpenAI 안전 모범 사례Anthropic의 AI 정렬 연구에 맞게 응답을 조정하는 데 사용됩니다. 인간 주석 작성자는 프롬프트에 대한 두 가지 답변을 검토하여 정중하고 사실적인 답변을 "선택됨"으로 표시합니다. 그런 다음 DPO는 모델 가중치를 업데이트하여 이 특정 대화 스타일을 선호하게 만드는 동시에 환각 현상에 대해서는 페널티를 부여합니다.
  • 시각 언어 모델 정제: 이미지 인식이 발전함에 따라 모델은 인간 운영자에게 자신이 보는 것을 설명해야 하는 경우가 점점 더 많아지고 있습니다. 시각적 질의 응답과 같은 애플리케이션의 경우, DPO를 통해 연구원은 모델의 텍스트 출력을 상세한 인간 선호도와 정렬할 수 있습니다. 예를 들어, 사용자가 Ultralytics YOLO26 기반 로봇 시스템에 객체를 설명하도록 요청하면, DPO는 모델이 모호한 해석보다 사실적이고 간결한 설명을 우선시하도록 훈련하며 엄격한 AI 윤리 지침을 밀접하게 준수하도록 합니다.

Link to this section실전에서의 DPO#

DPO를 구현하려면 고품질의 쌍 데이터(pairwise data)가 필요합니다. 현대적인 워크플로우는 Ultralytics Platform과 같은 포괄적인 도구를 활용하여 이러한 데이터셋을 원활하게 관리하며, 데이터 주석 프로세스를 통해 명확한 "승자" 및 "패자" 예시를 도출합니다. 이에 대한 기초 연구는 논문 Direct Preference Optimization: Your Language Model is Secretly a Reward Model에서 탐구하거나 Stanford HAI의 정렬 및 인간 선호도에 관한 내용을 읽어보실 수 있습니다.

다음 Python 스니펫은 PyTorch API 참조에서 찾을 수 있는 함수를 사용하여 DPO 스타일의 손실 계산에 필요한 기초 데이터 구조를 보여줍니다.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.