YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Direct Preference Optimization

Direct Preference Optimization(DPO)이 어떻게 AI 정렬을 단순화하는지 알아보십시오. 기존 RLHF보다 더 효율적으로 모델의 안전성과 성능을 향상시키는 방법을 확인하십시오.

Direct Preference Optimization(DPO)은 인공지능 모델을 미세 조정하여 인간의 의도와 안전 표준에 맞게 정렬하는 데 사용되는 안정적이고 효율적인 알고리즘 기법입니다. 복잡한 보상 모델링이 필요한 기존 강화 학습 방식과 달리, DPO는 선호도 학습 문제를 분류 작업으로 처리함으로써 정렬 과정을 단순화합니다. 주석 작성자가 "우승" 응답을 "탈락" 응답보다 선택하는 인간 선호도 데이터 세트를 기반으로 모델을 직접 최적화함으로써, 개발자는 foundation modelsgenerative AI 시스템의 유용성, 정직성 및 안전성을 크게 향상시킬 수 있습니다. 이 접근 방식은 훨씬 적은 컴퓨팅 오버헤드로 최첨단 결과를 얻을 수 있다는 점 때문에 2024년과 2025년에 엄청난 주목을 받았습니다.

Link to this sectionDPO가 모델 정렬을 단순화하는 방법#

Direct Preference Optimization의 주요 혁신은 기존 정렬 파이프라인에 존재하던 "중간 단계"를 제거했다는 점에 있습니다. 역사적으로 Large Language Model (LLM)이나 Vision-Language Model을 정렬하는 과정은 Reinforcement Learning from Human Feedback (RLHF)라고 알려진 다단계 프로세스를 포함했습니다. RLHF는 인간의 평가를 근사하기 위한 별도의 보상 모델을 학습시켜야 하며, 그 후 PPO(Proximal Policy Optimization)와 같이 불안정한 알고리즘을 사용하여 메인 모델을 업데이트해야 합니다.

DPO는 이 별도의 보상 모델이 필요하지 않도록 수학적으로 처리합니다. 대신, "선호" 출력을 생성할 확률을 높이고 "거부"된 출력의 확률을 낮추는 유도된 loss function을 사용합니다. 이는 참조 모델을 활용하여 업데이트된 모델이 원래의 training data 분포에서 너무 많이 벗어나지 않도록 보장합니다. 이러한 수학적 단순화 덕분에 이 과정은 표준 supervised learning과 훨씬 유사하게 작동하며, GPU hardware에서 더 빠른 수렴과 낮은 메모리 사용량을 보여줍니다.

Link to this sectionRLHF와의 차이점#

DPO와 RLHF 모두 AI Safety 및 정렬이라는 목표를 공유하지만, 구현 방식에는 상당한 차이가 있습니다.

  • 복잡성: RLHF는 학습 중에 여러 모델(액터, 크리틱, 보상 모델, 참조 모델)을 동시에 유지해야 합니다. 반면 DPO는 학습할 모델과 고정된 참조 모델만 있으면 됩니다.
  • 안정성: 강화 학습은 hyperparameter tuning에 매우 민감한 것으로 알려져 있습니다. DPO는 일반적으로 표준 분류 작업과 같은 안정성을 유지하며, model collapse의 위험을 줄여줍니다.
  • 효율성: 보상 모델 추론 단계를 제거함으로써 DPO는 계산 부담을 줄여주어, 조직이 더 작은 클러스터에서도 더 큰 모델을 정렬할 수 있게 해줍니다.

Link to this section실제 응용 분야#

Direct Preference Optimization은 현재 다양한 산업 전반에서 대화형 AI 시스템이 구축되는 방식을 재편하고 있습니다.

Link to this section대화형 에이전트 성능 향상#

chatbots 및 가상 비서 도메인에서 DPO는 독성을 줄이고 사실적 정확도를 높이는 데 사용됩니다. 개발자는 인간 주석 작성자가 프롬프트에 대한 두 가지 답변(하나는 환각이 섞였거나 무례하고, 다른 하나는 정확하고 정중함)을 검토하여 정중한 답변을 "선택"한 데이터 세트를 구축합니다. 그런 다음 DPO는 선택된 스타일을 선호하도록 model weights를 업데이트합니다. 이는 엄격한 AI Ethics 가이드라인을 준수해야 하는 고객 서비스 에이전트를 배포하는 데 매우 중요합니다.

Link to this section비전-언어 모델 개선#

컴퓨터 비전이 발전함에 따라 모델이 자신이 보는 것을 설명해야 하는 요구가 점점 더 커지고 있습니다. image captioning이나 시각적 질문 답변과 같은 응용 분야에서 DPO는 연구자들이 모델의 텍스트 출력을 상세한 인간 선호도에 맞게 조정할 수 있도록 합니다. 예를 들어 사용자가 security system에게 "침입자를 묘사하라"고 요청하면, DPO는 모델이 시적이거나 모호한 묘사보다 사실적인 묘사(예: "빨간 셔츠, 파란 모자")를 우선시하도록 학습시켜 computer vision system의 유용성을 높일 수 있습니다.

Link to this section현대 AI 워크플로우에서의 DPO#

DPO를 구현하려면 고품질의 쌍 데이터(pairwise data)가 필요합니다. 현대적인 워크플로우에서는 종종 Ultralytics Platform과 같은 도구를 사용하여 데이터 세트를 관리하며, 이를 통해 data annotation 과정에서 명확한 "승자"와 "패자" 예시를 확보합니다. DPO는 원래 텍스트를 위해 고안되었지만, 그 원리는 품질 지표를 선호도 쌍으로 구성하여 object detection architectures 및 기타 양식을 최적화하는 데 점점 더 많이 적용되고 있습니다.

torch를 사용하는 다음 Python 코드 조각은 DPO 스타일의 손실 계산에 필요한 기본적인 데이터 구조를 보여줍니다. 이는 "선택된" 응답과 "거부된" 응답이 배치로 준비되는 방법을 보여주며, 이는 현대 model optimization에 필수적인 개념입니다.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

DPO와 같은 기술을 활용하여 개발자는 Ultralytics YOLO26과 같은 모델의 성능 한계를 돌파할 수 있으며, 자동화된 결정이 정확할 뿐만 아니라 인간의 의도와 일치하도록 보장할 수 있습니다. 이는 신뢰성이 가장 중요한 autonomous vehiclesmedical image analysis와 같은 고위험 환경에서 매우 중요합니다.

Link to this section외부 리소스#

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.