Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Direct Preference Optimization

Узнай, как Direct Preference Optimization (DPO) упрощает согласование ИИ. Открой для себя способ повысить безопасность и производительность модели эффективнее, чем с помощью традиционного RLHF.

Direct Preference Optimization (DPO) — это стабильный и эффективный алгоритмический метод, используемый для дообучения моделей искусственного интеллекта, который гарантирует их соответствие человеческим предпочтениям и стандартам безопасности. В отличие от традиционных методов обучения с подкреплением, требующих сложного моделирования вознаграждения, DPO упрощает процесс согласования, представляя проблему изучения предпочтений как задачу классификации. Непосредственно оптимизируя модель на основе набора данных с предпочтениями людей, где аннотаторы выбирают «выигрышный» ответ вместо «проигрышного», разработчики могут значительно повысить полезность, честность и безопасность фундаментальных моделей и систем генеративного ИИ. Этот подход получил широкое распространение в 2024 и 2025 годах благодаря своей способности достигать передовых результатов со значительно меньшими вычислительными затратами.

Link to this sectionКак DPO упрощает настройку модели#

Главное новшество Direct Preference Optimization заключается в устранении «посредника», характерного для старых конвейеров согласования. Исторически сложилось так, что согласование большой языковой модели (LLM) или мультимодальной модели зрения включало многоэтапный процесс, известный как обучение с подкреплением на основе отзывов людей (RLHF). RLHF требует обучения отдельной модели вознаграждения для аппроксимации оценок человека с последующим использованием нестабильного алгоритма, такого как PPO (Proximal Policy Optimization), для обновления основной модели.

DPO математически исключает необходимость в такой отдельной модели вознаграждения. Вместо этого используется производная функция потерь, которая увеличивает вероятность генерации «предпочтительных» ответов и уменьшает вероятность «отвергнутых». Это опирается на эталонную модель, чтобы убедиться, что обновленная модель не слишком сильно отклоняется от исходного распределения обучающих данных. Такое математическое упрощение делает процесс работы модели гораздо более похожим на стандартное обучение с учителем, что приводит к более быстрой сходимости и снижению использования памяти на GPU-оборудовании.

Link to this sectionОтличие от RLHF#

Хотя DPO и RLHF преследуют общую цель — безопасность ИИ и согласование, их реализация существенно различается:

  • Сложность: RLHF требует одновременного поддержания нескольких моделей (актер, критик, модель вознаграждения, эталонная модель) во время обучения. DPO требует только обучаемую модель и замороженную эталонную модель.
  • Стабильность: Обучение с подкреплением известно своей чувствительностью к настройке гиперпараметров. DPO обычно работает со стабильностью стандартной задачи классификации, что снижает риск деградации модели.
  • Эффективность: Устраняя шаги вывода модели вознаграждения, DPO снижает вычислительную нагрузку, позволяя организациям согласовывать более крупные модели на меньших кластерах.

Link to this sectionРеальные применения#

Direct Preference Optimization в настоящее время меняет способы создания интерактивных систем ИИ в различных отраслях.

Link to this sectionУлучшение разговорных агентов#

В области чат-ботов и виртуальных помощников DPO используется для уменьшения токсичности и повышения фактической точности. Разработчики курируют наборы данных, где человек-аннотатор просматривает два ответа на запрос — один галлюцинирующий или грубый, а другой точный и вежливый. Человек отмечает вежливый ответ как «выбранный». Затем DPO обновляет веса модели, чтобы отдать предпочтение выбранному стилю. Это крайне важно для развертывания агентов обслуживания клиентов, которые придерживаются строгих принципов этики ИИ.

Link to this sectionУточнение мультимодальных моделей зрения#

По мере развития компьютерного зрения от моделей все чаще требуется объяснять то, что они видят. Для таких приложений, как создание описаний к изображениям или визуальные ответы на вопросы, DPO позволяет исследователям согласовывать текстовый вывод модели с детальными предпочтениями людей. Например, если пользователь просит систему безопасности «описать нарушителя», DPO может обучить модель отдавать приоритет фактическим описаниям (например, «красная рубашка, синяя кепка») вместо поэтичных или расплывчатых, повышая полезность системы компьютерного зрения.

Link to this sectionDPO в современном рабочем процессе ИИ#

Реализация DPO требует высококачественных парных данных. Современные рабочие процессы часто используют такие инструменты, как Ultralytics Platform, для управления наборами данных, гарантируя, что процесс аннотирования данных дает четкие примеры «победителей» и «проигравших». Хотя DPO была разработана для текста, ее принципы все чаще применяются для оптимизации архитектур обнаружения объектов и других модальностей путем представления метрик качества в виде пар предпочтений.

Следующий фрагмент Python с использованием torch демонстрирует базовую структуру данных, необходимую для расчета функции потерь в стиле DPO. Он показывает, как «выбранные» и «отвергнутые» ответы подготавливаются в пакеты — концепция, критически важная для современной оптимизации моделей.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

Используя такие методы, как DPO, разработчики могут расширить границы производительности в таких моделях, как Ultralytics YOLO26, гарантируя, что автоматизированные решения будут не только точными, но и согласованными с намерениями человека. Это жизненно важно для ответственных сред, таких как автономные транспортные средства и медицинский анализ изображений, где надежность имеет первостепенное значение.

Link to this sectionВнешние ресурсы#

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения