Direct Preference Optimization

Узнай, как прямое оптимизационное предпочтение (DPO) упрощает выравнивание ИИ. Узнай, как повысить безопасность и производительность модели эффективнее, чем с помощью традиционного RLHF.

Direct Preference Optimization (DPO) — это стабильный и эффективный алгоритмический метод, используемый для дообучения моделей искусственного интеллекта, чтобы они соответствовали человеческим предпочтениям и стандартам безопасности. В отличие от традиционных методов обучения с подкреплением, требующих сложного моделирования вознаграждения, DPO упрощает процесс согласования, представляя задачу обучения на основе предпочтений как задачу классификации. Напрямую оптимизируя модель на основе набора данных с предпочтениями людей — где аннотаторы выбирают «выигрышный» ответ вместо «проигрышного», — ты можешь значительно повысить полезность, честность и безопасность фундаментальных моделей и систем генеративного ИИ. Этот подход приобрел огромную популярность в 2024 и 2025 годах благодаря своей способности достигать передовых результатов с гораздо меньшими вычислительными затратами.

Link to this sectionКак DPO упрощает настройку моделей#

Основное новшество Direct Preference Optimization заключается в устранении «посредника», характерного для старых конвейеров согласования. Исторически согласование большой языковой модели (LLM) или модели зрения-языка включало многоэтапный процесс, известный как обучение с подкреплением на основе обратной связи от человека (RLHF). RLHF требует обучения отдельной модели вознаграждения для аппроксимации человеческих оценок, за чем следует использование алгоритма, склонного к нестабильности, например PPO (Proximal Policy Optimization), для обновления основной модели.

Математически DPO устраняет необходимость в этой отдельной модели вознаграждения. Вместо этого он использует производную функцию потерь, которая повышает вероятность генерации «предпочтительных» выходных данных, одновременно снижая вероятность «отвергнутых». Это опирается на эталонную модель, гарантирующую, что обновленная модель не слишком сильно отклоняется от распределения своих исходных обучающих данных. Такое математическое упрощение заставляет процесс вести себя гораздо ближе к стандартному обучению с учителем, что приводит к более быстрой сходимости и меньшему потреблению памяти на оборудовании GPU.

Link to this sectionОтличие от RLHF#

Хотя и DPO, и RLHF преследуют цель безопасности ИИ и согласования, их реализация значительно различается:

Сложность: RLHF подразумевает одновременную поддержку нескольких моделей (актер, критик, модель вознаграждения, эталонная модель) во время обучения. DPO требует только обучаемую модель и замороженную эталонную модель.
Стабильность: Обучение с подкреплением печально известно своей чувствительностью к настройке гиперпараметров. DPO обычно работает со стабильностью стандартной задачи классификации, что снижает риск коллапса модели.
Эффективность: Устраняя этапы вывода модели вознаграждения, DPO снижает вычислительную нагрузку, позволяя организациям согласовывать более крупные модели на меньших кластерах.

Link to this sectionРеальные приложения#

Direct Preference Optimization в настоящее время меняет способы создания интерактивных систем ИИ в различных отраслях.

Link to this sectionулучшение разговорных агентов#

В области чат-ботов и виртуальных помощников DPO используется для снижения токсичности и повышения фактической точности. Разработчики создают наборы данных, где человек-аннотатор просматривает два ответа на запрос — один галлюцинирующий или грубый, и один точный и вежливый. Человек помечает вежливый ответ как «выбранный». Затем DPO обновляет веса модели, чтобы отдавать предпочтение выбранному стилю. Это критически важно для развертывания агентов обслуживания клиентов, которые придерживаются строгих руководящих принципов этики ИИ.

Link to this sectionУточнение моделей зрения-языка#

По мере развития компьютерного зрения от моделей все чаще требуется объяснение того, что они видят. Для таких приложений, как создание подписей к изображениям или визуальные ответы на вопросы, DPO позволяет исследователям согласовать текстовый вывод модели с подробными человеческими предпочтениями. Например, если пользователь просит систему безопасности «описать злоумышленника», DPO может обучить модель отдавать приоритет фактическим описаниям (например, «красная рубашка, синяя кепка») вместо поэтичных или расплывчатых, повышая полезность системы компьютерного зрения.

Link to this sectionDPO в современном рабочем процессе ИИ#

Реализация DPO требует высококачественных парных данных. Современные рабочие процессы часто используют инструменты, такие как Ultralytics Platform, для управления наборами данных, гарантируя, что процесс аннотирования данных дает четкие примеры «победителей» и «проигравших». Хотя DPO был разработан для текста, его принципы все чаще применяются для оптимизации архитектур обнаружения объектов и других модальностей путем формулирования метрик качества как пар предпочтений.

Следующий фрагмент кода на Python с использованием torch демонстрирует фундаментальную структуру данных, необходимую для расчета функции потерь в стиле DPO. Он показывает, как «выбранные» и «отвергнутые» ответы подготавливаются в пакетах — концепция, критически важная для современной оптимизации моделей.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

Используя такие методы, как DPO, ты можешь расширить границы производительности в таких моделях, как Ultralytics YOLO26, гарантируя, что автоматизированные решения будут не только точными, но и согласованными с намерениями человека. Это жизненно важно для сред с высокими ставками, таких как автономные транспортные средства и анализ медицинских изображений, где надежность имеет первостепенное значение.

Link to this sectionВнешние ресурсы#

Оригинальная статья: Ознакомься с фундаментальным исследованием Direct Preference Optimization: Your Language Model is Secretly a Reward Model, проведенным Rafailov et al. (2023).
Stanford HAI: Изучи идеи о согласовании и человеческих предпочтениях от Стэнфордского университета.
Документация PyTorch: Просмотри технические подробности по реализации конкретных функций потерь в справочнике API PyTorch.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Direct Preference Optimization

Link to this sectionКак DPO упрощает настройку моделей#

Link to this sectionОтличие от RLHF#

Link to this sectionРеальные приложения#

Link to this sectionулучшение разговорных агентов#

Link to this sectionУточнение моделей зрения-языка#

Link to this sectionDPO в современном рабочем процессе ИИ#

Link to this sectionВнешние ресурсы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!