Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Direct Preference Optimization (DPO)

Узнай, как Direct Preference Optimization (DPO) упрощает настройку (alignment) ИИ. Открой для себя, как этот эффективный метод заменяет RLHF для улучшения безопасности и производительности модели.

Direct Preference Optimization (DPO) — это стабильный и эффективный алгоритмический метод, используемый для дообучения моделей искусственного интеллекта, гарантирующий их соответствие человеческим ожиданиям, стандартам безопасности и этическим принципам. В отличие от традиционных методов, требующих сложных многоэтапных конвейеров для сбора человеческих отзывов, DPO математически упрощает процесс настройки, рассматривая обучение на предпочтениях непосредственно как стандартную задачу классификации в машинном обучении. Оптимизируя модель напрямую на основе набора данных с предпочтениями людей, где аннотаторы выбирают «выигрышный» ответ вместо «проигрышного», разработчики могут значительно улучшить полезность, честность и безопасность крупномасштабных базовых моделей и современных генеративных ИИ-систем.

Link to this sectionКак DPO упрощает настройку модели#

Основное новшество Direct Preference Optimization заключается в устранении архитектурного «посредника». Исторически настройка большой языковой модели (LLM) или мультимодальной модели зрения-языка включала сложный процесс, известный как обучение с подкреплением на основе отзывов людей (RLHF). RLHF требует обучения отдельной модели вознаграждения для аппроксимации человеческих оценок, а затем использования склонного к нестабильности алгоритма обучения с подкреплением, такого как Proximal Policy Optimization, для обновления основной модели.

DPO математически исключает необходимость в этой отдельной модели вознаграждения. Вместо этого он опирается на производную функцию потерь, которая увеличивает вероятность генерации «предпочтительных» выходных данных, одновременно снижая вероятность «отвергнутых». Он использует эталонную модель для ограничения дивергенции Кульбака-Лейблера, гарантируя, что обновленная модель не отклонится слишком далеко от исходного распределения обучающих данных. Такое математическое упрощение делает процесс гораздо более похожим на стандартное обучение с учителем, что приводит к более быстрой сходимости и снижению потребления памяти на GPU-оборудовании. Это естественным образом снижает риск коллапса модели и устраняет необходимость в обширной настройке гиперпараметров.

Link to this sectionРеальные применения#

Direct Preference Optimization фундаментально меняет способы создания и развертывания интерактивных ИИ-систем в различных высокотехнологичных отраслях в стремлении к надежной безопасности ИИ.

  • Улучшение разговорных агентов: В области чат-ботов и виртуальных помощников DPO используется для снижения токсичности и приведения ответов в соответствие со строгими рекомендациями по безопасности OpenAI и исследованиями Anthropic по настройке ИИ. Человеческие аннотаторы просматривают два ответа на запрос, помечая вежливый, фактический ответ как «выбранный». Затем DPO обновляет веса модели, чтобы отдавать предпочтение этому конкретному стилю общения, наказывая за галлюцинации.
  • Уточнение моделей зрения-языка: По мере развития распознавания изображений от моделей всё чаще требуется объяснять операторам-людям, что они видят. Для таких приложений, как визуальные ответы на вопросы, DPO позволяет исследователям настроить текстовый вывод модели в соответствии с подробными человеческими предпочтениями. Например, если ты просишь робототехническую систему на базе Ultralytics YOLO26 описать объект, DPO обучает модель отдавать приоритет фактическим, кратким описаниям, а не расплывчатым интерпретациям, строго придерживаясь принципов этики ИИ.

Link to this sectionDPO на практике#

Внедрение DPO требует качественных парных данных. Современные рабочие процессы используют комплексные инструменты, такие как Ultralytics Platform, для беспрепятственного управления этими наборами данных, гарантируя, что процесс аннотирования данных дает четкие примеры «победителей» и «проигравших». Ты можешь изучить фундаментальные исследования, стоящие за этим, в работе Direct Preference Optimization: Your Language Model is Secretly a Reward Model или прочитать о настройке и человеческих предпочтениях от Stanford HAI.

Следующий фрагмент кода на Python демонстрирует базовую структуру данных, необходимую для расчета потерь в стиле DPO с использованием функций, найденных в справочнике по API PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения