Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Direct Preference Optimization (DPO)

Aprende cómo la Direct Preference Optimization (DPO) simplifica la alineación de la IA. Descubre cómo este método eficiente reemplaza el RLHF para mejorar la seguridad y el rendimiento de los modelos.

La Direct Preference Optimization (DPO) es una técnica algorítmica estable y eficiente que se utiliza para ajustar modelos de inteligencia artificial, asegurando que se alineen con los deseos humanos, las normas de seguridad y las directrices éticas. A diferencia de los métodos tradicionales que requieren complejas tuberías de varias etapas para capturar la retroalimentación humana, la DPO simplifica matemáticamente el proceso de alineación tratando el aprendizaje de preferencias directamente como una tarea de clasificación en machine learning estándar. Al optimizar directamente el modelo a partir de un conjunto de datos de preferencias humanas —donde los anotadores seleccionan una respuesta "ganadora" sobre una "perdedora"—, los desarrolladores pueden mejorar significativamente la utilidad, la honestidad y la seguridad de los modelos fundacionales a gran escala y de los modernos sistemas de IA generativa.

Link to this sectionCómo la DPO simplifica la alineación de modelos#

La innovación principal de la Direct Preference Optimization reside en la eliminación del "intermediario" arquitectónico. Históricamente, alinear un Large Language Model (LLM) o un Vision-Language Model implicaba un proceso complejo conocido como Reinforcement Learning from Human Feedback (RLHF). El RLHF requiere entrenar un modelo de recompensa separado para aproximar la puntuación humana, seguido del uso de un algoritmo de aprendizaje por refuerzo propenso a la inestabilidad, como Proximal Policy Optimization, para actualizar el modelo principal.

La DPO elimina matemáticamente la necesidad de este modelo de recompensa independiente. En su lugar, se basa en una función de pérdida derivada que aumenta la probabilidad de generar resultados "preferidos" mientras disminuye simultáneamente la probabilidad de los "rechazados". Utiliza un modelo de referencia para limitar la divergencia de Kullback-Leibler, asegurando que el modelo actualizado no se aleje demasiado de su distribución de datos de entrenamiento original. Esta simplificación matemática hace que el proceso se comporte de manera mucho más similar al aprendizaje supervisado estándar, lo que resulta en una convergencia más rápida y un menor uso de memoria en hardware de GPU. Esto reduce intrínsecamente el riesgo de colapso del modelo y elimina el extenso ajuste de hiperparámetros.

Link to this sectionAplicaciones en el mundo real#

La Direct Preference Optimization está remodelando fundamentalmente la forma en que se construyen y despliegan los sistemas de IA interactivos en diversas industrias de alto riesgo en busca de una AI Safety robusta.

  • Mejora de agentes conversacionales: En el ámbito de los chatbots y asistentes virtuales, la DPO se utiliza para reducir la toxicidad y alinear las respuestas con las estrictas mejores prácticas de seguridad de OpenAI y la investigación de Anthropic sobre la alineación de la IA. Los anotadores humanos revisan dos respuestas a una solicitud, marcando la respuesta educada y objetiva como "elegida". Luego, la DPO actualiza los pesos del modelo para favorecer este estilo conversacional específico mientras penaliza las alucinaciones.
  • Refinamiento de modelos de visión-lenguaje: A medida que el reconocimiento de imágenes evoluciona, cada vez se requiere más que los modelos expliquen lo que ven a los operadores humanos. Para aplicaciones como la respuesta visual a preguntas, la DPO permite a los investigadores alinear la salida textual del modelo con las preferencias humanas detalladas. Por ejemplo, si un usuario le pide a un sistema robótico impulsado por Ultralytics YOLO26 que describa un objeto, la DPO entrena al modelo para priorizar descripciones fácticas y concisas sobre interpretaciones vagas, adhiriéndose estrechamente a directrices estrictas de AI Ethics.

Link to this sectionLa DPO en la práctica#

Implementar la DPO requiere datos pareados de alta calidad. Los flujos de trabajo modernos utilizan herramientas integrales como la Ultralytics Platform para gestionar estos conjuntos de datos sin problemas, asegurando que el proceso de data annotation produzca ejemplos claros de "ganador" y "perdedor". Puedes explorar la investigación fundamental detrás de esto en el documento Direct Preference Optimization: Your Language Model is Secretly a Reward Model o leer sobre Alignment and Human Preferences de Stanford HAI.

El siguiente fragmento en Python demuestra la estructura de datos fundamental necesaria para un cálculo de pérdida al estilo DPO utilizando funciones que se encuentran en la referencia de la API de PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático