Direct Preference Optimization (DPO)

Aprende cómo la optimización de preferencia directa (DPO) simplifica la alineación de la IA. Descubre cómo este método eficiente sustituye al RLHF para mejorar la seguridad y el rendimiento del modelo.

La Optimización Directa de Preferencias (DPO) es una técnica algorítmica estable y eficiente utilizada para ajustar modelos de inteligencia artificial, asegurando que se alineen con los deseos humanos, los estándares de seguridad y las directrices éticas. A diferencia de los métodos tradicionales que requieren complejos pipelines de varias etapas para capturar la retroalimentación humana, DPO simplifica matemáticamente el proceso de alineación tratando el aprendizaje de preferencias directamente como una tarea de clasificación en machine learning estándar. Al optimizar directamente el modelo basándose en un conjunto de datos de preferencias humanas —donde los anotadores seleccionan una respuesta "ganadora" sobre una "perdedora"—, los desarrolladores pueden mejorar significativamente la utilidad, honestidad y seguridad de los modelos base a gran escala y los modernos sistemas de IA generativa.

Link to this sectionCómo simplifica DPO la alineación de modelos#

La innovación principal de la Optimización Directa de Preferencias radica en la eliminación del "intermediario" arquitectónico. Históricamente, alinear un Modelo de Lenguaje Extenso (LLM) o un Modelo de Visión-Lenguaje implicaba un proceso complejo conocido como Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). El RLHF requiere entrenar un modelo de recompensa independiente para aproximar la puntuación humana, seguido del uso de un algoritmo de aprendizaje por refuerzo propenso a la inestabilidad como Optimización de Políticas Proximales para actualizar el modelo principal.

DPO elimina matemáticamente la necesidad de este modelo de recompensa independiente. En su lugar, se basa en una función de pérdida derivada que aumenta la probabilidad de generar resultados "preferidos" mientras disminuye simultáneamente la probabilidad de los "rechazados". Utiliza un modelo de referencia para limitar la divergencia de Kullback-Leibler, asegurando que el modelo actualizado no se desvíe demasiado de su distribución de datos de entrenamiento original. Esta simplificación matemática hace que el proceso se comporte de manera mucho más similar al aprendizaje supervisado estándar, lo que resulta en una convergencia más rápida y un menor uso de memoria en hardware de GPU. Esto reduce intrínsecamente el riesgo de colapso del modelo y elimina el extenso ajuste de hiperparámetros.

Link to this sectionAplicaciones en el mundo real#

La Optimización Directa de Preferencias está transformando fundamentalmente la forma en que se construyen e implementan los sistemas de IA interactivos en diversas industrias de alto riesgo en busca de una Seguridad de la IA sólida.

Mejora de agentes conversacionales: En el ámbito de los chatbots y asistentes virtuales, DPO se utiliza para reducir la toxicidad y alinear las respuestas con las estrictas mejores prácticas de seguridad de OpenAI y la investigación de Anthropic sobre la alineación de la IA. Los anotadores humanos revisan dos respuestas a una solicitud, marcando la respuesta educada y factual como "elegida". Luego, DPO actualiza los pesos del modelo para favorecer este estilo conversacional específico mientras penaliza las alucinaciones.
Refinamiento de modelos de visión-lenguaje: A medida que el reconocimiento de imágenes evoluciona, se exige cada vez más a los modelos que expliquen lo que ven a los operadores humanos. Para aplicaciones como la respuesta visual a preguntas, DPO permite a los investigadores alinear la salida textual del modelo con las preferencias humanas detalladas. Por ejemplo, si un usuario pide a un sistema robótico impulsado por Ultralytics YOLO26 que describa un objeto, DPO entrena al modelo para priorizar descripciones factuales y concisas sobre interpretaciones vagas, cumpliendo estrictamente con las directrices de Ética de la IA.

Link to this sectionDPO en la práctica#

Implementar DPO requiere datos por pares de alta calidad. Los flujos de trabajo modernos utilizan herramientas integrales como la Plataforma Ultralytics para gestionar estos conjuntos de datos sin problemas, asegurando que el proceso de anotación de datos produzca ejemplos claros de "ganador" y "perdedor". Puedes explorar la investigación fundacional detrás de esto en el artículo Direct Preference Optimization: Your Language Model is Secretly a Reward Model o leer sobre Alineación y preferencias humanas de Stanford HAI.

El siguiente fragmento de código en Python demuestra la estructura de datos fundamental necesaria para un cálculo de pérdida al estilo DPO utilizando funciones que se encuentran en la referencia de la API de PyTorch.

import torch
import torch.nn.functional as F


def dpo_loss(chosen_logps, rejected_logps, beta=0.1):
    # DPO maximizes the margin between chosen and rejected log probabilities
    logits = beta * (chosen_logps - rejected_logps)
    # The loss minimizes the negative log sigmoid of this margin
    return -F.logsigmoid(logits).mean()


print(f"DPO Loss: {dpo_loss(torch.tensor([-0.5]), torch.tensor([-2.5])):.4f}")

Direct Preference Optimization (DPO)

Link to this sectionCómo simplifica DPO la alineación de modelos#

Link to this sectionAplicaciones en el mundo real#

Link to this sectionDPO en la práctica#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!