Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Direct Preference Optimization

Aprende cómo la Optimización de Preferencia Directa (DPO) simplifica la alineación de la IA. Descubre cómo mejorar la seguridad y el rendimiento del modelo de forma más eficiente que con el RLHF tradicional.

La Optimización de Preferencia Directa (DPO) es una técnica algorítmica estable y eficiente utilizada para ajustar modelos de inteligencia artificial, garantizando específicamente que se alineen con los deseos humanos y los estándares de seguridad. A diferencia de los métodos tradicionales de aprendizaje por refuerzo que requieren un modelado de recompensa complejo, DPO simplifica el proceso de alineación tratando el problema del aprendizaje de preferencias como una tarea de clasificación. Al optimizar directamente el modelo basándose en un conjunto de datos de preferencias humanas —donde los anotadores eligen una respuesta "ganadora" sobre una "perdedora"—, los desarrolladores pueden mejorar significativamente la utilidad, honestidad y seguridad de los modelos fundacionales y sistemas de IA generativa. Este enfoque ha ganado una tracción masiva en 2024 y 2025 por su capacidad para lograr resultados de vanguardia con mucha menos carga computacional.

Link to this sectionCómo la DPO simplifica la alineación de modelos#

La innovación principal de la Optimización de Preferencia Directa reside en la eliminación del "intermediario" que se encuentra en las tuberías de alineación más antiguas. Históricamente, alinear un Modelo de Lenguaje Grande (LLM) o un Modelo de Visión-Lenguaje implicaba un proceso de varios pasos conocido como Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF). El RLHF requiere entrenar un modelo de recompensa separado para aproximar la puntuación humana, seguido del uso de un algoritmo propenso a la inestabilidad como PPO (Optimización de Política Proximal) para actualizar el modelo principal.

DPO elimina matemáticamente la necesidad de este modelo de recompensa separado. En su lugar, utiliza una función de pérdida derivada que aumenta la probabilidad de generar resultados "preferidos" mientras disminuye la probabilidad de los "rechazados". Esto se basa en un modelo de referencia para asegurar que el modelo actualizado no se aleje demasiado de su distribución de datos de entrenamiento original. Esta simplificación matemática hace que el proceso se comporte mucho más cerca del aprendizaje supervisado estándar, lo que resulta en una convergencia más rápida y un menor uso de memoria en hardware de GPU.

Link to this sectionDistinción del RLHF#

Aunque tanto DPO como RLHF comparten el objetivo de la Seguridad de la IA y la alineación, su implementación difiere significativamente:

  • Complejidad: El RLHF implica mantener múltiples modelos (actor, crítico, modelo de recompensa, modelo de referencia) simultáneamente durante el entrenamiento. DPO solo requiere el modelo que se está entrenando y un modelo de referencia congelado.
  • Estabilidad: El aprendizaje por refuerzo es notablemente sensible al ajuste de hiperparámetros. DPO normalmente se ejecuta con la estabilidad de una tarea de clasificación estándar, reduciendo el riesgo de colapso del modelo.
  • Eficiencia: Al eliminar los pasos de inferencia del modelo de recompensa, DPO reduce la carga computacional, permitiendo a las organizaciones alinear modelos más grandes en clústeres más pequeños.

Link to this sectionAplicaciones en el mundo real#

La Optimización de Preferencia Directa está remodelando actualmente la forma en que se construyen los sistemas de IA interactivos en diversas industrias.

Link to this sectionMejora de los Agentes Conversacionales#

En el dominio de los chatbots y asistentes virtuales, DPO se utiliza para reducir la toxicidad y mejorar la precisión factual. Los desarrolladores seleccionan conjuntos de datos donde un anotador humano revisa dos respuestas a una solicitud —una alucinada o grosera, y otra precisa y educada. El humano marca la respuesta educada como "elegida". DPO luego actualiza los pesos del modelo para favorecer el estilo elegido. Esto es crucial para implementar agentes de servicio al cliente que se adhieran a estrictas directrices de Ética de la IA.

Link to this sectionRefinamiento de los Modelos de Visión-Lenguaje#

A medida que evoluciona la visión por computadora, cada vez se requiere más que los modelos expliquen lo que ven. Para aplicaciones como el etiquetado de imágenes o la respuesta a preguntas visuales, DPO permite a los investigadores alinear la salida textual del modelo con las preferencias humanas detalladas. Por ejemplo, si un usuario pide a un sistema de seguridad que "describa al intruso", DPO puede entrenar al modelo para priorizar descripciones factuales (por ejemplo, "camisa roja, sombrero azul") sobre las poéticas o vagas, mejorando la utilidad del sistema de visión por computadora.

Link to this sectionDPO en el Flujo de Trabajo de IA Moderno#

Implementar DPO requiere datos por pares de alta calidad. Los flujos de trabajo modernos suelen utilizar herramientas como la Plataforma Ultralytics para gestionar conjuntos de datos, asegurando que el proceso de anotación de datos produzca ejemplos claros de "ganadores" y "perdedores". Aunque DPO fue pionero para el texto, sus principios se aplican cada vez más para optimizar arquitecturas de detección de objetos y otras modalidades al enmarcar las métricas de calidad como pares de preferencia.

El siguiente fragmento de Python usando torch demuestra la estructura de datos fundamental necesaria para un cálculo de pérdida al estilo DPO. Muestra cómo se preparan las respuestas "elegidas" y "rechazadas" en lotes, un concepto crítico para la optimización de modelos moderna.

import torch
import torch.nn.functional as F

# Simulate log probabilities for 'chosen' and 'rejected' responses
# In a real scenario, these come from your model (e.g., a VLM or LLM)
chosen_log_probs = torch.tensor([-0.5, -0.8, -0.2], requires_grad=True)
rejected_log_probs = torch.tensor([-2.5, -3.0, -1.5], requires_grad=True)

# DPO aims to maximize the margin between chosen and rejected
# This is a simplified conceptual look at the margin calculation
beta = 0.1  # A hyperparameter controlling deviation from the reference model
logits = beta * (chosen_log_probs - rejected_log_probs)

# The loss minimizes the negative log sigmoid of this margin
loss = -F.logsigmoid(logits).mean()

print(f"DPO Loss: {loss.item()}")
# Output demonstrates the penalty applied if the model doesn't prefer the chosen data

Al aprovechar técnicas como DPO, los desarrolladores pueden superar los límites del rendimiento en modelos como Ultralytics YOLO26, asegurando que las decisiones automatizadas no solo sean precisas, sino también alineadas con la intención humana. Esto es vital para entornos de alto riesgo como vehículos autónomos y análisis de imágenes médicas, donde la fiabilidad es primordial.

Link to this sectionRecursos Externos#

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático