Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Reinforcement Learning from Human Feedback (RLHF)

Aprende cómo el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) alinea la IA con los valores humanos. Explora sus componentes principales y la integración con Ultralytics YOLO26.

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es una técnica avanzada de aprendizaje automático que perfecciona los modelos de inteligencia artificial incorporando la intervención humana directa en el ciclo de entrenamiento. A diferencia del aprendizaje supervisado estándar, que se basa únicamente en conjuntos de datos etiquetados estáticos, el RLHF introduce un mecanismo de retroalimentación dinámico donde los evaluadores humanos clasifican o califican las salidas del modelo. Este proceso permite a la IA capturar objetivos complejos, subjetivos o matizados —como la "utilidad", la "seguridad" o la "creatividad"— que son difíciles de definir con una simple función de pérdida matemática. El RLHF se ha convertido en una piedra angular en el desarrollo de modelos de lenguaje grandes (LLM) modernos y de la IA generativa, asegurando que los modelos fundamentales potentes se alineen eficazmente con los valores humanos y la intención del usuario.

Link to this sectionLos componentes principales del RLHF#

El proceso de RLHF sigue generalmente un flujo de trabajo de tres pasos diseñado para cerrar la brecha entre las capacidades predictivas en bruto y el comportamiento alineado con las preferencias humanas.

  1. Ajuste fino supervisado (SFT): El flujo de trabajo suele comenzar con un modelo fundamental preentrenado. Los desarrolladores realizan un ajuste fino inicial utilizando un conjunto de datos más pequeño y de alta calidad de demostraciones (por ejemplo, pares de preguntas y respuestas redactados por expertos). Este paso establece una política de referencia, enseñando al modelo el formato y el tono generales esperados para la tarea.

  2. Entrenamiento del modelo de recompensa: Esta fase es la característica distintiva del RLHF. Los anotadores humanos revisan múltiples resultados generados por el modelo para la misma entrada y los clasifican de mejor a peor. Este esfuerzo de etiquetado de datos genera un conjunto de datos de preferencias. Se entrena una red neuronal independiente, denominada modelo de recompensa, con estos datos de comparación para predecir una puntuación escalar que refleje el juicio humano. Las herramientas disponibles en la Plataforma Ultralytics pueden simplificar la gestión de dichos flujos de trabajo de anotación.

  3. Optimización mediante aprendizaje por refuerzo: Finalmente, el modelo original actúa como un agente de IA dentro de un entorno de aprendizaje por refuerzo. Utilizando el modelo de recompensa como guía, algoritmos de optimización como la optimización de política próxima (PPO) ajustan los parámetros del modelo para maximizar la recompensa esperada. Este paso alinea la política del modelo con las preferencias humanas aprendidas, fomentando comportamientos útiles y seguros, a la vez que se desalientan los resultados tóxicos o sin sentido.

Link to this sectionAplicaciones en el mundo real#

El RLHF ha demostrado ser crítico en el despliegue de sistemas de IA que requieren altos estándares de seguridad y una comprensión matizada de la interacción humana.

  • IA conversacional y chatbots: La aplicación más destacada del RLHF es la alineación de chatbots para que sean útiles, inofensivos y honestos. Al penalizar los resultados sesgados, factualmente incorrectos o peligrosos, el RLHF ayuda a mitigar la alucinación en los LLM y reduce el riesgo de sesgo algorítmico. Esto garantiza que los asistentes virtuales puedan rechazar instrucciones dañinas sin dejar de ser útiles para consultas legítimas.
  • Robótica y control físico: El RLHF se extiende más allá del texto a la IA en robótica, donde definir una función de recompensa perfecta para tareas físicas complejas resulta un desafío. Por ejemplo, un robot que aprende a navegar por un almacén concurrido podría recibir comentarios de supervisores humanos sobre qué trayectorias fueron seguras frente a aquellas que causaron interrupciones. Esta retroalimentación perfecciona la política de control del robot de manera más efectiva que el simple aprendizaje por refuerzo profundo basado únicamente en la finalización de objetivos.

Link to this sectionRLHF frente al aprendizaje por refuerzo estándar#

Resulta útil distinguir el RLHF del aprendizaje por refuerzo (RL) tradicional para comprender su utilidad específica.

  • RL estándar: En entornos tradicionales, la función de recompensa a menudo está codificada por el propio entorno. Por ejemplo, en un videojuego, el entorno proporciona una señal clara (+1 por ganar, -1 por perder). El agente optimiza sus acciones dentro de este proceso de decisión de Markov (MDP) definido.
  • RLHF: En muchos escenarios del mundo real, como escribir una historia creativa o conducir con cortesía, el "éxito" es subjetivo. El RLHF resuelve esto sustituyendo la recompensa codificada por un modelo de recompensa aprendido derivado de las preferencias humanas. Esto permite la optimización de conceptos abstractos como "calidad" o "idoneidad" que son imposibles de programar explícitamente.

Link to this sectionIntegración de la percepción con bucles de retroalimentación#

En aplicaciones visuales, los agentes alineados con RLHF suelen depender de la visión artificial (CV) para percibir el estado de su entorno antes de actuar. Un detector robusto, como YOLO26, funciona como la capa de percepción, proporcionando observaciones estructuradas (por ejemplo, "obstáculo detectado a 3 metros") que la red de políticas utiliza para seleccionar una acción.

El siguiente ejemplo de Python ilustra un concepto simplificado donde un modelo YOLO proporciona el estado ambiental. En un bucle de RLHF completo, la señal de "recompensa" provendría de un modelo entrenado con retroalimentación humana sobre las decisiones del agente basadas en estos datos de detección.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Al combinar potentes modelos de percepción con políticas refinadas mediante retroalimentación humana, los desarrolladores pueden crear sistemas que no solo sean inteligentes, sino que también estén rigurosamente alineados con los principios de seguridad de la IA. La investigación continua en supervisión escalable, como la IA constitucional, sigue haciendo evolucionar este campo, con el objetivo de reducir el cuello de botella de la anotación humana a gran escala mientras se mantiene un alto rendimiento del modelo.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático