Glosario

Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)

Descubra cómo el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) refina el rendimiento de la IA alineando los modelos con los valores humanos para una IA más segura e inteligente.

El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) es una técnica avanzada de aprendizaje automático diseñada para alinear modelos de inteligencia artificial (IA) con valores humanos complejos y subjetivos. En lugar de basarse en una función de recompensa predefinida, RLHF utiliza las preferencias humanas para entrenar un "modelo de recompensa" que guía el proceso de aprendizaje de la IA. Este enfoque es especialmente eficaz para tareas en las que la definición de "buen" rendimiento es matizada, subjetiva o difícil de especificar con una métrica sencilla, como generar un diálogo seguro, útil y coherente.

¿Cómo funciona el RLHF?

El proceso RLHF suele constar de tres pasos clave:

  1. Preentrenamiento de un modelo lingüístico: Comienza con un gran modelo lingüístico base (LLM ) que ha sido preentrenado en un vasto corpus de datos de texto. Este modelo inicial, similar a un modelo básico, tiene un amplio conocimiento del lenguaje, pero aún no está especializado en un estilo o tarea específicos. Opcionalmente, este paso puede ir seguido de un ajuste supervisado en un conjunto de datos de alta calidad.
  2. Formación de un modelo de recompensa: Este es el núcleo de RLHF. A los etiquetadores humanos se les presentan varios resultados generados por el modelo preentrenado en respuesta a una pregunta. Clasifican estos resultados del mejor al peor en función de criterios como la utilidad, la veracidad y la seguridad. Estos datos de preferencia se utilizan para entrenar un modelo de recompensa independiente. El modelo de recompensa aprende a predecir qué resultados preferiría un ser humano, capturando así su juicio.
  3. Perfeccionamiento mediante aprendizaje por refuerzo: El modelo preentrenado se perfecciona mediante el aprendizaje por refuerzo (RL). En esta etapa, el modelo (que actúa como agente) genera resultados y el modelo de recompensa proporciona una puntuación de "recompensa" por cada resultado. Este proceso, a menudo gestionado con algoritmos como la Optimización de Política Próxima (PPO), anima al modelo de IA a ajustar sus parámetros para generar respuestas que maximicen la recompensa, alineando así su comportamiento con las preferencias humanas aprendidas. El trabajo pionero de organizaciones como OpenAI y DeepMind ha demostrado su eficacia.

Aplicaciones reales

RLHF ha desempeñado un papel decisivo en el desarrollo de los modernos sistemas de IA.

  • Chatbots avanzados: Los principales chatbots de IA, como ChatGPT de OpenAI y Claude de Anthropic, utilizan RLHF para garantizar que sus respuestas no solo sean precisas, sino también inofensivas, éticas y acordes con la intención del usuario. Esto ayuda a mitigar problemas como la generación de contenido sesgado o tóxico, un reto común en la IA generativa a gran escala.
  • Preferencias de la conducción autónoma: En el desarrollo de IA para coches de conducción autónoma, RLHF puede incorporar comentarios de los conductores sobre comportamientos simulados, como la comodidad durante los cambios de carril o la toma de decisiones en situaciones ambiguas. Esto ayuda a la IA a aprender estilos de conducción que resulten intuitivos y fiables para los humanos, complementando tareas tradicionales de visión por ordenador como la detección de objetos realizada por modelos como Ultralytics YOLO.

RLHF frente a conceptos afines

Es importante diferenciar el RLHF de otras técnicas de aprendizaje de la IA.

  • Aprendizaje por refuerzo: El RL estándar requiere que los desarrolladores diseñen manualmente una función de recompensa para definir el comportamiento deseado. Esto es sencillo para juegos con puntuaciones claras, pero difícil para tareas complejas del mundo real. El RLHF resuelve este problema aprendiendo la función de recompensa a partir de los comentarios humanos, lo que lo hace adecuado para problemas sin una métrica obvia del éxito.
  • Aprendizaje supervisado: El aprendizaje supervisado entrena modelos en conjuntos de datos con respuestas "correctas" únicas. Este enfoque es menos eficaz para tareas creativas o subjetivas en las que existen múltiples respuestas correctas. RLHF utiliza clasificaciones de preferencias (por ejemplo, "A es mejor que B") para sortear la ambigüedad y aprender comportamientos matizados.

Retos y perspectivas

A pesar de su potencia, RLHF se enfrenta a retos. Recopilar información humana de alta calidad es caro y puede introducir sesgos en el conjunto de datos si los etiquetadores no son diversos. Además, la IA podría descubrir formas de "jugar" con el modelo de recompensa, un fenómeno conocido como pirateo de recompensas.

Las investigaciones futuras explorarán métodos de retroalimentación más eficaces y alternativas como la IA Constitucional, que utiliza principios generados por la IA para guiar el modelo. La aplicación de la RLHF requiere conocimientos en múltiples ámbitos del aprendizaje automático, pero herramientas como la biblioteca TRL de Hugging Face la hacen más accesible. Plataformas como Ultralytics HUB proporcionan infraestructura para gestionar conjuntos de datos y modelos de formación, que son fundamentales para tareas avanzadas de alineación y operaciones sólidas de aprendizaje automático (MLOps).

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles