Glosario

Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF)

Descubre cómo el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) refina el rendimiento de la IA alineando los modelos con los valores humanos para una IA más segura e inteligente.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) es una técnica avanzada de aprendizaje automático (AM) diseñada para alinear los modelos de IA, en particular los grandes modelos lingüísticos (LLM) y otros sistemas generativos, más estrechamente con las intenciones y preferencias humanas. Perfecciona el paradigma estándar del Aprendizaje por Refuerzo (RL ) incorporando la retroalimentación humana directamente en el bucle de entrenamiento, guiando a la Inteligencia Artificial (IA ) para que aprenda comportamientos que sean útiles, inofensivos y honestos, incluso cuando estas cualidades sean difíciles de especificar mediante funciones de recompensa tradicionales. Este enfoque es crucial para desarrollar sistemas de IA más seguros y útiles, yendo más allá de las simples métricas de precisión hacia un rendimiento matizado y alineado con los valores humanos.

Cómo funciona el RLHF

El RLHF suele implicar un proceso de varios pasos que integra el juicio humano para entrenar un modelo de recompensa, que luego guía el ajuste fino del modelo primario de IA:

  1. Preentrenamiento de un modelo: Se entrena un modelo inicial (por ejemplo, un LLM) utilizando métodos estándar, a menudo aprendizaje supervisado, sobre un gran conjunto de datos. Este modelo puede generar contenido relevante, pero puede carecer de alineación específica.
  2. Recopilación de información humana: El modelo preentrenado genera múltiples resultados para varias peticiones. Los evaluadores humanos clasifican estos resultados en función de su calidad, utilidad, inocuidad u otros criterios deseados. Estos comentarios comparativos suelen ser más fiables y fáciles de proporcionar que las puntuaciones absolutas. Estos datos forman un conjunto de datos de preferencias.
  3. Entrenamiento de un modelo de recompensa: Se entrena un modelo independiente, conocido como modelo de recompensa, con los datos de preferencias humanas. Su objetivo es predecir qué salida preferiría un humano, aprendiendo esencialmente a imitar el juicio humano y a asignar una señal de recompensa escalar.
  4. Ajuste fino con Aprendizaje por Refuerzo: A continuación, el modelo original de IA se ajusta mediante RL (en concreto, algoritmos como la Optimización de la Política Próxima (PPO)). El modelo de recompensa proporciona la señal de recompensa durante esta fase. El modelo de IA explora diferentes salidas, y las favorecidas por el modelo de recompensa se refuerzan, guiando el comportamiento del modelo hacia las preferencias humanas. Los conceptos fundamentales de la RL se detallan en recursos como la introducción de Sutton y Barto.

Este ciclo iterativo ayuda al modelo de IA a aprender objetivos complejos y subjetivos que son difíciles de definir programáticamente, mejorando aspectos como la ética de la IA y reduciendo el sesgo algorítmico.

RLHF vs. Conceptos relacionados

  • Aprendizaje por Refuerzo (RL) estándar: El RL tradicional se basa en funciones de recompensa programadas explícitamente en función de los estados y acciones del entorno. El RLHF sustituye o complementa esto con un modelo de recompensa aprendido basado en las preferencias humanas, lo que le permite captar objetivos más matizados o subjetivos. Explora el aprendizaje por refuerzo profundo para conocer técnicas de RL más avanzadas.
  • IA Constitucional (IAC): Desarrollada por Anthropicla CAI es una técnica de alineación alternativa. Mientras que la RLHF utiliza información humana para entrenar el modelo de recompensa tanto para la utilidad como para la inofensividad, la CAI utiliza información de la IA guiada por una "constitución" predefinida (un conjunto de reglas o principios) para supervisar el modelo de inofensividad, a menudo utilizando información humana para la utilidad. Más información sobre la CAI en la investigación deAnthropic.

Aplicaciones clave del RLHF

El RLHF es cada vez más importante en aplicaciones en las que el comportamiento de la IA debe ajustarse estrechamente a los valores y expectativas humanos:

  • Mejorar los chatbots y los asistentes virtuales: Hacer que la IA conversacional sea más atractiva, útil y menos propensa a generar respuestas perjudiciales, sesgadas o sin sentido. Esto implica afinar modelos como el GPT-4.
  • Generación de contenidos: Perfeccionamiento de modelos para tareas como el resumen de textos o la generación de textos para producir resultados que se ajusten mejor a los estilos deseados o a las normas de calidad.
  • Personalizar los sistemas de recomendación: Ajustar los motores de recomendación para que sugieran contenidos que los usuarios consideren realmente interesantes o útiles, más allá de las simples tasas de clics.
  • Desarrollar vehículos autónomos más seguros: Incorporar las preferencias humanas sobre el estilo de conducción (por ejemplo, suavidad, asertividad) junto con las normas de seguridad.

Ejemplos reales

Alineación Chatbot

Empresas como OpenAI y Anthropic utilizan ampliamente RLHF para entrenar sus grandes modelos lingüísticos (p. ej, ChatGPTClaude). Al hacer que los humanos clasifiquen las distintas respuestas generadas por la IA en función de su utilidad e inocuidad, entrenan modelos de recompensa que guían a los LLM para que produzcan textos más seguros, éticos y útiles. Esto ayuda a mitigar los riesgos asociados a los resultados perjudiciales o sesgados y se adhiere a los principios del desarrollo responsable de la IA.

Preferencias de la conducción autónoma

En el desarrollo de IA para coches autoconducidos, el RLHF puede incorporar comentarios de conductores o pasajeros sobre comportamientos de conducción simulados (por ejemplo, comodidad durante los cambios de carril, suavidad de la aceleración, toma de decisiones en situaciones ambiguas). Esto ayuda a la IA a aprender estilos de conducción que no sólo son seguros según métricas objetivas como la distancia o los límites de velocidad, sino que también resultan cómodos e intuitivos para los humanos, aumentando la confianza y la aceptación del usuario. Esto complementa las tareas tradicionales de visión por ordenador, como la detección de objetos, realizadas por modelos como Ultralytics YOLO.

Ventajas del RLHF

  • Alineación mejorada: Incorpora directamente las preferencias humanas, dando lugar a sistemas de IA que se ajustan mejor a las intenciones y valores del usuario.
  • Manejo de la subjetividad: Eficaz para tareas en las que la calidad es subjetiva y difícil de definir con una métrica sencilla (por ejemplo, creatividad, cortesía, seguridad).
  • Seguridad mejorada: Ayuda a reducir la probabilidad de que la IA genere contenidos perjudiciales, poco éticos o tendenciosos, aprendiendo de los juicios humanos sobre los resultados indeseables.
  • Adaptabilidad: Permite afinar los modelos para dominios o grupos de usuarios específicos, basándose en comentarios específicos.

Retos y orientaciones futuras

A pesar de sus puntos fuertes, la RLHF se enfrenta a retos:

  • Escalabilidad y coste: Recopilar opiniones humanas de alta calidad puede ser caro y llevar mucho tiempo.
  • Calidad y sesgo de las opiniones: Las preferencias humanas pueden ser incoherentes, sesgadas o carecer de experiencia, lo que puede dar lugar a un sesgo del conjunto de datos en el modelo de recompensa. Garantizar una retroalimentación diversa y representativa es crucial.
  • Pirateo de recompensas: La IA puede encontrar formas de maximizar la recompensa prevista por el modelo de recompensa sin satisfacer realmente la preferencia humana prevista (lo que se conoce como pirateo de recompensas o juego de especificaciones).
  • Complejidad: Poner en práctica todo el proceso RLHF requiere experiencia en múltiples áreas del ML, como el aprendizaje supervisado, el aprendizaje por refuerzo y la gestión del entrenamiento de modelos a gran escala.

La investigación futura se centra en métodos de retroalimentación más eficientes (por ejemplo, utilizando la ayuda de la IA para el etiquetado), mitigando el sesgo, mejorando la solidez de los modelos de recompensa y aplicando RLHF a una gama más amplia de tareas de IA. Herramientas como la biblioteca TRL deHugging Face facilitan la aplicación de RLHF. Plataformas como Ultralytics HUB proporcionan infraestructura para gestionar conjuntos de datos y modelos de entrenamiento, que potencialmente podrían integrar mecanismos de retroalimentación humana en el futuro para tareas de alineación especializadas en áreas como la visión por ordenador. Para más detalles sobre cómo empezar a utilizar este tipo de plataformas, consulta la guía de inicio rápido deUltralytics HUB. Comprender el RLHF es cada vez más importante para la eficacia de las Operaciones de Aprendizaje Automático (MLOps) y para garantizar la transparencia en la IA.

Leer todo