Glosario

Aprendizaje por refuerzo

Descubra el aprendizaje por refuerzo, en el que los agentes optimizan las acciones mediante ensayo y error para maximizar las recompensas. Explore conceptos, aplicaciones y ventajas.

El aprendizaje por refuerzo (RL) es un ámbito del aprendizaje automático (ML) en el que un agente inteligente aprende a tomar decisiones óptimas mediante ensayo y error. A diferencia de otros paradigmas de aprendizaje, no se le dice al agente qué acciones debe realizar. En su lugar, interactúa con un entorno y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo. Este enfoque se inspira en la psicología del comportamiento y es especialmente eficaz para resolver problemas de toma de decisiones secuenciales, como se describe en el texto fundacional de Sutton y Barto.

Cómo funciona el aprendizaje por refuerzo

El proceso de RL se modela como un bucle continuo de retroalimentación en el que intervienen varios componentes clave:

  • Agente: El que aprende y toma decisiones, como un robot o un programa de juego.
  • Entorno: El mundo externo con el que interactúa el agente.
  • Estado: Instantánea del entorno en un momento determinado, que proporciona al agente la información que necesita para tomar una decisión.
  • Acción: Movimiento seleccionado por el agente entre un conjunto de opciones posibles.
  • Recompensa: Una señal numérica enviada desde el entorno al agente después de cada acción, que indica lo deseable que ha sido la acción.

El agente observa el estado actual del entorno, realiza una acción y recibe una recompensa junto con el siguiente estado. Este ciclo se repite y, a través de esta experiencia, el agente refina gradualmente su política para favorecer las acciones que conducen a mayores recompensas a largo plazo. El marco formal de este problema suele describirse mediante un proceso de decisión de Markov (MDP). Entre los algoritmos de RL más conocidos se encuentran Q-learning y Policy Gradients.

Comparación con otros paradigmas de aprendizaje

La RL es distinta de los otros tipos principales de aprendizaje automático:

Aplicaciones reales

La RL ha cosechado éxitos notables en diversos ámbitos complejos:

  • Juego: Los agentes de RL han logrado un rendimiento sobrehumano en juegos complejos. Un ejemplo destacado es AlphaGo, de DeepMind, que aprendió a derrotar a los mejores jugadores de Go del mundo. Otro es el trabajo de OpenAI en Dota 2, donde un agente aprendió complejas estrategias de equipo.
  • Robótica: La RL se utiliza para entrenar robots en tareas complejas como la manipulación de objetos, el ensamblaje y la locomoción. En lugar de programarlo explícitamente, un robot puede aprender a caminar o agarrar objetos si se le recompensa por sus intentos en un entorno simulado o real. Se trata de un campo de investigación clave en instituciones como el Berkeley Artificial Intelligence Research (BAIR) Lab.
  • Gestión de recursos: Optimización de operaciones en sistemas complejos, como la gestión del flujo de tráfico en las ciudades, el equilibrio de la carga en las redes de energía y la optimización de las reacciones químicas.
  • Sistemas de recomendación: La RL puede utilizarse para optimizar la secuencia de elementos recomendados a un usuario con el fin de maximizar el compromiso y la satisfacción a largo plazo, en lugar de limitarse a los clics inmediatos.

Relevancia en el ecosistema de la IA

El aprendizaje por refuerzo es un componente crucial del amplio panorama de la Inteligencia Artificial (IA), especialmente para crear sistemas autónomos. Aunque empresas como Ultralytics están especializadas en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias mediante aprendizaje supervisado, las capacidades de percepción de estos modelos son aportaciones esenciales para los agentes de RL.

Por ejemplo, un robot puede utilizar un modelo YOLO de percepción, desplegado a través de Ultralytics HUB, para comprender su entorno (el "estado"). A continuación, una política de RL utiliza esta información para decidir su siguiente movimiento. Esta sinergia entre la visión por ordenador (CV) para la percepción y la RL para la toma de decisiones es fundamental para construir sistemas inteligentes. Estos sistemas se desarrollan a menudo utilizando marcos como PyTorch y TensorFlow y se prueban con frecuencia en entornos de simulación estandarizados como Gymnasium (anteriormente OpenAI Gym). Para mejorar la alineación de los modelos con las preferencias humanas, técnicas como el aprendizaje por refuerzo a partir del feedback humano (Reinforcement Learning from Human Feedback, RLHF) también están adquiriendo cada vez más importancia en este campo. El progreso en RL es impulsado continuamente por organizaciones como DeepMind y conferencias académicas como NeurIPS.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles