Descubra el aprendizaje por refuerzo, en el que los agentes optimizan las acciones mediante ensayo y error para maximizar las recompensas. Explore conceptos, aplicaciones y ventajas.
El aprendizaje por refuerzo (RL) es un ámbito del aprendizaje automático (ML) en el que un agente inteligente aprende a tomar decisiones óptimas mediante ensayo y error. A diferencia de otros paradigmas de aprendizaje, no se le dice al agente qué acciones debe realizar. En su lugar, interactúa con un entorno y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo. Este enfoque se inspira en la psicología del comportamiento y es especialmente eficaz para resolver problemas de toma de decisiones secuenciales, como se describe en el texto fundacional de Sutton y Barto.
El proceso de RL se modela como un bucle continuo de retroalimentación en el que intervienen varios componentes clave:
El agente observa el estado actual del entorno, realiza una acción y recibe una recompensa junto con el siguiente estado. Este ciclo se repite y, a través de esta experiencia, el agente refina gradualmente su política para favorecer las acciones que conducen a mayores recompensas a largo plazo. El marco formal de este problema suele describirse mediante un proceso de decisión de Markov (MDP). Entre los algoritmos de RL más conocidos se encuentran Q-learning y Policy Gradients.
La RL es distinta de los otros tipos principales de aprendizaje automático:
La RL ha cosechado éxitos notables en diversos ámbitos complejos:
El aprendizaje por refuerzo es un componente crucial del amplio panorama de la Inteligencia Artificial (IA), especialmente para crear sistemas autónomos. Aunque empresas como Ultralytics están especializadas en modelos de IA de visión como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias mediante aprendizaje supervisado, las capacidades de percepción de estos modelos son aportaciones esenciales para los agentes de RL.
Por ejemplo, un robot puede utilizar un modelo YOLO de percepción, desplegado a través de Ultralytics HUB, para comprender su entorno (el "estado"). A continuación, una política de RL utiliza esta información para decidir su siguiente movimiento. Esta sinergia entre la visión por ordenador (CV) para la percepción y la RL para la toma de decisiones es fundamental para construir sistemas inteligentes. Estos sistemas se desarrollan a menudo utilizando marcos como PyTorch y TensorFlow y se prueban con frecuencia en entornos de simulación estandarizados como Gymnasium (anteriormente OpenAI Gym). Para mejorar la alineación de los modelos con las preferencias humanas, técnicas como el aprendizaje por refuerzo a partir del feedback humano (Reinforcement Learning from Human Feedback, RLHF) también están adquiriendo cada vez más importancia en este campo. El progreso en RL es impulsado continuamente por organizaciones como DeepMind y conferencias académicas como NeurIPS.