Descubra el aprendizaje por refuerzo, donde los agentes optimizan las acciones mediante prueba y error para maximizar las recompensas. ¡Explore conceptos, aplicaciones y beneficios!
El Aprendizaje por Refuerzo (RL) es un campo del aprendizaje automático (ML) en el que un agente inteligente aprende a tomar decisiones óptimas mediante prueba y error. A diferencia de otros paradigmas de aprendizaje, al agente no se le dice qué acciones debe tomar. En cambio, interactúa con un entorno y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo. Este enfoque está inspirado en la psicología conductual y es particularmente poderoso para resolver problemas de toma de decisiones secuenciales, como se describe en el texto fundamental de Sutton y Barto.
El proceso de RL se modela como un bucle de retroalimentación continuo que involucra varios componentes clave:
El agente observa el estado actual del entorno, realiza una acción y recibe una recompensa junto con el siguiente estado. Este ciclo se repite y, a través de esta experiencia, el agente refina gradualmente su política para favorecer las acciones que conducen a mayores recompensas a largo plazo. El marco formal para este problema a menudo se describe mediante un Proceso de Decisión de Markov (MDP). Los algoritmos de RL populares incluyen el Q-learning y los Gradientes de Políticas.
El RL se distingue de los otros tipos principales de aprendizaje automático:
El RL ha logrado un éxito notable en una variedad de dominios complejos:
El Aprendizaje por Refuerzo es un componente crucial del panorama más amplio de la Inteligencia Artificial (IA), especialmente para la creación de sistemas autónomos. Si bien empresas como Ultralytics se especializan en modelos de visión artificial como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias utilizando el aprendizaje supervisado, las capacidades de percepción de estos modelos son entradas esenciales para los agentes de RL.
Por ejemplo, un robot podría usar un modelo YOLO para la percepción, implementado a través de Ultralytics HUB, para comprender su entorno (el "estado"). Una política de RL utiliza entonces esta información para decidir su próximo movimiento. Esta sinergia entre la Visión Artificial (CV) para la percepción y el RL para la toma de decisiones es fundamental para construir sistemas inteligentes. Estos sistemas a menudo se desarrollan utilizando frameworks como PyTorch y TensorFlow y se prueban con frecuencia en entornos de simulación estandarizados como Gymnasium (anteriormente OpenAI Gym). Para mejorar la alineación del modelo con las preferencias humanas, técnicas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) también son cada vez más importantes en este campo. El progreso en RL es impulsado continuamente por organizaciones como DeepMind y conferencias académicas como NeurIPS.