Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje por Refuerzo

Descubra el aprendizaje por refuerzo, donde los agentes optimizan las acciones mediante prueba y error para maximizar las recompensas. ¡Explore conceptos, aplicaciones y beneficios!

El Aprendizaje por Refuerzo (RL) es un campo del aprendizaje automático (ML) en el que un agente inteligente aprende a tomar decisiones óptimas mediante prueba y error. A diferencia de otros paradigmas de aprendizaje, al agente no se le dice qué acciones debe tomar. En cambio, interactúa con un entorno y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo. Este enfoque está inspirado en la psicología conductual y es particularmente poderoso para resolver problemas de toma de decisiones secuenciales, como se describe en el texto fundamental de Sutton y Barto.

Cómo funciona el aprendizaje por refuerzo

El proceso de RL se modela como un bucle de retroalimentación continuo que involucra varios componentes clave:

  • Agente: El aprendiz y el tomador de decisiones, como un robot o un programa de juegos.
  • Entorno: El mundo externo con el que interactúa el agente.
  • Estado: Una instantánea del entorno en un momento específico, que proporciona al agente la información que necesita para tomar una decisión.
  • Acción: Un movimiento seleccionado por el agente de un conjunto de opciones posibles.
  • Recompensa: Una señal numérica enviada desde el entorno al agente después de cada acción, que indica cuán deseable fue la acción.

El agente observa el estado actual del entorno, realiza una acción y recibe una recompensa junto con el siguiente estado. Este ciclo se repite y, a través de esta experiencia, el agente refina gradualmente su política para favorecer las acciones que conducen a mayores recompensas a largo plazo. El marco formal para este problema a menudo se describe mediante un Proceso de Decisión de Markov (MDP). Los algoritmos de RL populares incluyen el Q-learning y los Gradientes de Políticas.

Comparación con otros paradigmas de aprendizaje

El RL se distingue de los otros tipos principales de aprendizaje automático:

Aplicaciones en el mundo real

El RL ha logrado un éxito notable en una variedad de dominios complejos:

  • Juegos: Los agentes de RL han logrado un rendimiento sobrehumano en juegos complejos. Un ejemplo destacado es AlphaGo de DeepMind, que aprendió a derrotar a los mejores jugadores de Go del mundo. Otro es el trabajo de OpenAI en Dota 2, donde un agente aprendió complejas estrategias de equipo.
  • Robótica: El RL se utiliza para entrenar robots para realizar tareas complejas como la manipulación de objetos, el ensamblaje y la locomoción. En lugar de ser programado explícitamente, un robot puede aprender a caminar o agarrar objetos siendo recompensado por intentos exitosos en un entorno simulado o real. Esta es un área clave de investigación en instituciones como el Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR).
  • Gestión de recursos: Optimización de operaciones en sistemas complejos, como la gestión del flujo de tráfico en ciudades, el equilibrio de la carga en redes de energía y la optimización de reacciones químicas.
  • Sistemas de recomendación: El RL se puede utilizar para optimizar la secuencia de elementos recomendados a un usuario para maximizar el engagement y la satisfacción a largo plazo, en lugar de solo los clics inmediatos.

Relevancia en el ecosistema de la IA

El Aprendizaje por Refuerzo es un componente crucial del panorama más amplio de la Inteligencia Artificial (IA), especialmente para la creación de sistemas autónomos. Si bien empresas como Ultralytics se especializan en modelos de visión artificial como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias utilizando el aprendizaje supervisado, las capacidades de percepción de estos modelos son entradas esenciales para los agentes de RL.

Por ejemplo, un robot podría usar un modelo YOLO para la percepción, implementado a través de Ultralytics HUB, para comprender su entorno (el "estado"). Una política de RL utiliza entonces esta información para decidir su próximo movimiento. Esta sinergia entre la Visión Artificial (CV) para la percepción y el RL para la toma de decisiones es fundamental para construir sistemas inteligentes. Estos sistemas a menudo se desarrollan utilizando frameworks como PyTorch y TensorFlow y se prueban con frecuencia en entornos de simulación estandarizados como Gymnasium (anteriormente OpenAI Gym). Para mejorar la alineación del modelo con las preferencias humanas, técnicas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) también son cada vez más importantes en este campo. El progreso en RL es impulsado continuamente por organizaciones como DeepMind y conferencias académicas como NeurIPS.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles