Glosario

Aprendizaje por Refuerzo

Descubra el aprendizaje por refuerzo, donde los agentes optimizan las acciones mediante prueba y error para maximizar las recompensas. ¡Explore conceptos, aplicaciones y beneficios!

El Aprendizaje por Refuerzo (RL) es un campo del aprendizaje automático (ML) en el que un agente inteligente aprende a tomar decisiones óptimas mediante prueba y error. A diferencia de otros paradigmas de aprendizaje, al agente no se le dice qué acciones debe tomar. En cambio, interactúa con un entorno y recibe retroalimentación en forma de recompensas o penalizaciones. El objetivo fundamental del agente es aprender una estrategia, conocida como política, que maximice su recompensa acumulada a lo largo del tiempo. Este enfoque está inspirado en la psicología conductual y es particularmente poderoso para resolver problemas de toma de decisiones secuenciales, como se describe en el texto fundamental de Sutton y Barto.

Cómo funciona el aprendizaje por refuerzo

El proceso de RL se modela como un bucle de retroalimentación continuo que involucra varios componentes clave:

Agente: El aprendiz y el tomador de decisiones, como un robot o un programa de juegos.
Entorno: El mundo externo con el que interactúa el agente.
Estado: Una instantánea del entorno en un momento específico, que proporciona al agente la información que necesita para tomar una decisión.
Acción: Un movimiento seleccionado por el agente de un conjunto de opciones posibles.
Recompensa: Una señal numérica enviada desde el entorno al agente después de cada acción, que indica cuán deseable fue la acción.

El agente observa el estado actual del entorno, realiza una acción y recibe una recompensa junto con el siguiente estado. Este ciclo se repite y, a través de esta experiencia, el agente refina gradualmente su política para favorecer las acciones que conducen a mayores recompensas a largo plazo. El marco formal para este problema a menudo se describe mediante un Proceso de Decisión de Markov (MDP). Los algoritmos de RL populares incluyen el Q-learning y los Gradientes de Políticas.

Comparación con otros paradigmas de aprendizaje

El RL se distingue de los otros tipos principales de aprendizaje automático:

Aprendizaje supervisado: En el aprendizaje supervisado, un modelo aprende de un conjunto de datos que está totalmente etiquetado con las respuestas correctas. Por ejemplo, un modelo de clasificación de imágenes se entrena con imágenes con etiquetas explícitas. En cambio, RL aprende de las señales de recompensa sin una supervisión explícita sobre cuál es la mejor acción en cada paso. Puede explorar una comparación detallada del aprendizaje supervisado y no supervisado.
Aprendizaje No Supervisado: Este paradigma implica encontrar patrones o estructuras ocultas en datos sin etiquetar. Su objetivo es la exploración de datos, como el uso de clustering k-means, en lugar de la toma de decisiones para maximizar una recompensa.
Aprendizaje por refuerzo profundo (DRL): DRL no es un paradigma diferente, sino una forma avanzada de RL que utiliza redes neuronales profundas para manejar espacios de estado y acción complejos y de alta dimensión. Esto permite que RL se adapte a problemas que antes se consideraban intratables, como el procesamiento de datos de píxeles sin procesar de una cámara para vehículos autónomos.

Aplicaciones en el mundo real

El RL ha logrado un éxito notable en una variedad de dominios complejos:

Juegos: Los agentes de RL han logrado un rendimiento sobrehumano en juegos complejos. Un ejemplo destacado es AlphaGo de DeepMind, que aprendió a derrotar a los mejores jugadores de Go del mundo. Otro es el trabajo de OpenAI en Dota 2, donde un agente aprendió complejas estrategias de equipo.
Robótica: El RL se utiliza para entrenar robots para realizar tareas complejas como la manipulación de objetos, el ensamblaje y la locomoción. En lugar de ser programado explícitamente, un robot puede aprender a caminar o agarrar objetos siendo recompensado por intentos exitosos en un entorno simulado o real. Esta es un área clave de investigación en instituciones como el Laboratorio de Investigación de Inteligencia Artificial de Berkeley (BAIR).
Gestión de recursos: Optimización de operaciones en sistemas complejos, como la gestión del flujo de tráfico en ciudades, el equilibrio de la carga en redes de energía y la optimización de reacciones químicas.
Sistemas de recomendación: El RL se puede utilizar para optimizar la secuencia de elementos recomendados a un usuario para maximizar el engagement y la satisfacción a largo plazo, en lugar de solo los clics inmediatos.

Relevancia en el ecosistema de la IA

El Aprendizaje por Refuerzo es un componente crucial del panorama más amplio de la Inteligencia Artificial (IA), especialmente para la creación de sistemas autónomos. Si bien empresas como Ultralytics se especializan en modelos de visión artificial como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de instancias utilizando el aprendizaje supervisado, las capacidades de percepción de estos modelos son entradas esenciales para los agentes de RL.

Por ejemplo, un robot podría usar un modelo YOLO para la percepción, implementado a través de Ultralytics HUB, para comprender su entorno (el "estado"). Una política de RL utiliza entonces esta información para decidir su próximo movimiento. Esta sinergia entre la Visión Artificial (CV) para la percepción y el RL para la toma de decisiones es fundamental para construir sistemas inteligentes. Estos sistemas a menudo se desarrollan utilizando frameworks como PyTorch y TensorFlow y se prueban con frecuencia en entornos de simulación estandarizados como Gymnasium (anteriormente OpenAI Gym). Para mejorar la alineación del modelo con las preferencias humanas, técnicas como el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF) también son cada vez más importantes en este campo. El progreso en RL es impulsado continuamente por organizaciones como DeepMind y conferencias académicas como NeurIPS.

Aprendizaje por Refuerzo

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Cómo funciona el aprendizaje por refuerzo

Comparación con otros paradigmas de aprendizaje

Aplicaciones en el mundo real

Relevancia en el ecosistema de la IA

Leer más en esta categoría

Implantar modelos YOLO de Ultralytics mediante la integración de ExecuTorch

Lo más destacado de Ultralytics en la Conferencia PyTorch 2025

Aprendizaje autosupervisado para eliminar el ruido de las imágenes

Únete a la comunidad de Ultralytics