¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Aprendizaje Profundo por Refuerzo

Descubra el poder del aprendizaje profundo por refuerzo: donde la IA aprende comportamientos complejos para resolver desafíos en juegos, robótica, sanidad y mucho más.

El Aprendizaje por Refuerzo Profundo (DRL) es un subcampo del Aprendizaje Automático (ML) que combina los principios del Aprendizaje por Refuerzo (RL) con el poder del Aprendizaje Profundo (DL). Permite a un agente de IA aprender estrategias óptimas de toma de decisiones a través de prueba y error en entornos complejos y de alta dimensión. Mediante el uso de redes neuronales profundas, los modelos de DRL pueden procesar la entrada sensorial sin procesar, como los píxeles de una imagen o los datos de los sensores, sin necesidad de ingeniería de características manual. Esto les permite abordar problemas que antes eran intratables para los métodos tradicionales de RL.

¿Cómo funciona el aprendizaje profundo por refuerzo?

En una configuración típica de DRL, un agente interactúa con un entorno a lo largo de una serie de pasos de tiempo. En cada paso, el agente observa el estado del entorno, realiza una acción y recibe una recompensa o penalización. El objetivo es aprender una política (una estrategia para elegir acciones) que maximice la recompensa acumulada total a lo largo del tiempo. La parte "deep" de DRL proviene del uso de una red neuronal profunda para aproximar la política en sí o una función de valor que estima la conveniencia de los estados o acciones. Esta red se entrena utilizando algoritmos como el descenso de gradiente para ajustar los pesos del modelo en función de las recompensas recibidas. Todo este proceso se formaliza utilizando un Proceso de Decisión de Markov (MDP), que proporciona la base matemática para modelar la toma de decisiones secuencial.

Diferencias con otros conceptos

Es importante diferenciar el DRL de términos relacionados:

  • Aprendizaje por Refuerzo (RL): El DRL es una forma moderna y avanzada de RL. Si bien el RL tradicional a menudo se basa en tablas o funciones lineales para mapear estados a acciones, tiene problemas con grandes espacios de estados (por ejemplo, todas las combinaciones de píxeles posibles en una pantalla). El DRL supera esta limitación mediante el uso de redes neuronales profundas como aproximadores de funciones potentes.
  • Aprendizaje profundo (DL): DL es la tecnología que impulsa la capacidad de DRL para manejar entradas complejas. Si bien DL se asocia más comúnmente con el aprendizaje supervisado, donde los modelos aprenden de conjuntos de datos etiquetados, DRL aprende de la retroalimentación dispersa de las recompensas, lo que lo hace adecuado para tareas de optimización y control.
  • Aprendizaje supervisado: Este paradigma de aprendizaje requiere un conjunto de datos etiquetado para entrenar un modelo para hacer predicciones. En cambio, DRL no necesita datos etiquetados; en su lugar, genera sus propios datos a través de la interacción con un entorno, guiado por una señal de recompensa. Esto lo hace muy eficaz para problemas donde los datos etiquetados son escasos o no están disponibles.

Aplicaciones en el mundo real

El aprendizaje por refuerzo profundo (DRL) ha impulsado avances en varios dominios complejos:

  • Juegos: Uno de los ejemplos más famosos es AlphaGo de DeepMind, que derrotó al mejor jugador de Go del mundo. El agente de DRL aprendió jugando millones de partidas contra sí mismo, utilizando el estado visual del tablero para tomar decisiones estratégicas. Del mismo modo, OpenAI Five aprendió a jugar al complejo videojuego Dota 2 a un nivel sobrehumano.
  • Robótica: El DRL se utiliza para entrenar robots para realizar tareas complejas como la manipulación de objetos, la locomoción y el ensamblaje. Por ejemplo, un robot puede aprender a recoger objetos desconocidos procesando directamente la entrada de su cámara y recibiendo recompensas positivas por agarres exitosos, un tema explorado en las discusiones sobre el papel de la IA en la robótica.
  • Vehículos Autónomos: El DRL ayuda a desarrollar políticas de control sofisticadas para la navegación, la planificación de rutas y la toma de decisiones en escenarios de tráfico dinámicos, como se detalla en artículos sobre la IA en coches autónomos.
  • Gestión de recursos: El DRL puede optimizar sistemas complejos como las redes de energía, el control de señales de tráfico y la optimización de reacciones químicas. Un ejemplo es el uso de DRL para gestionar el flujo de tráfico en ciudades inteligentes.
  • Sistemas de recomendación: El DRL puede optimizar la secuencia de recomendaciones que se muestran a un usuario para maximizar el engagement o la satisfacción a largo plazo.
  • Atención sanitaria: Se está explorando el DRL para descubrir políticas de tratamiento y dosis de fármacos óptimas basadas en los estados del paciente, lo que contribuye al campo más amplio de la IA en la atención sanitaria.

Relevancia en el Ecosistema de la IA

El Aprendizaje por Refuerzo Profundo está a la vanguardia de la investigación en IA, superando los límites de la autonomía de las máquinas. Si bien empresas como Ultralytics se centran principalmente en modelos de visión de última generación como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes, las salidas de estos sistemas de percepción son a menudo entradas cruciales para los agentes de DRL. Por ejemplo, un robot podría usar un modelo Ultralytics YOLO implementado a través de Ultralytics HUB para percibir su entorno (representación del estado) antes de que una política de DRL decida la siguiente acción. Comprender el DRL proporciona contexto sobre cómo la percepción avanzada encaja en sistemas autónomos más amplios. Este desarrollo a menudo se ve facilitado por frameworks como PyTorch (página de inicio de PyTorch) y TensorFlow (página de inicio de TensorFlow) y se prueba en entornos de simulación como Gymnasium. Organizaciones de investigación líderes como DeepMind y organismos académicos como la Asociación para el Avance de la Inteligencia Artificial (AAAI) continúan impulsando el progreso en este emocionante campo.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles