Glosario

Aprendizaje profundo por refuerzo

Descubre el poder del aprendizaje profundo por refuerzo, con el que la IA aprende comportamientos complejos para resolver retos en juegos, robótica, sanidad y mucho más.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El Aprendizaje por Refuerzo Profundo (DRL) combina los principios del Aprendizaje por Refuerzo (RL) con la potencia del Aprendizaje Profundo (DL). Permite a los agentes de software aprender comportamientos óptimos en entornos complejos, a menudo de alta dimensión, mediante el método de ensayo y error. A diferencia del RL tradicional, que puede tener problemas con vastos espacios de estados (como los datos de píxeles en bruto de una cámara), el DRL utiliza redes neuronales profundas (NN ) para aproximar las funciones necesarias para el aprendizaje, como la función de valor (predecir recompensas futuras) o la política (asignar estados a acciones). Esto permite a los agentes DRL abordar problemas antes intratables, aprendiendo directamente de entradas sensoriales complejas como imágenes o lecturas de sensores.

Cómo funciona el aprendizaje profundo por refuerzo

En esencia, el DRL implica a un agente que interactúa con un entorno a lo largo de pasos temporales discretos. El proceso suele desarrollarse del siguiente modo:

  1. Observación: El agente observa el estado actual del entorno. En DRL, este estado puede representarse mediante datos de alta dimensión, como píxeles de imagen procesados por una Red Neuronal Convolucional (CNN).
  2. Selección de la acción: Basándose en el estado observado, el agente selecciona una acción utilizando su política, que está representada por una red neuronal profunda.
  3. Interacción: El agente realiza la acción elegida, haciendo que el entorno pase a un nuevo estado.
  4. Retroalimentación (Recompensa): El entorno proporciona una señal escalar de recompensa, que indica lo buena o mala que fue la acción en el estado anterior.
  5. Aprendizaje: El agente utiliza la señal de recompensa y la transición de estado para actualizar su red neuronal (política o función de valor) mediante algoritmos como la retropropagación y el descenso gradiente. El objetivo es ajustar los pesos de la red para maximizar la recompensa futura acumulada a lo largo del tiempo. Este bucle de aprendizaje se repite, permitiendo al agente mejorar progresivamente su estrategia de toma de decisiones.

Conceptos clave en DRL

Comprender el DRL implica familiarizarse con varias ideas centrales del Aprendizaje por Refuerzo, ahora ampliadas mediante técnicas de aprendizaje profundo:

  • Agente: El algoritmo o modelo que aprende a tomar decisiones.
  • Entorno: El mundo o sistema con el que interactúa el agente (por ejemplo, una simulación de juego, el entorno de un robot físico). Los entornos estandarizados para la investigación suelen proporcionarse mediante conjuntos de herramientas como Gymnasium (antes OpenAI Gym).
  • Estado: Representación del entorno en un momento determinado. DRL destaca en el manejo de estados representados por grandes cantidades de datos, como imágenes o conjuntos de sensores.
  • Acción: Decisión tomada por el agente que influye en el entorno.
  • Recompensa: Respuesta numérica del entorno que indica la conveniencia inmediata de una acción realizada en un estado.
  • Política: La estrategia del agente, que asigna estados a acciones. En DRL, suele ser una red neuronal profunda.
  • Función de valor: Estima la recompensa acumulada esperada a largo plazo de un determinado estado o par estado-acción. También se suele representar mediante una red neuronal profunda.
  • Exploración vs. Explotación: Un compromiso fundamental en el que el agente debe equilibrar probar nuevas acciones para descubrir mejores estrategias (exploración) frente a seguir con las buenas acciones conocidas (explotación).

DRL frente a otros paradigmas de aprendizaje automático

El DRL difiere significativamente de otros enfoques primarios de Aprendizaje Automático (AM):

  • Aprendizaje supervisado: Aprende de un conjunto de datos que contiene ejemplos etiquetados (pares de entrada-salida). Tareas como la clasificación de imágenes o la detección de objetos utilizando modelos como Ultralytics YOLO entran en esta categoría. El DRL, en cambio, aprende de señales de recompensa sin respuestas correctas explícitas para cada estado.
  • Aprendizaje no supervisado: Aprende patrones y estructuras a partir de datos no etiquetados (por ejemplo, agrupación). El DRL se centra en el aprendizaje de comportamientos orientados a objetivos mediante la interacción y la retroalimentación.
  • Aprendizaje por Refuerzo (RL): El DRL es un tipo específico de RL que emplea redes neuronales profundas. El RL tradicional suele utilizar representaciones más sencillas, como tablas (tablas Q), que son inviables para problemas con espacios de estados muy grandes o continuos, donde brilla el DRL.

Aplicaciones en el mundo real

El DRL ha impulsado avances en diversos ámbitos complejos:

  • Robótica: Entrenamiento de robots para realizar tareas complejas como la manipulación de objetos, la locomoción y el ensamblaje, a menudo aprendiendo directamente de las entradas de la cámara o de los datos del sensor. Esto se explora en recursos como El papel de la IA en la robótica.
  • Juego: Conseguir un rendimiento sobrehumano en juegos complejos, como el Go(AlphaGo de DeepMind) y diversos videojuegos(OpenAI Five para Dota 2).
  • Vehículos autónomos: Desarrollo de políticas de control sofisticadas para la navegación, la planificación de trayectorias y la toma de decisiones en escenarios de tráfico dinámico, como se expone en AI in self-driving cars.
  • Optimización de recursos: Gestión de sistemas complejos como redes de energía(IA enenergías renovables), control de señales de tráfico(IA en gestión del tráfico) y optimización de reacciones químicas.
  • Sistemas de recomendación: Optimización de secuencias de recomendaciones para maximizar el compromiso o la satisfacción del usuario a largo plazo.
  • Sanidad: Descubrir políticas de tratamiento o dosis de fármacos óptimas basadas en los estados y resultados del paciente, contribuyendo a áreas como la IA en la asistencia sanitaria.

Relevancia en el ecosistema de la IA

El Aprendizaje por Refuerzo Profundo representa un área significativa de la investigación en Inteligencia Artificial (IA), que amplía los límites de la autonomía de las máquinas y la toma de decisiones. Aunque empresas como Ultralytics se centran principalmente en modelos de visión de última generación como Ultralytics YOLO para tareas como la detección de objetos y la segmentación de imágenes mediante aprendizaje supervisado, los resultados de estos sistemas de percepción son a menudo entradas cruciales para los agentes de DRL. Por ejemplo, un robot puede utilizar un modelo Ultralytics YOLO desplegado a través de Ultralytics HUB para percibir su entorno (representación de estado) antes de que una política DRL decida la siguiente acción. Comprender el DRL proporciona el contexto para ver cómo la percepción avanzada encaja en sistemas autónomos más amplios y en problemas de control complejos abordados por la comunidad de la IA mediante conjuntos de herramientas como Gymnasium y marcos como PyTorchPyTorch página de inicioPyTorch ) y TensorFlowTensorFlow página de inicioTensorFlow ). Organizaciones de investigación como DeepMind y organismos académicos como la Asociación para el Avance de la Inteligencia Artificial (AAAI) siguen impulsando el progreso en este apasionante campo.

Leer todo