Explora el aprendizaje profundo por refuerzo (DRL) y cómo combina la toma de decisiones de la IA con el aprendizaje profundo. Aprende a utilizar Ultralytics como capa de percepción hoy mismo.
El aprendizaje profundo por refuerzo (DRL) es un subconjunto avanzado de la inteligencia artificial (IA) que combina las capacidades de toma de decisiones del aprendizaje por refuerzo con el poder perceptivo del aprendizaje profundo (DL). Mientras que el aprendizaje por refuerzo tradicional se basa en métodos tabulares para asignar situaciones a acciones, estos métodos tienen dificultades cuando el entorno es complejo o visual. El DRL supera esta dificultad utilizando redes neuronales para interpretar datos de entrada de alta dimensión , como fotogramas de vídeo o lecturas de sensores, lo que permite a las máquinas aprender estrategias eficaces directamente a partir de la experiencia bruta , sin necesidad de instrucciones humanas explícitas.
En un sistema DRL, un agente de IA interactúa con un entorno en pasos de tiempo discretos. En cada paso, el agente observa el «estado» actual, selecciona una acción basada en una política y recibe una señal de recompensa que indica el éxito o el fracaso de esa acción. El objetivo principal es maximizar la recompensa acumulada a lo largo del tiempo.
El componente «profundo» se refiere al uso de redes neuronales profundas para aproximar la política (la estrategia de actuación) o la función de valor (la recompensa futura estimada). Esto permite al agente procesar datos no estructurados, utilizando la visión por ordenador (CV) para «ver» el entorno de forma muy similar a como lo hace un ser humano. Esta capacidad se basa en marcos como PyTorch o TensorFlow, que facilitan el entrenamiento de estas complejas redes.
DRL ha ido más allá de la investigación teórica y ha pasado a desarrollar aplicaciones prácticas de gran impacto en diversos sectores:
Para muchas aplicaciones de DRL, el «estado» es visual. Los modelos de alta velocidad actúan como los ojos del agente, convirtiendo las imágenes sin procesar en datos estructurados sobre los que puede actuar la red de políticas. El siguiente ejemplo ilustra cómo el modelo YOLO26 sirve como capa de percepción para un agente, extrayendo observaciones (por ejemplo, recuentos de obstáculos) del entorno.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Es útil diferenciar el aprendizaje profundo por refuerzo de otros términos similares para comprender su posición única en el panorama de la IA. panorama de la IA:
Los desarrolladores que deseen gestionar los conjuntos de datos necesarios para las capas de percepción de los sistemas DRL pueden utilizar Ultralytics , que simplifica los flujos de trabajo de anotación y formación en la nube . Además, los investigadores suelen utilizar entornos estandarizados como Gymnasium para comparar sus algoritmos DRL con bases de referencia establecidas.