Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Profundo por Refuerzo

Explora el aprendizaje profundo por refuerzo (DRL) y cómo combina la toma de decisiones de la IA con el aprendizaje profundo. Aprende a utilizar Ultralytics como capa de percepción hoy mismo.

El aprendizaje profundo por refuerzo (DRL) es un subconjunto avanzado de la inteligencia artificial (IA) que combina las capacidades de toma de decisiones del aprendizaje por refuerzo con el poder perceptivo del aprendizaje profundo (DL). Mientras que el aprendizaje por refuerzo tradicional se basa en métodos tabulares para asignar situaciones a acciones, estos métodos tienen dificultades cuando el entorno es complejo o visual. El DRL supera esta dificultad utilizando redes neuronales para interpretar datos de entrada de alta dimensión , como fotogramas de vídeo o lecturas de sensores, lo que permite a las máquinas aprender estrategias eficaces directamente a partir de la experiencia bruta , sin necesidad de instrucciones humanas explícitas.

El mecanismo central de DRL

En un sistema DRL, un agente de IA interactúa con un entorno en pasos de tiempo discretos. En cada paso, el agente observa el «estado» actual, selecciona una acción basada en una política y recibe una señal de recompensa que indica el éxito o el fracaso de esa acción. El objetivo principal es maximizar la recompensa acumulada a lo largo del tiempo.

El componente «profundo» se refiere al uso de redes neuronales profundas para aproximar la política (la estrategia de actuación) o la función de valor (la recompensa futura estimada). Esto permite al agente procesar datos no estructurados, utilizando la visión por ordenador (CV) para «ver» el entorno de forma muy similar a como lo hace un ser humano. Esta capacidad se basa en marcos como PyTorch o TensorFlow, que facilitan el entrenamiento de estas complejas redes.

Aplicaciones en el mundo real

DRL ha ido más allá de la investigación teórica y ha pasado a desarrollar aplicaciones prácticas de gran impacto en diversos sectores:

  • Robótica avanzada: en el campo de la IA en robótica, el DRL permite a las máquinas dominar habilidades motoras complejas que son difíciles de codificar. Los robots pueden aprender a agarrar objetos irregulares o atravesar terrenos irregulares perfeccionando sus movimientos dentro de motores físicos como NVIDIA Sim. Esto a menudo implica entrenar con datos sintéticos antes de implementar la política en hardware físico.
  • Conducción autónoma: Los vehículos autónomos aprovechan el DRL para tomar decisiones en tiempo real en situaciones de tráfico impredecibles. Mientras que los modelos de detección de objetos identifican a los peatones y las señales, los algoritmos DRL utilizan esa información para determinar políticas de conducción seguras para la incorporación a carriles, la navegación por intersecciones y el control de la velocidad, gestionando eficazmente la latencia de inferencia necesaria para la seguridad.

Visión como observador estatal

Para muchas aplicaciones de DRL, el «estado» es visual. Los modelos de alta velocidad actúan como los ojos del agente, convirtiendo las imágenes sin procesar en datos estructurados sobre los que puede actuar la red de políticas. El siguiente ejemplo ilustra cómo el modelo YOLO26 sirve como capa de percepción para un agente, extrayendo observaciones (por ejemplo, recuentos de obstáculos) del entorno.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinción entre DRL y conceptos afines

Es útil diferenciar el aprendizaje profundo por refuerzo de otros términos similares para comprender su posición única en el panorama de la IA. panorama de la IA:

  • Aprendizaje por refuerzo (RL): El RL estándar es el concepto fundamental, pero normalmente se basa en tablas de consulta (como las tablas Q), que resultan poco prácticas para espacios de estado grandes. El DRL resuelve este problema utilizando el aprendizaje profundo para aproximar funciones, lo que le permite manejar entradas complejas como imágenes.
  • Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF): Mientras que el DRL suele optimizar una función de recompensa definida matemáticamente (por ejemplo, puntos en un juego), el RLHF perfecciona los modelos —concretamente, los modelos de lenguaje grandes (LLM)— utilizando las preferencias subjetivas humanas para alinear el comportamiento de la IA con los valores humanos, una técnica popularizada por grupos de investigación como OpenAI.
  • Aprendizaje no supervisado: Los métodos no supervisados buscan patrones ocultos en los datos sin retroalimentación explícita. Por el contrario, el DRL está orientado a objetivos, impulsado por una señal de recompensa que guía activamente al agente hacia un objetivo específico, tal y como se describe en los textos fundamentales de Sutton y Barto.

Los desarrolladores que deseen gestionar los conjuntos de datos necesarios para las capas de percepción de los sistemas DRL pueden utilizar Ultralytics , que simplifica los flujos de trabajo de anotación y formación en la nube . Además, los investigadores suelen utilizar entornos estandarizados como Gymnasium para comparar sus algoritmos DRL con bases de referencia establecidas.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora