Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Deep Reinforcement Learning

Explora el Aprendizaje por Refuerzo Profundo (DRL) y cómo combina la toma de decisiones por IA con el deep learning. Aprende a usar Ultralytics YOLO26 como una capa de percepción hoy mismo.

El aprendizaje por refuerzo profundo (DRL, por sus siglas en inglés) es un subcampo avanzado de la inteligencia artificial (IA) que combina la capacidad de toma de decisiones del aprendizaje por refuerzo con la potencia perceptiva del aprendizaje profundo (DL). Mientras que el aprendizaje por refuerzo tradicional depende de métodos tabulares para asignar situaciones a acciones, estos métodos tienen dificultades cuando el entorno es complejo o visual. El DRL supera esto mediante el uso de redes neuronales para interpretar datos de entrada de alta dimensión, como fotogramas de vídeo o lecturas de sensores, permitiendo que las máquinas aprendan estrategias eficaces directamente a partir de la experiencia bruta sin instrucción humana explícita.

Link to this sectionEl mecanismo central del DRL#

En un sistema DRL, un agente de IA interactúa con un entorno en pasos de tiempo discretos. En cada paso, el agente observa el "estado" actual, selecciona una acción basada en una política y recibe una señal de recompensa que indica el éxito o el fracaso de esa acción. El objetivo principal es maximizar la recompensa acumulada a lo largo del tiempo.

El componente "profundo" se refiere al uso de redes neuronales profundas para aproximar la política (la estrategia para actuar) o la función de valor (la recompensa futura estimada). Esto permite al agente procesar datos no estructurados, utilizando visión artificial (CV) para "ver" el entorno de forma muy parecida a como lo hace un humano. Esta capacidad está impulsada por marcos de trabajo como PyTorch o TensorFlow, que facilitan el entrenamiento de estas redes complejas.

Link to this sectionAplicaciones en el mundo real#

El DRL ha ido más allá de la investigación teórica hacia aplicaciones prácticas de alto impacto en diversos sectores:

  • Robótica avanzada: En el campo de la IA en robótica, el DRL permite a las máquinas dominar habilidades motoras complejas que son difíciles de programar manualmente. Los robots pueden aprender a agarrar objetos irregulares o a atravesar terrenos irregulares refinando sus movimientos dentro de motores físicos como NVIDIA Isaac Sim. Esto suele implicar el entrenamiento con datos sintéticos antes de desplegar la política en el hardware físico.
  • Conducción autónoma: Los vehículos autónomos aprovechan el DRL para tomar decisiones en tiempo real en escenarios de tráfico impredecibles. Mientras los modelos de detección de objetos identifican peatones y señales, los algoritmos de DRL utilizan esa información para determinar políticas de conducción seguras para la incorporación a carriles, la navegación en intersecciones y el control de velocidad, gestionando eficazmente la latencia de inferencia necesaria para la seguridad.

Link to this sectionLa visión como observador de estados#

Para muchas aplicaciones de DRL, el "estado" es visual. Los modelos de alta velocidad actúan como los ojos del agente, convirtiendo las imágenes brutas en datos estructurados sobre los que puede actuar la red de políticas. El siguiente ejemplo ilustra cómo el modelo YOLO26 sirve como capa de percepción para un agente, extrayendo observaciones (por ejemplo, recuento de obstáculos) del entorno.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionDiferenciación del DRL de conceptos relacionados#

Es útil diferenciar el aprendizaje por refuerzo profundo de términos similares para entender su posición única en el panorama de la IA:

  • Aprendizaje por refuerzo (RL): El RL estándar es el concepto fundamental, pero normalmente depende de tablas de búsqueda (como las Q-tables) que se vuelven poco prácticas para grandes espacios de estados. El DRL resuelve esto utilizando aprendizaje profundo para aproximar funciones, lo que le permite manejar entradas complejas como las imágenes.
  • Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF): Mientras que el DRL normalmente optimiza una función de recompensa definida matemáticamente (por ejemplo, puntos en un juego), el RLHF refina modelos —específicamente Grandes Modelos de Lenguaje (LLMs)— utilizando preferencias humanas subjetivas para alinear el comportamiento de la IA con los valores humanos, una técnica popularizada por grupos de investigación como OpenAI.
  • Aprendizaje no supervisado: Los métodos no supervisados buscan patrones ocultos en los datos sin una respuesta explícita. Por el contrario, el DRL está orientado a objetivos, impulsado por una señal de recompensa que guía activamente al agente hacia un objetivo específico, tal como se analiza en los textos fundamentales de Sutton y Barto.

Los desarrolladores que buscan gestionar los conjuntos de datos necesarios para las capas de percepción de los sistemas DRL pueden utilizar la Ultralytics Platform, que simplifica los flujos de trabajo de anotación y entrenamiento en la nube. Además, los investigadores suelen utilizar entornos estandarizados como Gymnasium para comparar sus algoritmos de DRL frente a referencias establecidas.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático