Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje Profundo por Refuerzo

Descubra el poder del aprendizaje profundo por refuerzo: donde la IA aprende comportamientos complejos para resolver desafíos en juegos, robótica, sanidad y mucho más.

El aprendizaje profundo por refuerzo (DRL) es un subcampo avanzado del aprendizaje automático (AM) que combina marcos de toma de decisiones del aprendizaje por refuerzo con las potentes de percepción del aprendizaje profundo (DL). Mientras que el aprendizaje por refuerzo tradicional se basa en el método de ensayo y error para optimizar el comportamiento en entornos sencillos, el DRL integra redes neuronales multicapa para interpretar interpretar datos sensoriales de alta dimensión, como fotogramas de vídeo o complejas lecturas de sensores. Esta integración permite a un agente agente de IA aprender estrategias sofisticadas para resolver en entornos dinámicos no estructurados, desde la navegación autónoma hasta el juego estratégico. estratégicos.

Mecánica del aprendizaje profundo por refuerzo

El núcleo del DRL es la interacción entre un agente y su entorno, a menudo modelada matemáticamente como un proceso de decisión de Markov (MDP). Proceso de Decisión de Markov (MDP). A diferencia de aprendizaje supervisado, en el que un modelo se con respuestas correctas conocidas, un agente DRL aprende explorando. aprende explorando. Observa el estado actual, realiza una acción y recibe una señal de retroalimentación conocida como "recompensa". "recompensa".

Para manejar entradas complejas, DRL emplea redes neuronales convolucionales (CNN) u otras arquitecturas profundas para aproximar el valor de acciones específicas. Mediante procesos como retropropagación y descenso de gradiente, la red ajusta los modelo para maximizar las recompensas acumuladas a lo largo del tiempo. con el tiempo. Algoritmos como Deep Q-Networks (DQN) y Optimización de Políticas Proximales (PPO) son fundamentales para estabilizar este proceso de formación, permitiendo a los agentes generalizar su aprendizaje a situaciones nuevas y desconocidas. situaciones desconocidas.

Aplicaciones en el mundo real

La versatilidad del DRL ha dado lugar a aplicaciones transformadoras en diversos sectores:

  • Robótica avanzada: En el campo de la IA en robótica, el DRL permite a las máquinas dominar habilidades motoras complejas. Por ejemplo, los robots pueden aprender a manipular objetos o caminar por terrenos irregulares continuamente sus movimientos basándose en entornos de simulación física como NVIDIA Isaac Sim.
  • Sistemas autónomos: Los vehículos autónomos aprovechan el DRL para tomar decisiones en tiempo real en un tráfico impredecible. Al procesar las entradas de LiDAR y las cámaras, estos sistemas aprenden políticas de conducción seguras para la incorporación a carriles y la navegación por intersecciones. de carril y navegación en intersecciones, a menudo utilizando la visión por visión por ordenador (VC) para analizar la escena visual. visual.
  • Juego estratégico: DRL alcanzó fama mundial cuando sistemas como AlphaGo de DeepMind derrotaron a campeones mundiales humanos. Estos agentes de agentes exploran millones de estrategias potenciales en simulación, descubriendo tácticas novedosas que superan la intuición humana. intuición humana.

Integración de la visión por ordenador como observador del estado

Para muchas aplicaciones DRL, el "estado" representa información visual. Los modelos de detección de objetos de alta velocidad de alta velocidad pueden actuar como los ojos del del agente, convirtiendo los píxeles en bruto en datos estructurados sobre los que puede actuar la red de políticas.

El siguiente ejemplo ilustra cómo YOLO11 puede utilizarse para extraer observaciones de estado para un agente DRL:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Distinción entre DRL y conceptos afines

Es útil diferenciar el aprendizaje profundo por refuerzo de otros términos similares para comprender su posición única en el panorama de la IA. panorama de la IA:

  • Aprendizaje por refuerzo (RL): El RL estándar es el concepto básico, pero a menudo se basa en tablas de consulta (como las tablas Q) que resultan poco prácticas para grandes espacios de estados. para grandes espacios de estados. El DRL resuelve este problema aprendizaje profundo para aproximar políticas políticas, lo que le permite manejar entradas complejas como imágenes.
  • Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF): Mientras que el DRL suele optimizar una función de recompensa definida matemáticamente (por ejemplo, puntos en un juego), el RLHF refina modelos, en concreto grandes modelos lingüísticos (LLM), utilizando preferencias humanas subjetivas para alinear el comportamiento de la IA con los valores humanos.
  • Aprendizaje no supervisado: Los métodos no supervisados buscan patrones ocultos en los datos sin retroalimentación explícita. En cambio, el DRL está orientado a objetivos, se rige por una señal de recompensa que guía al agente hacia un objetivo específico.

Herramientas y Frameworks

El desarrollo de sistemas DRL requiere ecosistemas de software robustos. Los investigadores confían en marcos como PyTorch y TensorFlow para construir las redes neuronales subyacentes. A menudo se combinan con bibliotecas de interfaces estándar como Gymnasium (anteriormente OpenAI Gym), que proporcionan una colección de entornos para probar y evaluar algoritmos. El entrenamiento de estos modelos es intensivo desde el punto de vista computacional, y a menudo requiere GPU de alto rendimiento. suelen necesitar GPU de alto rendimiento para para gestionar los millones de pasos de simulación necesarios para la convergencia.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora