Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Reinforcement Learning

Explora los conceptos fundamentales del aprendizaje por refuerzo (RL). Aprende cómo los agentes usan la retroalimentación para dominar tareas y observa cómo Ultralytics YOLO26 potencia los sistemas de visión basados en RL.

El aprendizaje por refuerzo (RL, por sus siglas en inglés) es un subconjunto orientado a objetivos del aprendizaje automático (ML) donde un sistema autónomo, conocido como agente, aprende a tomar decisiones realizando acciones y recibiendo retroalimentación de su entorno. A diferencia del aprendizaje supervisado, que se basa en conjuntos de datos estáticos etiquetados con las respuestas correctas, los algoritmos de RL aprenden a través de un proceso dinámico de prueba y error. El agente interactúa con una simulación o con el mundo real, observando las consecuencias de sus acciones para determinar qué estrategias generan las mayores recompensas a largo plazo. Este enfoque imita estrechamente el concepto psicológico del condicionamiento operante, donde el comportamiento se moldea mediante refuerzo positivo (recompensas) y refuerzo negativo (castigos) con el paso del tiempo.

Link to this sectionConceptos clave del bucle de RL#

Para entender cómo funciona el RL, resulta útil visualizarlo como un ciclo continuo de interacción. Este marco se formaliza a menudo matemáticamente como un Proceso de decisión de Markov (MDP), que estructura la toma de decisiones en situaciones donde los resultados son parcialmente aleatorios y parcialmente controlados por quien toma la decisión.

Los componentes principales de este bucle de aprendizaje incluyen:

  • Agente de IA: La entidad responsable de aprender y tomar decisiones. Percibe el entorno y realiza acciones para maximizar su éxito acumulado.
  • Entorno: El mundo exterior en el que opera el agente. Podría ser un videojuego complejo, una simulación de mercado financiero o un almacén físico en IA en logística.
  • Estado: Una instantánea o representación de la situación actual. En aplicaciones visuales, esto a menudo implica procesar transmisiones de cámaras mediante visión artificial (CV) para detectar objetos y obstáculos.
  • Acción: El movimiento o elección específica que realiza el agente. El conjunto completo de todos los movimientos posibles se denomina espacio de acción.
  • Recompensa: Una señal numérica enviada desde el entorno al agente después de una acción. Una función de recompensa bien diseñada asigna valores positivos a las acciones beneficiosas y penalizaciones a las perjudiciales.
  • Política: La estrategia o conjunto de reglas que utiliza el agente para determinar la siguiente acción basada en el estado actual. Algoritmos como Q-learning definen cómo se actualiza y optimiza esta política.

Link to this sectionAplicaciones en el mundo real#

El aprendizaje por refuerzo ha pasado de la investigación teórica a despliegues prácticos de alto impacto en diversas industrias.

  • Robótica avanzada: En el campo de la IA en robótica, el RL permite a las máquinas dominar habilidades motoras complejas que son difíciles de programar manualmente. Los robots pueden aprender a agarrar objetos irregulares o navegar por terrenos irregulares entrenándose en motores de física como NVIDIA Isaac Sim antes de desplegarse en el mundo real.
  • Sistemas autónomos: Los vehículos autónomos utilizan el RL para tomar decisiones en tiempo real en escenarios de tráfico impredecibles. Mientras que los modelos de detección de objetos identifican peatones y señales, los algoritmos de RL ayudan a determinar políticas de conducción seguras para la incorporación a carriles y la navegación en intersecciones.
  • Optimización estratégica: El RL captó la atención mundial cuando sistemas como AlphaGo de Google DeepMind derrotaron a campeones mundiales humanos en complejos juegos de mesa. Más allá de los juegos, estos agentes optimizan la logística industrial, como el control de los sistemas de refrigeración en centros de datos para reducir el consumo de energía.

Link to this sectionIntegración de la visión con el RL#

En muchas aplicaciones modernas, el "estado" que observa un agente es visual. Modelos de alto rendimiento como YOLO26 actúan como la capa de percepción para los agentes de RL, convirtiendo imágenes sin procesar en datos estructurados. Esta información procesada (como la ubicación y la clase de los objetos) se convierte en el estado que la política de RL utiliza para elegir una acción.

El siguiente ejemplo demuestra cómo usar el paquete ultralytics para procesar un fotograma del entorno, creando una representación de estado (por ejemplo, el número de objetos) para un bucle de RL teórico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this sectionDiferenciación de términos relacionados#

Es importante distinguir el aprendizaje por refuerzo de otros paradigmas de aprendizaje automático:

  • vs. Aprendizaje supervisado: El aprendizaje supervisado requiere un supervisor externo experto que proporcione datos de entrenamiento etiquetados (por ejemplo, "esta imagen contiene un gato"). Por el contrario, el RL aprende de las consecuencias de sus propias acciones sin etiquetas explícitas, descubriendo rutas óptimas a través de la exploración.
  • vs. Aprendizaje no supervisado: El aprendizaje no supervisado se centra en encontrar estructuras o patrones ocultos dentro de datos no etiquetados (como la agrupación de clientes). El RL difiere porque está explícitamente orientado a objetivos, centrándose en maximizar una señal de recompensa en lugar de simplemente describir la estructura de los datos.

A medida que aumenta la potencia computacional, técnicas como el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están refinando aún más cómo aprenden los agentes, alineando sus objetivos más estrechamente con valores humanos complejos y estándares de seguridad. Los investigadores a menudo utilizan entornos estandarizados como Gymnasium para comparar y mejorar estos algoritmos. Para los equipos que buscan gestionar los conjuntos de datos necesarios para las capas de percepción de estos agentes, la Plataforma Ultralytics ofrece herramientas integrales para la anotación y la gestión de modelos.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático