Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje por Refuerzo

Explora los conceptos básicos del aprendizaje por refuerzo (RL). Descubre cómo los agentes utilizan la retroalimentación para dominar tareas y comprueba cómo Ultralytics potencia los sistemas de visión RL.

El aprendizaje por refuerzo (RL) es un subconjunto orientado a objetivos del aprendizaje automático (ML) en el que un sistema autónomo , conocido como agente, aprende a tomar decisiones realizando acciones y recibiendo retroalimentación de su entorno. A diferencia del aprendizaje supervisado, que se basa en conjuntos de datos estáticos etiquetados con las respuestas correctas, los algoritmos de RL aprenden a través de un proceso dinámico de prueba y error. El agente interactúa con una simulación o con el mundo real, observando las consecuencias de sus acciones para determinar qué estrategias producen las mayores recompensas a largo plazo. Este enfoque imita de cerca el concepto psicológico del condicionamiento operante, en el que el comportamiento se moldea mediante el refuerzo positivo (recompensas) y el refuerzo negativo (castigos) a lo largo del tiempo.

Conceptos básicos del bucle RL

Para comprender cómo funciona el RL, resulta útil visualizarlo como un ciclo continuo de interacción. Este marco se formaliza matemáticamente a menudo como un proceso de decisión de Markov (MDP), que estructura la toma de decisiones en situaciones en las que los resultados son en parte aleatorios y en parte controlados por quien toma la decisión.

Los componentes principales de este ciclo de aprendizaje incluyen:

  • Agente de IA: La entidad responsable de aprender y tomar decisiones. Percibe el entorno y toma medidas para maximizar su éxito acumulativo.
  • Entorno: El mundo externo en el que opera el agente. Podría tratarse de un videojuego complejo, una simulación del mercado financiero o un almacén físico en IA en logística.
  • Estado: Una instantánea o representación de la situación actual. En aplicaciones visuales, esto a menudo implica procesar las imágenes de la cámara utilizando visión artificial (CV) para detect y obstáculos.
  • Acción: El movimiento o elección específica que realiza el agente. El conjunto completo de todos los movimientos posibles se denomina espacio de acción.
  • Recompensa: señal numérica enviada desde el entorno al agente después de una acción. Una función de recompensa bien diseñada asigna valores positivos a las acciones beneficiosas y penalizaciones a las perjudiciales.
  • Política: La estrategia o conjunto de reglas que utiliza el agente para determinar la siguiente acción en función del estado actual . Algoritmos como el aprendizaje Q definen cómo se actualiza y optimiza esta política .

Aplicaciones en el mundo real

El aprendizaje por refuerzo ha pasado de la investigación teórica a implementaciones prácticas de gran impacto en diversas industrias.

  • Robótica avanzada: en el campo de la IA en robótica, el RL permite a las máquinas dominar habilidades motoras complejas que son difíciles de codificar. Los robots pueden aprender a agarrar objetos irregulares o a desplazarse por terrenos irregulares mediante el entrenamiento en motores físicos como NVIDIA Sim antes de su implementación en el mundo real.
  • Sistemas autónomos: Los vehículos autónomos utilizan RL para tomar decisiones en tiempo real en situaciones de tráfico impredecibles. Mientras que los modelos de detección de objetos identifican a los peatones y las señales, los algoritmos RL ayudan a determinar políticas de conducción segura para la incorporación a carriles y la navegación en intersecciones.
  • Optimización estratégica: El RL ganó atención mundial cuando sistemas como AlphaGo,Google , derrotaron a campeones mundiales humanos en complejos juegos de mesa. Más allá de los juegos, estos agentes optimizan la logística industrial, como el control de los sistemas de refrigeración en los centros de datos para reducir el consumo de energía.

Integración de la visión con RL

En muchas aplicaciones modernas, el «estado» que observa un agente es visual. Los modelos de alto rendimiento como YOLO26 actúan como capa de percepción para los agentes RL, convirtiendo las imágenes sin procesar en datos estructurados. Esta información procesada, como la ubicación y la clase de los objetos, se convierte en el estado que utiliza la política RL para elegir una acción.

El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para procesar un marco de entorno, creando una representación de estado (por ejemplo, número de objetos) para un bucle RL teórico.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Diferenciar términos relacionados

Es importante distinguir el aprendizaje por refuerzo de otros paradigmas de aprendizaje automático:

  • vs. Aprendizaje supervisado: El aprendizaje supervisado requiere un supervisor externo con conocimientos que proporcione datos de entrenamiento etiquetados (por ejemplo, «esta imagen contiene un gato»). Por el contrario, el RL aprende de las consecuencias de sus propias acciones sin etiquetas explícitas , descubriendo las rutas óptimas a través de la exploración.
  • vs. Aprendizaje no supervisado: El aprendizaje no supervisado se centra en encontrar estructuras o patrones ocultos dentro de datos sin etiquetar (como la agrupación de clientes). El RL difiere porque está explícitamente orientado a objetivos, centrándose en maximizar una señal de recompensa en lugar de limitarse a describir la estructura de los datos.

A medida que aumenta la potencia computacional, técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están perfeccionando aún más la forma en que aprenden los agentes, alineando sus objetivos más estrechamente con los complejos valores humanos y las normas de seguridad . Los investigadores suelen utilizar entornos estandarizados como Gymnasium para comparar y mejorar estos algoritmos. Para los equipos que desean gestionar los conjuntos de datos necesarios para las capas de percepción de estos agentes, Ultralytics ofrece herramientas completas para la anotación y la gestión de modelos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora