Explora los conceptos básicos del aprendizaje por refuerzo (RL). Descubre cómo los agentes utilizan la retroalimentación para dominar tareas y comprueba cómo Ultralytics potencia los sistemas de visión RL.
El aprendizaje por refuerzo (RL) es un subconjunto orientado a objetivos del aprendizaje automático (ML) en el que un sistema autónomo , conocido como agente, aprende a tomar decisiones realizando acciones y recibiendo retroalimentación de su entorno. A diferencia del aprendizaje supervisado, que se basa en conjuntos de datos estáticos etiquetados con las respuestas correctas, los algoritmos de RL aprenden a través de un proceso dinámico de prueba y error. El agente interactúa con una simulación o con el mundo real, observando las consecuencias de sus acciones para determinar qué estrategias producen las mayores recompensas a largo plazo. Este enfoque imita de cerca el concepto psicológico del condicionamiento operante, en el que el comportamiento se moldea mediante el refuerzo positivo (recompensas) y el refuerzo negativo (castigos) a lo largo del tiempo.
Para comprender cómo funciona el RL, resulta útil visualizarlo como un ciclo continuo de interacción. Este marco se formaliza matemáticamente a menudo como un proceso de decisión de Markov (MDP), que estructura la toma de decisiones en situaciones en las que los resultados son en parte aleatorios y en parte controlados por quien toma la decisión.
Los componentes principales de este ciclo de aprendizaje incluyen:
El aprendizaje por refuerzo ha pasado de la investigación teórica a implementaciones prácticas de gran impacto en diversas industrias.
En muchas aplicaciones modernas, el «estado» que observa un agente es visual. Los modelos de alto rendimiento como YOLO26 actúan como capa de percepción para los agentes RL, convirtiendo las imágenes sin procesar en datos estructurados. Esta información procesada, como la ubicación y la clase de los objetos, se convierte en el estado que utiliza la política RL para elegir una acción.
El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para procesar un marco de entorno,
creando una representación de estado (por ejemplo, número de objetos) para un bucle RL teórico.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Es importante distinguir el aprendizaje por refuerzo de otros paradigmas de aprendizaje automático:
A medida que aumenta la potencia computacional, técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están perfeccionando aún más la forma en que aprenden los agentes, alineando sus objetivos más estrechamente con los complejos valores humanos y las normas de seguridad . Los investigadores suelen utilizar entornos estandarizados como Gymnasium para comparar y mejorar estos algoritmos. Para los equipos que desean gestionar los conjuntos de datos necesarios para las capas de percepción de estos agentes, Ultralytics ofrece herramientas completas para la anotación y la gestión de modelos.