Reinforcement Learning
Explora los conceptos fundamentales del aprendizaje por refuerzo (RL). Aprende cómo los agentes usan la retroalimentación para dominar tareas y observa cómo Ultralytics YOLO26 potencia los sistemas de visión basados en RL.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) es un subconjunto orientado a objetivos del aprendizaje automático (ML) donde un sistema autónomo, conocido como agente, aprende a tomar decisiones realizando acciones y recibiendo retroalimentación de su entorno. A diferencia del aprendizaje supervisado, que se basa en conjuntos de datos estáticos etiquetados con las respuestas correctas, los algoritmos de RL aprenden a través de un proceso dinámico de prueba y error. El agente interactúa con una simulación o con el mundo real, observando las consecuencias de sus acciones para determinar qué estrategias generan las mayores recompensas a largo plazo. Este enfoque imita estrechamente el concepto psicológico del condicionamiento operante, donde el comportamiento se moldea mediante refuerzo positivo (recompensas) y refuerzo negativo (castigos) con el paso del tiempo.
Link to this sectionConceptos clave del bucle de RL#
Para entender cómo funciona el RL, resulta útil visualizarlo como un ciclo continuo de interacción. Este marco se formaliza a menudo matemáticamente como un Proceso de decisión de Markov (MDP), que estructura la toma de decisiones en situaciones donde los resultados son parcialmente aleatorios y parcialmente controlados por quien toma la decisión.
Los componentes principales de este bucle de aprendizaje incluyen:
- Agente de IA: La entidad responsable de aprender y tomar decisiones. Percibe el entorno y realiza acciones para maximizar su éxito acumulado.
- Entorno: El mundo exterior en el que opera el agente. Podría ser un videojuego complejo, una simulación de mercado financiero o un almacén físico en IA en logística.
- Estado: Una instantánea o representación de la situación actual. En aplicaciones visuales, esto a menudo implica procesar transmisiones de cámaras mediante visión artificial (CV) para detectar objetos y obstáculos.
- Acción: El movimiento o elección específica que realiza el agente. El conjunto completo de todos los movimientos posibles se denomina espacio de acción.
- Recompensa: Una señal numérica enviada desde el entorno al agente después de una acción. Una función de recompensa bien diseñada asigna valores positivos a las acciones beneficiosas y penalizaciones a las perjudiciales.
- Política: La estrategia o conjunto de reglas que utiliza el agente para determinar la siguiente acción basada en el estado actual. Algoritmos como Q-learning definen cómo se actualiza y optimiza esta política.
Link to this sectionAplicaciones en el mundo real#
El aprendizaje por refuerzo ha pasado de la investigación teórica a despliegues prácticos de alto impacto en diversas industrias.
- Robótica avanzada: En el campo de la IA en robótica, el RL permite a las máquinas dominar habilidades motoras complejas que son difíciles de programar manualmente. Los robots pueden aprender a agarrar objetos irregulares o navegar por terrenos irregulares entrenándose en motores de física como NVIDIA Isaac Sim antes de desplegarse en el mundo real.
- Sistemas autónomos: Los vehículos autónomos utilizan el RL para tomar decisiones en tiempo real en escenarios de tráfico impredecibles. Mientras que los modelos de detección de objetos identifican peatones y señales, los algoritmos de RL ayudan a determinar políticas de conducción seguras para la incorporación a carriles y la navegación en intersecciones.
- Optimización estratégica: El RL captó la atención mundial cuando sistemas como AlphaGo de Google DeepMind derrotaron a campeones mundiales humanos en complejos juegos de mesa. Más allá de los juegos, estos agentes optimizan la logística industrial, como el control de los sistemas de refrigeración en centros de datos para reducir el consumo de energía.
Link to this sectionIntegración de la visión con el RL#
En muchas aplicaciones modernas, el "estado" que observa un agente es visual. Modelos de alto rendimiento como YOLO26 actúan como la capa de percepción para los agentes de RL, convirtiendo imágenes sin procesar en datos estructurados. Esta información procesada (como la ubicación y la clase de los objetos) se convierte en el estado que la política de RL utiliza para elegir una acción.
El siguiente ejemplo demuestra cómo usar el paquete ultralytics para procesar un fotograma del entorno, creando una representación de estado (por ejemplo, el número de objetos) para un bucle de RL teórico.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this sectionDiferenciación de términos relacionados#
Es importante distinguir el aprendizaje por refuerzo de otros paradigmas de aprendizaje automático:
- vs. Aprendizaje supervisado: El aprendizaje supervisado requiere un supervisor externo experto que proporcione datos de entrenamiento etiquetados (por ejemplo, "esta imagen contiene un gato"). Por el contrario, el RL aprende de las consecuencias de sus propias acciones sin etiquetas explícitas, descubriendo rutas óptimas a través de la exploración.
- vs. Aprendizaje no supervisado: El aprendizaje no supervisado se centra en encontrar estructuras o patrones ocultos dentro de datos no etiquetados (como la agrupación de clientes). El RL difiere porque está explícitamente orientado a objetivos, centrándose en maximizar una señal de recompensa en lugar de simplemente describir la estructura de los datos.
A medida que aumenta la potencia computacional, técnicas como el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están refinando aún más cómo aprenden los agentes, alineando sus objetivos más estrechamente con valores humanos complejos y estándares de seguridad. Los investigadores a menudo utilizan entornos estandarizados como Gymnasium para comparar y mejorar estos algoritmos. Para los equipos que buscan gestionar los conjuntos de datos necesarios para las capas de percepción de estos agentes, la Plataforma Ultralytics ofrece herramientas integrales para la anotación y la gestión de modelos.






