Descubra el aprendizaje por refuerzo, donde los agentes optimizan las acciones mediante prueba y error para maximizar las recompensas. ¡Explore conceptos, aplicaciones y beneficios!
El aprendizaje por refuerzo (RL) es un subconjunto dinámico del aprendizaje automático (AM) centrado en enseñar a un a un agente de IA autónomo a tomar decisiones óptimas decisiones óptimas mediante ensayo y error. A diferencia de otros paradigmas de aprendizaje que se basan en conjuntos de datos estáticos, en el RL un agente interactúa con un entorno dinámico para alcanzar un objetivo específico. entorno dinámico para alcanzar un objetivo específico. El agente recibe información en forma de recompensas o penalizaciones en función de sus acciones. El agente recibe retroalimentación en forma de recompensas o penalizaciones basadas en sus acciones, refinando gradualmente su estrategia para maximizar la recompensa acumulada a lo largo del tiempo. Este proceso refleja el concepto de concepto de Este proceso refleja el concepto de condicionamiento operante de la psicología conductista, en el que los comportamientos se ven reforzados por las consecuencias.
El marco del aprendizaje por refuerzo suele describirse matemáticamente como un Proceso de Decisión de Markov (MDP). Para entender cómo funciona este ciclo, es útil desglosar los componentes principales que intervienen en el bucle de aprendizaje:
La RL ha ido más allá de la investigación teórica y ahora impulsa sistemas complejos del mundo real en diversos sectores.
Es importante distinguir la RL de otros enfoques de aprendizaje automático, ya que sus metodologías de formación difieren difieren significativamente.
En muchas aplicaciones, el "estado" que observa un agente es visual. Los modelos de visión de alto rendimiento como YOLO11 se utilizan con frecuencia como capa de percepción para los agentes RL de los agentes de RL. El modelo de visión procesa la escena para detect objetos, y esta información estructurada se transmite al agente de RL para decidir la siguiente acción.
El siguiente ejemplo muestra cómo utilizar un modelo YOLO para generar el estado (objetos detectados) que podría introducirse en un bucle de toma de decisiones de RL. en un bucle de toma de decisiones RL.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
Para explorar cómo se escalan estos conceptos, los investigadores suelen utilizar entornos como OpenAI Gym (ahora Gymnasium) para estandarizar las pruebas de algoritmos de RL. A medida que crece la potencia computacional de potencia computacional, técnicas como el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están perfeccionando aún más el modo en que los agentes se alinean con los valores humanos.