Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Aprendizaje por Refuerzo

Descubra el aprendizaje por refuerzo, donde los agentes optimizan las acciones mediante prueba y error para maximizar las recompensas. ¡Explore conceptos, aplicaciones y beneficios!

El aprendizaje por refuerzo (RL) es un subconjunto dinámico del aprendizaje automático (AM) centrado en enseñar a un a un agente de IA autónomo a tomar decisiones óptimas decisiones óptimas mediante ensayo y error. A diferencia de otros paradigmas de aprendizaje que se basan en conjuntos de datos estáticos, en el RL un agente interactúa con un entorno dinámico para alcanzar un objetivo específico. entorno dinámico para alcanzar un objetivo específico. El agente recibe información en forma de recompensas o penalizaciones en función de sus acciones. El agente recibe retroalimentación en forma de recompensas o penalizaciones basadas en sus acciones, refinando gradualmente su estrategia para maximizar la recompensa acumulada a lo largo del tiempo. Este proceso refleja el concepto de concepto de Este proceso refleja el concepto de condicionamiento operante de la psicología conductista, en el que los comportamientos se ven reforzados por las consecuencias.

Conceptos básicos y mecánica

El marco del aprendizaje por refuerzo suele describirse matemáticamente como un Proceso de Decisión de Markov (MDP). Para entender cómo funciona este ciclo, es útil desglosar los componentes principales que intervienen en el bucle de aprendizaje:

  • Agente de IA: El aprendiz o decisor que percibe el entorno y ejecuta acciones.
  • Entorno: El mundo físico o virtual en el que opera el agente. En el contexto de la IA en videojuegos, es el mundo del juego; en robótica, es el espacio físico.
  • Estado: Una instantánea de la situación actual proporcionada al agente. A menudo se trata de sensoriales, como los datos sistemas de visión por ordenador (CV).
  • Acción: El movimiento o decisión concreta que toma el agente. El conjunto de todos los movimientos posibles se denomina espacio de acción.
  • Recompensa: Señal numérica recibida del entorno tras la realización de una acción. Las recompensas positivas fomentan el comportamiento, mientras que las recompensas negativas (penalizaciones) lo desalientan.
  • Política: La estrategia o conjunto de reglas que emplea el agente para determinar la siguiente acción en función del estado actual.

Aplicaciones reales del aprendizaje por refuerzo

La RL ha ido más allá de la investigación teórica y ahora impulsa sistemas complejos del mundo real en diversos sectores.

  • IA en robótica: En fabricación y la logística, los robots utilizan la RL para aprender tareas de manipulación complejas, como agarrar objetos de distintas formas. En lugar de codificar cada movimiento, el robot aprende a ajustar su agarre en función de la información física recibida, lo que mejora notablemente la eficacia de la manipulación. eficiencia en entornos entornos de fabricación inteligentes.
  • Vehículos autónomos: Los coches autónomos utilizan la RL para tomar decisiones de conducción de alto nivel. Mientras que los modelos de detección de objetos identifican señales, los algoritmos de RL ayudan a determinar las maniobras más seguras y eficientes, como cuándo incorporarse al tráfico o en una intersección con mucho tráfico.
  • Control del tráfico: Los planificadores urbanos emplean la RL para optimizar la sincronización de las señales de tráfico. Al tratar el flujo como una función de recompensa, los sistemas pueden adaptarse dinámicamente para reducir la congestión, un componente clave de la IA en la gestión del tráfico. IA en la gestión del tráfico.

Aprendizaje por refuerzo frente a términos relacionados

Es importante distinguir la RL de otros enfoques de aprendizaje automático, ya que sus metodologías de formación difieren difieren significativamente.

  • Aprendizaje supervisado: Este método método se basa en un conjunto de datos de entrenamiento que contiene entradas emparejadas con salidas correctas (etiquetas). El modelo aprende minimizando el error entre su predicción y la etiqueta conocida. etiqueta conocida. En cambio, la RL no tiene acceso de antemano a las respuestas "correctas", sino que debe descubrirlas mediante la interacción. mediante la interacción.
  • Aprendizaje no supervisado: Consiste en encontrar patrones o estructuras ocultos en datos no etiquetados, como la agrupación de clientes mediante k-means. RL difiere porque su objetivo es maximizar una señal de recompensa, no sólo analizar la distribución de los datos.
  • Aprendizaje profundo por refuerzo (DRL): Mientras que RL define el paradigma de aprendizaje, DRL lo combina con aprendizaje profundo. En el DRL se utilizan redes neuronales para aproximar la política o función de valor, lo que permite al agente manejar entradas de alta dimensión, como píxeles de imágenes sin procesar.

Integración de la visión por ordenador con la realidad lineal

En muchas aplicaciones, el "estado" que observa un agente es visual. Los modelos de visión de alto rendimiento como YOLO11 se utilizan con frecuencia como capa de percepción para los agentes RL de los agentes de RL. El modelo de visión procesa la escena para detect objetos, y esta información estructurada se transmite al agente de RL para decidir la siguiente acción.

El siguiente ejemplo muestra cómo utilizar un modelo YOLO para generar el estado (objetos detectados) que podría introducirse en un bucle de toma de decisiones de RL. en un bucle de toma de decisiones RL.

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

Para explorar cómo se escalan estos conceptos, los investigadores suelen utilizar entornos como OpenAI Gym (ahora Gymnasium) para estandarizar las pruebas de algoritmos de RL. A medida que crece la potencia computacional de potencia computacional, técnicas como el Aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) están perfeccionando aún más el modo en que los agentes se alinean con los valores humanos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora