Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

División de acciones

Descubre cómo la segmentación de acciones mejora la precisión robótica y el aprendizaje por imitación. Descubre cómo utilizar Ultralytics para reducir los errores acumulativos en los agentes de IA.

La segmentación de acciones es una técnica avanzada de aprendizaje profundo, muy utilizada en robótica y aprendizaje por imitación, en la que un modelo predice una secuencia (o «segmento») de acciones futuras en lugar de una sola acción en cada intervalo de tiempo. Al predecir una trayectoria de varios pasos, el fragmentado de acciones permite a los agentes de IA realizar tareas complejas y a largo plazo con mayor fluidez y fiabilidad. Este enfoque ha ganado un gran impulso tras la introducción de Action Chunking with Transformers (ACT), una arquitectura de modelo que combina la predicción temporal con entradas de visión artificial de alta dimensión .

Cómo evitar que los errores se acumulen

En la clonación conductual tradicional, un modelo predice el siguiente paso inmediato basándose en el estado actual. Sin embargo, durante la inferencia en tiempo real, pequeñas imprecisiones en la predicción desvían al sistema hacia estados no observados. Estos errores se multiplican rápidamente, lo que conduce al fracaso de la tarea, un fenómeno conocido como «acumulación de errores».

La segmentación de acciones aborda directamente esta limitación. Al predecir múltiples acciones simultáneamente (por ejemplo, 50 movimientos articulares que abarcan 1 segundo de movimiento), se reduce el horizonte de control efectivo. El sistema se compromete con un plan coherente a corto plazo basado en una única observación visual fiable, lo que reduce enormemente la frecuencia de los errores reactivos. Al integrar estructuras de visión como Ultralytics para la percepción espacial y la localización de cajas delimitadoras, las predicciones resultantes se vuelven increíblemente estables frente al ruido del proceso.

Aplicaciones en el mundo real

La segmentación de acciones ha abierto nuevas posibilidades en la automatización física, especialmente cuando se implementa en hardware de IA periférica optimizado por marcos como Intel :

  • Manipulación robótica de alta precisión: En la automatización industrial, los robots utilizan predicciones por fragmentos para ejecutar tareas con gran cantidad de contactos que requieren una alta precisión, como el tendido de cables, la colocación de baterías o la manipulación de objetos rastreados mediante conjuntos de datos de segmentación de paquetes. La generación de secuencias de acciones cohesionadas evita los movimientos espasmódicos e inconsistentes típicos del aprendizaje por imitación paso a paso.
  • Navegación autónoma: En la conducción autónoma y el vuelo de drones, la predicción de un conjunto de comandos de control (como la dirección y la aceleración) permite una planificación más fluida de la trayectoria, un concepto ampliamente explorado en recientes artículos de robótica del IEEE. En combinación con el seguimiento continuo de objetos y la estimación de profundidad, los vehículos pueden desplazarse con seguridad por entornos dinámicos complejos.

Distinguir conceptos relacionados

Para comprender mejor cómo encaja esta técnica en el ecosistema más amplio de la inteligencia artificial, resulta útil diferenciarla de términos similares:

  • Fragmentación de acciones frente al reconocimiento de acciones: mientras que la fragmentación de acciones genera una secuencia de órdenes futuras que debe ejecutar una máquina, el reconocimiento de acciones es el proceso analítico de identificar las actividades que tienen lugar en una señal de vídeo.
  • Modelos de fragmentación de acciones frente a modelos secuencia-a-secuencia: Las arquitecturas secuencia-a-secuencia mapean una secuencia de entrada a una secuencia de salida y se utilizan ampliamente en la traducción automática. La fragmentación de acciones recurre en gran medida a estas arquitecturas —concretamente a los Transformers—, pero limita la salida exclusivamente a controles motores y cinemática de bajo nivel, en lugar de al texto.
  • Fragmentación de acciones frente al aprendizaje por refuerzo: El aprendizaje por refuerzo se basa en señales de recompensa para enseñar a un agente mediante ensayo y error. Por el contrario, la fragmentación de acciones se utiliza principalmente en la clonación de comportamientos supervisada, en la que el modelo aprende directamente a partir de demostraciones humanas sin una maximización explícita de la recompensa.

Aplicación de la fragmentación de acciones

En la práctica, un sistema de visión evalúa el entorno y un decodificador de secuencias genera la trayectoria fragmentada. El siguiente Python muestra un PyTorch (una alternativa a TensorFlow) que acepta un estado del entorno —como el derivado de una pasada de detección de objetos — y genera una secuencia de acciones futuras .

import torch
import torch.nn as nn


class ActionChunker(nn.Module):
    def __init__(self, state_dim, action_dim, chunk_size):
        super().__init__()
        # Maps the current state to a sequence of future actions
        self.decoder = nn.Linear(state_dim, chunk_size * action_dim)
        self.chunk_size = chunk_size
        self.action_dim = action_dim

    def forward(self, state):
        # Predict the entire action chunk at once
        chunk = self.decoder(state)
        return chunk.view(-1, self.chunk_size, self.action_dim)


# Example: 128-dim state, 6 degrees of freedom, 50-step chunk
model = ActionChunker(state_dim=128, action_dim=6, chunk_size=50)

# Generate a 50-step action trajectory from a single observation
current_state = torch.randn(1, 128)
action_trajectory = model(current_state)

print(f"Action Chunk Shape: {action_trajectory.shape}")

La gestión de los enormes conjuntos de datos necesarios para entrenar estas políticas robóticas requiere una gran cantidad de recursos. Líderes del sector como OpenAI y Anthropic son pioneros en modelos a gran escala, pero los desarrolladores habituales dependen de herramientas accesibles. La Ultralytics optimiza el ciclo de vida de los datos para entradas visuales, ofreciendo anotación de datos automatizada y capacidades de entrenamiento de modelos sin fisuras. A medida que los modelos evolucionan hacia arquitecturas unificadas de visión-lenguaje-acción (VLA), la combinación de sistemas de visión eficientes con una segmentación de acciones robusta seguirá definiendo la próxima generación de automatización inteligente.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático