Seguimiento multiobjeto (MOT)
Explore el seguimiento multiobjeto (MOT): track y reidentifique objetos a través de fotogramas de vídeo con YOLO11, filtros Kalman, coincidencia de apariencia y asociación de datos moderna.
El seguimiento multiobjeto (MOT) es una tarea fundamental de la
visión por ordenador que consiste en detectar múltiples
entidades distintas dentro de un flujo de vídeo y mantener sus identidades únicas a lo largo de fotogramas consecutivos. Mientras que
detección de objetos estándar identifica lo que
está presente en una sola imagen estática, el MOT introduce una dimensión temporal, respondiendo a la pregunta de dónde se mueven
objetos se mueven con el tiempo. Al asignar un número de identificación (ID) persistente a cada instancia detectada, la MOT permite
analizar trayectorias, comprender interacciones y contar elementos únicos, lo que lo convierte en un componente fundamental de las aplicaciones modernas de comprensión de vídeo.
aplicaciones modernas de comprensión de vídeo.
Mecánica de los sistemas de seguimiento
La mayoría de los sistemas de ITV de última generación, incluidos los alimentados por
YOLO11funcionan según el paradigma del "seguimiento por detección".
por detección". Este flujo de trabajo separa el proceso en distintas fases que se repiten en cada fotograma de vídeo para garantizar una gran precisión y continuidad.
precisión y continuidad.
-
Detección: El sistema utiliza en primer lugar un modelo de alto rendimiento para localizar objetos de interés,
generando cuadros delimitadores y
de confianza.
-
Predicción de movimiento: Para asociar las detecciones entre fotogramas, algoritmos como el
Kalman estiman la posición futura de un
de un objeto basándose en su velocidad y ubicación pasadas. Esto crea una
estimación de estado que reduce el área de búsqueda para el siguiente fotograma.
siguiente fotograma.
-
Asociación de datos: El sistema asocia las nuevas detecciones con las pistas existentes. Las técnicas de optimización
como el algoritmo húngaro resuelven este
problema de asignación minimizando el coste del emparejamiento, a menudo calculando la
Intersección sobre Unión (IoU) entre
entre la track prevista y la nueva detección.
-
Reidentificación (ReID): En situaciones en las que los objetos se cruzan o se ocultan temporalmente
fenómeno conocido como oclusión
Los rastreadores avanzados utilizan incrustaciones visuales para reconocer el objeto cuando reaparece.
cuando reaparece, evitando el cambio de ID.
MOT frente a términos relacionados con la visión por ordenador
Es importante distinguir la ITV de conceptos similares para seleccionar la tecnología adecuada para un caso de uso específico.
-
vs. Detección de objetos: La detección trata cada fotograma como un evento independiente. Si un vehículo aparece en
dos fotogramas consecutivos, un detector ve dos instancias separadas de un "coche". En cambio,
el seguimiento de objetos relaciona estas instancias,
reconociéndolos como el mismo vehículo moviéndose a través del tiempo.
-
vs. Seguimiento de un solo objeto (SOT): SOT se centra en seguir un objetivo específico inicializado por el
usuario, ignorando a menudo cualquier otra actividad. El MOT es más complejo, ya que debe detect, track y gestionar de forma autónoma un número desconocido y fluctuante de objetos que entran y salen de la escena.
un número desconocido y fluctuante de objetos que entran y salen de la escena, lo que requiere una lógica de gestión de memoria robusta.
lógica de gestión de memoria.
Aplicaciones en el mundo real
La capacidad de track múltiples objetos simultáneamente impulsa la innovación en diversos sectores, convirtiendo los datos de vídeo sin procesar en información práctica.
vídeo sin procesar en
de modelos predictivos.
-
Transporte inteligente: En el campo de la
IA en automoción, la ITV es fundamental para
la conducción autónoma y la vigilancia del tráfico. Permite a los sistemas realizar
estimación de la velocidad calculando la distancia
vehículo en el tiempo y ayuda a predecir posibles colisiones mediante el seguimiento de las trayectorias de peatones y ciclistas.
peatones y ciclistas.
-
Análisis del comercio minorista: Las tiendas físicas aprovechan la
la IA en el comercio minorista para comprender el comportamiento de los clientes. En
aplicando la ITM para el recuento preciso de objetos
los minoristas pueden medir el tráfico peatonal, analizar los tiempos de permanencia en pasillos específicos y optimizar la gestión de colas para mejorar el proceso de compra.
optimizar la gestión de colas para mejorar
experiencia de compra.
-
Análisis deportivo: Los entrenadores y analistas utilizan la ITV para track los jugadores y el balón durante los partidos. Estos datos de
datos facilitan el análisis avanzado de la estimación de la pose, ayudando a los
a los equipos a comprender las formaciones, el cansancio de los jugadores y la dinámica del juego en
escenarios de inferencia en tiempo real.
Seguimiento con Python
En ultralytics simplifica la complejidad de la ITV integrando potentes rastreadores como
BoT-SORT y
ByteTrack directamente en el
de predicción. Estos rastreadores pueden intercambiarse fácilmente mediante argumentos.
El siguiente ejemplo muestra cómo cargar un modelo YOLO11 preentrenado y aplicar el seguimiento a un archivo de vídeo:
from ultralytics import YOLO
# Load an official YOLO11 model pretrained on COCO
model = YOLO("yolo11n.pt")
# Perform tracking on a video file
# 'persist=True' ensures IDs are maintained between frames
# 'tracker' allows selection of algorithms like 'bytetrack.yaml' or 'botsort.yaml'
results = model.track(source="traffic_analysis.mp4", persist=True, tracker="bytetrack.yaml")
# Visualize the results
for result in results:
result.show()
Este código se encarga de todo el proceso, desde la detección hasta la asignación de ID, permitiendo a los desarrolladores centrarse en la lógica de alto nivel, como el recuento de regiones o la asignación de ID.
lógica de alto nivel, como el recuento de
comportamiento. Para una mayor personalización, consulte la
documentación del modo de seguimiento.