Multi-Object Tracking (MOT)
Explora el seguimiento de múltiples objetos (MOT) en visión por ordenador. Aprende a detectar y rastrear entidades utilizando Ultralytics YOLO26 para conducción autónoma, venta minorista y más.
El seguimiento de múltiples objetos (MOT) es una tarea dinámica en visión artificial (CV) que consiste en detectar múltiples entidades distintas dentro de un flujo de vídeo y mantener sus identidades a lo largo del tiempo. A diferencia de la detección de objetos estándar, que trata cada fotograma como una instantánea aislada, el MOT introduce una dimensión temporal en la inteligencia artificial (IA). Al asignar un número de identificación (ID) único a cada instancia detectada (como un peatón específico en una multitud o un vehículo en una autopista), los algoritmos de MOT permiten a los sistemas trazar trayectorias, analizar el comportamiento y entender las interacciones. Esta capacidad es fundamental para la comprensión de vídeo moderna y permite a las máquinas percibir la continuidad en un entorno cambiante.
Link to this sectionCómo funciona el MOT#
La mayoría de los sistemas de seguimiento contemporáneos operan bajo el paradigma de "seguimiento por detección". Este enfoque divide el proceso en dos etapas principales: identificar qué hay en el fotograma y, a continuación, asociar esos hallazgos con objetos conocidos del pasado.
-
Detección: En cada fotograma, un modelo de alto rendimiento como YOLO26 escanea la imagen para localizar objetos, generando cuadros delimitadores y probabilidades de clase.
-
Predicción de movimiento: Para anticipar hacia dónde se moverá un objeto a continuación, los algoritmos suelen utilizar un Filtro de Kalman. Esta herramienta matemática estima el estado de un sistema dinámico (como la velocidad y la posición), lo que ayuda a reducir el área de búsqueda en el fotograma posterior.
-
Asociación de datos: El sistema compara las nuevas detecciones con las pistas existentes. Los métodos de optimización como el algoritmo húngaro resuelven este problema de asignación minimizando el coste de comparación, basándose a menudo en la Intersección sobre la Unión (IoU) para medir el solapamiento espacial.
-
Reidentificación (ReID): Cuando se producen obstrucciones visuales (conocidas como oclusión), los rastreadores avanzados utilizan embeddings visuales para reconocer el objeto cuando vuelve a aparecer. Esto ayuda a evitar los "cambios de ID", garantizando que el sistema sepa que el coche que sale de un túnel es el mismo que entró en él.
Link to this sectionDiferencias entre el MOT y el seguimiento de un solo objeto#
Aunque la terminología es similar, el seguimiento de múltiples objetos (MOT) difiere significativamente del seguimiento de un solo objeto (SOT). El SOT se centra en seguir un objetivo específico inicializado en el primer fotograma, ignorando a menudo todas las demás entidades. Por el contrario, el MOT debe manejar un número desconocido y variable de objetivos que pueden entrar o salir de la escena en cualquier momento. Esto hace que el MOT sea computacionalmente más exigente, ya que requiere una lógica sólida para manejar el inicio y la finalización de las pistas, así como las complejas interacciones entre múltiples cuerpos en movimiento.
Link to this sectionAplicaciones en el mundo real#
La capacidad de rastrear múltiples entidades simultáneamente impulsa la innovación en varios sectores importantes.
- Conducción autónoma: Los coches autónomos dependen en gran medida del MOT para navegar con seguridad. Al rastrear peatones, ciclistas y otros vehículos, los sistemas autónomos pueden predecir posiciones futuras para evitar colisiones. Esto suele implicar la fusión de datos de cámaras y sensores LiDAR para obtener la máxima fiabilidad.
- Análisis minorista: En las tiendas físicas, los minoristas utilizan IA en el comercio minorista para trazar los recorridos de los clientes. Los algoritmos de MOT generan mapas de calor del tráfico peatonal, ayudando a los responsables a optimizar la distribución de la tienda y mejorar la gestión de colas durante las horas punta.
- Análisis deportivo: Los equipos profesionales utilizan el MOT para analizar los movimientos de los jugadores y las formaciones del equipo. Al rastrear a cada jugador en el campo, los entrenadores pueden extraer métricas detalladas sobre la velocidad, la distancia recorrida y el posicionamiento táctico mediante técnicas de estimación de pose.
Link to this sectionImplementación de MOT con Python#
Ultralytics hace que sea sencillo implementar el seguimiento con modelos de vanguardia. El método track() integra la lógica de detección y seguimiento a la perfección, admitiendo algoritmos como ByteTrack y BoT-SORT. El siguiente ejemplo demuestra el seguimiento de vehículos en un vídeo utilizando el modelo YOLO26 recomendado.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")Link to this sectionDesafíos en el seguimiento de múltiples objetos#
A pesar de los avances, el MOT sigue siendo un campo difícil. La oclusión es una dificultad principal; cuando los objetos se cruzan o se esconden detrás de obstáculos, mantener la identidad es complejo. Las escenas concurridas, como una maratón o una bandada de pájaros, ponen a prueba los límites de los algoritmos de asociación de datos. Además, mantener velocidades de inferencia en tiempo real mientras se procesan flujos de vídeo de alta resolución requiere arquitecturas de modelos eficientes y, a menudo, hardware especializado como los dispositivos NVIDIA Jetson.
Para afrontar estos retos, los investigadores están explorando enfoques de aprendizaje profundo de extremo a extremo que unifican la detección y el seguimiento en una única red, así como aprovechando la plataforma Ultralytics para anotar conjuntos de datos difíciles y entrenar modelos personalizados robustos.






