Explora el seguimiento multiobjeto (MOT) en la visión artificial. Aprende a detect track utilizando Ultralytics para la conducción autónoma, el comercio minorista y mucho más.
El seguimiento de múltiples objetos (MOT) es una tarea dinámica en la visión por computadora (CV) que implica detectar múltiples entidades distintas dentro de una secuencia de vídeo y mantener sus identidades a lo largo del tiempo. A diferencia de la detección de objetos estándar, que trata cada fotograma como una instantánea aislada, el MOT introduce una dimensión temporal en la inteligencia artificial (IA). Al asignar un número de identificación (ID) único a cada instancia detectada, como un peatón específico en una multitud o un vehículo en una autopista, los algoritmos MOT permiten a los sistemas trazar trayectorias, analizar comportamientos y comprender interacciones. Esta capacidad es fundamental para la comprensión moderna del vídeo y permite a las máquinas percibir la continuidad en un entorno cambiante.
La mayoría de los sistemas de seguimiento contemporáneos funcionan según un paradigma de «seguimiento por detección». Este enfoque divide el proceso en dos etapas principales: identificar lo que hay en el fotograma y, a continuación, asociar esos hallazgos con objetos conocidos del pasado.
Aunque la terminología es similar, el seguimiento de múltiples objetos (MOT) difiere significativamente del seguimiento de un solo objeto (SOT). El SOT se centra en seguir un objetivo específico inicializado en el primer fotograma, a menudo ignorando todas las demás entidades. Por el contrario, el MOT debe gestionar un número desconocido y variable de objetivos que pueden entrar o salir de la escena en cualquier momento. Esto hace que el MOT sea más exigente desde el punto de vista computacional, ya que requiere una lógica robusta para gestionar track y el final track , así como las complejas interacciones entre múltiples cuerpos en movimiento.
La capacidad de track simultáneo track entidades impulsa la innovación en varios sectores importantes.
Ultralytics la implementación del seguimiento con modelos de última generación. El
track() El método integra la lógica de detección y seguimiento de forma fluida, admitiendo algoritmos como
ByteTrack y
BoT-SORT. El siguiente ejemplo muestra
el seguimiento de vehículos en un vídeo utilizando la recomendada
Modelo YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
A pesar de los avances, el MOT sigue siendo un campo difícil. La oclusión es una dificultad principal; cuando los objetos se cruzan o se ocultan detrás de obstáculos, mantener la identidad es complejo. Las escenas concurridas, como una maratón concurrida o una bandada de pájaros, ponen a prueba los límites de los algoritmos de asociación de datos. Además, mantener las velocidades de inferencia en tiempo real mientras se procesan flujos de vídeo de alta resolución requiere arquitecturas de modelos eficientes y, a menudo, hardware especializado como los dispositivos NVIDIA .
Para hacer frente a estos retos, los investigadores están explorando enfoques de aprendizaje profundo de extremo a extremo que unifican la detección y el seguimiento en una única red, además de aprovechar Ultralytics para anotar conjuntos de datos complejos y entrenar modelos personalizados robustos.