Explore o rastreamento de múltiplos objetos (MOT) na visão computacional. Aprenda a detect track usando Ultralytics para condução autónoma, retalho e muito mais.
O rastreamento de múltiplos objetos (MOT) é uma tarefa dinâmica em visão computacional (CV) que envolve a detecção de várias entidades distintas em um fluxo de vídeo e a manutenção de suas identidades ao longo do tempo. Ao contrário da detecção de objetos padrão, que trata cada quadro como um instantâneo isolado, o MOT introduz uma dimensão temporal à inteligência artificial (IA). Ao atribuir um número de identificação (ID) exclusivo a cada instância detetada — como um pedestre específico numa multidão ou um veículo numa rodovia — os algoritmos MOT permitem que os sistemas rastreiem trajetórias, analisem comportamentos e compreendam interações. Essa capacidade é fundamental para a compreensão moderna de vídeo e permite que as máquinas percebam a continuidade em um ambiente em mudança.
A maioria dos sistemas de rastreamento contemporâneos opera com base no paradigma de "rastreamento por detecção". Essa abordagem divide o processo em duas etapas principais: identificar o que está no quadro e, em seguida, associar essas descobertas a objetos conhecidos do passado.
Embora a terminologia seja semelhante, o rastreamento de múltiplos objetos (MOT) difere significativamente do rastreamento de objeto único (SOT). O SOT concentra-se em seguir um alvo específico inicializado no primeiro quadro, muitas vezes ignorando todas as outras entidades. Em contrapartida, o MOT deve lidar com um número desconhecido e variável de alvos que podem entrar ou sair da cena a qualquer momento. Isso torna o MOT computacionalmente mais exigente, pois requer uma lógica robusta para lidar com track e o término track e as complexas interações entre vários corpos em movimento.
A capacidade de track entidades simultaneamente impulsiona a inovação em vários setores importantes.
Ultralytics a implementação do rastreamento com modelos de última geração. O
track() O método integra a lógica de deteção e rastreamento de forma integrada, suportando algoritmos como
ByteTrack e
BoT-SORT. O exemplo abaixo demonstra
o rastreamento de veículos num vídeo usando o recomendado
Modelo YOLO26.
from ultralytics import YOLO
# Load the official YOLO26 small model
model = YOLO("yolo26s.pt")
# Track objects in a video file (or use '0' for webcam)
# The 'persist=True' argument keeps track IDs consistent between frames
results = model.track(source="traffic_analysis.mp4", show=True, persist=True)
# Print the IDs of objects tracked in the first frame
if results[0].boxes.id is not None:
print(f"Tracked IDs: {results[0].boxes.id.int().tolist()}")
Apesar dos avanços, o MOT continua a ser um campo desafiante. A oclusão é uma dificuldade primária; quando objetos se cruzam ou ficam escondidos atrás de obstáculos, manter a identidade é complexo. Cenas lotadas, como uma maratona movimentada ou um bando de pássaros, testam os limites dos algoritmos de associação de dados. Além disso, manter velocidades de inferência em tempo real durante o processamento de fluxos de vídeo de alta resolução requer arquiteturas de modelo eficientes e, muitas vezes, hardware especializado, como dispositivos NVIDIA .
Para enfrentar esses desafios, os investigadores estão a explorar abordagens de aprendizagem profunda de ponta a ponta que unificam a detecção e o rastreamento numa única rede, além de aproveitar a Ultralytics para anotar conjuntos de dados desafiadores e treinar modelos personalizados robustos .