Descubra a velocidade e a eficiência dos detectores de objetos de um estágio, como o YOLO, ideais para aplicações em tempo real, como robótica e vigilância.
Os detectores de objeto de um estágio são uma classe de modelos de aprendizado profundo projetados para velocidade e eficiência em visão computacional. Eles realizam a localização e classificação de objetos em uma única passagem unificada da rede neural. Isso contrasta com suas contrapartes mais complexas, os detectores de objeto de dois estágios, que dividem a tarefa em duas etapas distintas. Ao tratar a detecção de objetos como um problema de regressão direto, os modelos de um estágio preveem caixas delimitadoras e probabilidades de classe diretamente das características da imagem, tornando-os excepcionalmente rápidos e adequados para aplicações que exigem inferência em tempo real.
Um detector de um estágio processa uma imagem inteira de uma vez por meio de uma única rede neural convolucional (CNN). A arquitetura da rede é projetada para executar várias tarefas simultaneamente. Primeiro, o backbone da rede realiza a extração de características, criando representações ricas da imagem de entrada em várias escalas. Essas características são então alimentadas em um cabeçalho de detecção especializado.
Essa camada é responsável por prever um conjunto de caixas delimitadoras, uma pontuação de confiança para cada caixa indicando a presença de um objeto e a probabilidade de cada objeto pertencer a uma classe específica. Todo esse processo acontece em uma única passagem direta, que é a chave para sua alta velocidade. Técnicas como supressão não máxima (NMS) são então usadas para filtrar detecções redundantes e sobrepostas para produzir a saída final. Os modelos são treinados usando uma função de perda especializada que combina a perda de localização (quão precisa é a caixa delimitadora) e a perda de classificação (quão precisa é a previsão da classe).
A principal distinção reside na metodologia. Os detetores de um estágio são construídos para velocidade e simplicidade, enquanto os detetores de dois estágios priorizam a precisão, embora esta distinção esteja a tornar-se menos pronunciada com os modelos mais recentes.
Várias arquiteturas influentes de um estágio foram desenvolvidas, cada uma com contribuições únicas:
A velocidade e a eficiência dos detectores de um estágio os tornaram indispensáveis em inúmeras aplicações orientadas por IA:
A principal vantagem dos detetores de um estágio é a sua incrível velocidade, que permite a deteção de objetos em tempo real numa variedade de hardware, incluindo dispositivos de edge AI de baixa potência, como o NVIDIA Jetson ou o Raspberry Pi. A sua arquitetura end-to-end mais simples também os torna mais fáceis de treinar e implementar usando frameworks como o PyTorch ou o TensorFlow.
Historicamente, a principal limitação tem sido a menor precisão em comparação com os detectores de dois estágios, principalmente ao lidar com objetos muito pequenos ou fortemente ocluídos. No entanto, os avanços recentes na arquitetura de modelos e nas técnicas de treinamento, como visto em modelos como o YOLO11, reduziram significativamente essa lacuna de desempenho, oferecendo uma poderosa combinação de velocidade e alta precisão para uma ampla gama de tarefas de visão computacional. Plataformas como o Ultralytics HUB simplificam ainda mais o processo de treinamento de modelos personalizados para necessidades específicas.