Por que o Ultralytics YOLO26 remove o NMS e como isso muda a implementação
Descobre como o Ultralytics YOLO26 permite uma inferência verdadeiramente end-to-end e sem NMS, e por que a remoção do pós-processamento simplifica a exportação e a implementação na edge.

Em 14 de janeiro, lançamos o Ultralytics YOLO26, a última geração dos nossos modelos de visão computacional. Com o YOLO26, nosso objetivo não foi apenas melhorar a precisão ou a velocidade, mas repensar como os modelos de detecção de objetos são construídos e implantados em sistemas do mundo real.
À medida que a visão computacional migra da pesquisa para a produção, espera-se cada vez mais que os modelos sejam executados em CPUs, dispositivos de borda (edge), câmeras, robôs e hardware embarcado. Nesses ambientes, a confiabilidade, a baixa latência e a facilidade de implantação são tão importantes quanto o desempenho.
O YOLO26 foi projetado com essa realidade em mente, usando uma arquitetura de ponta a ponta otimizada que remove a complexidade desnecessária do pipeline de inferência. Uma das inovações mais importantes feitas no YOLO26 é a remoção da Non-Maximum Suppression, comumente conhecida como NMS.
Por anos, o NMS tem sido uma parte padrão dos sistemas de detecção de objetos, usado como uma etapa de pós-processamento para limpar detecções duplicadas. Embora eficaz, ele também introduz cálculos extras e desafios de implantação, especialmente em hardware de borda.
Com o YOLO26, adotamos uma abordagem diferente. Ao repensar como as previsões são geradas e treinadas, permitimos uma inferência verdadeira de ponta a ponta e livre de NMS. O modelo produz detecções finais diretamente, sem depender de etapas de limpeza externas ou regras feitas manualmente. Isso torna o YOLO26 mais rápido, mais fácil de exportar e mais confiável para implantar em uma ampla gama de plataformas de hardware.

Fig 1. Detectando objetos em uma imagem usando Ultralytics YOLO26.
Neste artigo, veremos mais de perto por que a detecção tradicional de objetos dependia do NMS, como ele se tornou um gargalo de implantação e como o YOLO26 elimina a necessidade de soluções alternativas. Vamos começar!
Link to this sectionA detecção tradicional de objetos produz detecções duplicadas#
Antes de mergulharmos no que é o NMS e por que o removemos no YOLO26, vamos dar um passo atrás e ver como os modelos tradicionais de detecção de objetos geram suas previsões.
Os modelos tradicionais de detecção de objetos geralmente produzem várias caixas delimitadoras sobrepostas para o mesmo objeto. Cada uma dessas caixas vem com sua própria pontuação de confiança, embora todas se refiram ao mesmo objeto na imagem.
Isso acontece por alguns motivos. Primeiro, o modelo faz previsões em muitos locais espaciais e em diferentes escalas ao mesmo tempo. Isso ajuda o modelo a detectar objetos de diferentes tamanhos, mas também significa que locais próximos podem identificar o mesmo objeto de forma independente.
Em segundo lugar, muitos sistemas de detecção de objetos usam abordagens baseadas em âncoras (anchor-based), que geram um grande número de caixas candidatas ao redor de cada local. Embora isso aumente a chance de encontrar objetos com precisão, também aumenta o número de previsões sobrepostas.
Finalmente, a própria detecção baseada em grade (grid-based) leva naturalmente à redundância. Quando um objeto fica próximo ao limite de várias células da grade, várias células podem prever uma caixa para aquele objeto, resultando em várias detecções sobrepostas.
Por causa disso, a saída bruta do modelo geralmente contém várias caixas para um único objeto. Para tornar os resultados utilizáveis, essas previsões redundantes precisam ser filtradas para que apenas uma detecção final permaneça.
Link to this sectionEntendendo a Non-Maximum Suppression#
Uma vez que um modelo de detecção de objetos produz múltiplas caixas delimitadoras sobrepostas para o mesmo objeto, esses resultados precisam ser limpos antes de poderem ser usados. É aqui que a Non-Maximum Suppression é aplicada.
A Non-Maximum Suppression é uma etapa de pós-processamento que é executada após o modelo terminar de fazer suas previsões. Seu objetivo é reduzir as detecções duplicadas para que cada objeto seja representado por uma única caixa delimitadora final.

Fig 2. Uma visão geral do NMS. Imagem do autor.
O processo funciona comparando as caixas delimitadoras com base em suas pontuações de confiança e no quanto elas se sobrepõem. As previsões com confiança muito baixa são removidas primeiro.
As caixas restantes são então classificadas por confiança, e a caixa com a pontuação mais alta é selecionada como a melhor detecção. Essa caixa selecionada é comparada com as outras caixas.
Se outra caixa se sobrepuser demais a ela, essa caixa é suprimida e removida. A sobreposição é normalmente medida usando Intersection over Union, uma métrica que calcula a proporção entre a área compartilhada por duas caixas e a área total coberta por ambas. Esse processo se repete até que apenas as detecções mais confiantes e não sobrepostas permaneçam.
Link to this sectionPor que o NMS complica a implantação#
Embora a Non-Maximum Suppression ajude a filtrar detecções duplicadas, ela também introduz desafios que se tornam mais visíveis quando os modelos saem da pesquisa e vão para a implantação no mundo real.
Um dos maiores problemas é o desempenho. O NMS é executado após a inferência e requer a comparação das caixas delimitadoras entre si para decidir quais manter.
Esse processo é computacionalmente caro e difícil de paralelizar de forma eficiente. Em dispositivos de borda e sistemas baseados em CPU, esse trabalho extra pode adicionar uma latência perceptível, tornando mais difícil atender aos requisitos de tempo real.
O NMS também aumenta a complexidade da implantação. Como não faz parte do próprio modelo, ele precisa ser implementado separadamente como código de pós-processamento.
Diferentes tempos de execução e plataformas lidam com o NMS de maneiras diferentes, o que geralmente significa manter implementações personalizadas para cada ambiente de destino. O que funciona em uma configuração pode se comportar de forma ligeiramente diferente em outra, tornando a implantação mais frágil e mais difícil de escalar.
A otimização de hardware é outro desafio. O NMS não mapeia de forma clara para aceleradores de IA especializados, que são projetados para executar operações de redes neurais com eficiência. Como resultado, mesmo quando o modelo é executado rapidamente em hardware otimizado, o NMS pode se tornar um gargalo que limita o desempenho geral.
Além desses fatores, o NMS depende de parâmetros escolhidos manualmente, como limiares de confiança e limiares de sobreposição. Essas configurações podem afetar os resultados significativamente e, muitas vezes, precisam ser ajustadas para diferentes conjuntos de dados, aplicações ou hardware. Isso torna o comportamento menos previsível em sistemas de produção e adiciona uma sobrecarga extra de configuração.
Link to this sectionInferência de detecção de objetos de ponta a ponta explicada#
As limitações da Non-Maximum Suppression nos levaram a repensar como os modelos de detecção de objetos devem se comportar no momento da inferência. Em vez de gerar muitas previsões sobrepostas e limpá-las depois, fizemos uma pergunta mais fundamental.
E se o modelo pudesse produzir detecções finais diretamente? Essa pergunta está no centro da inferência de detecção de objetos de ponta a ponta. Em um sistema de ponta a ponta, o modelo é treinado para lidar com todo o processo de detecção do início ao fim, sem depender de etapas de limpeza externas.
Em vez de produzir muitas caixas candidatas e filtrá-las após a inferência, o modelo aprende a gerar um pequeno conjunto de previsões confiantes e não sobrepostas por conta própria. As detecções duplicadas são resolvidas dentro da rede em vez de serem removidas por pós-processamento.
Arquiteturas de modelo mais recentes mostraram que essa abordagem era possível e prática. Com a estratégia de treinamento correta, os modelos podiam aprender a associar cada objeto a uma única previsão, em vez de muitas concorrentes, reduzindo a redundância na sua origem.

Fig 3. Um exemplo de detecção de objetos usando Ultralytics YOLO26.
Para que isso funcione, o treinamento também precisa mudar. Em vez de deixar muitas previsões competirem pelo mesmo objeto, o modelo aprende a tomar uma decisão clara, produzindo detecções mais precisas e em menor número.
O resultado geral é um pipeline de inferência mais simples. Como as duplicatas já são resolvidas internamente, não há necessidade de Non-Maximum Suppression no momento da inferência. A saída do modelo já é o conjunto final de detecções.
Esse design de ponta a ponta também facilita a implantação. Sem etapas de pós-processamento ou implementações de NMS específicas da plataforma, o modelo exportado é totalmente independente e se comporta de forma consistente em diferentes estruturas de inferência e destinos de hardware.
Como nosso Engenheiro Líder de Parcerias, Francesco Mattioli, explica: “O aprendizado verdadeiro de ponta a ponta significa que o modelo deve lidar com tudo, desde pixels até previsões, sem etapas de pós-processamento feitas manualmente que quebrem a diferenciabilidade e compliquem a implantação.”
Link to this sectionComo o Ultralytics YOLO26 remove o NMS#
O YOLO26 remove a Non-Maximum Suppression mudando a forma como as detecções são aprendidas e produzidas, em vez de confiar no pós-processamento para limpá-las. Em vez de permitir que muitas previsões compitam pelo mesmo objeto, o YOLO26 é treinado para aprender uma relação clara de um para um entre objetos e saídas.
Isso é habilitado, em parte, pela detecção baseada em consultas (query-based) aprendível, que ajuda o modelo a se concentrar em produzir uma previsão única e confiante para cada objeto, em vez de muitos candidatos sobrepostos. Cada objeto é associado a uma previsão, reduzindo naturalmente as detecções duplicadas.
Esse comportamento é reforçado por estratégias de correspondência consistentes durante o treinamento, incentivando o modelo a tomar uma decisão confiante por objeto em vez de gerar previsões sobrepostas. No final, o modelo produz menos previsões, mas cada uma representa uma detecção final.
Link to this sectionPor que a remoção do DFL tornou possível a detecção livre de NMS#
Outra inovação importante que possibilita a inferência livre de NMS no YOLO26 é a remoção da Distribution Focal Loss, ou DFL. Em modelos YOLO anteriores, a DFL era usada para melhorar a regressão da caixa delimitadora, prevendo uma distribuição de possíveis locais da caixa em vez de um único valor.
Embora essa abordagem tenha melhorado a precisão da localização, ela também adicionou complexidade ao pipeline de detecção. Essa complexidade tornou-se uma limitação ao avançar para a inferência verdadeira de ponta a ponta.
A DFL introduziu cálculos adicionais e intervalos de regressão fixos, o que tornou mais difícil para o modelo aprender atribuições de objeto um para um limpas e aumentou a dependência de etapas de pós-processamento, como a Non-Maximum Suppression. Com o YOLO26, removemos a DFL e redesenhamos a regressão da caixa delimitadora para ser mais simples e direta.
Em vez de depender de saídas baseadas em distribuição, o modelo aprende a prever coordenadas de caixa precisas de uma maneira que suporta menos detecções, porém mais confiantes. Essa mudança ajuda a reduzir as previsões sobrepostas na sua origem e alinha a regressão da caixa delimitadora com o design de ponta a ponta e livre de NMS do YOLO26.
Link to this sectionO Ultralytics YOLO26 é livre de NMS e fácil de implantar#
Um design livre de NMS torna o YOLO26 um modelo verdadeiramente de ponta a ponta. Isso tem um impacto importante na exportação de modelos.
Exportar significa converter um modelo treinado em um formato que possa ser executado fora do ambiente de treinamento, como ONNX, TensorRT, CoreML ou OpenVINO. Em pipelines tradicionais, esse processo geralmente falha porque a Non-Maximum Suppression não faz parte do próprio modelo.
Ao remover o NMS, o YOLO26 evita esse problema completamente. O modelo exportado já inclui tudo o que é necessário para produzir detecções finais.
Isso torna o modelo exportado totalmente independente e mais portátil entre estruturas de inferência e destinos de hardware. O mesmo modelo se comporta de forma consistente, quer seja implantado em servidores, sistemas apenas de CPU, dispositivos embarcados ou aceleradores de borda. A implantação torna-se mais direta porque o que você exporta é exatamente o que você executa.
Essa simplicidade é especialmente importante para aplicações de borda. Por exemplo, o YOLO26 pode ser facilmente implantado em dispositivos como drones para casos de uso como monitoramento de colheitas, inspeção de campo e análise da saúde das plantas, onde orçamentos limitados de computação e energia tornam pipelines complexos de pós-processamento impraticáveis. Como o modelo produz detecções finais diretamente, ele é executado de forma confiável em hardware leve, sem etapas extras de processamento.

Fig 4. O Ultralytics YOLO26 é fácil de implantar em dispositivos de borda como drones.
Em resumo, a inferência livre de NMS remove o atrito da exportação e da implantação e permite sistemas de visão mais limpos e confiáveis. O NMS era uma solução alternativa. O YOLO26 não precisa mais de soluções alternativas.
Link to this sectionPrincipais pontos#
O YOLO26 remove a Non-Maximum Suppression resolvendo o problema subjacente das detecções duplicadas, em vez de limpá-las depois do fato. Seu design de ponta a ponta permite que o modelo produza detecções finais diretamente, tornando a exportação e a implantação mais simples e consistentes em diferentes hardwares. O NMS era uma solução alternativa útil para sistemas anteriores, mas o YOLO26 não precisa mais dele.
Junte-se à nossa comunidade e confira nosso repositório no GitHub para aprender mais sobre IA. Explore nossas páginas de soluções sobre IA na agricultura e visão computacional no varejo. Descubra nossas opções de licenciamento e comece com visão computacional de IA hoje mesmo!






