Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Os benefícios do Ultralytics YOLO11 ser um detector sem âncora

Abirami Vina

Leitura de 5 minutos

5 de dezembro de 2024

Entenda como o Ultralytics YOLO11 suporta a detecção de objetos sem âncoras e os benefícios que essa arquitetura de modelo traz para diversas aplicações.

Se olharmos para trás na história dos modelos de Visão de IA, o conceito de detecção de objetos - uma tarefa central da visão computacional que envolve identificar e localizar objetos dentro de uma imagem ou vídeo - existe desde a década de 1960. No entanto, a principal razão para sua importância nas inovações de ponta hoje é que as técnicas de detecção de objetos e as arquiteturas de modelo avançaram e melhoraram rapidamente desde então. 

Em um artigo anterior, discutimos a evolução da detecção de objetos e o caminho que levou aos modelos YOLO da Ultralytics. Hoje, vamos nos concentrar em explorar um marco mais específico nesta jornada: o salto dos detectores baseados em âncoras para os detectores sem âncoras. 

Os detectores baseados em âncoras dependem de caixas predefinidas, chamadas de "âncoras", para prever onde os objetos estão em uma imagem. Em contraste, os detectores sem âncoras ignoram essas caixas predefinidas e, em vez disso, preveem as localizações dos objetos diretamente.

Embora essa mudança possa parecer uma alteração simples e lógica, ela realmente levou a grandes melhorias na precisão e eficiência da detecção de objetos. Neste artigo, entenderemos como os detectores sem âncoras remodelaram a visão computacional por meio de avanços como o Ultralytics YOLO11.

O que são detectores baseados em âncoras?

Os detectores baseados em âncoras usam caixas predefinidas, conhecidas como âncoras, para ajudar a localizar objetos em uma imagem. Pense nessas âncoras como uma grade de caixas de diferentes tamanhos e formas colocadas sobre a imagem. O modelo então ajusta essas caixas para se ajustarem aos objetos que detecta. Por exemplo, se o modelo identificar um carro, ele modificará a caixa de âncora para corresponder com mais precisão à posição e ao tamanho do carro.

Cada âncora está associada a um possível objeto na imagem e, durante o treinamento, o modelo aprende como ajustar as caixas de âncora para melhor corresponder à localização, tamanho e proporção do objeto. Isso permite que o modelo detecte objetos em diferentes escalas e orientações. No entanto, selecionar o conjunto certo de caixas de âncora pode ser demorado, e o processo de ajustá-las pode ser propenso a erros.

__wf_reserved_inherit
Fig 1. O que é uma caixa de âncora?

Embora os detectores baseados em âncoras, como o YOLOv4, tenham funcionado bem em muitas aplicações, eles têm algumas desvantagens. Por exemplo, as caixas de âncora nem sempre se alinham bem com objetos de diferentes formas ou tamanhos, tornando mais difícil para o modelo detectar objetos pequenos ou com formas irregulares. O processo de selecionar e ajustar os tamanhos das caixas de âncora também pode ser demorado e requer muito esforço manual. Além disso, os modelos baseados em âncoras geralmente têm dificuldades em detectar objetos ocluídos ou sobrepostos, pois as caixas predefinidas podem não se adaptar bem a esses cenários mais complexos.

A mudança para a detecção de objetos sem âncoras

Os detectores sem âncoras começaram a ganhar atenção em 2018 com modelos como CornerNet e CenterNet, que adotaram uma nova abordagem para a detecção de objetos, eliminando a necessidade de caixas de âncora predefinidas. Ao contrário dos modelos tradicionais que dependem de caixas de âncora de diferentes tamanhos e formas para prever onde os objetos estão, os modelos sem âncoras preveem as localizações dos objetos diretamente. Eles se concentram em pontos-chave ou características do objeto, como o centro, o que simplifica o processo de detecção e o torna mais rápido e preciso.

Veja como os modelos sem âncoras geralmente funcionam:

  • Detecção de pontos-chave: Em vez de usar caixas predefinidas, alguns modelos identificam pontos importantes em um objeto, como o centro ou cantos específicos. Esses pontos-chave ajudam os modelos a descobrir onde o objeto está e qual o seu tamanho.
  • Previsão do centro: Alguns modelos se concentram em prever o centro de um objeto. Uma vez que o centro é localizado, o modelo pode prever o tamanho e a posição de todo o objeto a partir daí.
  • Regressão de heatmap: Muitos modelos sem âncoras usam heatmaps, onde cada pixel representa uma possível localização de um objeto. Valores de heatmap mais fortes indicam maior confiança de que um objeto está presente naquele ponto.
__wf_reserved_inherit
Fig 2. Detecção baseada em âncoras vs. Detecção sem âncoras.

Como os modelos sem âncoras não dependem de caixas de âncora, eles têm um design mais simples. Isso significa que eles são mais eficientes computacionalmente. Como não precisam processar várias caixas de âncora, eles podem detectar objetos mais rapidamente - uma vantagem importante em aplicações em tempo real, como direção autônoma e vigilância por vídeo. 

Os modelos sem âncoras também são muito melhores no manuseio de objetos pequenos, irregulares ou ocluídos. Como eles se concentram em detectar pontos-chave em vez de tentar ajustar caixas de âncora, eles são muito mais flexíveis. Isso permite que eles detectem objetos com precisão em ambientes complexos ou desordenados, onde os modelos baseados em âncoras podem falhar.

Ultralytics YOLO11: Um detector sem âncoras

Originalmente projetados para velocidade e eficiência, os modelos YOLO mudaram gradualmente de métodos baseados em âncoras para detecção sem âncoras, tornando modelos como o YOLO11 mais rápidos, mais flexíveis e mais adequados para uma ampla gama de aplicações em tempo real.

Aqui está uma visão rápida de como o design sem âncoras evoluiu em diferentes versões do YOLO:

  • Ultralytics YOLOv5u: Introduziu o Anchor-Free Split Ultralytics Head, removendo a necessidade de caixas de âncora predefinidas. Em vez disso, o modelo prevê diretamente onde os objetos estão em uma imagem, simplificando o processo e melhorando a flexibilidade e a velocidade.
  • YOLOv6: Um novo método chamado Anchor-Aided Training (AAT) foi usado, onde as âncoras foram usadas apenas durante o treinamento. Isso permitiu que o modelo se beneficiasse da estrutura dos métodos baseados em âncoras durante o treinamento, enquanto ainda usava a detecção sem âncoras em tempo de execução para melhor velocidade e adaptabilidade.
  • Ultralytics YOLOv8: Mudou totalmente para a detecção sem âncoras usando o Anchor-Free Split Ultralytics Head. Isso tornou o modelo mais rápido e preciso, especialmente para objetos pequenos ou com formas estranhas que não se encaixam bem com caixas de âncora.
  • Ultralytics YOLO11: Baseia-se na abordagem sem âncoras do YOLOv8, otimizando ainda mais a detecção, eliminando completamente as caixas de âncora. Isso resulta em uma detecção mais rápida e precisa para aplicações em tempo real, como monitoramento do comportamento animal e análise de varejo.
__wf_reserved_inherit
Fig 3. Comparando Ultralytics YOLOv8 e Ultralytics YOLO11.

Aplicações do YOLO11 no mundo real

Um ótimo exemplo dos benefícios da detecção sem âncoras usando o YOLO11 é em veículos autônomos. Em carros autônomos, detectar pedestres, outros veículos e obstáculos de forma rápida e precisa é crucial para a segurança. A abordagem sem âncoras do YOLO11 simplifica o processo de detecção, prevendo diretamente os pontos-chave dos objetos, como o centro de um pedestre ou os limites de outro veículo, em vez de depender de caixas delimitadoras predefinidas. 

__wf_reserved_inherit
Fig 4. Benefícios da Detecção Sem Âncoras no YOLO11 (Imagem do Autor).

O YOLO11 não precisa ajustar ou encaixar uma grade de âncoras a cada objeto, o que pode ser computacionalmente caro e lento. Em vez disso, ele se concentra em características-chave, tornando-o mais rápido e eficiente. Por exemplo, quando um pedestre entra no caminho do veículo, o YOLO11 pode identificar rapidamente sua localização, identificando pontos-chave, mesmo que a pessoa esteja parcialmente escondida ou em movimento. A capacidade de se adaptar a diferentes formas e tamanhos sem caixas delimitadoras permite que o YOLO11 detecte objetos de forma mais confiável e em velocidades mais altas, o que é vital para a tomada de decisões em tempo real em sistemas de direção autônoma.

Outras aplicações onde as capacidades sem âncoras do YOLO11 realmente se destacam incluem:

  • Varejo e gestão de estoque: O YOLO11 facilita o monitoramento de produtos nas prateleiras, mesmo quando estão empilhados ou parcialmente bloqueados. Isso ajuda no rastreamento de estoque de forma mais rápida e precisa e reduz erros.
  • Imagem médica: O YOLO11 também é eficaz na área da saúde, onde pode detectar tumores ou outras anormalidades em exames médicos. Sua capacidade de trabalhar com objetos de formato irregular ajuda a melhorar a precisão no diagnóstico de condições complexas.
  • Monitoramento da vida selvagem: Na pesquisa da vida selvagem, o YOLO11 pode rastrear animais em florestas densas ou terrenos difíceis, ajudando os pesquisadores a monitorar o comportamento ou proteger espécies ameaçadas.
  • Análise esportiva: O YOLO11 pode ser usado para rastrear jogadores, movimentos da bola ou outros elementos em tempo real durante eventos esportivos para fornecer insights valiosos para equipes, treinadores e emissoras.

Considerações a serem feitas ao trabalhar com modelos sem âncoras

Embora os modelos sem âncoras como o YOLO11 ofereçam muitas vantagens, eles vêm com certas limitações. Uma das principais considerações práticas a serem feitas é que mesmo os modelos sem âncoras podem ter dificuldades com oclusões ou objetos altamente sobrepostos. A lógica por trás disso é que a visão computacional visa replicar a visão humana e, assim como às vezes lutamos para identificar objetos ocluídos, os modelos de IA podem enfrentar desafios semelhantes.

Outro fator interessante está relacionado ao processamento das previsões do modelo. Embora a arquitetura dos modelos sem âncoras seja mais simples do que a baseada em âncoras, um refinamento adicional se torna necessário em certos casos. Por exemplo, técnicas de pós-processamento como a supressão não máxima (NMS) podem ser necessárias para limpar previsões sobrepostas ou melhorar a precisão em cenas lotadas.

Ancorando no futuro da IA com o YOLO11

A mudança da detecção baseada em âncoras para a detecção sem âncoras tem sido um avanço significativo na detecção de objetos. Com modelos sem âncoras como o YOLO11, o processo é simplificado, levando a melhorias tanto na precisão quanto na velocidade.

Através do YOLO11, vimos como a detecção de objetos sem âncoras se destaca em aplicações em tempo real, como carros autônomos, vigilância por vídeo e imagem médica, onde a detecção rápida e precisa é crucial. Essa abordagem permite que o YOLO11 se adapte mais facilmente a diferentes tamanhos de objetos e cenas complexas, proporcionando melhor desempenho em diversos ambientes.

À medida que a visão computacional continua a evoluir, a detecção de objetos só se tornará mais rápida, mais flexível e mais eficiente.

Explore nosso repositório no GitHub e junte-se à nossa comunidade engajada para se manter atualizado sobre tudo relacionado à IA. Veja como a Visão de IA está impactando setores como manufatura e agricultura.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência