As vantagens do Ultralytics YOLO11 ser um detetor sem âncora

Abirami Vina

5 min. de leitura

5 de dezembro de 2024

Compreenda como o Ultralytics YOLO11 suporta a deteção de objectos sem âncoras e as vantagens que esta arquitetura de modelo traz para várias aplicações.

Se olharmos para trás na história dos modelos de IA de visão, o conceito de deteção de objectos - uma tarefa central da visão por computador que envolve a identificação e localização de objectos numa imagem ou vídeo - existe desde a década de 1960. No entanto, a principal razão para a sua importância nas inovações de ponta actuais é o facto de as técnicas de deteção de objectos e as arquitecturas de modelos terem avançado e melhorado rapidamente desde então. 

Num artigo anterior, discutimos a evolução da deteção de objectos e o caminho que conduziu aos modelos Ultralytics YOLO. Hoje, vamos concentrar-nos na exploração de um marco mais específico desta viagem: o salto dos detectores baseados em âncoras para os detectores sem âncoras. 

Os detectores baseados em âncoras baseiam-se em caixas predefinidas, denominadas "âncoras", para prever onde se encontram os objectos numa imagem. Em contrapartida, os detectores sem âncoras ignoram estas caixas predefinidas e, em vez disso, prevêem diretamente a localização dos objectos.

Embora esta mudança possa parecer uma alteração simples e lógica, na realidade conduziu a grandes melhorias na precisão e eficiência da deteção de objectos. Neste artigo, vamos compreender como os detectores sem âncoras remodelaram a visão por computador através de avanços como o Ultralytics YOLO11.

O que são detectores baseados em âncoras?

Os detectores baseados em âncoras utilizam caixas predefinidas, conhecidas como âncoras, para ajudar a localizar objectos numa imagem. Pense nestas âncoras como uma grelha de caixas de diferentes tamanhos e formas colocadas sobre a imagem. O modelo ajusta então estas caixas para se adaptarem aos objectos que detecta. Por exemplo, se o modelo identificar um carro, modificará a caixa de ancoragem para corresponder à posição e tamanho do carro com maior precisão.

Cada âncora está associada a um possível objeto na imagem e, durante o treino, o modelo aprende a ajustar as caixas de âncora para melhor corresponder à localização, tamanho e proporção do objeto. Isto permite que o modelo detecte objectos em diferentes escalas e orientações. No entanto, a seleção do conjunto correto de caixas de ancoragem pode ser demorada e o processo de afinação pode ser propenso a erros.

__wf_reserved_inherit
Figura 1. O que é uma caixa de ancoragem?

Embora os detectores baseados em âncoras, como o YOLOv4, tenham funcionado bem em muitas aplicações, têm alguns inconvenientes. Por exemplo, as caixas de ancoragem nem sempre se alinham bem com objectos de diferentes formas ou tamanhos, tornando mais difícil para o modelo detetar objectos pequenos ou com formas irregulares. O processo de seleção e ajuste fino dos tamanhos das caixas de ancoragem também pode ser moroso e requer muito esforço manual. Além disso, os modelos baseados em âncoras têm muitas vezes dificuldade em detetar objectos que estão ocluídos ou sobrepostos, uma vez que as caixas predefinidas podem não se adaptar bem a estes cenários mais complexos.

A mudança para a deteção de objectos sem âncoras

Os detectores sem âncoras começaram a ganhar atenção em 2018 com modelos como o CornerNet e o CenterNet, que adoptaram uma nova abordagem à deteção de objectos, eliminando a necessidade de caixas de ancoragem predefinidas. Ao contrário dos modelos tradicionais que dependem de caixas de ancoragem de diferentes tamanhos e formas para prever onde estão os objectos, os modelos sem âncoras prevêem diretamente a localização dos objectos. Concentram-se em pontos-chave ou caraterísticas do objeto, como o centro, o que simplifica o processo de deteção e torna-o mais rápido e preciso.

Eis como funcionam geralmente os modelos sem âncora:

  • Deteção de pontos-chave: Em vez de utilizar caixas predefinidas, alguns modelos identificam pontos importantes num objeto, como o centro ou cantos específicos. Estes pontos-chave ajudam os modelos a descobrir onde está o objeto e qual o seu tamanho.
  • Centro previsão: Alguns modelos centram-se na previsão do centro de um objeto. Uma vez localizado o centro, o modelo pode prever o tamanho e a posição de todo o objeto a partir daí.
  • Regressão de mapas de calor: Muitos modelos sem âncoras utilizam mapas de calor, em que cada pixel representa uma possível localização de um objeto. Valores de mapa de calor mais fortes indicam uma maior confiança de que um objeto está presente nesse ponto.
__wf_reserved_inherit
Fig. 2. Deteção com base em âncoras vs. Deteção sem âncoras.

Uma vez que os modelos sem âncoras não dependem de caixas de âncoras, têm uma conceção mais simples. Isto significa que são mais eficientes do ponto de vista computacional. Uma vez que não têm de processar várias caixas de ancoragem, podem detetar objectos mais rapidamente - uma vantagem importante em aplicações em tempo real, como a condução autónoma e a vigilância por vídeo. 

Os modelos sem âncoras são também muito melhores a lidar com objectos pequenos, irregulares ou ocluídos. Uma vez que se concentram na deteção de pontos-chave em vez de tentarem encaixar caixas de ancoragem, são muito mais flexíveis. Isto permite-lhes detetar objectos com precisão em ambientes desordenados ou complexos, onde os modelos baseados em âncoras podem falhar.

Ultralytics YOLO11: Um detetor sem âncora

Originalmente concebidos para serem rápidos e eficientes, os modelos YOLO passaram gradualmente de métodos baseados em âncoras para a deteção sem âncoras, tornando modelos como o YOLO11 mais rápidos, mais flexíveis e mais adequados a uma vasta gama de aplicações em tempo real.

Eis um rápido olhar sobre a evolução do design sem âncoras nas diferentes versões do YOLO:

  • Ultralytics YOLOv5u: Introduziu a cabeça Ultralytics Anchor-Free Split, eliminando a necessidade de caixas de ancoragem predefinidas. Em vez disso, o modelo prevê diretamente onde se encontram os objectos numa imagem, simplificando o processo e melhorando a flexibilidade e a velocidade.
  • YOLOv6: Foi utilizado um novo método denominado Anchor-Aided Training (AAT), em que as âncoras foram utilizadas apenas durante o treino. Isto permitiu que o modelo beneficiasse da estrutura dos métodos baseados em âncoras durante a formação, continuando a utilizar a deteção sem âncoras em tempo de execução para uma melhor velocidade e adaptabilidade.
  • Ultralytics YOLOv8: Mudou totalmente para a deteção sem âncora usando o Anchor-Free Split Ultralytics Head. Isto tornou o modelo mais rápido e mais preciso, especialmente para objectos pequenos ou com formas estranhas que não se encaixam bem em caixas de ancoragem.
  • Ultralytics YOLO11: Baseia-se na abordagem sem âncoras do YOLOv8, optimizando ainda mais a deteção ao eliminar totalmente as caixas de âncoras. Isto resulta numa deteção mais rápida e precisa para aplicações em tempo real, como a monitorização do comportamento animal e a análise de retalho.
__wf_reserved_inherit
Figura 3. Comparação entre o Ultralytics YOLOv8 e o Ultralytics YOLO11.

Aplicações reais do YOLO11

Um grande exemplo dos benefícios da deteção sem âncoras utilizando o YOLO11 está nos veículos autónomos. Nos carros autónomos, a deteção rápida e precisa de peões, outros veículos e obstáculos é crucial para a segurança. A abordagem sem âncoras do YOLO11 simplifica o processo de deteção ao prever diretamente os pontos-chave dos objectos, como o centro de um peão ou os limites de outro veículo, em vez de depender de caixas de âncoras predefinidas. 

__wf_reserved_inherit
Fig. 4. Benefícios da deteção sem âncora no YOLO11 (Imagem do autor).

O YOLO11 não precisa de ajustar ou encaixar uma grelha de âncoras em cada objeto, o que pode ser computacionalmente dispendioso e lento. Em vez disso, concentra-se nas caraterísticas principais, tornando-o mais rápido e eficiente. Por exemplo, quando um peão entra no caminho do veículo, o YOLO11 consegue identificar rapidamente a sua localização, apontando pontos-chave, mesmo que a pessoa esteja parcialmente escondida ou em movimento. A capacidade de se adaptar a formas e tamanhos variáveis sem caixas de ancoragem permite que o YOLO11 detecte objectos de forma mais fiável e a velocidades mais elevadas, o que é vital para a tomada de decisões em tempo real nos sistemas de condução autónoma.

Outras aplicações em que as capacidades sem âncora do YOLO11 se destacam realmente incluem:

  • Gestão do retalho e do inventário: O YOLO11 facilita a monitorização dos produtos nas prateleiras, mesmo quando estão empilhados ou parcialmente bloqueados. Isto ajuda a um controlo de inventário mais rápido e preciso e reduz os erros.
  • Imagiologia médica: O YOLO11 também é eficaz nos cuidados de saúde, onde pode detetar tumores ou outras anomalias em exames médicos. A sua capacidade de trabalhar com objectos de forma irregular ajuda a melhorar a precisão no diagnóstico de condições complexas.
  • Monitorização da vida selvagem: Na investigação da vida selvagem, o YOLO11 pode seguir animais em florestas densas ou terrenos difíceis, ajudando os investigadores a monitorizar o comportamento ou a proteger espécies em perigo.
  • Análise desportiva: O YOLO11 pode ser utilizado para seguir os jogadores, os movimentos da bola ou outros elementos em tempo real durante eventos desportivos, para fornecer informações valiosas às equipas, aos treinadores e aos organismos de radiodifusão.

Considerações a ter em conta quando se trabalha com modelos sem âncoras

Embora os modelos sem âncoras, como o YOLO11, ofereçam muitas vantagens, têm algumas limitações. Uma das principais considerações práticas a fazer é que mesmo os modelos sem âncoras podem ter dificuldades com oclusões ou objectos muito sobrepostos. A lógica subjacente é que a visão por computador pretende replicar a visão humana e, tal como por vezes temos dificuldade em identificar objectos ocluídos, os modelos de IA podem enfrentar desafios semelhantes.

Outro fator interessante está relacionado com o processamento das previsões dos modelos. Embora a arquitetura dos modelos sem âncoras seja mais simples do que a baseada em âncoras, torna-se necessário um refinamento adicional em determinados casos. Por exemplo, podem ser necessárias técnicas de pós-processamento como a supressão não máxima (NMS) para limpar previsões sobrepostas ou melhorar a precisão em cenas com muita gente.

Ancorar no futuro da IA com o YOLO11

A mudança da deteção baseada em âncoras para a deteção sem âncoras tem sido um avanço significativo na deteção de objectos. Com modelos sem âncoras como o YOLO11, o processo é simplificado, levando a melhorias tanto na precisão como na velocidade.

Através do YOLO11, vimos como a deteção de objectos sem âncoras se destaca em aplicações em tempo real, como carros autónomos, videovigilância e imagiologia médica, onde a deteção rápida e precisa é crucial. Esta abordagem permite que o YOLO11 se adapte mais facilmente a diferentes tamanhos de objectos e cenas complexas, proporcionando um melhor desempenho em diversos ambientes.

À medida que a visão computacional continua a evoluir, a deteção de objectos tornar-se-á mais rápida, mais flexível e mais eficiente.

Explore o nosso repositório GitHub e junte-se à nossa comunidade envolvente para se manter atualizado sobre tudo o que diz respeito à IA. Veja como a Vision AI está a ter impacto em sectores como o fabrico e a agricultura.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência