As vantagens do Ultralytics YOLO11 ser um detetor sem âncora

5 de dezembro de 2024
Compreenda comoYOLO11 Ultralytics YOLO11 suporta a deteção de objectos sem âncoras e as vantagens que esta arquitetura de modelo traz para várias aplicações.

5 de dezembro de 2024
Compreenda comoYOLO11 Ultralytics YOLO11 suporta a deteção de objectos sem âncoras e as vantagens que esta arquitetura de modelo traz para várias aplicações.
Se olharmos para trás na história dos modelos de Visão de IA, o conceito de detecção de objetos - uma tarefa central da visão computacional que envolve identificar e localizar objetos dentro de uma imagem ou vídeo - existe desde a década de 1960. No entanto, a principal razão para sua importância nas inovações de ponta hoje é que as técnicas de detecção de objetos e as arquiteturas de modelo avançaram e melhoraram rapidamente desde então.
Num artigo anterior, discutimos a evolução da deteção de objectos e o caminho que conduziu aos modelos Ultralytics YOLO . Hoje, vamos concentrar-nos na exploração de um marco mais específico desta viagem: o salto dos detectores baseados em âncoras para os detectores sem âncoras.
Os detectores baseados em âncoras dependem de caixas predefinidas, chamadas de "âncoras", para prever onde os objetos estão em uma imagem. Em contraste, os detectores sem âncoras ignoram essas caixas predefinidas e, em vez disso, preveem as localizações dos objetos diretamente.
Embora esta mudança possa parecer uma alteração simples e lógica, na realidade conduziu a grandes melhorias na precisão e eficiência da deteção de objectos. Neste artigo, vamos compreender como os detectores sem âncora remodelaram a visão por computador através de avanços como Ultralytics YOLO11.
Os detectores baseados em âncoras usam caixas predefinidas, conhecidas como âncoras, para ajudar a localizar objetos em uma imagem. Pense nessas âncoras como uma grade de caixas de diferentes tamanhos e formas colocadas sobre a imagem. O modelo então ajusta essas caixas para se ajustarem aos objetos que detecta. Por exemplo, se o modelo identificar um carro, ele modificará a caixa de âncora para corresponder com mais precisão à posição e ao tamanho do carro.
Cada âncora está associada a um possível objeto na imagem e, durante o treino, o modelo aprende a ajustar as caixas de âncora para melhor corresponder à localização, tamanho e proporção do objeto. Isto permite que o modelo detect objectos em diferentes escalas e orientações. No entanto, a seleção do conjunto correto de caixas de ancoragem pode ser demorada e o processo de afinação pode ser propenso a erros.

Embora os detectores baseados em âncoras, como o YOLOv4, tenham funcionado bem em muitas aplicações, têm alguns inconvenientes. Por exemplo, as caixas de ancoragem nem sempre se alinham bem com objectos de diferentes formas ou tamanhos, tornando mais difícil para o modelo detect objectos pequenos ou com formas irregulares. O processo de seleção e ajuste fino dos tamanhos das caixas de ancoragem também pode ser moroso e requer muito esforço manual. Além disso, os modelos baseados em âncoras têm muitas vezes dificuldade em detetar objectos que estão ocluídos ou sobrepostos, uma vez que as caixas predefinidas podem não se adaptar bem a estes cenários mais complexos.
Os detectores sem âncoras começaram a ganhar atenção em 2018 com modelos como CornerNet e CenterNet, que adotaram uma nova abordagem para a detecção de objetos, eliminando a necessidade de caixas de âncora predefinidas. Ao contrário dos modelos tradicionais que dependem de caixas de âncora de diferentes tamanhos e formas para prever onde os objetos estão, os modelos sem âncoras preveem as localizações dos objetos diretamente. Eles se concentram em pontos-chave ou características do objeto, como o centro, o que simplifica o processo de detecção e o torna mais rápido e preciso.
Veja como os modelos sem âncoras geralmente funcionam:

Uma vez que os modelos sem âncoras não dependem de caixas de âncoras, têm uma conceção mais simples. Isto significa que são mais eficientes do ponto de vista computacional. Uma vez que não têm de processar várias caixas de ancoragem, podem detect objectos mais rapidamente - uma vantagem importante em aplicações em tempo real, como a condução autónoma e a vigilância por vídeo.
Os modelos sem âncoras são também muito melhores a lidar com objectos pequenos, irregulares ou ocluídos. Uma vez que se concentram na deteção de pontos-chave em vez de tentarem encaixar caixas de ancoragem, são muito mais flexíveis. Isto permite-lhes detect objectos com precisão em ambientes desordenados ou complexos, onde os modelos baseados em âncoras podem falhar.
Originalmente concebidos para serem rápidos e eficientes, os modelos YOLO passaram gradualmente de métodos baseados em âncoras para a deteção sem âncoras, tornando modelos como o YOLO11 mais rápidos, mais flexíveis e mais adequados a uma vasta gama de aplicações em tempo real.
Eis um rápido olhar sobre a evolução do design sem âncoras nas diferentes versões YOLO :

Um grande exemplo dos benefícios da deteção sem âncoras utilizando YOLO11 está nos veículos autónomos. Nos carros autónomos, a deteção rápida e precisa de peões, outros veículos e obstáculos é crucial para a segurança. A abordagem sem âncoras do YOLO11 simplifica o processo de deteção ao prever diretamente os pontos-chave dos objectos, como o centro de um peão ou os limites de outro veículo, em vez de depender de caixas de âncoras predefinidas.

YOLO11 não precisa de ajustar ou encaixar uma grelha de âncoras em cada objeto, o que pode ser computacionalmente dispendioso e lento. Em vez disso, concentra-se nas principais caraterísticas, tornando-o mais rápido e eficiente. Por exemplo, quando um peão entra no caminho do veículo, YOLO11 consegue identificar rapidamente a sua localização, apontando pontos-chave, mesmo que a pessoa esteja parcialmente escondida ou em movimento. A capacidade de se adaptar a formas e tamanhos variáveis sem caixas de ancoragem permite que YOLO11 detect objectos de forma mais fiável e a velocidades mais elevadas, o que é vital para a tomada de decisões em tempo real nos sistemas de condução autónoma.
Outras aplicações em que as capacidades sem âncora do YOLO11se destacam realmente incluem:
Embora os modelos sem âncoras, como o YOLO11 , ofereçam muitas vantagens, têm algumas limitações. Uma das principais considerações práticas a fazer é que mesmo os modelos sem âncoras podem ter dificuldades com oclusões ou objectos muito sobrepostos. A lógica subjacente é que a visão por computador pretende replicar a visão humana e, tal como por vezes temos dificuldade em identificar objectos ocluídos, os modelos de IA podem enfrentar desafios semelhantes.
Outro fator interessante está relacionado com o processamento das previsões do modelo. Embora a arquitetura dos modelos sem âncoras seja mais simples do que a baseada em âncoras, torna-se necessário um refinamento adicional em determinados casos. Por exemplo, podem ser necessárias técnicas de pós-processamento como a supressão não máximaNMS) para limpar previsões sobrepostas ou melhorar a precisão em cenas com muita gente.
A mudança da deteção baseada em âncoras para a deteção sem âncoras tem sido um avanço significativo na deteção de objectos. Com modelos sem âncoras como o YOLO11, o processo é simplificado, levando a melhorias tanto na precisão como na velocidade.
Através do YOLO11, vimos como a deteção de objectos sem âncoras se destaca em aplicações em tempo real, como carros autónomos, videovigilância e imagiologia médica, onde a deteção rápida e precisa é crucial. Esta abordagem permite que YOLO11 se adapte mais facilmente a diferentes tamanhos de objectos e cenas complexas, proporcionando um melhor desempenho em diversos ambientes.
À medida que a visão computacional continua a evoluir, a detecção de objetos só se tornará mais rápida, mais flexível e mais eficiente.
Explore nosso repositório no GitHub e junte-se à nossa comunidade engajada para se manter atualizado sobre tudo relacionado à IA. Veja como a Visão de IA está impactando setores como manufatura e agricultura.