Comparação do modelo YOLO : YOLOv11 vs Anterior

Desde a automação de tarefas cotidianas até o auxílio na tomada de decisões informadas em tempo real, a inteligência artificial (IA) está remodelando o futuro de vários setores. Uma área particularmente fascinante da IA é a visão computacional, também conhecida como Visão de IA. Ela se concentra em permitir que as máquinas analisem e interpretem dados visuais como os humanos.

Especificamente, os modelos de visão computacional estão a impulsionar inovações que aumentam a segurança e a eficiência. Por exemplo, estes modelos são utilizados em automóveis autónomos para detect peões e em câmaras de segurança para monitorizar instalações 24 horas por dia.

Alguns dos modelos de visão por computador mais conhecidos são os modelos YOLO (You Only Look Once), conhecidos pelas suas capacidades de deteção de objectos em tempo real. Ao longo do tempo, os modelos YOLO foram melhorados, com cada nova versão a oferecer melhor desempenho e mais flexibilidade.

Versões mais recentes como Ultralytics YOLO11 podem lidar com uma variedade de tarefas, como a segmentação de instâncias, a classificação de imagens, a estimativa de pose e o seguimento de vários objectos, com maior exatidão, velocidade e precisão do que nunca.

Neste artigo, vamos comparar Ultralytics YOLOv8YOLOv9, YOLOv10 e Ultralytics YOLO11 para ter uma ideia melhor da evolução destes modelos. Analisaremos as suas principais caraterísticas, resultados de benchmark e diferenças de desempenho. Vamos começar!

Uma visão geral do Ultralytics YOLOv8

YOLOv8, lançado pela Ultralytics em 10 de janeiro de 2023, foi um grande passo em frente em comparação com os modelos YOLO anteriores. Está optimizado para uma deteção precisa e em tempo real, combinando abordagens bem testadas com actualizações inovadoras para obter melhores resultados.

Para além da deteção de objectos, também suporta as seguintes tarefas de visão computacional: segmentação de instâncias, estimativa de pose, deteção de objectos com caixas delimitadoras orientadas (OBB) e classificação de imagens. Outra caraterística importante do YOLOv8 é o facto de estar disponível em cinco variantes de modelos diferentes - Nano, Small, Medium, Large e X - para que possa escolher o equilíbrio certo entre velocidade e precisão com base nas suas necessidades.

Devido à sua versatilidade e forte desempenho, YOLOv8 pode ser utilizado em muitas aplicações do mundo real, como sistemas de segurança, cidades inteligentes, cuidados de saúde e automação industrial.

__wf_reserved_inherit — Fig. 1. Gestão de estacionamento em cidades inteligentes com YOLOv8.

‍

Principais caraterísticas do YOLOv8

Eis um olhar mais atento a algumas das outras caraterísticas principais do YOLOv8:

Arquitetura de deteção melhorada: YOLOv8 utiliza um backbone CSPDarknet melhorado. Este backbone está optimizado para a extração de caraterísticas - o processo de identificação e captura de padrões ou detalhes importantes das imagens de entrada que ajudam o modelo a fazer previsões precisas.
Cabeça de detecção: Ele usa um design livre de âncoras e desacoplado, o que significa que não depende de formas de caixa delimitadora predefinidas (âncoras) e, em vez disso, aprende a prever os locais dos objetos diretamente. Devido à configuração desacoplada, as tarefas de classificar o que é o objeto e prever onde ele está (regressão) são tratadas separadamente, o que ajuda a melhorar a precisão e acelera o treinamento.
Equilibra precisão e velocidade: Este modelo alcança uma precisão impressionante, mantendo tempos de inferência rápidos, tornando-o adequado para ambientes de nuvem e edge.
Fácil de utilizar: YOLOv8 foi concebido para ser fácil de começar a utilizar - pode começar a prever e a ver resultados em apenas alguns minutos utilizando o pacoteUltralytics Python .

YOLOv9 centra-se na eficiência computacional

YOLOv9 foi lançado em 21 de fevereiro de 2024, por Chien-Yao Wang e Hong-Yuan Mark Liao do Instituto de Ciência da Informação, Academia Sinica, Taiwan. Suporta tarefas como a deteção de objectos e a segmentação de instâncias.

Este modelo baseia-se em Ultralytics YOLOv5 e introduz duas grandes inovações: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN).

O PGI ajuda YOLOv9 a reter informações importantes à medida que processa os dados através das suas camadas, o que conduz a resultados mais exactos. Entretanto, o GELAN melhora a forma como o modelo utiliza as suas camadas, aumentando o desempenho e a eficiência computacional. Graças a estas actualizações, YOLOv9 pode lidar com tarefas em tempo real em dispositivos periféricos e aplicações móveis, onde os recursos de computação são frequentemente limitados.

‍

Principais caraterísticas do YOLOv9

Aqui está um vislumbre de algumas das outras caraterísticas principais do YOLOv8:

Alta precisão com eficiência: YOLOv9 oferece alta precisão de deteção sem consumir muito poder de computação, tornando-o uma ótima opção quando os recursos são limitados.
‍
Modelos leves: As variantes de modelo leve do YOLOv9são otimizadas para implantações de borda e móveis.
‍
Fácil de utilizar: YOLOv9 é suportado pelo pacote Ultralytics Python , pelo que é simples de configurar e executar em diferentes ambientes, quer esteja a utilizar código ou a linha de comandos.

YOLOv10 permite a deteção de objectos NMS

YOLOv10 foi introduzido em 23 de maio de 2024 por investigadores da Universidade de Tsinghua e centra-se na deteção de objectos em tempo real. Resolve as limitações das versões anteriores YOLO , eliminando a necessidade de supressão não máximaNMS), um passo de pós-processamento utilizado para eliminar detecções duplicadas, e aperfeiçoando a conceção geral do modelo. Isto resulta numa deteção de objectos mais rápida e eficiente, ao mesmo tempo que se consegue uma precisão de ponta.

Uma parte vital do que torna isto possível é uma abordagem de formação conhecida como atribuição consistente de etiquetas duplas. Combina duas estratégias: uma que permite que várias previsões aprendam com o mesmo objeto (um para muitos) e outra que se concentra na escolha da melhor previsão individual (um para um). Uma vez que ambas as estratégias seguem as mesmas regras de correspondência, o modelo aprende a evitar duplicações por si só, pelo que NMS não é necessário.

‍

A arquitetura do YOLOv10também utiliza um backbone CSPNet melhorado para aprender caraterísticas de forma mais eficaz e um pescoço PAN (Path Aggregation Network) que combina informações de diferentes camadas, tornando-o melhor na deteção de objectos pequenos e grandes. Estas melhorias tornam possível a utilização YOLOv10 em aplicações do mundo real no fabrico, no retalho e na condução autónoma.

Principais caraterísticas do YOLOv10

Eis algumas das outras caraterísticas de destaque do YOLOv10:

Convoluções de kernel grande: O modelo usa convoluções de kernel grande para capturar mais contexto de áreas mais amplas da imagem, ajudando-o a entender melhor a cena geral.
‍
Módulos de autoatenção parciais: O modelo incorpora módulos de autoatenção parciais para se concentrar nas partes mais importantes da imagem sem usar muita capacidade de computação, aumentando eficientemente o desempenho.

Variante única do modelo: Além dos tamanhos usuais YOLOv10 - Nano, Small, Medium, Large e X - há também uma versão especial chamada YOLOv10b (Balanced). É um modelo mais largo, o que significa que processa mais recursos em cada camada, o que ajuda a melhorar a precisão enquanto equilibra velocidade e tamanho.
‍
Fácil de utilizar: YOLOv10 é compatível com o pacote Ultralytics Python , o que facilita a sua utilização.

Ultralytics YOLO11: Maior velocidade e precisão

Este ano, em 30 de setembro, Ultralytics lançou oficialmente YOLO11 - um dos mais recentes modelos da série YOLO - no seu evento híbrido anual, YOLO Vision 2024 (YV24).

Esta versão introduziu melhorias significativas em relação às versões anteriores. YOLO11 é mais rápido, mais preciso e altamente eficiente. Suporta toda a gama de tarefas de visão computacional com que os utilizadores YOLOv8 estão familiarizados, incluindo deteção de objectos, segmentação de instâncias e classificação de imagens. Também mantém a compatibilidade com os fluxos de trabalho YOLOv8 , facilitando a transição dos utilizadores para a nova versão.

Para além disso, YOLO11 foi concebido para satisfazer uma vasta gama de necessidades de computação - desde dispositivos de ponta leves a poderosos sistemas de nuvem. O modelo está disponível nas versões open-source e empresarial, o que o torna adaptável a diferentes casos de utilização.

É uma ótima opção para tarefas de precisão, como imagens médicas e detecção de satélites, bem como aplicações mais amplas em veículos autônomos, agricultura e saúde.

‍

Principais caraterísticas do YOLO11

Eis algumas das outras caraterísticas únicas do YOLO11:

Deteção rápida e eficiente: YOLO11 possui uma cabeça de deteção concebida para uma latência mínima, concentrando-se na velocidade nas camadas de previsão finais sem comprometer o desempenho.
‍
Extração de recursos aprimorada: Uma arquitetura otimizada de backbone e neck aprimora a extração de recursos, levando a previsões mais precisas.
‍
Implantação perfeita entre plataformas: YOLO11 está optimizado para ser executado de forma eficiente em dispositivos edge, plataformas cloud e GPUs NVIDIA , garantindo a adaptabilidade em diferentes ambientes.

Aferição dos modelos YOLO no conjunto de dados COCO

Ao explorar diferentes modelos, nem sempre é fácil compará-los apenas olhando para as suas caraterísticas. É aí que entra o benchmarking. Ao executar todos os modelos no mesmo conjunto de dados, podemos medir e comparar objetivamente o seu desempenho. Vamos dar uma olhada no desempenho de cada modelo no conjunto de dadosCOCO .

Ao comparar os modelos YOLO , cada nova versão traz melhorias notáveis no que diz respeito à precisão, velocidade e flexibilidade. Em particular, o YOLO11m dá um salto aqui, uma vez que utiliza menos 22% de parâmetros do que YOLOv8m, o que significa que é mais leve e mais rápido de executar. Além disso, apesar do seu tamanho mais pequeno, atinge uma precisão média superiormAP) no conjunto de dados COCO . Esta métrica mede a qualidade com que o modelo detecta e localiza objectos, pelo que uma mAP mais elevada significa previsões mais precisas.

‍

Teste e comparação de modelos YOLO num vídeo

Vamos explorar como esses modelos se comportam em uma situação do mundo real.

Para comparar YOLOv8, YOLOv9, YOLOv10 e YOLO11, os quatro foram executados no mesmo vídeo de trânsito, utilizando uma pontuação de confiança de 0,3 (o modelo só apresenta as detecções quando tem pelo menos 30% de confiança de que identificou corretamente um objeto) e um tamanho de imagem de 640 para uma avaliação justa. Os resultados da deteção e do seguimento de objectos destacaram as principais diferenças em termos de exatidão, velocidade e precisão da deteção.

Desde o primeiro fotograma, YOLO11 detectou veículos grandes, como camiões, que YOLOv10 não detectou. YOLOv8 e YOLOv9 apresentaram um desempenho decente, mas variou consoante as condições de iluminação e o tamanho do objeto. Os veículos mais pequenos e distantes continuaram a ser um desafio em todos os modelos, embora YOLO11 também tenha apresentado melhorias visíveis nessas detecções.

‍

Em termos de velocidade, todos os modelos funcionaram entre 10 e 20 milissegundos por fotograma, suficientemente rápidos para lidar com tarefas em tempo real a mais de 50 FPS. Por um lado, YOLOv8 e YOLOv9 forneceram detecções estáveis e fiáveis durante todo o vídeo. Curiosamente, YOLOv10, concebido para uma latência mais baixa, foi mais rápido mas mostrou algumas inconsistências na deteção de certos tipos de objectos.

YOLO11, por outro lado, destacou-se pela sua precisão, oferecendo um forte equilíbrio entre velocidade e exatidão. Embora nenhum dos modelos tenha tido um desempenho perfeito em todos os fotogramas, a comparação lado a lado demonstrou claramente que YOLO11 apresentou o melhor desempenho global.

Qual é o melhor modelo YOLO para tarefas de visão computacional?

A seleção de um modelo para um projeto depende de seus requisitos específicos. Por exemplo, algumas aplicações podem priorizar a velocidade, enquanto outras podem exigir maior precisão ou enfrentar restrições de implantação que influenciam a decisão.

Outro fator importante é o tipo de tarefas de visão computacional que necessita de abordar. Se estiver à procura de uma maior flexibilidade em diferentes tarefas, YOLOv8 e YOLO11 são boas opções.

A escolha do YOLOv8 ou do YOLO11 depende realmente das suas necessidades. YOLOv8 é uma opção sólida se for novo na visão computacional e valorizar uma comunidade maior, mais tutoriais e integrações extensivas de terceiros.

Por outro lado, se procura um desempenho de ponta com melhor precisão e velocidade, YOLO11 é a melhor escolha, embora tenha uma comunidade mais pequena e menos integrações devido ao facto de ser uma versão mais recente.

Principais conclusões

Do Ultralytics YOLOv8 ao Ultralytics YOLO11, a evolução da série de modelos YOLO reflecte um impulso consistente no sentido de modelos de visão por computador mais inteligentes. Cada versão do YOLO traz actualizações significativas em termos de velocidade, exatidão e precisão.

À medida que a visão por computador continua a avançar, estes modelos oferecem soluções fiáveis para os desafios do mundo real, desde a deteção de objectos até aos sistemas autónomos. O desenvolvimento contínuo dos modelos YOLO mostra o quanto o campo já avançou e o quanto mais podemos esperar no futuro.

Para saber mais sobre IA, visite nosso repositório no GitHub e interaja com nossa comunidade. Descubra avanços em vários setores, desde Visão de IA na manufatura até visão computacional na área da saúde. Confira nossas opções de licenciamento para começar seus projetos de Visão de IA hoje mesmo.

Comparação entre Ultralytics YOLO11 e os modelos YOLO anteriores