Yolo Vision Shenzhen
Shenzhen
Junte-se agora

YOLO12 explicado: Aplicações e casos de uso no mundo real

Abirami Vina

Leitura de 5 minutos

26 de fevereiro de 2025

Descubra o YOLO12, o modelo de visão computacional mais recente! Saiba como sua arquitetura centrada na atenção e a tecnologia FlashAttention aprimoram as tarefas de detecção de objetos em vários setores.

A visão por computador é um ramo da inteligência artificial (IA) que ajuda as máquinas a compreender imagens e vídeos. É um campo que está a avançar a um ritmo incrível porque os investigadores e programadores de IA estão constantemente a ultrapassar os limites. A comunidade de IA está sempre a tentar tornar os modelos mais rápidos, mais inteligentes e mais eficientes. Uma das mais recentes descobertas é o YOLO12, a mais recente adição à série de modelos YOLO (You Only Look Once), lançada a 18 de fevereiro de 2025.

O YOLO12 foi desenvolvido por pesquisadores da University at Buffalo, SUNY (State University of New York) e da University of Chinese Academy of Sciences. Em uma nova abordagem única, o YOLO12 introduz mecanismos de atenção, permitindo que o modelo se concentre nas partes mais essenciais de uma imagem, em vez de processar tudo igualmente. 

Ele também apresenta o FlashAttention, uma técnica que acelera o processamento enquanto usa menos memória, e um mecanismo de atenção de área, projetado para imitar a maneira como os humanos naturalmente se concentram em objetos centrais.

Essas melhorias tornam o YOLO12n 2,1% mais preciso que o YOLOv10n e o YOLO12m +1,0% mais preciso que o YOLO11m. No entanto, isso tem um custo - o YOLO12n é 9% mais lento que o YOLOv10n, e o YOLO12m é 3% mais lento que o YOLO11m.

__wf_reserved_inherit
Fig. 1. Um exemplo de utilização do YOLO12 para detect objectos.

Neste artigo, exploraremos o que torna o YOLO12 diferente, como ele se compara às versões anteriores e onde ele pode ser aplicado.

O caminho para o lançamento do YOLO12

A série de modelosYOLO é uma coleção de modelos de visão por computador concebidos para a deteção de objectos em tempo real, o que significa que podem identificar e localizar rapidamente objectos em imagens e vídeos. Ao longo do tempo, cada versão melhorou em termos de velocidade, precisão e eficiência.

Por exemplo, Ultralytics YOLOv5lançado em 2020, tornou-se amplamente utilizado porque era rápido e fácil de treinar e implantar de forma personalizada. Mais tarde, Ultralytics YOLOv8 melhorou este aspeto, oferecendo suporte adicional para tarefas de visão computacional, como a segmentação de instâncias e o rastreio de objectos. 

Mais recentemente, Ultralytics YOLO11 centrou-se na melhoria do processamento em tempo real, mantendo um equilíbrio entre velocidade e precisão. Por exemplo, o YOLO11m tinha menos 22% de parâmetros do que YOLOv8m, mas mesmo assim apresentou um melhor desempenho de deteção no conjunto de dados COCO , uma referência amplamente utilizada para avaliar modelos de deteção de objectos.

Aproveitando esses avanços, o YOLO12 introduz uma mudança na forma como processa as informações visuais. Em vez de tratar todas as partes de uma imagem igualmente, ele prioriza as áreas mais relevantes, melhorando a precisão da detecção. Simplificando, o YOLO12 se baseia em melhorias anteriores, buscando ser mais preciso.

Principais características do YOLO12

O YOLO12 introduz várias melhorias que aprimoram as tarefas de visão computacional, mantendo as velocidades de processamento em tempo real intactas. Aqui está uma visão geral dos principais recursos do YOLO12:

  • Arquitetura centrada na atenção: Em vez de tratar cada parte de uma imagem igualmente, o YOLO12 se concentra nas áreas mais importantes. Isso melhora a precisão e reduz o processamento desnecessário, tornando a detecção mais nítida e eficiente, mesmo em imagens confusas.
  • FlashAttention: O YOLO12 acelera a análise de imagens enquanto usa menos memória. Com o FlashAttention (um algoritmo com uso eficiente de memória), ele otimiza o manuseio de dados, reduzindo a tensão do hardware e tornando as tarefas em tempo real mais suaves e confiáveis.
  • Redes de Agregação de Camadas Eficientes Residuais (R-ELAN): O YOLO12 organiza suas camadas de forma mais eficiente usando R-ELAN, o que melhora a forma como o modelo processa e aprende com os dados. Isso torna o treinamento mais estável, o reconhecimento de objetos mais nítido e os requisitos de computação mais baixos, para que ele seja executado de forma eficiente em diferentes ambientes.

Para compreender como estas funcionalidades funcionam na vida real, considere um centro comercial. O YOLO12 pode ajudar a track os compradores, identificar decorações da loja, como vasos de plantas ou sinais promocionais, e detetar artigos perdidos ou abandonados. 

A sua arquitetura centrada na atenção ajuda-o a concentrar-se nos detalhes mais importantes, enquanto o FlashAttention garante que processa tudo rapidamente sem sobrecarregar o sistema. Isto facilita aos operadores de centros comerciais a melhoria da segurança, a organização dos layouts das lojas e o aumento da experiência de compra global.

__wf_reserved_inherit
Fig 2. Detecção de objetos em um shopping center usando YOLO12.

No entanto, o YOLO12 também apresenta algumas limitações a serem consideradas:

  • Tempos de formação mais lentos: Devido à sua arquitetura, o YOLO12 requer mais tempo de formação em comparação com o YOLO11.
  • Desafios de exportação: Alguns usuários podem encontrar dificuldades ao exportar modelos YOLO12, principalmente ao integrá-los em ambientes de implantação específicos.

Compreendendo os benchmarks de desempenho do YOLO12

O YOLO12 está disponível em várias versões, cada uma otimizada para diferentes necessidades. As versões menores (nano e small) priorizam velocidade e eficiência, tornando-as ideais para dispositivos móveis e computação de borda. As versões média e grande encontram um equilíbrio entre velocidade e precisão, enquanto o YOLO12x (extra grande) foi projetado para aplicações de alta precisão, como automação industrial, imagens médicas e sistemas avançados de vigilância.

Com estas variações, o YOLO12 proporciona diferentes níveis de desempenho, consoante a dimensão do modelo. Os testes de referência mostram que certas variantes do YOLO12 superam o YOLOv10 e YOLO11 em termos de exatidão, alcançando uma precisão média superiormAP). 

No entanto, alguns modelos, como o YOLO12m, o YOLO12l e o YOLO12x, processam imagens mais lentamente do que YOLO11, mostrando um compromisso entre a precisão da deteção e a velocidade. Apesar disso, o YOLO12 continua eficiente, exigindo menos parâmetros do que muitos outros modelos, embora ainda use mais do que YOLO11. Isto torna-o uma óptima escolha para aplicações em que a precisão é mais importante do que a velocidade bruta.

__wf_reserved_inherit
Fig. 3. Comparação dos Ultralytics YOLO11 e YOLO12.

Utilizar o YOLO12 através do pacote Ultralytics Python

O YOLO12 é suportado pelo pacoteUltralytics Python e é fácil de utilizar, tornando-o acessível tanto a principiantes como a profissionais. Com apenas algumas linhas de código, os utilizadores podem carregar modelos pré-treinados, executar várias tarefas de visão computacional em imagens e vídeos e também treinar o YOLO12 em conjuntos de dados personalizados. O pacote Ultralytics Python simplifica o processo, eliminando a necessidade de passos de configuração complexos.

Por exemplo, aqui estão os passos que você seguiria para usar o YOLO12 para detecção de objetos:

  • Instalar o pacote Ultralytics : Primeiro, instale o pacote Ultralytics Python , que fornece as ferramentas necessárias para executar o YOLO12 de forma eficiente. Isso garante que todas as dependências sejam configuradas corretamente.
  • Carregar um modelo YOLO12 pré-treinado: Escolha a variante YOLO12 apropriada (nano, small, medium, large ou extra large) com base no nível de precisão e velocidade exigido para a sua tarefa.
  • Forneça uma imagem ou vídeo: Insira um arquivo de imagem ou vídeo que você deseja analisar. O YOLO12 também pode processar feeds de vídeo ao vivo para detecção em tempo real.
  • Execute o processo de detecção: O modelo examina os dados visuais, identifica objetos e coloca caixas delimitadoras ao redor deles. Ele rotula cada objeto detectado com sua classe prevista e pontuação de confiança.
  • Ajustar as configurações de detecção: Você também pode modificar parâmetros como os limiares de confiança para ajustar a precisão e o desempenho da detecção.
  • Salve ou use a saída: A imagem ou vídeo processado, agora contendo objetos detectados, pode ser salvo ou integrado em um aplicativo para análise posterior, automação ou tomada de decisão.

Essas etapas tornam o YOLO12 fácil de usar para uma variedade de aplicações, desde vigilância e rastreamento de varejo até imagens médicas e veículos autônomos.

Aplicações práticas do YOLO12

O YOLO12 pode ser usado em diversas aplicações do mundo real graças ao seu suporte para detecção de objetos, segmentação de instâncias, classificação de imagens, estimativa de pose e detecção de objetos orientados (OBB). 

__wf_reserved_inherit
Fig 4. YOLO12 suporta tarefas como detecção de objetos e segmentação de instâncias.

No entanto, como discutimos anteriormente, os modelos YOLO12 priorizam a precisão em relação à velocidade, o que significa que eles levam um pouco mais de tempo para processar imagens em comparação com as versões anteriores. Essa compensação torna o YOLO12 ideal para aplicações onde a precisão é mais importante do que a velocidade em tempo real, como:

  • Imagiologia médica: O YOLO12 pode ser treinado à medida para detect tumores ou anomalias em raios X e ressonâncias magnéticas com elevada precisão, o que o torna uma ferramenta útil para médicos e radiologistas que necessitam de uma análise de imagem precisa para o diagnóstico.
  • Controle de qualidade na fabricação: Pode ajudar a identificar defeitos do produto durante o processo de produção, garantindo que apenas itens de alta qualidade cheguem ao mercado, reduzindo o desperdício e melhorando a eficiência.
  • Análise forense: As agências de aplicação da lei podem ajustar o YOLO12 para analisar imagens de vigilância e coletar evidências. Em investigações criminais, a precisão é vital para identificar detalhes importantes.
  • Agricultura de precisão: Os agricultores podem utilizar o YOLO12 para analisar a saúde das culturas, detect doenças ou infestações de pragas e monitorizar as condições do solo. Avaliações precisas ajudam a otimizar as estratégias agrícolas, conduzindo a um melhor rendimento e gestão de recursos.

Começando com o YOLO12

Antes de executar o YOLO12, é importante garantir que seu sistema atenda aos requisitos necessários.

Tecnicamente, o YOLO12 pode ser executado em qualquer GPU (Unidade de Processamento Gráfico) dedicada. Por defeito, não requer FlashAttention, pelo que pode funcionar na maioria dos sistemas GPU sem ele. No entanto, ativar o FlashAttention pode ser especialmente útil ao trabalhar com grandes conjuntos de dados ou imagens de alta resolução, pois ajuda a evitar lentidão, reduzir o uso de memória e melhorar a eficiência do processamento. 

Para usar o FlashAttention, você precisará de umaGPU NVIDIA de uma destas séries: Turing (T4, Quadro RTX), Ampere (série RTX 30, A30, A40, A100), Ada Lovelace (série RTX 40) ou Hopper (H100, H200).

Tendo em conta a usabilidade e a acessibilidade, o pacote Ultralytics Python ainda não suporta a inferência FlashAttention, uma vez que a sua instalação pode ser bastante complexa do ponto de vista técnico. Para saber mais sobre como começar a utilizar o YOLO12 e otimizar o seu desempenho, consulte a documentação oficial Ultralytics .

Principais conclusões

À medida que a visão computacional avança, os modelos tornam-se mais precisos e eficientes. O YOLO12 aprimora tarefas de visão computacional, como deteção de objetos, segmentação de instâncias e classificação de imagens com processamento centrado na atenção e FlashAttention, aumentando a precisão e otimizando o uso da memória.

Ao mesmo tempo, a visão computacional está mais acessível do que nunca. O YOLO12 é fácil de utilizar através do pacote Ultralytics Python e, com a sua ênfase na precisão em detrimento da velocidade, é adequado para imagiologia médica, inspecções industriais e robótica - aplicações em que a precisão é fundamental.

Tem curiosidade sobre IA? Visite o nosso repositório GitHub e interaja com a nossa comunidade. Explore inovações em setores como IA em carros autónomos e visão computacional na agricultura nas nossas páginas de soluções. Consulte as nossas opções de licenciamento e dê vida aos seus projetos de Visão de IA. 🚀

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente