Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Descubra o YOLO12, o modelo de visão computacional mais recente! Saiba como sua arquitetura centrada na atenção e a tecnologia FlashAttention aprimoram as tarefas de detecção de objetos em vários setores.
A visão computacional é um ramo da inteligência artificial (IA) que ajuda as máquinas a entender imagens e vídeos. É um campo que está avançando em um ritmo incrível porque pesquisadores e desenvolvedores de IA estão constantemente ultrapassando os limites. A comunidade de IA está sempre buscando tornar os modelos mais rápidos, inteligentes e eficientes. Um dos mais recentes avanços é o YOLO12, a mais nova adição à série de modelos YOLO (You Only Look Once), lançado em 18 de fevereiro de 2025.
O YOLO12 foi desenvolvido por pesquisadores da University at Buffalo, SUNY (State University of New York) e da University of Chinese Academy of Sciences. Em uma nova abordagem única, o YOLO12 introduz mecanismos de atenção, permitindo que o modelo se concentre nas partes mais essenciais de uma imagem, em vez de processar tudo igualmente.
Ele também apresenta o FlashAttention, uma técnica que acelera o processamento enquanto usa menos memória, e um mecanismo de atenção de área, projetado para imitar a maneira como os humanos naturalmente se concentram em objetos centrais.
Essas melhorias tornam o YOLO12n 2,1% mais preciso que o YOLOv10n e o YOLO12m +1,0% mais preciso que o YOLO11m. No entanto, isso tem um custo - o YOLO12n é 9% mais lento que o YOLOv10n, e o YOLO12m é 3% mais lento que o YOLO11m.
Fig 1. Um exemplo de YOLO12 sendo usado para detectar objetos.
Neste artigo, exploraremos o que torna o YOLO12 diferente, como ele se compara às versões anteriores e onde ele pode ser aplicado.
O caminho para o lançamento do YOLO12
A série de modelos YOLO é uma coleção de modelos de visão computacional projetados para detecção de objetos em tempo real, o que significa que eles podem identificar e localizar rapidamente objetos em imagens e vídeos. Ao longo do tempo, cada versão melhorou em termos de velocidade, precisão e eficiência.
Por exemplo, o Ultralytics YOLOv5, lançado em 2020, tornou-se amplamente utilizado por ser rápido e fácil de treinar e implementar de forma personalizada. Mais tarde, o Ultralytics YOLOv8 aprimorou isso, oferecendo suporte adicional para tarefas de visão computacional, como segmentação de instâncias e rastreamento de objetos.
Mais recentemente, o Ultralytics YOLO11 se concentrou em melhorar o processamento em tempo real, mantendo um equilíbrio entre velocidade e precisão. Por exemplo, o YOLO11m tinha 22% menos parâmetros do que o YOLOv8m, mas ainda assim oferecia melhor desempenho de detecção no conjunto de dados COCO, um benchmark amplamente utilizado para avaliar modelos de detecção de objetos.
Aproveitando esses avanços, o YOLO12 introduz uma mudança na forma como processa as informações visuais. Em vez de tratar todas as partes de uma imagem igualmente, ele prioriza as áreas mais relevantes, melhorando a precisão da detecção. Simplificando, o YOLO12 se baseia em melhorias anteriores, buscando ser mais preciso.
Principais características do YOLO12
O YOLO12 introduz várias melhorias que aprimoram as tarefas de visão computacional, mantendo as velocidades de processamento em tempo real intactas. Aqui está uma visão geral dos principais recursos do YOLO12:
Arquitetura centrada na atenção: Em vez de tratar cada parte de uma imagem igualmente, o YOLO12 se concentra nas áreas mais importantes. Isso melhora a precisão e reduz o processamento desnecessário, tornando a detecção mais nítida e eficiente, mesmo em imagens confusas.
FlashAttention: O YOLO12 acelera a análise de imagens enquanto usa menos memória. Com o FlashAttention (um algoritmo com uso eficiente de memória), ele otimiza o manuseio de dados, reduzindo a tensão do hardware e tornando as tarefas em tempo real mais suaves e confiáveis.
Redes de Agregação de Camadas Eficientes Residuais (R-ELAN): O YOLO12 organiza suas camadas de forma mais eficiente usando R-ELAN, o que melhora a forma como o modelo processa e aprende com os dados. Isso torna o treinamento mais estável, o reconhecimento de objetos mais nítido e os requisitos de computação mais baixos, para que ele seja executado de forma eficiente em diferentes ambientes.
Para entender como esses recursos funcionam na vida real, considere um shopping center. O YOLO12 pode ajudar a rastrear compradores, identificar decorações de lojas, como vasos de plantas ou placas promocionais, e identificar itens perdidos ou abandonados.
A sua arquitetura centrada na atenção ajuda-o a concentrar-se nos detalhes mais importantes, enquanto o FlashAttention garante que processa tudo rapidamente sem sobrecarregar o sistema. Isto facilita aos operadores de centros comerciais a melhoria da segurança, a organização dos layouts das lojas e o aumento da experiência de compra global.
Fig 2. Detecção de objetos em um shopping center usando YOLO12.
No entanto, o YOLO12 também apresenta algumas limitações a serem consideradas:
Tempos de treinamento mais lentos: Devido à sua arquitetura, o YOLO12 requer mais tempo de treinamento em comparação com o YOLO11.
Desafios de exportação: Alguns usuários podem encontrar dificuldades ao exportar modelos YOLO12, principalmente ao integrá-los em ambientes de implantação específicos.
Compreendendo os benchmarks de desempenho do YOLO12
O YOLO12 está disponível em várias versões, cada uma otimizada para diferentes necessidades. As versões menores (nano e small) priorizam velocidade e eficiência, tornando-as ideais para dispositivos móveis e computação de borda. As versões média e grande encontram um equilíbrio entre velocidade e precisão, enquanto o YOLO12x (extra grande) foi projetado para aplicações de alta precisão, como automação industrial, imagens médicas e sistemas avançados de vigilância.
Com estas variações, o YOLO12 oferece diferentes níveis de desempenho, dependendo do tamanho do modelo. Testes de referência mostram que certas variantes do YOLO12 superam o YOLOv10 e o YOLO11 em precisão, alcançando uma maior precisão média (mAP).
No entanto, alguns modelos, como YOLO12m, YOLO12l e YOLO12x, processam imagens mais lentamente do que o YOLO11, mostrando uma compensação entre precisão de detecção e velocidade. Apesar disso, o YOLO12 permanece eficiente, exigindo menos parâmetros do que muitos outros modelos, embora ainda use mais do que o YOLO11. Isso o torna uma ótima opção para aplicações onde a precisão é mais importante do que a velocidade bruta.
Usando o YOLO12 através do pacote Python Ultralytics
O YOLO12 é suportado pelo pacote Ultralytics Python e é fácil de usar, tornando-o acessível tanto para iniciantes quanto para profissionais. Com apenas algumas linhas de código, os usuários podem carregar modelos pré-treinados, executar várias tarefas de visão computacional em imagens e vídeos e também treinar o YOLO12 em conjuntos de dados personalizados. O pacote Ultralytics Python agiliza o processo, eliminando a necessidade de etapas de configuração complexas.
Instale o pacote Ultralytics: Primeiro, instale o pacote Ultralytics Python, que fornece as ferramentas necessárias para executar o YOLO12 de forma eficiente. Isso garante que todas as dependências estejam configuradas corretamente.
Carregar um modelo YOLO12 pré-treinado: Escolha a variante YOLO12 apropriada (nano, small, medium, large ou extra large) com base no nível de precisão e velocidade exigido para a sua tarefa.
Forneça uma imagem ou vídeo: Insira um arquivo de imagem ou vídeo que você deseja analisar. O YOLO12 também pode processar feeds de vídeo ao vivo para detecção em tempo real.
Execute o processo de detecção: O modelo examina os dados visuais, identifica objetos e coloca caixas delimitadoras ao redor deles. Ele rotula cada objeto detectado com sua classe prevista e pontuação de confiança.
Ajustar as configurações de detecção: Você também pode modificar parâmetros como os limiares de confiança para ajustar a precisão e o desempenho da detecção.
Salve ou use a saída: A imagem ou vídeo processado, agora contendo objetos detectados, pode ser salvo ou integrado em um aplicativo para análise posterior, automação ou tomada de decisão.
Essas etapas tornam o YOLO12 fácil de usar para uma variedade de aplicações, desde vigilância e rastreamento de varejo até imagens médicas e veículos autônomos.
Aplicações práticas do YOLO12
O YOLO12 pode ser usado em diversas aplicações do mundo real graças ao seu suporte para detecção de objetos, segmentação de instâncias, classificação de imagens, estimativa de pose e detecção de objetos orientados (OBB).
Fig 4. YOLO12 suporta tarefas como detecção de objetos e segmentação de instâncias.
No entanto, como discutimos anteriormente, os modelos YOLO12 priorizam a precisão em relação à velocidade, o que significa que eles levam um pouco mais de tempo para processar imagens em comparação com as versões anteriores. Essa compensação torna o YOLO12 ideal para aplicações onde a precisão é mais importante do que a velocidade em tempo real, como:
Imagem médica: O YOLO12 pode ser treinado sob medida para detectar tumores ou anormalidades em raios-X e ressonâncias magnéticas com alta precisão, tornando-o uma ferramenta útil para médicos e radiologistas que precisam de análise de imagem precisa para diagnóstico.
Controle de qualidade na fabricação: Pode ajudar a identificar defeitos do produto durante o processo de produção, garantindo que apenas itens de alta qualidade cheguem ao mercado, reduzindo o desperdício e melhorando a eficiência.
Análise forense: As agências de aplicação da lei podem ajustar o YOLO12 para analisar imagens de vigilância e coletar evidências. Em investigações criminais, a precisão é vital para identificar detalhes importantes.
Agricultura de precisão: Os agricultores podem usar o YOLO12 para analisar a saúde das colheitas, detectar doenças ou infestações de pragas e monitorar as condições do solo. Avaliações precisas ajudam a otimizar as estratégias agrícolas, levando a uma melhor gestão do rendimento e dos recursos.
Começando com o YOLO12
Antes de executar o YOLO12, é importante garantir que seu sistema atenda aos requisitos necessários.
Tecnicamente, o YOLO12 pode ser executado em qualquer GPU (Unidade de Processamento Gráfico) dedicada. Por padrão, ele não requer FlashAttention, portanto, pode funcionar na maioria dos sistemas de GPU sem ele. No entanto, habilitar o FlashAttention pode ser especialmente útil ao trabalhar com grandes conjuntos de dados ou imagens de alta resolução, pois ajuda a evitar lentidão, reduzir o uso de memória e melhorar a eficiência do processamento.
Para usar o FlashAttention, você precisará de uma GPU NVIDIA de uma destas séries: Turing (T4, Quadro RTX), Ampere (RTX 30 series, A30, A40, A100), Ada Lovelace (RTX 40 series) ou Hopper (H100, H200).
Tendo em mente a usabilidade e a acessibilidade, o pacote Ultralytics Python ainda não oferece suporte à inferência FlashAttention, pois sua instalação pode ser bastante complexa tecnicamente. Para saber mais sobre como começar a usar o YOLO12 e otimizar seu desempenho, confira a documentação oficial da Ultralytics.
Principais conclusões
À medida que a visão computacional avança, os modelos tornam-se mais precisos e eficientes. O YOLO12 aprimora tarefas de visão computacional, como deteção de objetos, segmentação de instâncias e classificação de imagens com processamento centrado na atenção e FlashAttention, aumentando a precisão e otimizando o uso da memória.
Ao mesmo tempo, a visão computacional está mais acessível do que nunca. O YOLO12 é fácil de usar através do pacote Python Ultralytics e, com o seu foco na precisão em vez da velocidade, é adequado para imagiologia médica, inspeções industriais e robótica - aplicações onde a precisão é fundamental.