Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Vision Transformer (ViT)

Descubra o poder dos Vision Transformers (ViTs) em visão computacional. Aprenda como eles superam as CNNs ao capturar o contexto global da imagem.

Um transformador de visão (ViT) é uma arquitetura de aprendizagem profunda que aplica os princípios do modelo Transformer original diretamente a sequências de imagens. Originalmente introduzida para Processamento de Linguagem Natural (PNL), Os transformadores revolucionaram o campo ao utilizar mecanismos que permitem ao modelo ponderar a importância de diferentes importância de diferentes partes dos dados de entrada. O ViT foi proposto pela Google Research no artigo "Uma imagem vale 16x16 palavras" como alternativa ao modelo padrão Rede Neuronal Convolucional (CNN) para tarefas visuais. Ao contrário das CNN, que processam os pixéis utilizando filtros locais, as ViT tratam uma imagem como uma sequência de de tamanho fixo, o que lhes permite captar o contexto global e as dependências de longo alcance desde a primeira camada utilizando a auto-atenção.

Como Funcionam os Vision Transformers

A arquitetura de um ViT representa uma mudança significativa na forma como as máquinas processam a informação visual. O fluxo de trabalho envolve a decomposição de uma imagem em componentes mais pequenos que podem ser processados de forma semelhante às palavras de uma frase.

  1. Partição de amostras: A imagem de entrada é dividida numa grelha de manchas não sobrepostas (por exemplo, 16x16 pixéis). Este passo transforma a imagem 2D numa sequência de vectores 1D, simbolizando efetivamente os dados visuais.
  2. Projeção linear de manchas achatadas: Cada fragmento é achatado e projetado num num espaço de dimensão inferior, criando que representam as caraterísticas visuais dessa área específica.
  3. Embeddings posicionais: Uma vez que a arquitetura Transformer não compreende intrinsecamente a ordem ordem da sequência, são adicionadas incorporações posicionais aprendíveis às incorporações de fragmentos para reter informação espacial sobre a localização de cada fragmento na imagem original.
  4. Codificador Transformer: A sequência de embeddings é introduzida num codificador Transformer padrão. Aqui, o mecanismo de atenção permite ao modelo aprender as relações entre cada fragmento e cada outro fragmento, independentemente da sua distância entre si na imagem.
  5. Cabeça de classificação: Para tarefas como a classificação de imagens, um token especial é adicionado à sequência, e o seu estado final é introduzido numa cabeça Multi-Layer Perceptron (MLP) para prever a classe etiqueta.

Arquitecturas ViT Vs. CNN

Embora ambas as arquitecturas sejam fundamentais para a visão computacional (CV) moderna, elas dependem de diferentes diferentes. As CNNs utilizam operações de convolução que dão prioridade às interações locais e à invariância da tradução (reconhecimento de um objeto independentemente da sua posição). Isto Isto torna as CNNs altamente eficientes com conjuntos de dados mais pequenos. Em contrapartida, os ViTs têm menos estrutura específica de imagem e baseiam-se em padrões de aprendizagem diretamente de conjuntos de dados maciços como o ImageNet.

Os ViTs são geralmente excelentes quando treinados com grandes quantidades de dados, uma vez que podem modelar relações globais complexas que as CNNs podem não ver. No entanto, este âmbito global tem muitas vezes o custo de requisitos computacionais mais elevados para para a formação e velocidades de inferência mais lentas em dispositivos dispositivos de ponta com recursos limitados. Modelos híbridos como RT-DETR tentam colmatar esta lacuna, combinando uma CNN para uma extração eficiente de caraterísticas com um codificador codificador de transformador para o contexto global.

Aplicações no Mundo Real

Os transformadores de visão têm tido sucesso em domínios em que a compreensão do contexto holístico de uma cena é mais crítica do que os pormenores de textura de baixo nível.

  • Análise de imagens médicas: Em domínios como a análise de imagens médicas, os ViTs são utilizados para detect anomalias em exames de ressonância magnética ou raios X. Por exemplo, na deteção de tumores, um ViT pode correlacionar caraterísticas de partes distantes de um órgão para identificar tecidos malignos que podem parecer normais normais isoladamente, melhorando a exatidão do diagnóstico.
  • Deteção remota e imagens de satélite: Os ViTs são efetivamente utilizados para analisar imagens de satélite para a monitorização ambiental. A sua capacidade de processar o contexto global ajuda a distinguir entre tipos de terreno semelhantes semelhantes, como a diferenciação entre diversos campos de cultivo ou o seguimento da expansão urbana em grandes áreas geográficas. áreas geográficas.

Utilização de transformadores com Ultralytics

O ultralytics suporta arquitecturas baseadas no Transformer, como o RT-DETR (Real-Time Detection Transformer), que aproveita os pontos fortes dos ViTs para deteção de objectos. Enquanto os modelos baseados em CNN, como o recomendado YOLO11 são normalmente mais rápidos para aplicações em tempo real aplicações em tempo real, RT-DETR oferece uma alternativa robusta quando se dá prioridade à elevada precisão e ao contexto global.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

Olhando para o futuro, as inovações em termos de eficiência são cruciais. Ultralytics está atualmente a desenvolver o YOLO26, que tem como objetivo proporcionar a elevada precisão associada precisão associada aos Transformers, mantendo a velocidade das CNNs. Além disso, a futura PlataformaUltralytics simplificará o fluxo de trabalho para treinar e implementar estes modelos avançados em vários ambientes, desde servidores na nuvem a hardware de ponta. Estruturas importantes como PyTorch e TensorFlow continuam a expandir o seu suporte para as variantes ViT, impulsionando mais investigação neste domínio.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora