Descubra o poder dos Vision Transformers (ViTs) em visão computacional. Aprenda como eles superam as CNNs ao capturar o contexto global da imagem.
Um transformador de visão (ViT) é uma arquitetura de aprendizagem profunda que aplica os princípios do modelo Transformer original diretamente a sequências de imagens. Originalmente introduzida para Processamento de Linguagem Natural (PNL), Os transformadores revolucionaram o campo ao utilizar mecanismos que permitem ao modelo ponderar a importância de diferentes importância de diferentes partes dos dados de entrada. O ViT foi proposto pela Google Research no artigo "Uma imagem vale 16x16 palavras" como alternativa ao modelo padrão Rede Neuronal Convolucional (CNN) para tarefas visuais. Ao contrário das CNN, que processam os pixéis utilizando filtros locais, as ViT tratam uma imagem como uma sequência de de tamanho fixo, o que lhes permite captar o contexto global e as dependências de longo alcance desde a primeira camada utilizando a auto-atenção.
A arquitetura de um ViT representa uma mudança significativa na forma como as máquinas processam a informação visual. O fluxo de trabalho envolve a decomposição de uma imagem em componentes mais pequenos que podem ser processados de forma semelhante às palavras de uma frase.
Embora ambas as arquitecturas sejam fundamentais para a visão computacional (CV) moderna, elas dependem de diferentes diferentes. As CNNs utilizam operações de convolução que dão prioridade às interações locais e à invariância da tradução (reconhecimento de um objeto independentemente da sua posição). Isto Isto torna as CNNs altamente eficientes com conjuntos de dados mais pequenos. Em contrapartida, os ViTs têm menos estrutura específica de imagem e baseiam-se em padrões de aprendizagem diretamente de conjuntos de dados maciços como o ImageNet.
Os ViTs são geralmente excelentes quando treinados com grandes quantidades de dados, uma vez que podem modelar relações globais complexas que as CNNs podem não ver. No entanto, este âmbito global tem muitas vezes o custo de requisitos computacionais mais elevados para para a formação e velocidades de inferência mais lentas em dispositivos dispositivos de ponta com recursos limitados. Modelos híbridos como RT-DETR tentam colmatar esta lacuna, combinando uma CNN para uma extração eficiente de caraterísticas com um codificador codificador de transformador para o contexto global.
Os transformadores de visão têm tido sucesso em domínios em que a compreensão do contexto holístico de uma cena é mais crítica do que os pormenores de textura de baixo nível.
O ultralytics suporta arquitecturas baseadas no Transformer, como o RT-DETR (Real-Time Detection
Transformer), que aproveita os pontos fortes dos ViTs para
deteção de objectos. Enquanto os modelos baseados em CNN, como o
recomendado YOLO11 são normalmente mais rápidos para aplicações em tempo real
aplicações em tempo real, RT-DETR oferece uma alternativa robusta quando se dá prioridade à elevada precisão e ao contexto global.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes
results[0].show()
Olhando para o futuro, as inovações em termos de eficiência são cruciais. Ultralytics está atualmente a desenvolver o YOLO26, que tem como objetivo proporcionar a elevada precisão associada precisão associada aos Transformers, mantendo a velocidade das CNNs. Além disso, a futura PlataformaUltralytics simplificará o fluxo de trabalho para treinar e implementar estes modelos avançados em vários ambientes, desde servidores na nuvem a hardware de ponta. Estruturas importantes como PyTorch e TensorFlow continuam a expandir o seu suporte para as variantes ViT, impulsionando mais investigação neste domínio.