Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Swin Transformer

Descobre como a arquitetura Swin Transformer usa janelas deslocadas para visão computacional eficiente e explora fluxos de trabalho na Ultralytics Platform.

Introduzida por pesquisadores da Microsoft no artigo histórico de 2021 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", esta arquitetura de deep learning (DL) adapta o mecanismo de atenção para lidar com as complexidades de dados visuais de alta resolução. Ao contrário de modelos de processamento de linguagem natural que processam tokens de texto de tamanho uniforme, esta arquitetura reconhece que os elementos visuais variam drasticamente em escala. Ao construir uma representação hierárquica e utilizar uma técnica de janela exclusiva, ela alcança complexidade computacional linear em relação ao tamanho da imagem, tornando-se um backbone altamente eficiente para uma variedade de tarefas de computer vision (CV).

Link to this sectionComo funcionam as janelas deslocadas e o design hierárquico#

A inovação principal reside na forma como o modelo estrutura a extração de características. Ele começa dividindo uma imagem de entrada em pequenos patches que não se sobrepõem. No entanto, ao contrário de modelos anteriores, ele funde progressivamente esses patches vizinhos em regiões maiores nas camadas mais profundas. Essa abordagem hierárquica permite que a rede extraia feature maps ricos que representam o contexto global em várias escalas, desde minúsculos detalhes visuais até grandes objetos.

Para manter a eficiência computacional, a auto-atenção é calculada apenas dentro de janelas locais isoladas, em vez de em toda a imagem. Para garantir que a informação flua através dessas fronteiras, as janelas são "deslocadas" entre camadas sucessivas. Esse esquema de janela deslocada conecta efetivamente áreas independentes, fornecendo hierarquias espaciais multiescala abrangentes sem a carga computacional pesada associada à atenção global.

Link to this sectionSwin Transformer vs. Vision Transformer (ViT)#

Ao comparar arquiteturas modernas, é importante distinguir este modelo do Vision Transformer (ViT) padrão. O ViT original trata as imagens como uma sequência de patches de tamanho fixo e calcula a atenção global sobre todos eles simultaneamente. Embora altamente preciso, isso resulta em complexidade computacional quadrática, o que significa que o tempo de processamento e os requisitos de memória disparam à medida que a resolução da imagem aumenta.

Em contrapartida, o design hierárquico e baseado em janelas da arquitetura Swin mantém a complexidade linear. Isso a torna muito mais prática para tarefas de predição densa que exigem entradas e saídas de alta resolução. Consequentemente, ela alcança resultados de ponta em benchmarks como o COCO test-dev dataset para object detection multiescala e o ADE20K semantic segmentation dataset para uma image segmentation precisa.

Link to this sectionAplicações do mundo real na IA moderna#

Devido à sua flexibilidade e eficiência, a implementação oficial do Microsoft Research GitHub repository foi adaptada em indústrias complexas e de alto risco.

  • Medical Image Analysis: Em ambientes clínicos, redes como a Swin-Unet aproveitam esta arquitetura para volumetric 3D MRI scans e análise histopatológica de alta resolução. A capacidade do modelo de reter hierarquias espaciais densas ajuda a identificar pequenas anomalias, como tumores em estágio inicial. Você pode ler mais sobre avanços recentes em medical imaging research.
  • Satellite Image Analysis: Para environmental monitoring and remote sensing, capturar contexto geográfico em larga escala é crucial. A estrutura hierárquica processa com eficiência conjuntos de dados aéreos massivos para rastreamento de desmatamento, planejamento urbano e monitoramento da saúde das plantações.

Link to this sectionIntegração com PyTorch e Ultralytics#

Para desenvolvedores que criam redes neurais personalizadas, implementar esta arquitetura é simples usando a official PyTorch documentation. A biblioteca torchvision library inclui versões pré-treinadas, como a variante Tiny leve, otimizada no ImageNet.

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

Embora backbones baseados em Transformer ofereçam excelente representação multiescala, aplicações modernas frequentemente exigem otimizações puramente ponta a ponta para edge AI devices. Por exemplo, Ultralytics YOLO26 oferece uma arquitetura nativamente ponta a ponta que é menor, mais rápida e altamente precisa por padrão, destacando-se em ambientes de edge em tempo real. Esteja usando arquiteturas pesadas em Transformer ou modelos convolucionais rápidos, você pode gerenciar todo o seu fluxo de trabalho—desde a anotação de dados até o treinamento—via Ultralytics Platform. Esse conjunto de ferramentas em nuvem abrangente torna o model deployment e o model monitoring contínuo simples e eficientes.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática