Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Swin Transformer

Descubre cómo la arquitectura Swin Transformer utiliza ventanas desplazadas para una visión artificial eficiente, y explora los flujos de trabajo en la plataforma Ultralytics.

Presentada por investigadores de Microsoft en el histórico artículo de 2021 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", esta arquitectura de aprendizaje profundo (DL) adapta el mecanismo de atención para manejar las complejidades de los datos visuales de alta resolución. A diferencia de los modelos de procesamiento de lenguaje natural que procesan tokens de texto de longitud uniforme, esta arquitectura reconoce que los elementos visuales varían drásticamente en escala. Al construir una representación jerárquica y utilizar una técnica de ventanas única, logra una complejidad computacional lineal relativa al tamaño de la imagen, convirtiéndola en un backbone altamente eficiente para una variedad de tareas de visión artificial (CV).

Link to this sectionCómo funcionan las ventanas desplazadas y el diseño jerárquico#

La innovación principal reside en cómo el modelo estructura la extracción de características. Comienza dividiendo una imagen de entrada en pequeños parches que no se solapan. Sin embargo, a diferencia de modelos anteriores, fusiona progresivamente estos parches vecinos en regiones más grandes en capas más profundas. Este enfoque jerárquico permite a la red extraer ricos mapas de características que representan el contexto global a varias escalas, desde detalles visuales diminutos hasta objetos grandes.

Para mantener la eficiencia computacional, la auto-atención se calcula solo dentro de ventanas locales aisladas en lugar de en toda la imagen. Para asegurar que la información fluya a través de estos límites, las ventanas se "desplazan" entre capas sucesivas. Este esquema de ventanas desplazadas une efectivamente áreas independientes, proporcionando jerarquías espaciales multiescala integrales sin la pesada carga computacional asociada a la atención global.

Link to this sectionSwin Transformer frente a Vision Transformer (ViT)#

Al comparar arquitecturas modernas, es importante distinguir este modelo del Vision Transformer (ViT) estándar. El ViT original trata las imágenes como una secuencia de parches de tamaño fijo y calcula la atención global a través de todos ellos simultáneamente. Aunque es altamente preciso, esto resulta en una complejidad computacional cuadrática, lo que significa que el tiempo de procesamiento y los requisitos de memoria se disparan a medida que aumenta la resolución de la imagen.

Por el contrario, el diseño jerárquico y basado en ventanas de la arquitectura Swin mantiene la complejidad lineal. Esto la hace mucho más práctica para tareas de predicción densa que requieren entradas y salidas de alta resolución. En consecuencia, logra resultados de vanguardia en benchmarks como el dataset COCO test-dev para detección de objetos multiescala y el dataset de segmentación semántica ADE20K para una segmentación de imagen precisa.

Link to this sectionAplicaciones del mundo real en la IA moderna#

Debido a su flexibilidad y eficiencia, la implementación oficial del repositorio de GitHub de Microsoft Research se ha adaptado en industrias complejas y de alto impacto.

Link to this sectionIntegración con PyTorch y Ultralytics#

Para los desarrolladores que construyen redes neuronales personalizadas, implementar esta arquitectura es sencillo usando la documentación oficial de PyTorch. La librería torchvision incluye versiones pre-entrenadas, como la variante ligera Tiny, optimizada en ImageNet.

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

Si bien los backbones basados en Transformer ofrecen una excelente representación multiescala, las aplicaciones modernas a menudo exigen optimizaciones puramente de extremo a extremo para dispositivos de IA en el borde. Por ejemplo, Ultralytics YOLO26 proporciona una arquitectura nativamente de extremo a extremo que es más pequeña, más rápida y altamente precisa desde el primer momento, destacando en entornos de borde en tiempo real. Ya sea utilizando arquitecturas pesadas en Transformer o modelos convolucionales rápidos, puedes gestionar todo tu flujo de trabajo —desde la anotación de datos hasta el entrenamiento— a través de la Ultralytics Platform. Esta cadena de herramientas en la nube integral hace que el despliegue de modelos y el monitoreo continuo de modelos sean simples y eficientes.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático