遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Swin Transformer

了解 Swin Transformer 架构如何使用移动窗口实现高效的计算机视觉,并探索 Ultralytics 平台上的工作流。

由 Microsoft 研究人员在 2021 年的里程碑论文 "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows" 中提出,这种 深度学习 (DL) 架构调整了 注意力机制,以处理高分辨率视觉数据的复杂性。与处理统一长度文本标记的 自然语言处理 模型不同,该架构承认视觉元素在尺度上差异巨大。通过构建分层表示并利用独特的窗口技术,它实现了相对于图像大小的 线性计算复杂度,使其成为各种 计算机视觉 (CV) 任务的高效骨干网络。

Link to this section平移窗口和分层设计的工作原理#

主要创新在于模型如何构建 特征提取。它首先将输入图像划分为小的、互不重叠的补丁。然而,与早期模型不同,它在更深层中逐步将这些相邻补丁合并为更大的区域。这种分层方法允许网络提取丰富的 特征图,这些特征图能够代表从微小视觉细节到大型物体的各种尺度的全局上下文。

为了保持计算效率,自注意力仅在局部、孤立的窗口内计算,而不是在整个图像上计算。为了确保信息跨越这些边界流动,窗口在连续层之间进行“平移”。这种平移窗口方案有效地桥接了独立区域,提供了全面的 多尺度空间层次结构,而无需承担与全局注意力相关的沉重计算负担。

Link to this sectionSwin Transformer 与视觉 Transformer (ViT) 的对比#

在比较现代架构时,区分该模型与标准的 视觉 Transformer (ViT) 非常重要。最初的 ViT 将图像视为固定大小补丁的序列,并同时计算所有补丁的全局注意力。虽然精度很高,但这会导致 二次计算复杂度,意味着处理时间和内存需求会随着图像分辨率的增加而急剧上升。

相比之下,Swin 架构的分层和基于窗口的设计使复杂度保持为线性。这使其对于需要高分辨率输入和输出的密集预测任务更为实用。因此,它在 COCO 测试开发数据集 等基准测试(用于多尺度 目标检测)和 ADE20K 语义分割数据集(用于精确的 图像分割)上取得了领先成果。

Link to this section现代 AI 中的实际应用#

由于其灵活性和效率,官方 Microsoft Research GitHub 存储库 的实现已被应用于各种复杂、高风险行业。

  • 医学图像分析:在临床环境中,像 Swin-Unet 这样的网络利用这种架构进行 体积 3D MRI 扫描 和高分辨率组织病理学分析。该模型保留密集空间层次结构的能力有助于识别微小的异常,例如早期肿瘤。你可以阅读更多关于 医学成像研究 最新突破的信息。
  • 卫星图像分析:对于 环境监测和遥感,捕获大规模的地理背景至关重要。该分层结构高效处理海量航空数据集,用于森林砍伐跟踪、城市规划和作物健康监测。

Link to this section与 PyTorch 和 Ultralytics 的集成#

对于构建自定义神经网络的开发人员,使用 官方 PyTorch 文档 实现此架构非常直接。torchvision 库 包含了预训练版本,例如在 ImageNet 上优化的轻量级 Tiny 变体。

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

虽然基于 Transformer 的骨干网络提供了出色的多尺度表示,但现代应用通常需要针对 边缘 AI 设备 进行纯粹的端到端优化。例如,Ultralytics YOLO26 提供了一种原生的端到端架构,它更小、更快且开箱即用,精度极高,在实时边缘环境中表现出色。无论利用 Transformer 重型架构还是快速卷积模型,开发人员都可以通过 Ultralytics Platform 管理从数据标注到训练的整个工作流程。这一全面的云工具链使 模型部署 和持续 模型监控 变得简单高效。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅