探索 Vision Mamba,一种 Transformer 的线性复杂度替代方案。了解状态空间模型 (SSMs) 如何提高高分辨率计算机视觉的效率。
Vision Mamba 代表了计算机视觉深度学习架构的重大转变,摆脱了 Transformer 中基于注意力的机制的主导地位。它是 Mamba 架构的改编版本——Mamba 最初是为自然语言处理中的高效序列建模而设计的,现已专门为视觉任务量身定制。通过利用状态空间模型 (SSMs),Vision Mamba 提供了一种线性复杂度的替代方案,以取代传统自注意力层的二次复杂度。这使其能够更高效地处理高分辨率图像,对于计算资源受限或必须捕获视觉数据中的长距离依赖关系而又不想产生 Vision Transformers (ViT) 典型的高内存占用的应用来说,它尤其有价值。
Vision Mamba 的核心是选择性扫描数据的概念。传统的 卷积神经网络 (CNNs) 使用局部滑动窗口处理图像,这对于 detect 纹理和边缘非常有效,但在处理全局上下文时却力不从心。相反,Transformer 使用全局注意力将每个像素(或图像块)与其他所有像素关联起来,这提供了出色的上下文,但随着图像分辨率的增加,计算成本会变得很高。Vision Mamba 通过将图像展平为序列并使用选择性状态空间对其进行处理来弥合这一差距。这使得模型能够将视觉信息压缩成固定大小的状态,在图像序列的长距离上保留相关细节,同时丢弃不相关的噪声。
该架构通常涉及双向扫描机制。由于图像是二维结构,不像文本那样本质上是序列的,Vision Mamba 以向前和向后方向(有时是不同的路径)扫描图像块,以确保无论扫描顺序如何,都能理解空间关系。这种方法使模型能够实现类似于 Transformer 的全局 感受野,但具有更快的推理速度和更低的内存使用,通常在 ImageNet 等基准测试中媲美最先进的结果。
Vision Mamba 的效率使其在资源受限环境和高分辨率任务中具有高度相关性。
虽然两种架构都旨在捕获全局上下文,但它们在操作上存在根本差异。
虽然 Vision Mamba 是一种特定的架构,但其效率原则与现代实时模型的目标一致,例如 Ultralytics YOLO26。寻求优化
视觉任务的用户可以利用 Ultralytics 平台 用于训练和部署。下面是一个使用 ultralytics 包来运行推理的示例,展示了使用高度优化的视觉模型的简便性。
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt") # 'n' for nano, emphasizing efficiency
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
将基于 Mamba 的架构引入计算机视觉标志着向更硬件感知型 AI 的转变。通过减少与 全局注意力 相关的计算开销,研究人员正在为在更小型设备上部署高级 AI 代理 打开大门。
最新研究,例如 VMamba 论文 和 高效深度学习 的发展,凸显了这些模型在从 视频理解 到 3D 目标检测 等任务中替代传统骨干网络的潜力。随着社区不断完善扫描策略以及与 卷积层 的集成,Vision Mamba 有望与 CNN 和 Transformer 并驾齐驱,成为 深度学习 工具箱中的标准组件。
开启您的机器学习未来之旅