深圳Yolo 视觉
深圳
立即加入
词汇表

Vision Mamba

探索 Vision Mamba,一种 Transformer 的线性复杂度替代方案。了解状态空间模型 (SSMs) 如何提高高分辨率计算机视觉的效率。

Vision Mamba 代表了计算机视觉深度学习架构的重大转变,摆脱了 Transformer 中基于注意力的机制的主导地位。它是 Mamba 架构的改编版本——Mamba 最初是为自然语言处理中的高效序列建模而设计的,现已专门为视觉任务量身定制。通过利用状态空间模型 (SSMs),Vision Mamba 提供了一种线性复杂度的替代方案,以取代传统自注意力层的二次复杂度。这使其能够更高效地处理高分辨率图像,对于计算资源受限或必须捕获视觉数据中的长距离依赖关系而又不想产生 Vision Transformers (ViT) 典型的高内存占用的应用来说,它尤其有价值。

Vision Mamba 的工作原理

Vision Mamba 的核心是选择性扫描数据的概念。传统的 卷积神经网络 (CNNs) 使用局部滑动窗口处理图像,这对于 detect 纹理和边缘非常有效,但在处理全局上下文时却力不从心。相反,Transformer 使用全局注意力将每个像素(或图像块)与其他所有像素关联起来,这提供了出色的上下文,但随着图像分辨率的增加,计算成本会变得很高。Vision Mamba 通过将图像展平为序列并使用选择性状态空间对其进行处理来弥合这一差距。这使得模型能够将视觉信息压缩成固定大小的状态,在图像序列的长距离上保留相关细节,同时丢弃不相关的噪声。

该架构通常涉及双向扫描机制。由于图像是二维结构,不像文本那样本质上是序列的,Vision Mamba 以向前和向后方向(有时是不同的路径)扫描图像块,以确保无论扫描顺序如何,都能理解空间关系。这种方法使模型能够实现类似于 Transformer 的全局 感受野,但具有更快的推理速度和更低的内存使用,通常在 ImageNet 等基准测试中媲美最先进的结果。

实际应用

Vision Mamba 的效率使其在资源受限环境和高分辨率任务中具有高度相关性。

  • 医学图像分析:在放射学等领域,分析高分辨率MRI或CT扫描需要检测大型图像中可能空间上相距较远的细微异常。Vision Mamba能够有效处理这些大型医学图像分析文件,而不会出现困扰标准Transformer的内存瓶颈,从而辅助医生高精度地识别肿瘤或骨折。
  • 边缘设备上的自动导航:自动驾驶汽车和无人机依赖边缘计算来实时处理视频流。Vision Mamba的线性扩展能力使这些系统能够比大型Transformer模型更高效地处理用于目标检测语义segmentation的高帧率视频输入,确保安全关键决策的更快反应时间。

Vision Mamba 与 Vision Transformer (ViT) 对比

虽然两种架构都旨在捕获全局上下文,但它们在操作上存在根本差异。

  • Vision Transformer (ViT): 依赖于注意力机制,该机制计算每对图像块之间的关系。这导致了二次复杂度 ($O(N^2)$),意味着图像尺寸加倍会使计算成本增加四倍。
  • Vision Mamba: 利用状态空间模型 (SSM) 以线性方式 ($O(N)$) 处理视觉 token。它维护一个运行状态,该状态会随着看到新的图像块而更新,使其在更高分辨率下能更好地扩展,同时保持可比的 准确性

示例:高效推理工作流

虽然 Vision Mamba 是一种特定的架构,但其效率原则与现代实时模型的目标一致,例如 Ultralytics YOLO26。寻求优化 视觉任务的用户可以利用 Ultralytics 平台 用于训练和部署。下面是一个使用 ultralytics 包来运行推理的示例,展示了使用高度优化的视觉模型的简便性。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

主要优势与未来展望

将基于 Mamba 的架构引入计算机视觉标志着向更硬件感知型 AI 的转变。通过减少与 全局注意力 相关的计算开销,研究人员正在为在更小型设备上部署高级 AI 代理 打开大门。

最新研究,例如 VMamba 论文高效深度学习 的发展,凸显了这些模型在从 视频理解3D 目标检测 等任务中替代传统骨干网络的潜力。随着社区不断完善扫描策略以及与 卷积层 的集成,Vision Mamba 有望与 CNN 和 Transformer 并驾齐驱,成为 深度学习 工具箱中的标准组件。

让我们一起共建AI的未来!

开启您的机器学习未来之旅