用語集

ビジョン・マンバ

Transformersの線形複雑度代替となるVision Mambaを探求する。状態空間モデル（SSM）が高解像度コンピュータビジョンにおける効率をいかに向上させるかを学ぶ。

ビジョンマンバは、コンピュータビジョン向け深層学習アーキテクチャにおける重要な転換点であり、トランスフォーマーに見られる注意機構の支配から脱却した。これは、もともと自然言語処理における効率的なシーケンスモデリングのために設計されたマンバアーキテクチャを、視覚タスクに特化して適応させたものである。状態空間モデル（SSM）を活用することで、Vision Mambaは従来の自己注意層が持つ二次的な計算複雑性に代わる線形複雑性を実現します。これにより高解像度画像の処理効率が向上し、計算リソースが制約される環境や、Vision Transformers（ViT）に典型的な重いメモリ負荷なしに視覚データの長距離依存性を捕捉する必要があるアプリケーションにおいて特に有用です。

ビジョン・マンバの仕組み

ビジョンマンバの中核にあるのは、データを選択的にスキャンする概念である。従来の畳み込みニューラルネットワーク（CNN）は局所的なスライディングウィンドウを用いて画像を処理する。これはテクスチャやエッジの検出には優れているが、グローバルな文脈の把握には苦戦する。一方、トランスフォーマーはグローバルアテンションを用いて、すべてのピクセル（またはパッチ）を他のすべてのピクセルに関連付ける。これにより優れた文脈が得られるが、画像解像度が上がるにつれて計算コストが高くなる。ビジョンマンバは画像をシーケンスに平坦化し、選択的状態空間を用いて処理することでこのギャップを埋める。これによりモデルは視覚情報を固定サイズの状態に圧縮し、画像シーケンス内の長距離にわたる関連する詳細を保持しつつ、無関係なノイズを排除できる。

このアーキテクチャは通常、双方向スキャン機構を採用している。画像は2次元構造であり、テキストのように本質的に順序性を持たないため、Vision Mambaは画像パッチを順方向と逆方向（場合によっては変化する経路）で走査し、スキャン順序に関わらず空間的関係性を確実に理解できるようにする。このアプローチにより、モデルはトランスフォーマーと同様のグローバルな受容野を実現しつつ、より高速な推論速度と低いメモリ使用量を実現し、 ImageNetなどのベンチマークで最先端の結果に匹敵することが多い。

実際のアプリケーション

ビジョンマンバの効率性は、リソース制約のある環境や高解像度タスクにおいて極めて有用である。

医療画像解析：放射線医学などの分野では、高解像度のMRIやCTスキャンを解析する際に、大規模な画像内で空間的に離れた位置にある微細な異常を検出する必要があります。Vision Mambaは、標準的なトランスフォーマーがしばしば直面するメモリボトルネックなしに、これらの大規模な医療画像解析ファイルを効率的に処理でき、医師が腫瘍や骨折を高精度で特定するのを支援します。
エッジデバイスにおける自律航行：自動運転車やドローンは、映像フィードをリアルタイム処理するためにエッジコンピューティングに依存している。 Vision Mambaの線形スケーリングにより、これらのシステムは高フレームレート映像入力を処理し、物体検出や意味的セグメンテーションを重厚なトランスフォーマーモデルよりも効率的に実行できる。これにより安全上重要な判断における反応時間を短縮し、安全性を確保する。

ビジョンマンバ対ビジョントランスフォーマー（ViT）

両アーキテクチャともグローバルな文脈を捉えることを目指しているが、その動作は根本的に異なる。

ビジョントランスフォーマー（ViT）： 注意機構に依存しており、画像パッチの全ペア間の関係を計算する。これにより二次的な計算量（$O(N^2)$）が生じ、画像サイズを2倍にすると計算コストが4倍になることを意味する。
ビジョンマンバ：状態空間モデル（SSM）を用いて視覚トークンを線形（$O(N)$）に処理する。新しいパッチを認識するたびに更新される進行状態を維持することで、同等の精度を維持しつつ、より高い解像度でもはるかに優れたスケーラビリティを実現する。

例：効率的な推論ワークフロー

ビジョンマンバは特定のアーキテクチャではあるが、その効率性の原則は、現代のリアルタイムモデルのような目標と一致している。 Ultralytics YOLO26最適化された視覚タスクを求めるユーザーは、 Ultralytics トレーニングおよびデプロイメント用です。以下は ultralytics 推論を実行するパッケージは、高度に最適化されたビジョンモデルの使いやすさを実証しています。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

主な利点と将来展望

マンバベースのアーキテクチャがコンピュータビジョンに導入されたことは、ハードウェアを意識したAIへの移行を示している。グローバルアテンションに伴う計算オーバーヘッドを削減することで、研究者らは小型デバイスへの高度なAIエージェントの展開の可能性を切り開いている。

最近の研究（VMamba論文や効率的な深層学習の発展など）は、これらのモデルが従来のバックボーンを置き換える可能性を動画理解から3D物体検出に至るタスクで示している。コミュニティがスキャン戦略の改良と畳み込み層との統合を継続する中、Vision MambaはCNNやTransformersと並ぶ深層学習ツールボックスの標準コンポーネントとなる可能性を秘めている。

ビジョン・マンバ

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

ビジョン・マンバの仕組み

実際のアプリケーション

ビジョンマンバ対ビジョントランスフォーマー（ViT）

例：効率的な推論ワークフロー

主な利点と将来展望

このカテゴリの関連記事

mAP を改善する方法：クイックガイド

コンピュータービジョンによる生物多様性監視の再定義

エッジとクラウドでYOLO26を効率的に展開するための5つのポイント

Ultralytics コミュニティに参加する