YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

Vision Mamba

Transformerに代わる線形計算量のモデルであるVision Mambaを探求しましょう。State Space Models (SSMs)がどのように高解像度コンピュータビジョンの効率を向上させるかを学びます。

Vision Mambaは、コンピュータービジョンにおける深層学習アーキテクチャの大きな転換点を示しており、Transformerに見られるアテンションベースのメカニズムの優位性から脱却しています。これは、自然言語処理における効率的なシーケンスモデリングのために元々設計されたMambaアーキテクチャを、視覚タスク向けに特化させたものです。State Space Models (SSMs) を活用することで、Vision Mambaは従来の自己アテンション層の二次的な複雑さに対し、線形的な複雑さの代替案を提供します。これにより、高解像度画像をより効率的に処理できるため、計算リソースが制約されているアプリケーションや、Vision Transformers (ViT)に典型的な重いメモリフットプリントなしに視覚データの長距離依存性を捉える必要がある場合に特に価値があります。

Vision Mambaの仕組み

Vision Mambaの核となるのは、データの選択的スキャンという概念です。従来の畳み込みニューラルネットワーク (CNN)は、ローカルスライディングウィンドウを使用して画像を処理します。これはテクスチャやエッジの検出には優れていますが、グローバルコンテキストには苦慮します。対照的に、Transformerはグローバルアテンションを使用してすべてのピクセル(またはパッチ)を他のすべてのピクセルに関連付けます。これは優れたコンテキストを提供しますが、画像解像度が上がるにつれて計算コストが高くなります。Vision Mambaは、画像をシーケンスに平坦化し、選択的状態空間を使用して処理することでこのギャップを埋めます。これにより、モデルは視覚情報を固定サイズの状態に圧縮し、画像シーケンス内の長距離にわたる関連する詳細を保持しながら、無関係なノイズを破棄することができます。

このアーキテクチャは通常、双方向スキャンメカニズムを伴います。画像は2D構造であり、テキストのように本質的にシーケンシャルではないため、Vision Mambaは画像パッチを順方向と逆方向(そして時には異なるパス)にスキャンし、スキャン順序に関係なく空間関係が理解されるようにします。このアプローチにより、モデルはTransformerと同様のグローバルな受容野を達成できますが、より高速な推論速度とより低いメモリ使用量で、ImageNetのようなベンチマークで最先端の結果に匹敵することがよくあります。

実際のアプリケーション

Vision Mambaの効率性は、リソースが制約された環境や高解像度タスクにおいて非常に重要です。

  • 医療画像解析: 放射線医学のような分野では、高解像度のMRIやCTスキャンを解析する際に、大きな画像内で空間的に離れた微妙な異常をdetectする必要があります。Vision Mambaは、標準的なTransformerを悩ませがちなメモリボトルネックなしに、これらの大規模な医療画像解析ファイルを効果的に処理でき、医師が高精度で腫瘍や骨折を特定するのを支援します。
  • エッジデバイスでの自律ナビゲーション: 自動運転車やドローンは、動画フィードをリアルタイムで処理するためにエッジコンピューティングに依存しています。Vision Mambaの線形スケーリングにより、これらのシステムは、重いTransformerモデルよりも効率的にオブジェクト検出セマンティックセグメンテーションのための高フレームレート動画入力を処理でき、安全上重要な決定のための反応時間を短縮します。

Vision Mamba vs. Vision Transformers (ViT)

両方のアーキテクチャはグローバルコンテキストを捉えることを目指していますが、それらは操作において根本的に異なります。

  • Vision Transformer(ViT): すべての画像パッチのペア間の関係を計算するアテンションメカニズムに依存しています。これにより、2次的な複雑さ($O(N^2)$)が生じ、画像サイズを2倍にすると計算コストが4倍になります。
  • Vision Mamba: State Space Models (SSMs) を利用して視覚トークンを線形 ($O(N)$) に処理します。新しいパッチを認識するたびに更新される実行状態を維持し、より高い解像度でもはるかに優れたスケーリングを可能にしながら、同等の精度を維持します。

例: 効率的な推論ワークフロー

Vision Mambaは特定のアーキテクチャですが、その効率性の原則は、現代のリアルタイムモデルの目標と一致しています。 Ultralytics YOLO26。最適化されたビジョンタスクを求めるユーザーは、を活用できます。 Ultralyticsプラットフォーム トレーニングとデプロイメントのために。以下は、を使用した例です ultralytics 推論を実行するためのパッケージ。高度に最適化されたビジョンモデルの使用の容易さを示します。

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")  # 'n' for nano, emphasizing efficiency

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Display the results
results[0].show()

主な利点と将来の展望

コンピュータービジョンへのMambaベースアーキテクチャの導入は、よりハードウェアを意識したAIへの移行を示しています。グローバルアテンションに伴う計算オーバーヘッドを削減することで、研究者はより小型のデバイスに高度なAIエージェントを展開する道を開いています。

VMamba論文効率的な深層学習の進展といった最近の研究は、これらのモデルが、ビデオ理解から3D物体検出に至るタスクにおいて、従来のバックボーンを置き換える可能性を強調しています。コミュニティがスキャン戦略と畳み込み層との統合を洗練し続けるにつれて、Vision Mambaは、CNNやTransformerと並んで深層学習ツールボックスの標準コンポーネントとなる準備が整っています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。