Yolo 深圳
深セン
今すぐ参加
用語集

Vision Transformer (ViT)

ビジョン・トランスフォーマー(ViT)の力を探求しましょう。Ultralytics、自己注意機構とパッチトークン化がCNNを超えたコンピュータビジョンに革命をもたらす仕組みを学びます。

ビジョン・トランスフォーマー(ViT)は、自然言語処理(NLP)向けに設計された自己注意機構を視覚タスク解決に適応させた深層学習アーキテクチャである。局所的なピクセルグリッドの階層を通じて画像を処理する従来の畳み込みニューラルネットワーク(CNN)とは異なり、ViTは画像を離散的なパッチの列として扱う。 このアプローチは画期的な研究論文「An Image is Worth 16x16 Words」によって普及した。同論文は、純粋なトランスフォーマーアーキテクチャが畳み込み層に依存せずともコンピュータビジョン(CV)分野で最先端性能を達成できることを実証した。グローバルアテンションを活用することで、ViTは最下層から画像全体にわたる長距離依存関係を捕捉できる。

Vision Transformerの仕組み

ViTの根本的な革新は、入力データの構造化方法にある。画像を標準的なトランスフォーマーと互換性のある形式にするため、モデルは視覚情報をベクトルの列に分解する。これは言語モデルが単語の文を処理する方法を模倣している。

  1. パッチトークン化:入力画像は固定サイズの正方形グリッド(通常16×16ピクセル)に分割される。 各正方形はベクトルに平坦化され、視覚的トークンとして機能する。
  2. 線形投影:これらの平坦化されたパッチは、学習可能な線形層を通過させ、 高密度埋め込みを生成します。このステップは、生のピクセル値を モデルが処理可能な高次元空間へマッピングします。
  3. 位置エンコーディング:アーキテクチャはシーケンスを並列処理し、順序や空間に関する固有の理解を欠くため、学習可能な位置エンコーディングがパッチ埋め込みに追加される。これにより、モデルは各パッチが元の画像内のどこに属するかという空間情報を保持できるようになる。
  4. 自己注意機構:シーケンスはトランスフォーマーエンコーダーに入力され、 自己注意により各パッチが他の全てのパッチと同時に相互作用する。 これによりネットワークはグローバルな文脈を学習でき、 左上隅のピクセルが右下のピクセルとどう関連するかを理解する。
  5. 分類ヘッダー: 画像分類などのタスクでは、 シーケンスの先頭に特別な「クラストークン」が 付加されることが多い。このトークンの最終出力状態が 画像の集約表現として機能し、その後マルチレイヤパーセプトロン(MLP)などの 分類器に供給される。

ビジョン・トランスフォーマー対CNN

両アーキテクチャとも視覚データの理解を目的としているが、その動作原理は大きく異なる。 CNNは「変換不変性」として知られる強い「帰納的バイアス」を有しており、これは局所特徴(エッジやテクスチャなど)が位置に関係なく重要であると本質的に仮定していることを意味する。これによりCNNはデータ効率が高く、小規模なデータセットでも効果を発揮する。

逆に、ビジョントランスフォーマーは画像固有のバイアスが少ない。これらはJFT-300MやフルImageNetなどの膨大な訓練データを用いて、空間的関係をゼロから学習しなければならない。 ImageNet データセットなど。これにより訓練の計算負荷は高まるが、 ViTは驚くほど優れたスケーラビリティを発揮する。十分なデータと 計算リソースがあれば、局所的な畳み込みでは見逃される複雑な全体構造を捉えることでCNNを上回る性能を発揮し得る。

実際のアプリケーション

グローバルな文脈を理解する能力により、ViTは複雑で重大な環境において特に有用である。

  • 医療画像解析: 医療AI分野では、ViTがMRIや組織病理学スライドなどの高解像度スキャン解析に活用される。例えば腫瘍検出では、ViTが組織内の微細な質感異常とスライド全体の広範な構造変化を関連付け、局所処理では見落とされる可能性のある悪性パターンを特定できる。
  • 衛星画像とリモートセンシング:ViTは、 物体間の関係が広範囲に及ぶ衛星画像解析に 特に優れている。例えば、森林伐採現場と 遠く離れた林道を結びつけるには、景観の「全体像」を理解する必要がある。この課題では、 ViTのグローバルな視野が、標準的なCNNの限られた受容野を凌駕する。

UltralyticsでのUltralyticsersの活用

について ultralytics ライブラリはトランスフォーマーベースのアーキテクチャをサポートしており、特に RT-DETR リアルタイム検出トランスフォーマー). 一方で 旗艦 YOLO26 エッジデバイスでは速度と精度のバランスから好まれることが多いが、RT-DETR グローバルコンテキストを優先するシナリオにおいて強力な代替手段RT-DETR 。

以下の Python の例は、事前学習済み Transformerベースのモデルを読み込み、推論を実行する方法を示しています:

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

今後の展望

ViTの高計算コストに対処するため、研究は急速に進化している。 FlashAttentionのような技術により、これらのモデルは高速化され、 メモリ効率も向上している。さらに、CNNの効率性とトランスフォーマーのアテンション機能を組み合わせた ハイブリッドアーキテクチャが一般的になりつつある。 これらの高度なワークフローを管理したいチーム向けに、 Ultralytics データアノテーション、 クラウド経由での複雑なモデルのトレーニング、 多様なエンドポイントへのデプロイを統合環境で提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加