Vision Transformers (ViT) の能力を探りましょう。自己注意とパッチトークン化が、UltralyticsでCNNを超えてコンピュータビジョンをどのように革新するかを学びましょう。
ビジョン・トランスフォーマー (ViT) は、元々自然言語処理 (NLP)向けに設計された自己注意メカニズムを視覚タスクの解決に応用した深層学習アーキテクチャです。局所的なピクセルグリッドの階層を通じて画像を処理する従来の畳み込みニューラルネットワーク (CNN)とは異なり、ViTは画像を離散的なパッチのシーケンスとして扱います。このアプローチは、画期的な研究論文「An Image is Worth 16x16 Words」によって普及しました。この論文では、純粋なトランスフォーマーアーキテクチャが畳み込み層に依存することなく、コンピュータービジョン (CV)において最先端の性能を達成できることが示されました。グローバルアテンションを活用することで、ViTは最初の層から画像全体にわたる長距離依存関係を捉えることができます。
ViTの根本的な革新は、入力データの構造化方法にあります。画像を標準的なTransformerと互換性を持たせるために、モデルは視覚情報をベクトルのシーケンスに分解し、言語モデルが単語の文を処理する方法を模倣します。
両方のアーキテクチャは視覚データの理解を目指していますが、それらは運用哲学において大きく異なります。CNNは、変換不変性として知られる強力な「帰納的バイアス」を持っており、局所的な特徴(エッジやテクスチャなど)がその位置に関係なく重要であると本質的に仮定します。これにより、CNNはデータ効率が高く、より小さなデータセットで効果的になります。
対照的に、Vision Transformerは画像固有のバイアスが少ないです。これらは、JFT-300Mや完全なImageNetデータセットのような膨大な量のトレーニングデータを使用して、空間的関係をゼロから学習する必要があります。これによりトレーニングは計算負荷が高くなりますが、ViTは驚くほど優れたスケーラビリティを発揮します。十分なデータと計算能力があれば、局所的な畳み込みでは見逃されがちな複雑なグローバル構造を捉えることで、CNNを凌駕することができます。
グローバルなコンテキストを理解する能力により、ViTは複雑でリスクの高い環境において特に有用です。
について ultralytics ライブラリは、Transformerベースのアーキテクチャ、特に
RT-DETR(リアルタイム検出トランスフォーマー)。フラッグシップの YOLO26 エッジデバイスにおける速度と精度のバランスからしばしば好まれる一方で、RT-DETRは、グローバルコンテキストを優先するシナリオにおいて強力な代替手段を提供します。
以下のpythonの例は、事前学習済みのTransformerベースモデルをロードして推論を実行する方法を示しています。
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model (Vision Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image source
# The model uses self-attention to detect objects globally
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
ViTの高い計算コストに対処するための研究は急速に進展しています。FlashAttentionのような技術は、これらのモデルをより高速かつメモリ効率の良いものにしています。さらに、CNNの効率性とTransformerの注意機構を組み合わせたハイブリッドアーキテクチャが一般的になりつつあります。これらの高度なワークフローを管理したいチームのために、Ultralytics Platformは、データのアノテーション、クラウド経由での複雑なモデルのトレーニング、多様なエンドポイントへのデプロイのための統合環境を提供します。

未来の機械学習で、新たな一歩を踏み出しましょう。