Transformerアーキテクチャと自己注意メカニズムを探ります。それらがRT-DETRやUltralytics YOLO26のようなAIモデルをどのように強化し、優れた精度を実現しているかを学びましょう。
Transformerは、自己注意機構と呼ばれるメカニズムに依存して、自然言語や視覚的特徴などのシーケンシャル入力データを処理するディープラーニングアーキテクチャです。Googleの研究者によって画期的な論文Attention Is All You Needで発表されたTransformerは、以前のリカレントニューラルネットワーク(RNN)のシーケンシャル処理の制限を排除することで、人工知能(AI)の分野に革命をもたらしました。代わりに、Transformerはデータシーケンス全体を同時に分析し、大規模な並列化とGPUのような最新のハードウェアでの大幅に高速なトレーニング時間を可能にします。
Transformerの核となる革新は、自己注意メカニズムです。これにより、モデルは入力データの異なる部分間の相対的な重要性を重み付けすることができます。例えば、文中でモデルは、周囲の文脈に基づいて、「bank」という単語が「river」よりも「money」に密接に関連していることを学習できます。
このアーキテクチャは、一般的に2つの主要なコンポーネントで構成されています。
コンピュータービジョン (CV)の分野では、モデルは通常、 Vision Transformer (ViT)と呼ばれるバリエーションを採用します。テキストトークンを処理する代わりに、画像は固定サイズのパッチ(例:16x16ピクセル)に分割されます。これらのパッチは平坦化され、シーケンスとして扱われるため、モデルは標準的な 畳み込みニューラルネットワーク (CNN)よりも効果的に「グローバルコンテキスト」(画像内の離れた部分間の関係を理解すること)を捉えることができます。
Transformerアーキテクチャと関連する用語を区別することが重要です。
Transformerの汎用性により、様々な産業で採用されています。
CNNは伝統的に物体detectを支配してきましたが、Real-Time Detection Transformer (RT-DETR)のようなTransformerベースのモデルが強力な代替手段として登場しました。RT-DETRは、CNNバックボーンの速度とTransformerデコーディングヘッドの精度を組み合わせます。
しかし、純粋なTransformerモデルは計算コストが高い場合があります。多くのエッジアプリケーションでは、効率的なアテンションメカニズムと高速な畳み込み処理を統合したYOLO26のような高度に最適化されたハイブリッドモデルが、速度と精度の優れたバランスを提供します。これらのモデルのトレーニングとデプロイメントは、データセットのアノテーションからモデルのエクスポートまでのワークフローを効率化するUltralytics Platformを介して簡単に管理できます。
以下の例は、Transformerベースのモデルを使用して推論を実行する方法を示しています。
ultralytics パッケージ。このコードは事前学習済みRT-DETRモデルをロードし、画像内のオブジェクトをdetectします。
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()
数学的基礎に関するさらなる読書のために、PyTorchのTransformer層に関するドキュメントは技術的な深さを提供し、一方、IBMのTransformerガイドは高レベルのビジネス視点を提供します。

未来の機械学習で、新たな一歩を踏み出しましょう。