YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

Transformer

Transformerアーキテクチャと自己注意メカニズムを探ります。それらがRT-DETRやUltralytics YOLO26のようなAIモデルをどのように強化し、優れた精度を実現しているかを学びましょう。

Transformerは、自己注意機構と呼ばれるメカニズムに依存して、自然言語や視覚的特徴などのシーケンシャル入力データを処理するディープラーニングアーキテクチャです。Googleの研究者によって画期的な論文Attention Is All You Needで発表されたTransformerは、以前のリカレントニューラルネットワーク(RNN)のシーケンシャル処理の制限を排除することで、人工知能(AI)の分野に革命をもたらしました。代わりに、Transformerはデータシーケンス全体を同時に分析し、大規模な並列化とGPUのような最新のハードウェアでの大幅に高速なトレーニング時間を可能にします。

Transformerの仕組み

Transformerの核となる革新は、自己注意メカニズムです。これにより、モデルは入力データの異なる部分間の相対的な重要性を重み付けすることができます。例えば、文中でモデルは、周囲の文脈に基づいて、「bank」という単語が「river」よりも「money」に密接に関連していることを学習できます。

このアーキテクチャは、一般的に2つの主要なコンポーネントで構成されています。

  • エンコーダ: 入力データを豊富な数値表現、すなわちエンベディングに処理します。
  • デコーダー: エンコーダーの出力を使用して、翻訳された文や予測されたバウンディングボックスなどの最終結果を生成します。

コンピュータービジョン (CV)の分野では、モデルは通常、 Vision Transformer (ViT)と呼ばれるバリエーションを採用します。テキストトークンを処理する代わりに、画像は固定サイズのパッチ(例:16x16ピクセル)に分割されます。これらのパッチは平坦化され、シーケンスとして扱われるため、モデルは標準的な 畳み込みニューラルネットワーク (CNN)よりも効果的に「グローバルコンテキスト」(画像内の離れた部分間の関係を理解すること)を捉えることができます。

Transformerと関連概念

Transformerアーキテクチャと関連する用語を区別することが重要です。

  • アテンションメカニズム: これは、データの特定の部分に焦点を当てるという一般的な概念です。Transformerはアテンション層を中心に構築された特定のアーキテクチャである一方、他のモデルではアテンションを小さなアドオンとしてのみ使用する場合があります。
  • 大規模言語モデル (LLM): 「GPT」のような用語は、膨大な量のテキストで訓練された特定のモデルを指します。ほとんどすべての現代のLLMは、Transformerアーキテクチャをその基盤となるエンジンとして使用しています。

実際のアプリケーション

Transformerの汎用性により、様々な産業で採用されています。

  1. 医療画像: ヘルスケアAIにおいて、Transformerは医療画像解析のような複雑なタスクに利用されます。そのグローバルな空間関係を理解する能力は、局所特徴に焦点を当てたCNNが見落とす可能性のある、高解像度MRIやCTスキャンにおける微妙な異常のdetectに役立ちます。
  2. 自律システム: 自動運転車にとって、歩行者や他の車両の軌道を理解することは極めて重要です。Transformerは、時間フレーム全体でオブジェクトをtrackし、将来の動きを予測することで、動画理解に優れており、安全なナビゲーションを保証します。

Transformerを用いたオブジェクト検出

CNNは伝統的に物体detectを支配してきましたが、Real-Time Detection Transformer (RT-DETR)のようなTransformerベースのモデルが強力な代替手段として登場しました。RT-DETRは、CNNバックボーンの速度とTransformerデコーディングヘッドの精度を組み合わせます。

しかし、純粋なTransformerモデルは計算コストが高い場合があります。多くのエッジアプリケーションでは、効率的なアテンションメカニズムと高速な畳み込み処理を統合したYOLO26のような高度に最適化されたハイブリッドモデルが、速度と精度の優れたバランスを提供します。これらのモデルのトレーニングとデプロイメントは、データセットのアノテーションからモデルのエクスポートまでのワークフローを効率化するUltralytics Platformを介して簡単に管理できます。

pythonの例:RT-DETRの使用

以下の例は、Transformerベースのモデルを使用して推論を実行する方法を示しています。 ultralytics パッケージ。このコードは事前学習済みRT-DETRモデルをロードし、画像内のオブジェクトをdetectします。

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

数学的基礎に関するさらなる読書のために、PyTorchのTransformer層に関するドキュメントは技術的な深さを提供し、一方、IBMのTransformerガイドは高レベルのビジネス視点を提供します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。