TransformerアーキテクチャがAIに革命をもたらし、自然言語処理(NLP)、コンピュータビジョン、高度な機械学習タスクにおけるブレークスルーをどのように強化するかをご覧ください。
トランスフォーマーは、入力データを並列処理する自己注意メカニズムを利用した画期的なニューラルネットワーク・アーキテクチャである。 自然言語処理(NLP)の分野に大きな革命をもたらす。 自然言語処理(NLP) とコンピュータビジョン(CV)の分野に大きな革命をもたらした。最初に紹介されたのは Google 研究者が2017年に発表した論文 「アテンション・イズ・オール・ユー・ニード(Attention Is All You Need)」において、グーグルの研究者たちによって初めて紹介された。 Transformerは、旧来のアーキテクチャで使用されていた逐次処理から脱却している。その代わりに、データのシーケンス全体を同時に分析する、 前例のない効率で、長距離の依存関係や文脈上の関係を捉えることができる。この このアーキテクチャは、現代の 生成AIと強力な GPT-4のような大規模言語モデル(LLM)の基盤となっている。
トランスフォーマーの特徴は、注意メカニズムに依存していることである。 注意メカニズム、特に 自己注意とは異なり リカレント・ニューラル・ネットワーク(RNN)、 トランスフォーマーは、データを段階的に(例えば単語ごとに)処理するリカレント・ニューラル・ネットワーク(RNN)とは異なり、入力全体を一度に取り込む。データの順序を理解するために データの順序を理解するために データの順序を理解するために、位置エンコーディングを採用する。 配列構造に関する情報を保持する。
アーキテクチャは通常、エンコーダーとデコーダーのスタックで構成される:
この並列構造は大規模なスケーラビリティを可能にし、研究者は以下のことが可能になります。 高性能なGPUを使用して、膨大なデータセットのモデルを GPUを使用する。
もともとはテキスト用に設計されたアーキテクチャだが、Vision Transformer (ViT)によってビジュアル・タスクに適応させることに成功した。 ヴィジョン・トランスフォーマー(ViT)である。このアプローチでは 画像は固定サイズのパッチ(文中の単語に似ている)のシーケンスに分割される。そしてモデルは 自己注意を用いて、異なるパッチの重要性を このモデルは、自己注意を用いて異なるパッチの相対的な重要性を重み付けし、従来の 畳み込みニューラルネットワーク(CNN) は見逃す可能性がある。
例えば リアルタイム検出トランスフォーマー(RT-DETR)はこのアーキテクチャーを利用している。 高精度の物体検出を行うために 物体検出を行う。CNNベースのモデルとは異なり RT-DETR 、局所的な特徴に依存するCNNベースのモデルとは異なり、シーン内の離れた物体間の関係を理解することができる。しかし Transformerがグローバルなコンテキストを得意とするのに対し、CNNベースのモデルは Ultralytics YOLO11のようなCNNベースのモデルの方が、リアルタイム・エッジ・アプリケーション のようなCNNベースのモデルの方が、リアルタイムのエッジ・アプリケーションに適している。コミュニティモデル YOLO12のようなコミュニティ・モデルは、重注目レイヤーの統合を試みている。 しかし、YOLO11の最適化されたCNNアーキテクチャーに比べ、学習の不安定性や推論速度の遅さに悩まされることが多い。 YOLO11最適化された
トランスフォーマー・アーキテクチャーの多用途性により、さまざまな業界で採用されている。
を使って、Transformerベースのコンピュータビジョンモデルを直接試すことができます。 ultralytics パッケージを使用します。
次の例は、物体検出用のRT-DETR モデルをロードする方法を示しています。
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Transformersを他の一般的なディープラーニング(DL)アーキテクチャと区別することは重要である。 ディープラーニング(DL)アーキテクチャと区別することが重要である:
トランスフォーマーの効率は、研究によって絶えず改善されている。例えば FlashAttentionのような技術革新は、計算コストを削減している、 より長いコンテキスト・ウィンドウを可能にする。さらに マルチモーダルAIシステムは、テキスト、画像、音声を同時に処理するために、Transformerを他のアーキテクチャと融合させている。 他のアーキテクチャーと融合させ、テキスト、画像、音声を同時に処理している。これらの技術が成熟するにつれて Ultralytics Platformは、標準的なモデルとともに、これらの高度なモデルを訓練、展開、監視するための統一された環境を提供します、 標準的なコンピュータビジョンタスクと並行して コンピュータビジョンタスク