Yolo 深圳
深セン
今すぐ参加
用語集

Transformer

TransformerアーキテクチャがAIに革命をもたらし、自然言語処理(NLP)、コンピュータビジョン、高度な機械学習タスクにおけるブレークスルーをどのように強化するかをご覧ください。

トランスフォーマーは、入力データを並列処理する自己注意メカニズムを利用した画期的なニューラルネットワーク・アーキテクチャである。 自然言語処理(NLP)の分野に大きな革命をもたらす。 自然言語処理(NLP)コンピュータビジョン(CV)の分野に大きな革命をもたらした。最初に紹介されたのは Google 研究者が2017年に発表した論文 「アテンション・イズ・オール・ユー・ニード(Attention Is All You Need)」において、グーグルの研究者たちによって初めて紹介された。 Transformerは、旧来のアーキテクチャで使用されていた逐次処理から脱却している。その代わりに、データのシーケンス全体を同時に分析する、 前例のない効率で、長距離の依存関係や文脈上の関係を捉えることができる。この このアーキテクチャは、現代の 生成AIと強力な GPT-4のような大規模言語モデル(LLM)の基盤となっている。

コア・アーキテクチャとメカニズム

トランスフォーマーの特徴は、注意メカニズムに依存していることである。 注意メカニズム、特に 自己注意とは異なり リカレント・ニューラル・ネットワーク(RNN)、 トランスフォーマーは、データを段階的に(例えば単語ごとに)処理するリカレント・ニューラル・ネットワーク(RNN)とは異なり、入力全体を一度に取り込む。データの順序を理解するために データの順序を理解するために データの順序を理解するために、位置エンコーディングを採用する。 配列構造に関する情報を保持する。

アーキテクチャは通常、エンコーダーとデコーダーのスタックで構成される:

  • エンコーダー:入力データを処理し、文脈的な理解を生み出す。
  • デコーダー:エンコーダーの洞察力を使って、翻訳されたテキストや予測された画像ピクセルなどの出力を生成する。 画像ピクセルを生成する。

この並列構造は大規模なスケーラビリティを可能にし、研究者は以下のことが可能になります。 高性能なGPUを使用して、膨大なデータセットのモデルを GPUを使用する

コンピュータ・ビジョンにおけるトランスフォーマー

もともとはテキスト用に設計されたアーキテクチャだが、Vision Transformer (ViT)によってビジュアル・タスクに適応させることに成功した。 ヴィジョン・トランスフォーマー(ViT)である。このアプローチでは 画像は固定サイズのパッチ(文中の単語に似ている)のシーケンスに分割される。そしてモデルは 自己注意を用いて、異なるパッチの重要性を このモデルは、自己注意を用いて異なるパッチの相対的な重要性を重み付けし、従来の 畳み込みニューラルネットワーク(CNN) は見逃す可能性がある。

例えば リアルタイム検出トランスフォーマー(RT-DETR)はこのアーキテクチャーを利用している。 高精度の物体検出を行うために 物体検出を行う。CNNベースのモデルとは異なり RT-DETR 、局所的な特徴に依存するCNNベースのモデルとは異なり、シーン内の離れた物体間の関係を理解することができる。しかし Transformerがグローバルなコンテキストを得意とするのに対し、CNNベースのモデルは Ultralytics YOLO11のようなCNNベースのモデルの方が、リアルタイム・エッジ・アプリケーション のようなCNNベースのモデルの方が、リアルタイムのエッジ・アプリケーションに適している。コミュニティモデル YOLO12のようなコミュニティ・モデルは、重注目レイヤーの統合を試みている。 しかし、YOLO11の最適化されたCNNアーキテクチャーに比べ、学習の不安定性や推論速度の遅さに悩まされることが多い。 YOLO11最適化された

実際のアプリケーション

トランスフォーマー・アーキテクチャーの多用途性により、さまざまな業界で採用されている。

  • 医療画像解析:医療分野では、トランスフォーマーが医療画像解析を支援します。 医療画像解析を支援する。 高解像度スキャン(MRIやCTなど)の特徴を相関させ、腫瘍などの異常をdetect 。グローバルな文脈を理解する グローバルな文脈を理解する能力により、微妙なパターンが見落とされることはありません。
  • 自律走行ナビゲーション:自動運転車は、複数のカメラからのビデオフィードを処理するためにTransformerベースのモデルを使用します。 複数のカメラからのビデオフィードを処理します。これは ビデオ理解と軌道予測 動的な物体(歩行者、他の車両)が時間とともにどのように相互作用するかを追跡することで、映像の理解と軌道予測に役立ちます。
  • 高度なチャットボット:バーチャルアシスタントやカスタマーサポートエージェントは、Transformersを利用して、長時間の会話でも文脈を維持することができます。 長時間の会話でコンテキストを維持し、旧来のチャットボットと比較してユーザーエクスペリエンスを大幅に向上させます。 チャットボットです。

Ultralyticsトランスフォーマーの使用

を使って、Transformerベースのコンピュータビジョンモデルを直接試すことができます。 ultralytics パッケージを使用します。 次の例は、物体検出用のRT-DETR モデルをロードする方法を示しています。

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

トランスフォーマーと他のアーキテクチャー

Transformersを他の一般的なディープラーニング(DL)アーキテクチャと区別することは重要である。 ディープラーニング(DL)アーキテクチャと区別することが重要である:

  • トランスフォーマーとRNN/LSTMの比較:RNNは 勾配の消失という問題がある。 トランスフォーマーは、自己注意によってこの問題を解決する。Transformersは自己注意によってこの問題を解決し、シーケンスの全履歴へのアクセスを維持する。 シーケンスの履歴全体へのアクセスを維持する。
  • トランスフォーマーとCNNの比較:CNNは並進不変であり、バックボーンを用いて局所的なパターン(エッジ、テクスチャー)を検出する能力に優れている。 (エッジ、テクスチャ)を検出することに優れており画像タスクにお 画像タスクに対して非常に効率的である。Transformerは大域的な関係を学習するが、一般に収束にはより多くのデー タと計算能力を必要とする。 を必要とする。最新のアプローチでは、ハイブリッドモデルを作成するか、以下のような効率的なCNNを使用することが多い。 YOLO11のような効率的なCNNを使用することが多い。 を凌駕する。

今後の展望

トランスフォーマーの効率は、研究によって絶えず改善されている。例えば FlashAttentionのような技術革新は、計算コストを削減している、 より長いコンテキスト・ウィンドウを可能にする。さらに マルチモーダルAIシステムは、テキスト、画像、音声を同時に処理するために、Transformerを他のアーキテクチャと融合させている。 他のアーキテクチャーと融合させ、テキスト、画像、音声を同時に処理している。これらの技術が成熟するにつれて Ultralytics Platformは、標準的なモデルとともに、これらの高度なモデルを訓練、展開、監視するための統一された環境を提供します、 標準的なコンピュータビジョンタスクと並行して コンピュータビジョンタスク

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加