用語集

Vision Transformer (ViT)

コンピュータビジョンにおけるVision Transformer（ViT）の能力をご覧ください。ViTがグローバルな画像コンテキストを捉え、CNNを上回る方法を学びます。

ヴィジョン・トランスフォーマー（ViT）とはディープラーニングアーキテクチャでありオリジナルのTransformerモデルの原理を画像のシーケンスに直接適用した深層学習アーキテクチャである。もともとは自然言語処理（NLP）のために導入された、 Transformerは、モデルが入力データの異なる部分の重要性を重み付けするメカニズムを使用することで、この分野に革命をもたらした。 Transformerは、モデルが入力データの異なる部分の重要性を計量することを可能にするメカニズムを使用することで、この分野に革命をもたらした。ViTはGoogle Researchが論文で提案した。「の論文の中で提案された。標準的な畳み込みニューラルネットワーク（CNN）で提案された。局所的なフィルターを使ってピクセルを処理するCNNとは異なり、ViTは画像を固定サイズのパッチのシーケンスとして扱う。 ViTは画像を固定サイズのパッチの連続として扱い、最初の層から自己注意を用いてグローバルな文脈と長距離依存関係を捉えることができる。自己注意を用いている。

Vision Transformerの仕組み

ViTのアーキテクチャーは、機械が視覚情報を処理する方法の大きな転換を意味する。ワークフローは、画像を、文中の単語と同様に処理できるより小さな構成要素に分解することを含む。

パッチ分割：入力画像をグリッド状の非重複パッチに分割する（例えば、16x16 ピクセル)に分割する。このステップでは、2D画像を1Dベクトルのシーケンスに変換し、視覚データを効果的にトークン化する。
平坦化されたパッチの線形投影：各パッチは平坦化され、低次元空間に投影される。各パッチは平坦化され、低次元空間に投影される。を作成する。
位置の埋め込み：Transformerアーキテクチャは本質的に順序を理解しない。学習可能な位置埋め込みがパッチ埋め込みに追加される。学習可能な位置埋め込みがパッチ埋め込みに追加される。
Transformerエンコーダー：エンベッディングのシーケンスは、標準的なTransformerエンコーダーに供給される。ここでアテンション・メカニズムにより、モデルはを学習することができる。画像中の
分類ヘッド：画像分類のようなタスクでは画像分類のようなタスクでは、特別なトークンがその最終状態が多層パーセプトロン（MLP）ヘッドに入力され、クラスラベルを予測する。ラベルを予測します。

ViTとCNNアーキテクチャの比較

どちらのアーキテクチャも現代のコンピュータ・ビジョン（CV）の基本であるがコンピュータ・ビジョン(CV)の基本であるが、両者は異なる誘導バイアスに依存している。CNNは畳み込み演算 CNNは、局所的な相互作用と並進不変性（位置に関係なく物体を認識すること）を優先する畳み込み演算を利用する。これにより CNNは少ないデータセットで非常に効率的である。対照的に、ViTは画像固有の構造をあまり持たず、以下のような膨大なデータセットから直接パターンを学習する。のような巨大なデータセットから直接パターンを学習する。 ImageNet。

ViTは一般に、非常に大量のデータで訓練された場合に優れている。をモデル化できるからである。しかし、このグローバルなスコープは、多くの場合、学習に必要な計算量が多くなり、リソースに制約のある環境では推論速度が遅くなるという代償を払うことになる。リソースに制約のあるエッジ・デバイスでは、推論速度が遅くなる。ハイブリッド・モデル RT-DETRのようなハイブリッドモデルは、効率的な特徴抽出のためのCNN を組み合わせることで、このギャップを埋めようとしている。 Transformerエンコーダを組み合わせることで、このギャップを埋めようとしている。

実際のアプリケーション

ビジョントランスフォーマーは、シーンの全体的な文脈を理解することが、低レベルのテクスチャの詳細よりも重要な領域で成功を収めている。領域で成功を収めている。

医療画像解析：医療画像解析のような分野で医療画像解析のような分野では、ViTはMRIスキャンやレントゲンの異常を検出するために使用される。 MRIスキャンやX線写真の異常をdetect ために使用される。例えば腫瘍検出、 ViTは、臓器の離れた部分の特徴を相関させることで、単体では正常に見える悪性組織を特定し、診断精度を向上させることができる。診断精度を向上させる。
リモートセンシングと衛星画像：ViTは衛星画像の解析に効果的に使用される衛星画像環境モニタリングに効果的に使用されています。グローバルな文脈を処理する能力は、似たような地形タイプを区別するのに役立つ。例えば、多様な作物畑を区別したり、広大な地域にわたる都市の拡大を追跡したりするのに役立つ。となる。

Ultralyticsトランスフォーマーの使用

について ultralytics パッケージは、RT-DETR （Real-Time Detection）のようなTransformerベースのアーキテクチャをサポートしています。 Transformer）のようなTransformerベースのアーキテクチャをサポートしています。オブジェクト検出.のようなCNNベースのモデルが推奨される YOLO11 リアルタイム・アプリケーションでは RT-DETR 、高い精度とグローバルなコンテキストが優先される場合に、堅牢な代替手段を提供する。

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes
results[0].show()

今後の展望としては、効率性の革新が極めて重要である。Ultralytics 現在を開発中である。を開発中だ。これは、CNNのスピードを維持しながら、トランスフォーマーに関連する高精度を実現することを目的としている。さらに Ultralytics プラットフォームは、様々な環境でこれらの高度なモデルをトレーニングし、展開するためのワークフローを合理化します。クラウドサーバーからエッジハードウェアまで、さまざまな環境にわたってこれらの高度なモデルをトレーニングし、展開するためのワークフローを合理化する。主なフレームワーク PyTorchや TensorFlowは引き続き ViTバリアントのサポートを拡大し続け、この分野のさらなる研究を推進している。

Vision Transformer (ViT)

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

Vision Transformerの仕組み

ViTとCNNアーキテクチャの比較

実際のアプリケーション

Ultralyticsトランスフォーマーの使用

このカテゴリの関連記事

人間が関与するループ内アノテーションが重要な理由を理解する

データセット蒸留とは何か？簡単な概要

オークリーメタAIグラスは、ビジョンAIでアイウェアの概念を再定義する

Ultralytics コミュニティに参加する

Vision Transformer (ViT)

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

Vision Transformerの仕組み

ViTとCNNアーキテクチャの比較

実際のアプリケーション

Ultralyticsトランスフォーマーの使用

このカテゴリの関連記事

人間が関与するループ内アノテーションが重要な理由を理解する

データセット蒸留とは何か？ 簡単な概要

オークリー メタAIグラスは、ビジョンAIでアイウェアの概念を再定義する

Ultralytics コミュニティに参加する

データセット蒸留とは何か？簡単な概要

オークリーメタAIグラスは、ビジョンAIでアイウェアの概念を再定義する