YOLO12解説:実世界での応用とユースケース
最新のコンピュータビジョンモデル、YOLO12を発見してください!そのアテンション中心のアーキテクチャとFlashAttention技術が、業界全体でオブジェクト検出タスクをどのように強化するかを学びましょう。

コンピュータビジョンは、機械が画像や動画を理解することを支援する人工知能(AI)の一分野です。AI研究者や開発者が常に限界に挑んでいるため、非常に速いペースで進化している分野でもあります。AIコミュニティは常に、モデルの高速化、スマート化、効率化を目指しています。最新のブレイクスルーの一つが、2025年2月18日にリリースされたYOLO(You Only Look Once)モデルシリーズの最新モデル、YOLO12です。
YOLO12は、ニューヨーク州立大学バッファロー校(SUNY)と中国科学院大学の研究者らによって開発されました。YOLO12は、ユニークで新しいアプローチとしてアテンションメカニズムを導入しており、画像全体を均等に処理するのではなく、最も重要な部分に焦点を合わせることを可能にしています。
また、処理を高速化しつつメモリ使用量を抑える技術であるFlashAttentionと、人間が自然に中心の物体に焦点を合わせる方法を模したエリアアテンションメカニズムを特徴としています。
これらの改善により、YOLO12nはYOLOv10nより2.1%精度が向上し、YOLO12mはYOLO11mより1.0%精度が向上しました。ただし、トレードオフとしてYOLO12nはYOLOv10nより9%低速、YOLO12mはYOLO11mより3%低速となっています。

図1. YOLO12を使用して物体を検出する例。
本記事では、YOLO12の独自性、従来のバージョンとの比較、およびその適用分野について探ります。
Link to this sectionYOLO12リリースの軌跡#
YOLOモデルシリーズは、リアルタイム物体検出を目的として設計されたコンピュータビジョンモデル群であり、画像や動画内の物体を素早く識別・特定できます。各バージョンは、時間の経過とともに速度、精度、効率の面で改善されてきました。
例えば、2020年にリリースされたUltralytics YOLOv5は、高速でカスタムトレーニングやデプロイが容易であったため広く利用されました。その後、Ultralytics YOLOv8は、インスタンスセグメンテーションや物体追跡といったコンピュータビジョンタスクへのサポートを追加することで、これをさらに強化しました。
より最近では、Ultralytics YOLO11が、速度と精度のバランスを維持しつつリアルタイム処理の向上に焦点を当てました。例えば、YOLO11mはYOLOv8mと比較してパラメータ数が22%削減されながらも、物体検出モデルの評価によく用いられるベンチマークデータセットであるCOCOにおいて、より優れた検出性能を発揮しました。
こうした進歩の上に構築されたYOLO12は、視覚情報を処理する方法を転換しています。画像全体を等しく扱うのではなく、最も関連性の高い領域を優先することで検出精度を向上させました。簡単に言えば、YOLO12はこれまでの改良を基盤としつつ、より高精度であることを目指しています。
Link to this sectionYOLO12の主な特徴#
YOLO12は、リアルタイム処理速度を維持しながらコンピュータビジョンタスクを強化するいくつかの改善を導入しています。以下にYOLO12の主な特徴を概説します。
- アテンション中心のアーキテクチャ: YOLO12は画像全体を均等に処理するのではなく、最も重要な領域に集中します。これにより精度が向上し、不要な処理が削減されるため、複雑な画像であってもより鮮明で効率的な検出が可能になります。
- FlashAttention: YOLO12はメモリ消費を抑えながら画像解析を高速化します。FlashAttention(メモリ効率の高いアルゴリズム)によりデータ処理が最適化され、ハードウェアへの負荷を軽減し、リアルタイム処理をよりスムーズかつ確実にします。
- R-ELAN (Residual Efficient Layer Aggregation Networks): YOLO12はR-ELANを用いてレイヤーをより効率的に整理しており、モデルのデータ処理と学習能力が向上しています。これにより学習の安定性が高まり、物体認識が鮮明化し、計算要件が低減されるため、多様な環境下で効率的に動作します。
これらの機能が実生活でどのように機能するかを理解するために、ショッピングモールを例に挙げます。YOLO12は、来店者の追跡、鉢植えや販促物などの店舗装飾品の識別、置き忘れや放棄された物品の発見を支援できます。
そのアテンション中心のアーキテクチャが最も重要な詳細への集中を助け、FlashAttentionがシステムに負荷をかけることなく迅速な処理を保証します。これにより、モールの運営者はセキュリティの強化、店舗レイアウトの改善、そして全体的なショッピング体験の向上を容易に行えるようになります。

図2. YOLO12を使用してショッピングモールで物体を検出する様子。
ただし、YOLO12には考慮すべき制限もいくつかあります。
- 学習時間の増加: アーキテクチャの特性上、YOLO12はYOLO11と比較してより多くの学習時間を必要とします。
- エクスポートの課題: 一部のユーザーは、YOLO12モデルをエクスポートする際、特に特定のデプロイ環境に統合する際に困難を経験する場合があります。
Link to this sectionYOLO12の性能ベンチマークの理解#
YOLO12には複数のバリアントがあり、それぞれが異なるニーズに合わせて最適化されています。小型バージョン(nanoおよびsmall)は速度と効率を優先しており、モバイルデバイスやエッジコンピューティングに最適です。中型および大型バージョンは速度と精度のバランスを取っており、YOLO12x(特大)は産業用自動化、医療画像診断、高度な監視システムなど、高精度が求められるアプリケーション向けに設計されています。
こうしたバリエーションにより、YOLO12はモデルサイズに応じて異なるレベルの性能を発揮します。ベンチマークテストでは、YOLO12の特定のバリアントが精度においてYOLOv10やYOLO11を上回り、より高いmAP(mean Average Precision)を達成していることが示されています。
一方で、YOLO12m、YOLO12l、YOLO12xといった一部のモデルはYOLO11よりも画像の処理速度が遅く、検出精度と速度の間のトレードオフを示しています。それにもかかわらず、YOLO12は他の多くのモデルよりも少ないパラメータ数で動作するため依然として効率的ですが、YOLO11よりは多く使用します。そのため、純粋な速度よりも精度が重視されるアプリケーションにおいて優れた選択肢となります。

図3. Ultralytics YOLO11とYOLO12の比較。
Link to this sectionUltralytics Pythonパッケージを使用したYOLO12の利用#
YOLO12はUltralytics Pythonパッケージによってサポートされており、使いやすく、初心者からプロフェッショナルまでアクセス可能です。わずか数行のコードで、事前学習済みモデルの読み込み、画像や動画に対するさまざまなコンピュータビジョンタスクの実行、さらにカスタムデータセットでのYOLO12のトレーニングを行うことができます。Ultralytics Pythonパッケージはプロセスを効率化し、複雑なセットアップ手順を不要にします。
例えば、YOLO12を物体検出に使用する際の手順は以下の通りです。
- Ultralyticsパッケージのインストール: まず、YOLO12を効率的に実行するために必要なツールを提供するUltralytics Pythonパッケージをインストールします。これにより、すべての依存関係が正しく設定されます。
- 事前学習済みYOLO12モデルの読み込み: タスクに必要な精度と速度のレベルに基づいて、適切なYOLO12バリアント(nano、small、medium、large、またはextra large)を選択します。
- 画像または動画の提供: 解析したい画像または動画ファイルを入力します。YOLO12はリアルタイム検出のためにライブビデオフィードを処理することも可能です。
- 検出プロセスの実行: モデルが視覚データをスキャンし、物体を特定してその周囲にバウンディングボックスを配置します。検出された各物体には、予測されたクラスと信頼度スコアがラベル付けされます。
- 検出設定の調整: 信頼度閾値などのパラメータを変更して、検出の精度とパフォーマンスを微調整することも可能です。
- 出力の保存または利用: 検出された物体を含む処理済みの画像や動画は、保存したり、さらなる分析、自動化、または意思決定のためにアプリケーションに統合したりすることができます。
これらのステップにより、YOLO12は監視や小売店の追跡から医療画像診断、自動運転車まで、さまざまな用途で簡単に利用できます。
Link to this sectionYOLO12の実際の応用#
YOLO12は、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、および方向付き物体検出(OBB)のサポートにより、多様な実世界のアプリケーションで使用できます。

図4. YOLO12は物体検出やインスタンスセグメンテーションなどのタスクをサポートしています。
しかし、先ほど議論したように、YOLO12モデルは速度よりも精度を優先するため、初期のバージョンと比較して画像の処理にわずかに長い時間がかかります。このトレードオフにより、YOLO12はリアルタイムの速度よりも精度が重要な以下のアプリケーションに最適です。
- 医療画像診断: YOLO12は、X線やMRIにおける腫瘍や異常を高精度で検出するようにカスタムトレーニングが可能であり、診断のために精密な画像解析を必要とする医師や放射線科医にとって有用なツールとなります。
- 製造業における品質管理: 製造プロセス中に製品の欠陥を識別するのに役立ち、高品質な製品のみを市場に出荷し、廃棄物を削減し効率を向上させます。
- 法医学的分析: 法執行機関は、 surveillance映像を解析して証拠を収集するためにYOLO12を微調整できます。犯罪捜査においては、重要な詳細を特定するために精度が極めて重要です。
- 精密農業: 農家はYOLO12を使用して作物の健康状態を分析し、病気や害虫の発生を検出し、土壌の状態を監視できます。正確な評価は農法を最適化し、収穫量の向上と資源管理の改善につながります。
Link to this sectionYOLO12を始めるために#
YOLO12を実行する前に、システムが必要条件を満たしていることを確認することが重要です。
技術的には、YOLO12は専用のGPU(グラフィックス処理ユニット)上で動作します。デフォルトではFlashAttentionを必要としないため、ほとんどのGPUシステムでそれなしでも動作可能です。ただし、大規模なデータセットや高解像度の画像を取り扱う場合、FlashAttentionを有効にすることは、速度低下の防止、メモリ使用量の削減、処理効率の向上に特に役立ちます。
FlashAttentionを使用するには、Turing(T4、Quadro RTX)、Ampere(RTX 30シリーズ、A30、A40、A100)、Ada Lovelace(RTX 40シリーズ)、またはHopper(H100、H200)といったシリーズのNVIDIA GPUが必要です。
使いやすさとアクセシビリティを考慮し、Ultralytics Pythonパッケージは現時点ではFlashAttention推論をサポートしていません。インストールが技術的に非常に複雑になる可能性があるためです。YOLO12の使用開始やパフォーマンス最適化の詳細については、公式Ultralyticsドキュメントをご確認ください。
Link to this section重要なポイント#
コンピュータビジョンの進歩に伴い、モデルはより正確かつ効率的になっています。YOLO12は、アテンション中心の処理とFlashAttentionを用いることで物体検出、インスタンスセグメンテーション、画像分類といったコンピュータビジョンタスクを改善し、メモリ使用を最適化しながら精度を向上させています。
同時に、コンピュータビジョンはこれまで以上に利用しやすくなっています。YOLO12はUltralytics Pythonパッケージを通じて簡単に使用でき、速度よりも精度を重視しているため、医療画像診断、産業検査、ロボティクスなど、精度が鍵となるアプリケーションに最適です。
AIについて興味がありますか?ぜひ私たちのGitHubリポジトリを訪れ、コミュニティにご参加ください。自動運転車におけるAIや農業におけるコンピュータビジョンといった分野のイノベーションを、ソリューションページで探究してください。ライセンスオプションを確認して、あなたのビジョンAIプロジェクトを実現させましょう。🚀






