ヨロビジョン深圳
深セン
今すぐ参加

YOLO12解説:実際のアプリケーションとユースケース

Abirami Vina

5分で読めます

2025年2月26日

最新のコンピュータビジョンモデルであるYOLO12をご覧ください。そのアテンション中心のアーキテクチャとFlashAttentionテクノロジーが、業界全体のオブジェクト検出タスクをどのように強化するかを学びます。

コンピュータビジョンは、人工知能(AI)の一分野であり、機械が画像や動画を理解するのに役立ちます。AIの研究者や開発者が常に限界を押し広げているため、驚異的なペースで進歩している分野です。AIコミュニティは常に、モデルをより速く、よりスマートに、より効率的にすることを目指しています。最新のブレークスルーの1つは、2025年2月18日にリリースされたYOLO(You Only Look Once)モデルシリーズの最新版であるYOLO12です。

YOLO12は、バッファロー大学、ニューヨーク州立大学(SUNY)、および中国科学院大学の研究者によって開発されました。YOLO12は、新しい独自のアプローチで、注意メカニズムを導入し、モデルがすべてを平等に処理するのではなく、画像の最も重要な部分に焦点を当てることができるようにします。 

また、FlashAttentionという、メモリの使用量を減らしながら処理を高速化する技術と、人間が自然に中心的なオブジェクトに焦点を当てる方法を模倣するように設計されたarea attentionメカニズムも備えています。

これらの改善により、YOLO12nはYOLOv10nよりも2.1%精度が高く、YOLO12mはYOLO11mよりも+1.0%精度が高くなっています。ただし、これにはトレードオフがあり、YOLO12nはYOLOv10nよりも9%遅く、YOLO12mはYOLO11mよりも3%遅くなっています。

__wf_reserved_inherit
図1. YOLO12を使用してオブジェクトを検出している例。

この記事では、YOLO12は何が違うのか、以前のバージョンと比較してどうなのか、そしてどこに適用できるのかについて解説します。

YOLO12のリリースへの道

YOLOモデルシリーズは、リアルタイムの物体検出のために設計されたコンピュータビジョンモデルのコレクションであり、画像やビデオ内の物体を迅速に識別して位置を特定できます。時間の経過とともに、各バージョンは速度、精度、効率の点で改善されています。

例えば、2020年にリリースされたUltralytics YOLOv5は、高速でカスタムトレーニングとデプロイが容易であったため、広く使用されるようになりました。その後、Ultralytics YOLOv8は、インスタンスセグメンテーションや物体追跡のようなコンピュータビジョンタスクのサポートを追加することで、これを改善しました。 

ごく最近では、Ultralytics YOLO11は、速度と精度のバランスを維持しながら、リアルタイム処理の改善に重点を置いています。たとえば、YOLO11mはYOLOv8mよりもパラメータが22%少ないにもかかわらず、オブジェクト検出モデルを評価するための広く使用されているベンチマークであるCOCOデータセットで、より優れた検出パフォーマンスを提供しました。

これらの進歩に基づいて、YOLO12は視覚情報の処理方法に変化をもたらします。画像全体を均等に扱うのではなく、最も関連性の高い領域を優先することで、検出精度を向上させます。簡単に言えば、YOLO12は以前の改善点を基に、より正確になることを目指しています。

YOLO12の主な機能

YOLO12は、リアルタイム処理速度を維持しながら、コンピュータビジョンタスクを強化するいくつかの改善を導入しています。YOLO12の主な機能の概要を以下に示します。

  • 注意機構を中心としたアーキテクチャ:YOLO12は、画像全体を均等に扱うのではなく、最も重要な領域に焦点を当てます。これにより、精度が向上し、不要な処理が削減され、混雑した画像でも検出がよりシャープで効率的になります。
  • FlashAttention: YOLO12は、より少ないメモリを使用しながら画像分析を高速化します。FlashAttention(メモリ効率の高いアルゴリズム)により、データ処理が最適化され、ハードウェアへの負荷が軽減され、リアルタイムタスクがよりスムーズかつ信頼性の高いものになります。
  • Residual Efficient Layer Aggregation Networks(R-ELAN):YOLO12は、R-ELANを使用してレイヤーをより効率的に編成し、モデルがデータを処理および学習する方法を改善します。これにより、トレーニングがより安定し、オブジェクト認識がより鮮明になり、計算要件が低くなるため、さまざまな環境で効率的に実行できます。

これらの機能が実際にどのように機能するかを理解するために、ショッピングモールを考えてみましょう。YOLO12は、買い物客の追跡、鉢植えや販促サインなどの店舗装飾の識別、および置き忘れられたり、放置されたアイテムを見つけるのに役立ちます。 

そのアテンション機構を中心としたアーキテクチャは、最も重要な詳細に焦点を当てるのに役立ち、FlashAttentionはシステムに過負荷をかけることなく、すべてを迅速に処理することを保証します。これにより、ショッピングモールの運営者は、セキュリティの向上、店舗レイアウトの整理、ショッピング体験全体の向上を容易に行うことができます。

__wf_reserved_inherit
図2. YOLO12を使用してショッピングモール内のオブジェクトを検出。

ただし、YOLO12には考慮すべきいくつかの制限事項もあります。

  • 学習時間の長期化: YOLO12は、そのアーキテクチャにより、YOLO11と比較してより多くの学習時間を必要とします。
  • エクスポートの課題:一部のユーザーは、YOLO12モデルのエクスポート時、特に特定のデプロイメント環境に統合する際に問題に遭遇する可能性があります。

YOLO12のパフォーマンスベンチマークの理解

YOLO12には複数のバリアントがあり、それぞれ異なるニーズに合わせて最適化されています。小型バージョン(nanoおよびsmall)は、速度と効率を優先しており、モバイルデバイスやエッジコンピューティングに最適です。ミディアムおよびラージバージョンは、速度と精度のバランスを取りますが、YOLO12x(extra large)は、産業オートメーション、医療イメージング、高度な監視システムなどの高精度アプリケーション向けに設計されています。

これらのバリエーションにより、YOLO12はモデルサイズに応じて異なるレベルのパフォーマンスを提供します。ベンチマークテストでは、YOLO12の特定のバリアントが、より高い平均適合率(mAP)を達成し、YOLOv10およびYOLO11よりも優れた精度を示すことがわかっています。 

しかし、YOLO12m、YOLO12l、YOLO12xなどの一部のモデルは、YOLO11よりも画像の処理が遅く、検出精度と速度の間にトレードオフがあることを示しています。それにもかかわらず、YOLO12は効率的であり、他の多くのモデルよりも少ないパラメータしか必要としませんが、YOLO11よりも多くのパラメータを使用します。これにより、生の速度よりも精度が重要なアプリケーションに最適です。

__wf_reserved_inherit
Fig 3. Ultralytics YOLO11とYOLO12の比較。

Ultralytics Pythonパッケージを通じてYOLO12を使用する

YOLO12は、Ultralytics Pythonパッケージでサポートされており、使いやすく、初心者とプロの両方がアクセスできます。数行のコードだけで、ユーザーは事前トレーニング済みのモデルをロードし、画像やビデオでさまざまなコンピュータビジョンタスクを実行し、カスタムデータセットでYOLO12をトレーニングすることもできます。Ultralytics Pythonパッケージはプロセスを効率化し、複雑なセットアップ手順の必要性を排除します。

例えば、YOLO12を物体検出に使用するための手順は次のとおりです。

  • Ultralyticsパッケージのインストール: まず、Ultralytics Pythonパッケージをインストールします。これには、YOLO12を効率的に実行するために必要なツールが用意されています。これにより、すべての依存関係が正しく設定されます。
  • 事前学習済みのYOLO12モデルをロードする:タスクに必要な精度と速度に基づいて、適切なYOLO12バリアント(nano、small、medium、large、またはextra large)を選択します。
  • 画像またはビデオを提供する: 解析したい画像またはビデオファイルを入力します。YOLO12は、リアルタイム検出のためにライブビデオフィードを処理することもできます。
  • 検出プロセスの実行: モデルは視覚データをスキャンし、オブジェクトを識別し、それらの周囲にバウンディングボックスを配置します。検出された各オブジェクトに、予測されたクラスと信頼度スコアのラベルを付けます。
  • 検出設定の調整: 信頼度閾値などのパラメータを変更して、検出の精度とパフォーマンスを微調整することもできます。
  • 出力の保存または使用: 処理された画像またはビデオ(検出されたオブジェクトを含む)を保存するか、アプリケーションに統合して、さらなる分析、自動化、または意思決定に利用できます。

これらのステップにより、YOLO12は、監視や小売追跡から、医療画像処理や自動運転車まで、さまざまなアプリケーションで簡単に使用できます。

実践的なYOLOv8アプリケーション

YOLO12は、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、およびOriented Object Detection(OBB)のサポートのおかげで、さまざまな実際のアプリケーションで使用できます。 

__wf_reserved_inherit
図4. YOLO12は、物体検出やインスタンスセグメンテーションなどのタスクをサポートします。

しかし、前述したように、YOLO12モデルは速度よりも精度を優先するため、以前のバージョンと比較して画像の処理にわずかに時間がかかります。このトレードオフにより、YOLO12は、以下のようなリアルタイム速度よりも精度が重要なアプリケーションに最適です。

  • 医用画像処理:YOLO12は、X線やMRIの腫瘍や異常を高精度で検出できるようにカスタムトレーニングされており、診断のために正確な画像解析を必要とする医師や放射線技師にとって有用なツールとなります。
  • 製造業における品質管理: 製品の欠陥を製造プロセス中に特定し、高品質のアイテムのみが市場に出回るようにすると同時に、無駄を削減し、効率を向上させるのに役立ちます。
  • フォレンジック分析: 法執行機関は、YOLO12をファインチューニングして、監視映像を分析し、証拠を収集できます。犯罪捜査では、重要な詳細を特定するために精度が不可欠です。
  • Precision agriculture(精密農業): 農家はYOLO12を使用して、作物の健康状態を分析し、病気や害虫の発生を検出し、土壌の状態を監視できます。正確な評価は、農業戦略の最適化に役立ち、収量とリソース管理の向上につながります。

YOLO12を使ってみる

YOLO12を実行する前に、システムが必要な要件を満たしていることを確認することが重要です。

技術的には、YOLO12は専用のGPU(Graphics Processing Unit)であれば、どれでも実行できます。デフォルトではFlashAttentionを必要としないため、ほとんどのGPUシステムで動作可能です。ただし、FlashAttentionを有効にすると、大規模なデータセットや高解像度の画像を扱う際に、処理速度の低下を防ぎ、メモリ使用量を削減し、処理効率を向上させる上で特に有効です。 

FlashAttentionを使用するには、Turing(T4、Quadro RTX)、Ampere(RTX 30シリーズ、A30、A40、A100)、Ada Lovelace(RTX 40シリーズ)、またはHopper(H100、H200)シリーズのNVIDIA GPUが必要です。

ユーザビリティとアクセシビリティを考慮して、Ultralytics Pythonパッケージは、FlashAttentionのインストールが技術的に非常に複雑であるため、まだFlashAttention推論をサポートしていません。YOLOv8を使い始め、そのパフォーマンスを最適化する方法の詳細については、Ultralyticsの公式ドキュメントをご覧ください。

主なポイント

コンピュータビジョンの進歩に伴い、モデルはより正確かつ効率的になっています。YOLO12は、注意集中型処理とFlashAttentionにより、物体検出、インスタンスセグメンテーション、画像分類などのコンピュータビジョンタスクを改善し、メモリ使用量を最適化しながら精度を高めます。

同時に、コンピュータビジョンはこれまで以上にアクセスしやすくなっています。Ultralytics Pythonパッケージを通じてYOLO12を簡単に使用でき、速度よりも精度を重視しているため、医療画像処理、産業検査、ロボット工学など、精度が重要なアプリケーションに適しています。

AIにご興味がありますか?GitHubリポジトリにアクセスして、コミュニティにご参加ください。ソリューションページで、自動運転車におけるAI農業におけるコンピュータビジョンなどの分野のイノベーションをご覧ください。ライセンスオプションをチェックして、Vision AIプロジェクトを実現しましょう。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました