最新のコンピュータビジョンモデルであるYOLO12をご覧ください。そのアテンション中心のアーキテクチャとFlashAttentionテクノロジーが、業界全体のオブジェクト検出タスクをどのように強化するかを学びます。
最新のコンピュータビジョンモデルであるYOLO12をご覧ください。そのアテンション中心のアーキテクチャとFlashAttentionテクノロジーが、業界全体のオブジェクト検出タスクをどのように強化するかを学びます。
コンピュータ・ビジョンは人工知能(AI)の一分野であり、機械が画像や映像を理解するのを助ける。AIの研究者や開発者は常に限界に挑戦しているため、この分野は驚くべきスピードで進歩している。AIコミュニティは常に、モデルをより速く、より賢く、より効率的にすることを目指している。最新のブレークスルーのひとつが、2025年2月18日にリリースされたYOLO (You Only Look Once)モデルシリーズの最新作、YOLO12だ。
YOLO12は、バッファロー大学、ニューヨーク州立大学(SUNY)、および中国科学院大学の研究者によって開発されました。YOLO12は、新しい独自のアプローチで、注意メカニズムを導入し、モデルがすべてを平等に処理するのではなく、画像の最も重要な部分に焦点を当てることができるようにします。
また、FlashAttentionという、メモリの使用量を減らしながら処理を高速化する技術と、人間が自然に中心的なオブジェクトに焦点を当てる方法を模倣するように設計されたarea attentionメカニズムも備えています。
これらの改善により、YOLO12nはYOLOv10nよりも2.1%精度が高く、YOLO12mはYOLO11mよりも+1.0%精度が高くなっています。ただし、これにはトレードオフがあり、YOLO12nはYOLOv10nよりも9%遅く、YOLO12mはYOLO11mよりも3%遅くなっています。

この記事では、YOLO12は何が違うのか、以前のバージョンと比較してどうなのか、そしてどこに適用できるのかについて解説します。
YOLO モデルシリーズは、リアルタイムの物体検出のために設計されたコンピュータビジョンモデルのコレクションである。時間の経過とともに、各バージョンはスピード、精度、効率の点で向上しています。
例えば Ultralytics YOLOv52020年にリリースされたUltralytics YOLOv5は、カスタムトレーニングやデプロイが迅速かつ容易であったため、広く使用されるようになった。その後 Ultralytics YOLOv8は、インスタンスのセグメンテーションやオブジェクトの追跡といったコンピュータ・ビジョン・タスクの追加サポートを提供することで、これを改善した。
最近では Ultralytics YOLO11は、スピードと精度のバランスを保ちながら、リアルタイム処理を改善することに重点を置いた。例えば、YOLO11mは、YOLOv8m22%少ないパラメータを持ちながら、物体検出モデルの評価に広く使われているベンチマークであるCOCO データセットにおいて、より優れた検出性能を実現した。
これらの進歩に基づいて、YOLO12は視覚情報の処理方法に変化をもたらします。画像全体を均等に扱うのではなく、最も関連性の高い領域を優先することで、検出精度を向上させます。簡単に言えば、YOLO12は以前の改善点を基に、より正確になることを目指しています。
YOLO12は、リアルタイム処理速度を維持しながら、コンピュータビジョンタスクを強化するいくつかの改善を導入しています。YOLO12の主な機能の概要を以下に示します。
これらの機能が実際にどのように機能するかを理解するために、ショッピングモールを考えてみよう。YOLO12は、買い物客をtrack し、鉢植えや販促看板などの店舗装飾を識別し、置き忘れや放置された商品を発見するのに役立つ。
そのアテンション機構を中心としたアーキテクチャは、最も重要な詳細に焦点を当てるのに役立ち、FlashAttentionはシステムに過負荷をかけることなく、すべてを迅速に処理することを保証します。これにより、ショッピングモールの運営者は、セキュリティの向上、店舗レイアウトの整理、ショッピング体験全体の向上を容易に行うことができます。

ただし、YOLO12には考慮すべきいくつかの制限事項もあります。
YOLO12には複数のバリアントがあり、それぞれ異なるニーズに合わせて最適化されています。小型バージョン(nanoおよびsmall)は、速度と効率を優先しており、モバイルデバイスやエッジコンピューティングに最適です。ミディアムおよびラージバージョンは、速度と精度のバランスを取りますが、YOLO12x(extra large)は、産業オートメーション、医療イメージング、高度な監視システムなどの高精度アプリケーション向けに設計されています。
これらのバリエーションにより、YOLO12はモデル・サイズに応じて異なるレベルのパフォーマンスを提供する。ベンチマークテストによると、YOLO12の特定のバリエーションは、YOLOv10 YOLO11 精度で上回り、より高い平均平均精度mAP)を達成している。
しかし、YOLO12m、YOLO12l、YOLO12xのように、YOLO11画像処理が遅いモデルもあり、検出精度と速度のトレードオフが見られる。にもかかわらず、YOLO12は依然として効率的であり、他の多くのモデルよりも少ないパラメータしか必要としないが、それでもYOLO11多くのパラメータを使用する。このため、生のスピードよりも精度が重視される用途に最適です。

YOLO12は、Ultralytics Python パッケージによってサポートされており、使いやすく、初心者にも専門家にも利用しやすい。わずか数行のコードで、ユーザーは事前に訓練されたモデルをロードし、画像や動画に対して様々なコンピュータビジョンタスクを実行し、カスタムデータセットでYOLO12を訓練することができます。Ultralytics Python パッケージは、プロセスを合理化し、複雑なセットアップ手順を不要にします。
例えば、YOLO12を物体検出に使用するための手順は次のとおりです。
これらのステップにより、YOLO12は、監視や小売追跡から、医療画像処理や自動運転車まで、さまざまなアプリケーションで簡単に使用できます。
YOLO12は、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定、およびOriented Object Detection(OBB)のサポートのおかげで、さまざまな実際のアプリケーションで使用できます。

しかし、前述したように、YOLO12モデルは速度よりも精度を優先するため、以前のバージョンと比較して画像の処理にわずかに時間がかかります。このトレードオフにより、YOLO12は、以下のようなリアルタイム速度よりも精度が重要なアプリケーションに最適です。
YOLO12を実行する前に、システムが必要な要件を満たしていることを確認することが重要です。
技術的には、YOLO12はどんな専用GPU (Graphics Processing Unit)でも動作します。デフォルトでは、FlashAttentionを必要としないため、FlashAttentionなしでもほとんどのGPU システムで動作します。しかし、FlashAttentionを有効にすることは、大きなデータセットや高解像度の画像を扱う場合に特に有効で、処理速度の低下を防ぎ、メモリ使用量を減らし、処理効率を向上させるのに役立ちます。
FlashAttentionを使用するには、以下のシリーズのNVIDIA GPU 必要です:Turing(T4、Quadro RTX)、Ampere(RTX 30シリーズ、A30、A40、A100)、Ada Lovelace(RTX 40シリーズ)、またはHopper(H100、H200)。
ユーザビリティとアクセシビリティを考慮し、Ultralytics Python パッケージはまだFlashAttention推論をサポートしていません。YOLO12を使い始め、そのパフォーマンスを最適化するための詳細については、 Ultralytics 公式ドキュメントをご覧ください。
コンピュータビジョンの進歩に伴い、モデルはより正確かつ効率的になっています。YOLO12は、注意集中型処理とFlashAttentionにより、物体検出、インスタンスセグメンテーション、画像分類などのコンピュータビジョンタスクを改善し、メモリ使用量を最適化しながら精度を高めます。
同時に、コンピュータ・ビジョンはこれまで以上に身近なものとなりました。YOLO12は、Ultralytics Python パッケージを通じて簡単に使用でき、スピードよりも精度に重点を置いているため、医療用画像処理、工業用検査、ロボット工学など、精度が重要なアプリケーションに適しています。
AIにご興味がありますか?GitHubリポジトリにアクセスして、コミュニティにご参加ください。ソリューションページで、自動運転車におけるAIや農業におけるコンピュータビジョンなどの分野のイノベーションをご覧ください。ライセンスオプションをチェックして、Vision AIプロジェクトを実現しましょう。🚀