YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

Ultralytics YOLO11と以前のYOLOモデルの比較

Abirami Vina

4分で読めます

2025年4月2日

Ultralytics YOLOv8、YOLOv9、YOLOv10、およびUltralytics YOLO11を比較して、これらのモデルが2023年から2025年にかけてどのように進化し、改善されたかを理解してください。

日常業務の自動化からリアルタイムでの情報に基づいた意思決定の支援まで、人工知能(AI)はさまざまな産業の未来を再構築しています。AIの中でも特に魅力的な分野の一つが、コンピュータビジョン、別名Vision AIです。これは、機械が人間のように視覚データを分析し、解釈できるようにすることに焦点を当てています。 

特に、コンピュータビジョンモデルは、安全性と効率性の両方を向上させる革新を推進しています。例えば、これらのモデルは、自動運転車で歩行者を検出したり、防犯カメラで24時間体制で施設を監視したりするために使用されています。 

最もよく知られているコンピュータビジョンモデルのいくつかは、リアルタイムの物体検出機能で知られるYOLO(You Only Look Once)モデルです。時間の経過とともに、YOLOモデルは改善され、新しいバージョンが登場するたびに、より優れたパフォーマンスと柔軟性を提供しています。

Ultralytics YOLO11のような新しいバージョンでは、インスタンスセグメンテーション、画像分類、姿勢推定、マルチオブジェクトトラッキングなど、さまざまなタスクを、これまで以上の精度、速度、正確さで処理できます。

この記事では、Ultralytics YOLOv8、YOLOv9、YOLOv10、そしてUltralytics YOLO11を比較し、これらのモデルがどのように進化してきたかをより深く理解します。主要な機能、ベンチマーク結果、パフォーマンスの違いを分析します。それでは、始めましょう。

Ultralytics YOLOv8の概要

2023年1月10日にUltralyticsによってリリースされたYOLOv8は、以前のYOLOモデルと比較して大きな進歩を遂げました。リアルタイムで正確な検出に最適化されており、実績のあるアプローチと革新的なアップデートを組み合わせて、より良い結果を実現します。

物体検出にとどまらず、インスタンスセグメンテーション、ポーズ推定、傾斜バウンディングボックス(OBB)物体検出、画像分類といったコンピュータビジョンタスクもサポートしています。YOLOv8のもう一つの重要な特徴は、Nano、Small、Medium、Large、Xという5つの異なるモデルバリアントが用意されていることです。そのため、ニーズに応じて速度と精度の適切なバランスを選択できます。

汎用性と強力なパフォーマンスにより、YOLOv8は、セキュリティシステム、スマートシティ、ヘルスケア、産業オートメーションなど、多くの現実世界のアプリケーションで使用できます。

__wf_reserved_inherit
Fig 1. YOLOv8によるスマートシティにおける駐車場管理。

YOLOv8の主な機能

以下に、YOLOv8のその他の主要機能について詳しく見ていきます。

  • 強化された検出アーキテクチャ: YOLOv8は、改良されたCSPDarknetバックボーンを使用しています。このバックボーンは、特徴抽出(モデルが正確な予測を行うのに役立つ入力画像から重要なパターンまたは詳細を識別およびキャプチャするプロセス)用に最適化されています。

  • 検出ヘッド: アンカーフリーのデカップリングされた設計を使用しています。これは、プリセットされたバウンディングボックスの形状(アンカー)に依存せず、代わりにオブジェクトの位置を直接予測することを意味します。デカップリングされた設定により、オブジェクトが何かを分類するタスクと、オブジェクトがどこにあるかを予測するタスク(回帰)が別々に処理されるため、精度が向上し、トレーニングが高速化されます。

  • 精度と速度のバランス:このモデルは、高速な推論時間を維持しながら、優れた精度を実現し、クラウド環境とエッジ環境の両方に適しています。

  • ユーザーフレンドリー: YOLOv8は簡単に始められるように設計されています。Ultralytics Pythonパッケージを使用すると、わずか数分で予測を開始し、結果を確認できます。

YOLOv9は計算効率に重点を置いています。

YOLOv9は、2024年2月21日に台湾のAcademia Sinica、Institute of Information ScienceのChien-Yao WangとHong-Yuan Mark Liaoによってリリースされました。物体検出やインスタンスセグメンテーションなどのタスクをサポートしています。 

このモデルは、Ultralytics YOLOv5をベースにしており、Programmable Gradient Information(PGI)とGeneralized Efficient Layer Aggregation Network(GELAN)という2つの主要なイノベーションを導入しています。 

PGIは、YOLOv9がレイヤーを介してデータを処理する際に重要な情報を保持するのに役立ち、より正確な結果につながります。一方、GELANは、モデルがレイヤーを使用する方法を改善し、パフォーマンスと計算効率を高めます。これらのアップグレードのおかげで、YOLOv9は、コンピューティングリソースが限られているエッジデバイスやモバイルアプリでのリアルタイムタスクを処理できます。

__wf_reserved_inherit
Fig 2. GELANがYOLOv9の精度をどのように向上させるかの理解。

YOLOv9の主な機能

以下に、YOLOv8のその他の主要機能の概要を示します。

  • 高精度と効率性: YOLOv9は、多くの計算能力を消費せずに高い検出精度を実現するため、リソースが限られている場合に最適です。
  • 軽量モデル: YOLOv9 の軽量モデルバリアントは、エッジおよびモバイル展開向けに最適化されています。 
  • 使いやすさ:YOLOv9はUltralytics Pythonパッケージでサポートされているため、コードを使用している場合でも、コマンドラインを使用している場合でも、さまざまな環境で簡単にセットアップして実行できます。

YOLOv10はNMSフリーの物体検出を可能にします

YOLOv10は、清華大学の研究者によって2024年5月23日に発表され、リアルタイムの物体検出に焦点を当てています。重複した検出を排除するために使用される後処理ステップであるNon-Maximum Suppression(NMS)の必要性をなくし、全体的なモデル設計を改良することにより、以前のYOLOバージョンの制限に対処します。これにより、最先端の精度を達成しながら、より高速で効率的な物体検出が実現します。

これを可能にする重要な要素は、一貫性のあるデュアルラベル割り当てと呼ばれるトレーニングアプローチです。これは、同じオブジェクトから複数の予測が学習できる戦略(1対多)と、最適な単一の予測を選択することに焦点を当てた戦略(1対1)を組み合わせたものです。両方の戦略が同じマッチングルールに従うため、モデルは重複を自動的に回避することを学習するため、NMSは必要ありません。

__wf_reserved_inherit
Fig 3. YOLOv10は、NMSフリーのトレーニングに一貫したデュアルラベル割り当てを使用します。

YOLOv10のアーキテクチャは、改善されたCSPNetバックボーンを使用して特徴をより効果的に学習し、さまざまなレイヤーからの情報を組み合わせるPAN(Path Aggregation Network)ネックを使用しているため、小規模および大規模なオブジェクトの両方をより適切に検出できます。これらの改善により、製造、小売、自動運転における実際のアプリケーションにYOLOv10を使用することが可能になります。

YOLOv10の主な機能

以下に、YOLOv10のその他の優れた機能を紹介します。

  • 大規模カーネル畳み込み: このモデルは、大規模カーネル畳み込みを使用して、画像のはるかに広い領域からより多くのコンテキストをキャプチャし、シーン全体をより良く理解できるようにします。
  • 部分的な自己注意モジュール: モデルは、計算能力を過度に使用することなく、画像の最も重要な部分に焦点を当てるために、部分的な自己注意モジュールを組み込み、効率的にパフォーマンスを向上させます。
  • ユニークなモデルバリアント:通常のYOLOv10のサイズ(Nano、Small、Medium、Large、X)に加えて、YOLOv10b(Balanced)と呼ばれる特別なバージョンもあります。これは、より幅の広いモデルであり、各レイヤーでより多くの機能を処理するため、速度とサイズとのバランスを取りながら、精度を向上させるのに役立ちます。
  • ユーザーフレンドリー: YOLOv10はUltralytics Pythonパッケージと互換性があり、使いやすくなっています。

Ultralytics YOLO11:速度と精度が向上

今年の9月30日、Ultralyticsは年次ハイブリッドイベントであるYOLO Vision 2024(YV24)で、YOLOシリーズの最新モデルの1つであるYOLO11を正式に発表しました。

このリリースでは、以前のバージョンから大幅な改善が加えられました。YOLO11は、より高速で、より正確で、非常に効率的です。オブジェクト検出、インスタンスセグメンテーション、画像分類など、YOLOv8ユーザーが使い慣れているコンピュータビジョンタスクの全範囲をサポートしています。また、YOLOv8ワークフローとの互換性も維持しているため、ユーザーは新しいバージョンにスムーズに移行できます。

さらに、YOLO11は、軽量のエッジデバイスから強力なクラウドシステムまで、幅広いコンピューティングニーズを満たすように設計されています。このモデルは、オープンソース版とエンタープライズ版の両方で利用可能であり、さまざまなユースケースに適応できます。

医療画像処理や衛星検出のような高精度タスク、および自動運転車、農業、ヘルスケアにおけるより広範なアプリケーションに最適なオプションです。

__wf_reserved_inherit
図4. Ultralytics YOLO11を使用して、交通の検出、カウント、追跡。

YOLO11の主な機能

以下に、YOLO11のその他のユニークな機能を紹介します。

  • 高速かつ効率的な検出: YOLO11は、最小限の遅延のために設計された検出ヘッドを備えており、パフォーマンスを損なうことなく、最終予測レイヤーでの速度に焦点を当てています。
  • 特徴抽出の改善: 最適化されたバックボーンとネックのアーキテクチャにより、特徴抽出が強化され、より正確な予測につながります。
  • プラットフォームを跨いだシームレスなデプロイ: YOLO11は、エッジデバイス、クラウドプラットフォーム、NVIDIA GPUで効率的に実行できるように最適化されており、さまざまな環境への適応を保証します。

COCOデータセットにおけるYOLOモデルのベンチマーク

異なるモデルを検討する場合、その機能を見ただけでは比較するのは必ずしも簡単ではありません。そこでベンチマークの出番です。すべてのモデルを同じデータセットで実行することで、客観的にパフォーマンスを測定し、比較することができます。COCOデータセットで各モデルがどのように動作するかを見てみましょう。

YOLOモデルを比較すると、新しいバージョンごとに精度、速度、柔軟性において著しい改善が見られます。特に、YOLO11mはYOLOv8mよりも22%少ないパラメータを使用しているため、軽量で高速に動作します。また、サイズが小さいにもかかわらず、COCOデータセットでより高い平均適合率(mAP)を達成しています。この指標は、モデルがオブジェクトをどれだけ正確に検出し、位置を特定できるかを測定するため、mAPが高いほど予測が正確であることを意味します。 

__wf_reserved_inherit
Fig 5. COCOデータセットにおけるYOLO11と他のYOLOモデルのベンチマーク。

動画でのYOLOモデルのテストと比較

これらのモデルが実際の状況でどのように機能するかを探ってみましょう。

YOLOv8、YOLOv9、YOLOv10、およびYOLO11を比較するために、4つすべてを同じトラフィックビデオで、信頼度スコア0.3(モデルは、オブジェクトを正しく識別したと少なくとも30%確信している場合にのみ検出を表示します)および公正な評価のために640の画像サイズを使用して実行しました。オブジェクトの検出と追跡の結果は、検出精度、速度、および精度の重要な違いを浮き彫りにしました。 

最初のフレームから、YOLO11 は YOLOv10 が見逃したトラックのような大型車両を検出しました。YOLOv8 と YOLOv9 はまずまずの性能を示しましたが、照明条件やオブジェクトのサイズによって異なりました。小型で遠くの車両はすべてのモデルで課題が残りましたが、YOLO11 はそれらの検出でも目覚ましい改善を示しました。

__wf_reserved_inherit
Fig 6. YOLOv8、YOLOv9、YOLOv10、およびYOLO11の比較。

速度の点では、すべてのモデルがフレームあたり10〜20ミリ秒で動作し、50 FPSを超えるリアルタイムタスクを処理するのに十分な速さでした。一方、YOLOv8とYOLOv9は、ビデオ全体を通して安定した信頼性の高い検出を提供しました。興味深いことに、低レイテンシ用に設計されたYOLOv10は高速でしたが、特定のオブジェクトタイプの検出にいくつかの矛盾が見られました。 

一方、YOLO11は精度が際立っており、速度と精度の強力なバランスを提供しました。どのモデルもすべてのフレームで完全に機能したわけではありませんが、左右の比較により、YOLO11が全体的に最高のパフォーマンスを提供することが明確に示されました。 

コンピュータービジョンタスクに最適なYOLOモデルは何ですか?

プロジェクトに適したモデルの選択は、その特定の要件によって異なります。例えば、アプリケーションによっては、速度を優先するものもあれば、より高い精度を必要とするもの、または意思決定に影響を与えるデプロイメントの制約に直面するものもあります。 

もう一つの重要な要素は、対処する必要のあるコンピュータビジョンタスクの種類です。さまざまなタスクにわたってより幅広い柔軟性を求めている場合は、YOLOv8とYOLO11が良い選択肢です。

YOLOv8とYOLO11のどちらを選択するかは、ニーズによって大きく異なります。コンピュータビジョンを始めたばかりで、より大規模なコミュニティ、より多くのチュートリアル、および広範なサードパーティ統合を重視する場合は、YOLOv8が確実な選択肢です。 

一方、より優れた精度と速度で最先端のパフォーマンスを求めるのであれば、YOLO11の方が適しています。ただし、YOLO11は新しいリリースであるため、コミュニティが小さく、統合も少ないという欠点があります。

主なポイント

Ultralytics YOLOv8 から Ultralytics YOLO11 まで、YOLO モデルシリーズの進化は、よりインテリジェントなコンピュータビジョンモデルに向けた一貫した推進力を反映しています。YOLO の各バージョンは、速度、精度、および精度の点で意味のあるアップグレードをもたらします。 

コンピュータビジョンが進化し続けるにつれて、これらのモデルは、物体検出から自律システムまで、現実世界の課題に対する信頼性の高いソリューションを提供します。YOLOモデルの継続的な開発は、この分野がどれだけ進歩してきたか、そして将来どれだけのことが期待できるかを示しています。

AIの詳細については、GitHubリポジトリをご覧になり、コミュニティにご参加ください。製造業におけるVision AIからヘルスケアにおけるコンピュータビジョンまで、業界全体の進歩をご覧ください。ライセンスオプションを確認して、今すぐVision AIプロジェクトを開始してください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました