Ultralytics YOLO11とこれまでのYOLOモデルの比較
Ultralytics YOLOv8、YOLOv9、YOLOv10、およびUltralytics YOLO11を比較し、これらのモデルが2023年から2025年にかけてどのように進化し、改善されてきたかを理解します。

日常業務の自動化からリアルタイムでの情報に基づいた意思決定の支援まで、人工知能(AI)はさまざまな業界の未来を形作りつつあります。AIの中でも特に注目されている分野がコンピュータビジョンであり、これはビジョンAIとも呼ばれます。この分野は、機械が人間と同じように視覚データを分析し、解釈できるようにすることに焦点を当てています。
具体的には、コンピュータビジョンモデルが安全性と効率性の両方を向上させるイノベーションを推進しています。例えば、これらのモデルは自動運転車で歩行者を検知したり、防犯カメラで24時間体制で施設を監視したりするために使用されています。
最もよく知られているコンピュータビジョンモデルの一つが、リアルタイムの物体検知能力で知られるYOLO(You Only Look Once)モデルです。時間の経過とともにYOLOモデルは進化を続け、新しいバージョンが登場するたびに性能と柔軟性が向上しています。
Ultralytics YOLO11のような新しいバージョンでは、インスタンスセグメンテーション、画像分類、姿勢推定、マルチオブジェクトトラッキングなど、多様なタスクをこれまで以上に高い精度、速度、緻密さで処理できます。
本記事では、Ultralytics YOLOv8、YOLOv9、YOLOv10、そしてUltralytics YOLO11を比較し、これらのモデルがどのように進化してきたのかを詳しく見ていきます。主要な機能、ベンチマーク結果、性能の違いを分析します。それでは始めましょう!
Link to this sectionUltralytics YOLOv8の概要#
Ultralyticsが2023年1月10日にリリースしたYOLOv8は、それ以前のYOLOモデルと比較して大きな前進を遂げました。リアルタイムかつ高精度な検知のために最適化されており、実績のある手法と革新的なアップデートを組み合わせて、より優れた結果を実現しています。
物体検知にとどまらず、インスタンスセグメンテーション、姿勢推定、指向性バウンディングボックス(OBB)を用いた物体検知、画像分類といったコンピュータビジョンタスクもサポートしています。YOLOv8のもう一つの重要な特徴は、Nano、Small、Medium、Large、Xという5つの異なるモデルバリエーションが用意されていることで、ニーズに合わせて速度と精度のバランスを適切に選択できる点です。
その汎用性と強力なパフォーマンスにより、YOLOv8はセキュリティシステム、スマートシティ、ヘルスケア、産業オートメーションなど、多くの実用的なアプリケーションで使用されています。

図1。YOLOv8によるスマートシティでの駐車場管理。
Link to this sectionYOLOv8の主な特徴#
YOLOv8のその他の重要な特徴を詳しく見ていきましょう。
- 強化された検知アーキテクチャ: YOLOv8は改良されたCSPDarknetバックボーンを使用しています。このバックボーンは特徴抽出に最適化されており、入力画像からモデルが正確な予測を行うために必要な重要なパターンや詳細を特定し、捉えるプロセスを担っています。
- 検知ヘッド: アンカーフリーのデカップリング設計を採用しています。これは、あらかじめ設定されたバウンディングボックスの形状(アンカー)に依存せず、直接物体位置を予測する手法です。デカップリング設定により、物体が何であるかの分類と、それがどこにあるかの予測(回帰)というタスクを個別に処理できるため、精度の向上とトレーニングの高速化が実現しています。
- 精度と速度のバランス: このモデルは高い推論速度を維持しながらも印象的な精度を達成しており、クラウド環境とエッジ環境の両方に適しています。
- ユーザーフレンドリー: YOLOv8は簡単に使い始められるよう設計されています。Ultralytics Pythonパッケージを使用すれば、わずか数分で予測を開始し、結果を確認することができます。
Link to this section計算効率に重点を置いたYOLOv9#
YOLOv9は、台湾の中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって2024年2月21日にリリースされました。物体検知やインスタンスセグメンテーションなどのタスクをサポートしています。
このモデルはUltralytics YOLOv5をベースにしており、プログラマブル勾配情報(PGI)とGeneralized Efficient Layer Aggregation Network(GELAN)という2つの主要な革新技術を導入しています。
PGIは、データを層ごとに処理する際に重要な情報を維持するのに役立ち、より正確な結果をもたらします。一方、GELANはモデルが層を使用する方法を改善し、性能と計算効率を向上させます。これらのアップグレードのおかげで、YOLOv9はコンピューティングリソースが限られているエッジデバイスやモバイルアプリでもリアルタイムタスクを処理できます。

図2。GELANがYOLOv9の精度をどのように向上させるかについての理解。
Link to this sectionYOLOv9の主な特徴#
YOLOv9のその他の主な特徴を少し紹介します。
- 効率性と高い精度: YOLOv9は多くの計算リソースを消費することなく高い検知精度を実現しており、リソースが限られている場合に最適な選択肢です。
- 軽量モデル: YOLOv9の軽量なモデルバリエーションは、エッジおよびモバイルデバイスへの展開に最適化されています。
- 使いやすさ: YOLOv9はUltralytics Pythonパッケージでサポートされているため、コードでもコマンドラインでも、さまざまな環境で簡単にセットアップして実行できます。
Link to this sectionNMSフリーの物体検知を可能にするYOLOv10#
YOLOv10は、清華大学の研究者らによって2024年5月23日に導入され、リアルタイム物体検知に焦点を当てています。重複する検知を取り除くための後処理ステップである非最大値抑制(NMS)を不要にし、モデル全体の設計を洗練させることで、従来のYOLOバージョンの限界に対処しました。これにより、最先端の精度を維持しながら、より高速で効率的な物体検知が可能になりました。
これを可能にする重要な要素は、一貫した二重ラベル割り当て(consistent dual-label assignments)と呼ばれるトレーニング手法です。これは2つの戦略を組み合わせたもので、複数の予測が同じ物体から学習できるようにする戦略(one-to-many)と、最良の単一予測を選択することに集中する戦略(one-to-one)を統合しています。両方の戦略が同じマッチング規則に従うため、モデルは重複を自己回避するように学習し、NMSが不要になります。

図3。YOLOv10は一貫した二重ラベル割り当てを使用してNMSフリーのトレーニングを実現しています。
YOLOv10のアーキテクチャは、特徴をより効果的に学習するための改良されたCSPNetバックボーンと、異なる層からの情報を統合するPAN(Path Aggregation Network)ネックを使用しており、小さい物体と大きい物体の両方を検知する能力が向上しています。これらの改良により、製造、小売、自動運転といった実世界のアプリケーションにYOLOv10を活用することが可能になりました。
Link to this sectionYOLOv10の主な特徴#
YOLOv10のその他の際立った特徴をいくつか挙げます。
-
ラージカーネル畳み込み: このモデルはラージカーネル畳み込みを使用して、画像内の広い領域からより多くのコンテキストを捉え、シーン全体をより深く理解できるようにしています。
-
部分的なセルフアテンションモジュール: このモデルには、計算リソースを過度に使用することなく画像の最も重要な部分に焦点を当てる部分的なセルフアテンションモジュールが組み込まれており、パフォーマンスを効率的に高めています。
-
ユニークなモデルバリエーション: 通常のYOLOv10サイズ(Nano、Small、Medium、Large、X)に加えて、YOLOv10b(Balanced)と呼ばれる特別なバージョンがあります。これはより幅の広いモデルであり、各層でより多くの特徴を処理するため、速度とサイズのバランスを保ちながら精度の向上に寄与します。
-
ユーザーフレンドリー: YOLOv10はUltralytics Pythonパッケージと互換性があり、簡単に利用できます。
Link to this sectionUltralytics YOLO11:速度と精度の向上#
今年9月30日、Ultralyticsは年次ハイブリッドイベントであるYOLO Vision 2024 (YV24)において、YOLOシリーズの最新モデルの一つであるYOLO11を公式に発表しました。
このリリースでは、以前のバージョンと比較して大幅な改善が導入されました。YOLO11はより高速で、より正確であり、非常に効率的です。物体検知、インスタンスセグメンテーション、画像分類など、YOLOv8ユーザーにはおなじみのコンピュータビジョンタスク全般をサポートしています。また、YOLOv8のワークフローとの互換性も維持されており、ユーザーは新しいバージョンへスムーズに移行できます。
さらに、YOLO11は軽量なエッジデバイスから強力なクラウドシステムまで、幅広いコンピューティングニーズを満たすように設計されています。モデルはオープンソース版とエンタープライズ版の両方が用意されており、さまざまなユースケースに適応可能です。
医療画像診断や衛星検知といった精度が求められるタスクや、自動運転車、農業、ヘルスケアなどのより広範なアプリケーションにとって素晴らしい選択肢です。

図4。Ultralytics YOLO11を使用して交通量を検知、カウント、トラッキングする様子。
Link to this sectionYOLO11の主な特徴#
YOLO11のその他のユニークな特徴をいくつか紹介します。
- 高速で効率的な検知: YOLO11は最小限のレイテンシを実現する検知ヘッドを備えており、パフォーマンスを損なうことなく最終予測層の速度に重点を置いています。
- 特徴抽出の改善: 最適化されたバックボーンとネックのアーキテクチャにより、特徴抽出が強化され、より正確な予測が可能になっています。
- プラットフォームを横断したシームレスなデプロイ: YOLO11はエッジデバイス、クラウドプラットフォーム、NVIDIA GPU上で効率的に動作するように最適化されており、さまざまな環境間での適応性を確保しています。
Link to this sectionCOCOデータセットでのYOLOモデルのベンチマーク#
さまざまなモデルを検討する際、機能を見るだけで比較するのは必ずしも簡単ではありません。そこでベンチマークの出番です。すべてのモデルを同じデータセットで実行することで、そのパフォーマンスを客観的に測定・比較できます。COCOデータセットでの各モデルのパフォーマンスを見てみましょう。
YOLOモデルを比較すると、新しいバージョンが出るたびに精度、速度、柔軟性の面で顕著な改善が見られます。特にYOLO11mは、YOLOv8mよりも22%少ないパラメータを使用しているため、軽量かつ高速に動作するという飛躍を遂げています。また、サイズが小さいにもかかわらず、COCOデータセットにおいて高い平均適合率(mAP)を達成しています。この指標はモデルが物体をどれだけうまく検知・位置特定できるかを測定するものであり、mAPが高いほど予測が正確であることを意味します。

図5。COCOデータセットにおけるYOLO11と他のYOLOモデルのベンチマーク。
Link to this sectionビデオを用いたYOLOモデルのテストと比較#
これらのモデルが実世界の状況でどのように機能するかを探ってみましょう。
YOLOv8、YOLOv9、YOLOv10、YOLO11を比較するため、すべて同じ交通ビデオで実行しました。公平な評価のために信頼度スコアは0.3(モデルが物体を正しく識別したと最低でも30%の確信がある場合にのみ検知を表示)、画像サイズは640に設定しました。物体検知とトラッキングの結果から、検知精度、速度、緻密さの主な違いが浮き彫りになりました。
最初のフレームから、YOLO11はYOLOv10が見逃したトラックのような大型車両を捉えていました。YOLOv8とYOLOv9はまずまずの性能を示しましたが、照明条件や物体のサイズによって差がありました。遠くの小さな車両はすべてのモデルにとって課題でしたが、YOLO11はそのような検知においても顕著な改善を見せています。

図6。YOLOv8、YOLOv9、YOLOv10、YOLO11の比較。
速度に関して言えば、すべてのモデルが1フレームあたり10〜20ミリ秒で動作しており、50 FPSを超えるリアルタイムタスクを処理するのに十分な速さです。一方、YOLOv8とYOLOv9はビデオ全体を通して安定した信頼性の高い検知を提供しました。興味深いことに、低レイテンシを目的として設計されたYOLOv10はより高速でしたが、特定の物体タイプの検知においていくつかの不一致が見られました。
その一方で、YOLO11は緻密さにおいて際立っており、速度と精度の優れたバランスを提供しました。どのモデルもすべてのフレームで完璧に機能したわけではありませんが、並べて比較することで、YOLO11が全体的に最も優れたパフォーマンスを発揮したことが明確に示されました。
Link to this sectionコンピュータビジョンタスクに最適なYOLOモデルはどれか?#
プロジェクトに適したモデルの選択は、その特定の要件に依存します。例えば、速度を優先するアプリケーションもあれば、より高い精度を必要とするアプリケーションや、デプロイ上の制約が意思決定に影響を与えるアプリケーションもあります。
もう一つの重要な要素は、取り組むべきコンピュータビジョンタスクの種類です。さまざまなタスクにわたってより広範な柔軟性を求めているなら、YOLOv8とYOLO11が良い選択肢です。
YOLOv8とYOLO11のどちらを選ぶかは、実際のニーズ次第です。コンピュータビジョン初心者であり、より大きなコミュニティ、より多くのチュートリアル、広範なサードパーティ統合を重視するなら、YOLOv8が堅実な選択肢です。
一方で、より優れた精度と速度を備えた最先端のパフォーマンスを求めているなら、YOLO11の方が適しています。ただし、リリースが新しいモデルであるため、コミュニティの規模が小さく、統合の数は少なくなります。
Link to this section重要なポイント#
Ultralytics YOLOv8からUltralytics YOLO11まで、YOLOモデルシリーズの進化は、よりインテリジェントなコンピュータビジョンモデルへの一貫した取り組みを反映しています。YOLOの各バージョンは、速度、精度、緻密さの面で意味のあるアップグレードをもたらしています。
コンピュータビジョンが進歩し続ける中、これらのモデルは物体検知から自律システムまで、現実世界の課題に対する信頼性の高いソリューションを提供します。YOLOモデルの継続的な開発は、この分野がどれほど進歩してきたか、そして将来にどれほど多くの期待を寄せられるかを示しています。
AIの詳細については、GitHubリポジトリにアクセスし、私たちのコミュニティに参加してください。製造業におけるビジョンAIからヘルスケアにおけるコンピュータビジョンまで、業界全体の進歩を発見しましょう。今日からビジョンAIプロジェクトを開始するために、ライセンスオプションをご確認ください。






