Ultralytics YOLOv8、YOLOv9、YOLOv10、およびUltralytics YOLO11を比較して、これらのモデルが2023年から2025年にかけてどのように進化し、改善されたかを理解してください。

Ultralytics YOLOv8、YOLOv9、YOLOv10、およびUltralytics YOLO11を比較して、これらのモデルが2023年から2025年にかけてどのように進化し、改善されたかを理解してください。
日常業務の自動化からリアルタイムでの情報に基づいた意思決定の支援まで、人工知能(AI)はさまざまな産業の未来を再構築しています。AIの中でも特に魅力的な分野の一つが、コンピュータビジョン、別名Vision AIです。これは、機械が人間のように視覚データを分析し、解釈できるようにすることに焦点を当てています。
特に、コンピュータビジョンモデルは、安全性と効率性の両方を向上させる革新を推進しています。例えば、これらのモデルは、自動運転車で歩行者を検出したり、防犯カメラで24時間体制で施設を監視したりするために使用されています。
最もよく知られているコンピュータビジョンモデルのいくつかは、リアルタイムの物体検出機能で知られるYOLO(You Only Look Once)モデルです。時間の経過とともに、YOLOモデルは改善され、新しいバージョンが登場するたびに、より優れたパフォーマンスと柔軟性を提供しています。
Ultralytics YOLO11のような新しいバージョンでは、インスタンスセグメンテーション、画像分類、姿勢推定、マルチオブジェクトトラッキングなど、さまざまなタスクを、これまで以上の精度、速度、正確さで処理できます。
この記事では、Ultralytics YOLOv8、YOLOv9、YOLOv10、そしてUltralytics YOLO11を比較し、これらのモデルがどのように進化してきたかをより深く理解します。主要な機能、ベンチマーク結果、パフォーマンスの違いを分析します。それでは、始めましょう。
2023年1月10日にUltralyticsによってリリースされたYOLOv8は、以前のYOLOモデルと比較して大きな進歩を遂げました。リアルタイムで正確な検出に最適化されており、実績のあるアプローチと革新的なアップデートを組み合わせて、より良い結果を実現します。
物体検出にとどまらず、インスタンスセグメンテーション、ポーズ推定、傾斜バウンディングボックス(OBB)物体検出、画像分類といったコンピュータビジョンタスクもサポートしています。YOLOv8のもう一つの重要な特徴は、Nano、Small、Medium、Large、Xという5つの異なるモデルバリアントが用意されていることです。そのため、ニーズに応じて速度と精度の適切なバランスを選択できます。
汎用性と強力なパフォーマンスにより、YOLOv8は、セキュリティシステム、スマートシティ、ヘルスケア、産業オートメーションなど、多くの現実世界のアプリケーションで使用できます。
以下に、YOLOv8のその他の主要機能について詳しく見ていきます。
YOLOv9は、2024年2月21日に台湾のAcademia Sinica、Institute of Information ScienceのChien-Yao WangとHong-Yuan Mark Liaoによってリリースされました。物体検出やインスタンスセグメンテーションなどのタスクをサポートしています。
このモデルは、Ultralytics YOLOv5をベースにしており、Programmable Gradient Information(PGI)とGeneralized Efficient Layer Aggregation Network(GELAN)という2つの主要なイノベーションを導入しています。
PGIは、YOLOv9がレイヤーを介してデータを処理する際に重要な情報を保持するのに役立ち、より正確な結果につながります。一方、GELANは、モデルがレイヤーを使用する方法を改善し、パフォーマンスと計算効率を高めます。これらのアップグレードのおかげで、YOLOv9は、コンピューティングリソースが限られているエッジデバイスやモバイルアプリでのリアルタイムタスクを処理できます。
以下に、YOLOv8のその他の主要機能の概要を示します。
YOLOv10は、清華大学の研究者によって2024年5月23日に発表され、リアルタイムの物体検出に焦点を当てています。重複した検出を排除するために使用される後処理ステップであるNon-Maximum Suppression(NMS)の必要性をなくし、全体的なモデル設計を改良することにより、以前のYOLOバージョンの制限に対処します。これにより、最先端の精度を達成しながら、より高速で効率的な物体検出が実現します。
これを可能にする重要な要素は、一貫性のあるデュアルラベル割り当てと呼ばれるトレーニングアプローチです。これは、同じオブジェクトから複数の予測が学習できる戦略(1対多)と、最適な単一の予測を選択することに焦点を当てた戦略(1対1)を組み合わせたものです。両方の戦略が同じマッチングルールに従うため、モデルは重複を自動的に回避することを学習するため、NMSは必要ありません。
YOLOv10のアーキテクチャは、改善されたCSPNetバックボーンを使用して特徴をより効果的に学習し、さまざまなレイヤーからの情報を組み合わせるPAN(Path Aggregation Network)ネックを使用しているため、小規模および大規模なオブジェクトの両方をより適切に検出できます。これらの改善により、製造、小売、自動運転における実際のアプリケーションにYOLOv10を使用することが可能になります。
以下に、YOLOv10のその他の優れた機能を紹介します。
今年の9月30日、Ultralyticsは年次ハイブリッドイベントであるYOLO Vision 2024(YV24)で、YOLOシリーズの最新モデルの1つであるYOLO11を正式に発表しました。
このリリースでは、以前のバージョンから大幅な改善が加えられました。YOLO11は、より高速で、より正確で、非常に効率的です。オブジェクト検出、インスタンスセグメンテーション、画像分類など、YOLOv8ユーザーが使い慣れているコンピュータビジョンタスクの全範囲をサポートしています。また、YOLOv8ワークフローとの互換性も維持しているため、ユーザーは新しいバージョンにスムーズに移行できます。
さらに、YOLO11は、軽量のエッジデバイスから強力なクラウドシステムまで、幅広いコンピューティングニーズを満たすように設計されています。このモデルは、オープンソース版とエンタープライズ版の両方で利用可能であり、さまざまなユースケースに適応できます。
医療画像処理や衛星検出のような高精度タスク、および自動運転車、農業、ヘルスケアにおけるより広範なアプリケーションに最適なオプションです。
以下に、YOLO11のその他のユニークな機能を紹介します。
異なるモデルを検討する場合、その機能を見ただけでは比較するのは必ずしも簡単ではありません。そこでベンチマークの出番です。すべてのモデルを同じデータセットで実行することで、客観的にパフォーマンスを測定し、比較することができます。COCOデータセットで各モデルがどのように動作するかを見てみましょう。
YOLOモデルを比較すると、新しいバージョンごとに精度、速度、柔軟性において著しい改善が見られます。特に、YOLO11mはYOLOv8mよりも22%少ないパラメータを使用しているため、軽量で高速に動作します。また、サイズが小さいにもかかわらず、COCOデータセットでより高い平均適合率(mAP)を達成しています。この指標は、モデルがオブジェクトをどれだけ正確に検出し、位置を特定できるかを測定するため、mAPが高いほど予測が正確であることを意味します。
これらのモデルが実際の状況でどのように機能するかを探ってみましょう。
YOLOv8、YOLOv9、YOLOv10、およびYOLO11を比較するために、4つすべてを同じトラフィックビデオで、信頼度スコア0.3(モデルは、オブジェクトを正しく識別したと少なくとも30%確信している場合にのみ検出を表示します)および公正な評価のために640の画像サイズを使用して実行しました。オブジェクトの検出と追跡の結果は、検出精度、速度、および精度の重要な違いを浮き彫りにしました。
最初のフレームから、YOLO11 は YOLOv10 が見逃したトラックのような大型車両を検出しました。YOLOv8 と YOLOv9 はまずまずの性能を示しましたが、照明条件やオブジェクトのサイズによって異なりました。小型で遠くの車両はすべてのモデルで課題が残りましたが、YOLO11 はそれらの検出でも目覚ましい改善を示しました。
速度の点では、すべてのモデルがフレームあたり10〜20ミリ秒で動作し、50 FPSを超えるリアルタイムタスクを処理するのに十分な速さでした。一方、YOLOv8とYOLOv9は、ビデオ全体を通して安定した信頼性の高い検出を提供しました。興味深いことに、低レイテンシ用に設計されたYOLOv10は高速でしたが、特定のオブジェクトタイプの検出にいくつかの矛盾が見られました。
一方、YOLO11は精度が際立っており、速度と精度の強力なバランスを提供しました。どのモデルもすべてのフレームで完全に機能したわけではありませんが、左右の比較により、YOLO11が全体的に最高のパフォーマンスを提供することが明確に示されました。
プロジェクトに適したモデルの選択は、その特定の要件によって異なります。例えば、アプリケーションによっては、速度を優先するものもあれば、より高い精度を必要とするもの、または意思決定に影響を与えるデプロイメントの制約に直面するものもあります。
もう一つの重要な要素は、対処する必要のあるコンピュータビジョンタスクの種類です。さまざまなタスクにわたってより幅広い柔軟性を求めている場合は、YOLOv8とYOLO11が良い選択肢です。
YOLOv8とYOLO11のどちらを選択するかは、ニーズによって大きく異なります。コンピュータビジョンを始めたばかりで、より大規模なコミュニティ、より多くのチュートリアル、および広範なサードパーティ統合を重視する場合は、YOLOv8が確実な選択肢です。
一方、より優れた精度と速度で最先端のパフォーマンスを求めるのであれば、YOLO11の方が適しています。ただし、YOLO11は新しいリリースであるため、コミュニティが小さく、統合も少ないという欠点があります。
Ultralytics YOLOv8 から Ultralytics YOLO11 まで、YOLO モデルシリーズの進化は、よりインテリジェントなコンピュータビジョンモデルに向けた一貫した推進力を反映しています。YOLO の各バージョンは、速度、精度、および精度の点で意味のあるアップグレードをもたらします。
コンピュータビジョンが進化し続けるにつれて、これらのモデルは、物体検出から自律システムまで、現実世界の課題に対する信頼性の高いソリューションを提供します。YOLOモデルの継続的な開発は、この分野がどれだけ進歩してきたか、そして将来どれだけのことが期待できるかを示しています。
AIの詳細については、GitHubリポジトリをご覧になり、コミュニティにご参加ください。製造業におけるVision AIからヘルスケアにおけるコンピュータビジョンまで、業界全体の進歩をご覧ください。ライセンスオプションを確認して、今すぐVision AIプロジェクトを開始してください。