YOLO モデル比較：YOLOv11と従来モデルの比較

日常業務の自動化からリアルタイムでの情報に基づいた意思決定の支援まで、人工知能（AI）はさまざまな産業の未来を再構築しています。AIの中でも特に魅力的な分野の一つが、コンピュータビジョン、別名Vision AIです。これは、機械が人間のように視覚データを分析し、解釈できるようにすることに焦点を当てています。

具体的には、コンピュータ・ビジョン・モデルは、安全性と効率性の両方を高めるイノベーションを推進している。例えば、これらのモデルは、歩行者をdetect する自動運転車や、24時間体制で敷地内を監視する監視カメラに使用されている。

最もよく知られているコンピュータビジョンモデルには、YOLO （You Only Look Once）モデルがあり、リアルタイムの物体検出能力で知られている。時が経つにつれてYOLO モデルは改良され、新しいバージョンが出るたびに性能が向上し、柔軟性が増しています。

新しいバージョン Ultralytics YOLO11は、インスタンスのセグメンテーション、画像分類、姿勢推定、複数オブジェクトの追跡など、さまざまなタスクを、これまで以上に優れた精度、速度、精度で処理できる。

この記事では Ultralytics YOLOv8とYOLOv9、YOLOv10、Ultralytics YOLO11 比較し、これらのモデルがどのように進化してきたかを知る。それぞれの主な特徴、ベンチマーク結果、パフォーマンスの違いを分析します。さっそく始めよう！

Ultralytics YOLOv8概要

2023年1月10日にUltralytics 社からリリースされたYOLOv8、以前のYOLO モデルと比べて大きな進歩を遂げた。リアルタイムで正確な検知を行うために最適化され、十分に検証されたアプローチと革新的なアップデートが組み合わされ、より良い結果をもたらしている。

オブジェクト検出だけでなく、インスタンス分割、ポーズ推定、OBB（Oriented bounding boxes）オブジェクト検出、画像分類などのコンピュータビジョンタスクもサポートしています。YOLOv8 8のもう一つの重要な特徴は、Nano、Small、Medium、Large、Xの5つの異なるモデルバリエーションが用意されていることである。

YOLOv8 、その汎用性と強力な性能により、セキュリティシステム、スマートシティ、ヘルスケア、産業オートメーションなど、実世界の多くのアプリケーションで使用することができる。

__wf_reserved_inherit — 図1.YOLOv8スマートシティでの駐車場管理。

‍

YOLOv88の主な特徴

YOLOv8その他の主な特徴を詳しく見てみよう：

検出アーキテクチャの強化：YOLOv8 改良されたCSPDarknetバックボーンを使用している。このバックボーンは、特徴抽出（モデルが正確な予測を行うのに役立つ重要なパターンや詳細を入力画像から特定し、キャプチャするプロセス）に最適化されている。
検出ヘッド: アンカーフリーのデカップリングされた設計を使用しています。これは、プリセットされたバウンディングボックスの形状（アンカー）に依存せず、代わりにオブジェクトの位置を直接予測することを意味します。デカップリングされた設定により、オブジェクトが何かを分類するタスクと、オブジェクトがどこにあるかを予測するタスク（回帰）が別々に処理されるため、精度が向上し、トレーニングが高速化されます。
精度と速度のバランス：このモデルは、高速な推論時間を維持しながら、優れた精度を実現し、クラウド環境とエッジ環境の両方に適しています。
ユーザーフレンドリー：YOLOv8 簡単に始められるように設計されており、Ultralytics Python パッケージを使って数分で予測を始め、結果を見ることができます。

YOLOv9 計算効率に重点を置く

YOLOv9 、台湾中央研究院情報科学研究所のChien-Yao Wang氏とHong-Yuan Mark Liao氏によって2024年2月21日にリリースされた。オブジェクト検出やインスタンス分割などのタスクをサポートしている。

このモデルは Ultralytics YOLOv5をベースとし、2つの大きな革新を導入しています：プログラム可能な勾配情報（PGI）と一般化された効率的なレイヤー集約ネットワーク（GELAN）です。

PGIは、YOLOv9 レイヤーを通してデータを処理する際に重要な情報を保持するのに役立ち、より正確な結果をもたらします。一方、GELANはモデルがレイヤーを使用する方法を改善し、パフォーマンスと計算効率を高めます。これらのアップグレードのおかげで、YOLOv9 、コンピューティング・リソースが制限されがちなエッジ・デバイスやモバイル・アプリでのリアルタイム・タスクを処理できる。

‍

YOLOv9主な特徴

ここでは、YOLOv88のその他の主な機能の一部を垣間見ることができる：

高い精度と効率：YOLOv9 、多くの計算能力を消費することなく高い検出精度を実現するため、リソースが限られている場合に最適な選択肢となる。
‍
軽量モデル：YOLOv9軽量モデルのバリエーションは、エッジやモバイルの展開に最適化されています。
‍
使いやすい： YOLOv9 Ultralytics Python パッケージでサポートされているため、コードでもコマンドラインでも、様々な環境で簡単にセットアップ、実行することができる。

YOLOv10 NMS物体検出を可能にする

YOLOv10 清華大学の研究者によって2024年5月23日に発表され、リアルタイムの物体検出に焦点を当てている。重複検出を排除するために使用される後処理ステップである非最大抑制NMS）の必要性を削除し、全体的なモデル設計を改良することで、以前のYOLO バージョンの制限に取り組んでいる。その結果、最先端の精度を達成しながら、より高速で効率的な物体検出が可能になりました。

これを可能にする重要な部分は、一貫したデュアルラベル割り当てとして知られる学習アプローチである。これは2つの戦略を組み合わせたもので、1つは複数の予測を同じオブジェクトから学習させるもの（1対多）、もう1つは最良の1つの予測を選択することに重点を置くもの（1対1）である。どちらの戦略も同じマッチング・ルールに従うので、モデルはそれ自身で重複を避けるように学習するので、NMS 必要ない。

‍

YOLOv10アーキテクチャはまた、より効率的に特徴を学習するために改良されたCSPNetバックボーンと、異なるレイヤーからの情報を組み合わせるPAN（Path Aggregation Network）ネックを使用しており、小さな物体から大きな物体まで検出する能力が向上している。これらの改良により、YOLOv10 製造、小売、自律走行などの実際のアプリケーションに使用することが可能になった。

YOLOv1010の主な特徴

YOLOv10その他の目立った特徴は以下の通り：

大規模カーネル畳み込み: このモデルは、大規模カーネル畳み込みを使用して、画像のはるかに広い領域からより多くのコンテキストをキャプチャし、シーン全体をより良く理解できるようにします。
‍
部分的な自己注意モジュール: モデルは、計算能力を過度に使用することなく、画像の最も重要な部分に焦点を当てるために、部分的な自己注意モジュールを組み込み、効率的にパフォーマンスを向上させます。

ユニークなモデルバリエーション： ナノ、スモール、ミディアム、ラージ、Xという通常のYOLOv10 サイズに加えて、YOLOv10b（バランス）と呼ばれる特別バージョンもある。幅広のモデルで、各レイヤーでより多くの機能を処理するため、スピードとサイズのバランスを保ちながら精度を向上させることができる。
‍
ユーザーフレンドリー： YOLOv10 Ultralytics Python パッケージと互換性があり、使いやすい。

Ultralytics YOLO11：スピードと精度の向上

今年9月30日、Ultralytics 毎年恒例のハイブリッド・イベント「YOLO Vision 2024（YV24）」で、YOLO シリーズの最新モデルのひとつであるYOLO11 正式に発表した。

このリリースでは、以前のバージョンから大幅な改良が加えられた。YOLO11 、より速く、より正確で、非常に効率的です。YOLOv8 11では、物体検出、インスタンス分割、画像分類など、YOLOv8 ユーザーが慣れ親しんでいるコンピュータ・ビジョンのタスクをすべてサポートしています。また、YOLOv8 ワークフローとの互換性も維持されているため、ユーザーはスムーズに新バージョンに移行することができます。

その上、YOLO11 11は、軽量なエッジ・デバイスから強力なクラウド・システムまで、幅広いコンピューティング・ニーズを満たすように設計されている。このモデルは、オープンソース版とエンタープライズ版の両方が用意されており、さまざまなユースケースに適応できる。

医療画像処理や衛星検出のような高精度タスク、および自動運転車、農業、ヘルスケアにおけるより広範なアプリケーションに最適なオプションです。

‍

YOLO11主な特徴

その他、YOLO11ユニークな特徴をいくつか紹介しよう：

高速で効率的な検出： YOLO11 、性能を損なうことなく最終予測層のスピードに焦点を当て、最小限のレイテンシで設計された検出ヘッドを搭載している。
‍
特徴抽出の改善： 最適化されたバックボーンとネックのアーキテクチャにより、特徴抽出が強化され、より正確な予測につながります。
‍
プラットフォームを超えたシームレスな展開：YOLO11 、エッジデバイス、クラウドプラットフォーム、NVIDIA GPU上で効率的に動作するように最適化されており、さまざまな環境に適応します。

COCO データセットによるYOLO モデルのベンチマーク

さまざまなモデルを検討する際、その特徴を見るだけで比較するのは必ずしも容易ではない。そこで登場するのがベンチマークです。すべてのモデルを同じデータセット上で実行することで、そのパフォーマンスを客観的に測定し、比較することができます。各モデルがCOCO データセット上でどのようなパフォーマンスを発揮するか見てみましょう。

YOLO モデルを比較すると、各新バージョンは精度、スピード、柔軟性に関して顕著な改善をもたらしている。特にYOLO11mは、YOLOv8m22%少ないパラメータを使用するため、より軽量で高速な実行が可能となり、飛躍的な進歩を遂げました。また、サイズが小さいにもかかわらず、COCO データセットでより高い平均精度mAP）を達成している。この指標は、モデルがどの程度物体を検出し、ローカライズしているかを測定するもので、mAP 高いほど、より正確な予測を意味します。

‍

YOLO モデルをビデオでテストし比較する

これらのモデルが実際の状況でどのように機能するかを探ってみましょう。

YOLOv8、YOLOv9、YOLOv10、YOLO11比較するために、信頼度スコア0.3（モデルは、物体を正しく識別できたと少なくとも30％確信が持てる場合にのみ検出結果を表示する）、公平な評価のために画像サイズ640を使用して、4つすべてを同じ交通ビデオで実行した。物体の検出と追跡の結果、検出精度、速度、精度の重要な違いが浮き彫りになりました。

YOLO11 最初のフレームから、YOLOv10 見逃したトラックのような大型車両を捉えた。YOLOv8 YOLOv9 まずまずの性能を示したが、照明条件や物体の大きさによってばらつきがあった。小型で遠方の車両は、YOLO11 顕著な改善が見られたものの、どのモデルでも課題として残った。

‍

スピードに関しては、どのモデルも1フレームあたり10～20ミリ秒の間で動作し、50FPSを超えるリアルタイムタスクに対応するのに十分な速さだった。一方、YOLOv8 YOLOv9 、ビデオ全体を通して安定した信頼性の高い検出を提供した。興味深いことに、低遅延用に設計されたYOLOv10、より高速であったが、特定のオブジェクトタイプの検出において、いくつかの矛盾が見られた。

一方、YOLO1111は、スピードと正確さのバランスがよく、その正確さが際立っていた。どのモデルもすべてのフレームで完璧なパフォーマンスを発揮したわけではないが、横並びで比較した結果、YOLO11 総合的に最高のパフォーマンスを発揮したことは明らかだ。

コンピュータビジョンのタスクに最適なYOLO モデルは？

プロジェクトに適したモデルの選択は、その特定の要件によって異なります。例えば、アプリケーションによっては、速度を優先するものもあれば、より高い精度を必要とするもの、または意思決定に影響を与えるデプロイメントの制約に直面するものもあります。

もう一つの重要な要素は、どのようなコンピュータビジョンタスクに取り組む必要があるかということです。さまざまなタスクに対してより幅広い柔軟性を求めるのであれば、YOLOv8 YOLO11 良い選択肢となる。

YOLOv8 YOLO11 どちらを選ぶかは、あなたのニーズ次第です。YOLOv8 、コンピュータ・ビジョンの初心者で、より大きなコミュニティ、より多くのチュートリアル、サードパーティとの幅広い統合を重視するなら、堅実な選択肢です。

一方、より良い精度とスピードで最先端のパフォーマンスを求めるのであれば、YOLO11 方が良い選択だが、新しいリリースのためコミュニティが小さく、統合も少ない。

主なポイント

Ultralytics YOLOv8 Ultralytics YOLO11、YOLO モデルシリーズの進化は、よりインテリジェントなコンピュータビジョンモデルへの一貫したプッシュを反映しています。YOLO 各バージョンは、スピード、正確さ、精度の面で有意義なアップグレードをもたらします。

コンピュータ・ビジョンが進歩し続ける中、これらのモデルは、物体検出から自律システムまで、実世界の課題に対する信頼性の高いソリューションを提供している。YOLO モデルの継続的な開発は、この分野がどれほど進歩してきたか、そして今後どれほど多くのことが期待できるかを示している。

AIの詳細については、GitHubリポジトリをご覧になり、コミュニティにご参加ください。製造業におけるVision AIからヘルスケアにおけるコンピュータビジョンまで、業界全体の進歩をご覧ください。ライセンスオプションを確認して、今すぐVision AIプロジェクトを開始してください。

Ultralytics YOLO11 従来のYOLO モデルの比較