YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

物体検出とUltralyticsのYOLOモデルの進化

Abirami Vina

4分で読めます

2024年10月18日

オブジェクト検出の進化を振り返ります。特に、YOLO(You Only Look Once)モデルが近年どのように進歩してきたかに焦点を当てます。

コンピュータビジョンは、人工知能(AI)のサブフィールドであり、人間が現実世界を認識するのと同じように、マシンに画像やビデオを見て理解させることに焦点を当てています。オブジェクトを認識することやアクションを識別することは人間にとってごく自然なことですが、これらのタスクには、マシンに関しては特定の専門的なコンピュータビジョン技術が必要です。たとえば、コンピュータビジョンの重要なタスクの1つは物体検出であり、画像またはビデオ内のオブジェクトを識別して特定することを含みます。 

1960年代から、研究者たちはコンピュータが物体を検出する方法の改善に取り組んできました。テンプレートマッチングのような初期の方法では、定義済みのテンプレートを画像上でスライドさせて一致するものを探しました。革新的ではありましたが、これらのアプローチは物体のサイズ、向き、および照明の変化に苦労しました。今日では、Ultralytics YOLO11のような高度なモデルがあり、遮蔽された物体として知られる、小さくて部分的に隠された物体でさえ、驚くほどの精度で検出できます。

コンピュータビジョンが進化し続けるにつれて、これらの技術がどのように発展してきたかを振り返ることが重要です。この記事では、物体検出の進化を探り、YOLO(You Only Look Once)モデルの変革に光を当てます。それでは始めましょう。

コンピュータビジョンの起源

物体検出に入る前に、コンピュータビジョンがどのように始まったのかを見てみましょう。コンピュータビジョンの起源は、科学者たちが脳がどのように視覚情報を処理するかを探求し始めた1950年代後半から1960年代初頭に遡ります。を使った実験で、研究者であるDavid HubelとTorsten Wieselは、脳がエッジや線のような単純なパターンに反応することを発見しました。これが特徴抽出の背後にあるアイデアの基礎となりました。特徴抽出とは、視覚システムが画像内の基本的な特徴(エッジなど)を検出し、認識してから、より複雑なパターンに進むという概念です。

図1. 猫の脳が光の棒にどのように反応するかを学習することで、コンピュータビジョンの特徴抽出の開発に役立った。

ほぼ同時期に、物理的な画像をデジタル形式に変換できる新しい技術が登場し、機械がどのように視覚情報を処理できるかに関心が集まりました。1966年、マサチューセッツ工科大学(MIT)のSummer Vision Projectは、さらに研究を推し進めました。このプロジェクトは完全には成功しませんでしたが、画像内の前景を背景から分離できるシステムの構築を目指しました。Vision AIコミュニティの多くの人々にとって、このプロジェクトはコンピュータビジョンが科学分野として正式に始まったことを示すものとなっています。

物体検出の歴史を理解する

コンピュータビジョンが1990年代後半から2000年代初頭にかけて進歩するにつれて、物体検出の手法は、テンプレートマッチングのような基本的な技術から、より高度なアプローチへと移行しました。一般的な手法の1つはHaar Cascadeで、顔検出などのタスクに広く使用されるようになりました。これは、スライディングウィンドウで画像をスキャンし、画像内の各セクションのエッジやテクスチャなどの特定の機能をチェックし、これらの機能を組み合わせて顔などの物体を検出することによって機能しました。Haar Cascadeは、以前の手法よりもはるかに高速でした。

Fig 2. Haar Cascadeを使用した顔検出。

これらに加えて、Histogram of Oriented Gradients (HOG) や Support Vector Machines (SVMs) などの手法も導入されました。HOGは、スライディングウィンドウ技術を使用して、画像の小さなセクションでの光と影の変化を分析し、形状に基づいてオブジェクトを識別するのに役立ちました。次に、SVMはこれらの特徴を分類して、オブジェクトの識別を決定しました。これらの手法は精度を向上させましたが、依然として現実世界の環境では苦戦し、今日の技術と比較して低速でした。

リアルタイムオブジェクト検出の必要性

2010年代には、ディープラーニング畳み込みニューラルネットワーク(CNN)の台頭により、物体検出に大きな変化がもたらされました。CNNにより、コンピューターは大量のデータから重要な特徴を自動的に学習できるようになり、検出がはるかに正確になりました。 

R-CNN(領域ベースの畳み込みニューラルネットワーク)のような初期のモデルは、精度が大幅に向上し、以前の方法よりもより正確にオブジェクトを識別するのに役立ちました。 

ただし、これらのモデルは画像を複数の段階で処理するため、処理速度が遅く、自動運転車ビデオ監視などのリアルタイムアプリケーションには実用的ではありませんでした。

高速化に重点を置くことで、より効率的なモデルが開発されました。Fast R-CNNやFaster R-CNNのようなモデルは、関心領域の選択方法を改良し、検出に必要なステップ数を削減することで貢献しました。これにより物体検出は高速化されましたが、即時の結果を必要とする多くの現実世界のアプリケーションにとっては、まだ十分な速度ではありませんでした。リアルタイム検出への需要の高まりが、速度と精度の両方を両立できる、より高速で効率的なソリューションの開発を後押ししました。

図3. R-CNN、Fast R-CNN、およびFaster R-CNNの速度比較。

YOLO(You Only Look Once)モデル:主要なマイルストーン

YOLOは、画像やビデオ内の複数のオブジェクトのリアルタイム検出を可能にすることで、コンピュータビジョンを再定義したオブジェクト検出モデルであり、以前の検出方法とは非常に異なっています。YOLOのアーキテクチャは、検出された各オブジェクトを個別に分析する代わりに、オブジェクト検出を単一のタスクとして扱い、CNNを使用してオブジェクトの位置とクラスの両方を一度に予測します。 

このモデルは、画像をグリッドに分割し、各部分がそれぞれの領域内のオブジェクトを検出する役割を担うことによって機能します。各セクションに対して複数の予測を行い、信頼度の低い結果を除外し、正確な結果のみを保持します。 

図4. YOLOの仕組みの概要。

YOLOがコンピュータビジョンアプリケーションに導入されたことで、物体検出は以前のモデルよりもはるかに高速かつ効率的になりました。その速度と精度により、YOLOは製造、医療、ロボット工学などの業界におけるリアルタイムソリューションとして、すぐに人気のある選択肢となりました。

もう一つ重要な点として、YOLOはオープンソースであったため、開発者や研究者は継続的に改善することができ、より高度なバージョンへと進化しました。

YOLOからYOLO11への道

YOLOモデルは、各バージョンの進歩に基づいて、着実に改善されてきました。性能の向上とともに、これらの改善により、さまざまな技術レベルの人がモデルを使いやすくなりました。

例えば、Ultralytics YOLOv5が導入されたとき、PyTorchによってモデルのデプロイがより簡単になり、より幅広いユーザーが高度なAIを扱えるようになりました。これにより、精度と使いやすさが両立し、コーディングの専門家でなくても、より多くの人が物体検出を実装できるようになりました。

図5。YOLOモデルの進化。

Ultralytics YOLOv8は、インスタンスセグメンテーションなどのタスクのサポートを追加し、モデルをより柔軟にすることで、この進歩を継続しました。YOLOを基本的なアプリケーションとより複雑なアプリケーションの両方で使用することが容易になり、さまざまなシナリオで役立つようになりました。

最新モデルのUltralytics YOLO11では、さらなる最適化が行われています。パラメータの数を減らしながら精度を向上させることで、リアルタイムタスクにおいてより効率的になりました。経験豊富な開発者でも、AI初心者でも、YOLO11はアクセスしやすい物体検出への高度なアプローチを提供します。

YOLO11を知る:新機能と改善点

Ultralyticsの年次ハイブリッドイベントYOLO Vision 2024 (YV24)で発表されたYOLO11は、物体検出、インスタンスセグメンテーション、画像分類、姿勢推定など、YOLOv8と同じコンピュータビジョンタスクをサポートしています。そのため、ユーザーはワークフローを調整することなく、この新しいモデルに簡単に切り替えることができます。さらに、YOLO11のアップグレードされたアーキテクチャにより、予測がさらに正確になります。実際、YOLO11mは、YOLOv8mよりもパラメータ数が22%少ないにもかかわらず、COCOデータセットでより高い平均適合率(mAP)を達成しています。

YOLO11は、スマートフォンやその他のエッジデバイスから、より強力なクラウドシステムまで、さまざまなプラットフォームで効率的に実行できるように構築されています。この柔軟性により、リアルタイムアプリケーション向けに、さまざまなハードウェア構成でスムーズなパフォーマンスが保証されます。さらに、YOLO11はより高速かつ効率的で、計算コストを削減し、推論時間を短縮します。Ultralytics Pythonパッケージを使用している場合でも、ノーコードのUltralytics HUBを使用している場合でも、YOLO11を既存のワークフローに簡単に統合できます。

YOLOモデルと物体検出の未来

高度な物体検出がリアルタイムアプリケーションとエッジAIに与える影響は、すでに業界全体で感じられています。石油・ガス、ヘルスケア、小売などの分野がAIへの依存度を高めるにつれて、高速かつ正確な物体検出の需要は高まり続けています。YOLO11は、コンピューティング能力が限られたデバイスでも高性能な検出を可能にすることで、この需要に応えることを目指しています。 

エッジAIが成長するにつれて、YOLO11のような物体検出モデルは、速度と精度が重要な環境でのリアルタイムの意思決定にとって、さらに不可欠になる可能性があります。設計と適応性の継続的な改善により、物体検出の未来は、さまざまなアプリケーションにわたってさらに多くのイノベーションをもたらすように設定されています。

主なポイント

物体検出は長足の進歩を遂げ、単純な手法から今日見られる高度な深層学習技術へと進化してきました。YOLOモデルは、この進歩の中心にあり、さまざまな業界でより高速かつ正確なリアルタイム検出を実現しています。YOLO11は、このレガシーを基に構築されており、効率を向上させ、計算コストを削減し、精度を高め、さまざまなリアルタイムアプリケーションにとって信頼できる選択肢となっています。AIとコンピュータビジョンの継続的な進歩により、物体検出の将来は明るく、速度、精度、適応性においてさらに改善の余地があります。

AIにご興味がありますか?コミュニティと繋がり、学習を続けましょう!当社のGitHubリポジトリをチェックして、製造業ヘルスケアなどの業界で、AIをどのように活用して革新的なソリューションを生み出しているかをご覧ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました