Yolo 深圳
深セン
今すぐ参加

2025年の物体検出を深く掘り下げるためのガイド

Abirami Vina

6 min read

2025年2月6日

物体検出について、AIにおけるその重要性、そしてYOLO11 ようなモデルが自動運転車、ヘルスケア、セキュリティなどの産業をどのように変革しているかについて学ぶ。

多くの業界が、人工知能(AI)ソリューションを業務に急速に統合しています。今日利用できる多くのAIテクノロジーの中で、コンピュータビジョンは最も人気のあるものの1つです。コンピュータビジョンは、コンピュータが人間と同じように画像やビデオの内容を見て理解するのに役立つAIの分野です。これにより、機械が物体を認識し、パターンを識別し、見ているものを理解することが可能になります。 

コンピュータビジョンの世界市場価値は、2032年までに1,757億2,000万ドルに成長すると推定されています。コンピュータビジョンには、Vision AIシステムが視覚データを分析および解釈できるようにするさまざまなタスクが含まれています。コンピュータビジョンの最も広く使用され、不可欠なタスクの1つは、物体検出です。 

物体検出は、視覚データ中の物体の位置特定と分類に重点を置く。例えば、コンピューターに牛の画像を見せると、牛をdetect し、その周囲にバウンディングボックスを描くことができる。この能力は、動物の監視、自動運転車、監視などの実世界での応用に役立つ。 

では、物体検出はどうすればできるのか?ひとつの方法は、コンピューター・ビジョンのモデルを使うことだ。例えば Ultralytics YOLO11は、物体検出のようなコンピュータビジョンタスクをサポートするコンピュータビジョンモデルである。 

このガイドでは、物体検出とその仕組みについて説明します。また、物体検出とUltralytics YOLO11実際のアプリケーションについても説明します。

__wf_reserved_inherit
図1. YOLO11物体検出機能を使って牛を監視する。

物体検出とは? 

物体検出は、画像またはビデオ内の物体を識別して位置を特定するコンピュータビジョンのタスクです。これは、「画像内にどのような物体があるか」と「それらはどこに位置しているか」という2つの重要な質問に答えます。

物体検出は、2つの重要なステップを含むプロセスと考えることができる。1つ目の「オブジェクトの分類」では、学習したパターンに基づいて猫、車、人などを識別するなど、システムがオブジェクトを認識し、ラベル付けする。2つ目のローカライゼーションは、オブジェクトの周囲にバウンディングボックスを描画することでオブジェクトの位置を決定し、画像内のどこに表示されるかを示す。これらのステップを組み合わせることで、機械はシーン内の物体をdetect し、理解することができる。

物体検出をユニークなものにしている側面は、物体を認識し、その位置を正確に特定する能力です。他のコンピュータビジョンタスクは、異なる目標に焦点を当てています。

例えば、画像分類は画像全体にラベルを割り当てます。一方、画像セグメンテーションは、さまざまな要素のピクセルレベルの理解を提供します。一方、オブジェクト検出は、認識とローカリゼーションを組み合わせます。これにより、リアルタイムで複数のオブジェクトをカウントするようなタスクに特に役立ちます。

__wf_reserved_inherit
Fig 2. コンピュータビジョンタスクの比較。

物体認識 vs. 物体検出

さまざまなコンピュータビジョンの用語を調べていると、物体認識と物体検出は交換可能であるように感じるかもしれませんが、それらは異なる目的を果たします。違いを理解するのに最適な方法は、顔検出と顔認識を見ることです。

顔検出は物体検出の一種である。画像内の顔の存在を識別し、バウンディングボックスを用いてその位置をマークする。これは、"画像内のどこに顔があるか?"という質問に答えるものである。この技術は、自動的に顔に焦点を合わせるスマートフォンのカメラや、人がいることをdetect するセキュリティカメラで一般的に使用されている。

一方、顔認識は物体認識の一種である。単に顔をdetect するだけでなく、固有の特徴を分析し、データベースと比較することで誰の顔かを特定する。これは、"この人は誰?"という質問に答えるものだ。これは、Face IDで携帯電話のロックを解除したり、身元を確認する空港のセキュリティシステムを支える技術である。

簡単に言うと、物体検出は物体を見つけて位置を特定し、物体認識は物体を分類して識別します。 

__wf_reserved_inherit
図3. 物体検出と物体認識の比較。画像提供:著者。

YOLO11ような多くの物体検出モデルは、顔検出をサポートするように設計されているが、顔認識はサポートしていない。YOLO11 、画像内の顔の存在を効率的に識別し、その周囲にバウンディングボックスを描画することができるため、監視システム、群衆モニタリング、自動写真タグ付けなどの用途に役立つ。ただし、誰の顔であるかは判別できない。YOLO11 、FacenetやDeepFaceのような顔認識のために特別に訓練されたモデルと統合することで、単一のシステムで検出と識別の両方を可能にすることができる。

物体検出の仕組みの理解

物体検出の仕組みを説明する前に、まずコンピュータがどのように画像を分析するかを詳しく見てみましょう。コンピュータは、私たちが見るように画像を認識するのではなく、画像をピクセルと呼ばれる小さな正方形のグリッドに分解します。各ピクセルには、コンピュータが視覚データを解釈するために処理できる色と明るさの情報が含まれています。

これらのピクセルの意味を理解するために、アルゴリズムは、形状、色、およびそれらのピクセルの近さに基づいて、意味のある領域にそれらをグループ化する。YOLO11ような物体検出モデルは、これらのピクセルグループのパターンや特徴を認識することができる。 

例えば、自動運転車は、私たちが見るような歩行者を見ているのではなく、歩行者の特徴に一致する形状とパターンを検出します。これらのモデルは、ラベル付けされた画像データセットを使用した広範なトレーニングに依存しており、車、交通標識、人などのオブジェクトの独特な特性を学習できます。

一般的な物体検出モデルは、バックボーン、ネック、ヘッドという3つの主要部分で構成されています。バックボーンは画像から重要な特徴を抽出し、ネックはこれらの特徴を処理および洗練し、ヘッドは物体の位置を予測して分類します。

検出の改良と結果の提示

初期検出が行われると、精度を向上させ、冗長な予測を除外するために、後処理技術が適用されます。たとえば、重複するバウンディングボックスは削除され、最も関連性の高い検出のみが保持されるようにします。また、検出されたオブジェクトが特定のクラスに属するとモデルがどれだけ確信しているかを表す数値である信頼度スコアが、各検出されたオブジェクトに割り当てられ、モデルの予測に対する確実性を示します。

最終的に、検出されたオブジェクトの周囲にバウンディングボックスが描画され、予測されたクラスラベルと信頼性スコアとともに結果が表示されます。これらの結果は、現実世界のアプリケーションで使用できます。

一般的な物体検出モデル 

現在では、多くのコンピュータビジョンモデルが利用可能であり、最も人気のあるモデルのいくつかは、Ultralytics YOLO モデルです。これらのモデルは、そのスピード、正確さ、多用途性で知られています。長年にわたり、これらのモデルはより速く、より正確になり、より幅広いタスクに対応できるようになりました。今回の Ultralytics YOLOv5のリリースにより、PyTorchようなフレームワークの導入が容易になり、より多くの人が深い専門知識を必要とせずに高度なVision AIを使用できるようになりました。

この基盤の上に Ultralytics YOLOv8は、インスタンスのセグメンテーション、ポーズ推定、画像分類などの新機能を導入した。そして今、YOLO11 11はさらに進化し、複数のタスクでより優れたパフォーマンスを発揮します。YOLO11mは、YOLOv8m22%少ないパラメータで、COCO データセットでより高い平均精度mAP)を達成しました。簡単に言えば、YOLO11 、より少ないリソースで、より高い精度で物体を認識することができ、より高速で信頼性の高いものとなっています。

YOLO11 、AIの専門家であろうと、これから始めようとしている方であろうと、コンピュータ・ビジョン・アプリケーションのためのパワフルかつユーザーフレンドリーなソリューションを提供します。

物体検出のためのモデルのカスタムトレーニング

Vision AIモデルのトレーニングでは、コンピュータが画像やビデオを認識して理解できるように支援します。ただし、トレーニングには時間がかかる場合があります。最初から始める代わりに、転移学習は、一般的なパターンをすでに認識している事前トレーニング済みのモデルを使用することで、処理を高速化します。

例えば、YOLO11 既にCOCO データセットで訓練されており、このデータセットには多様な日常的オブジェクトが含まれている。この事前に訓練されたモデルをさらにカスタムトレーニングすることで、元のデータセットに含まれていないような特定の物体をdetect ことができる。 

YOLO11 カスタム・トレーニングするには、detectしたいオブジェクトの画像を含むラベル付きデータセットが必要だ。例えば、食料品店でさまざまな種類の果物を識別するモデルを構築したい場合、リンゴ、バナナ、オレンジなどのラベル付き画像を含むデータセットを作成することになる。データセットが準備できたら、バッチサイズ、学習率、エポックなどのパラメータを調整しながらYOLO11 学習させ、パフォーマンスを最適化することができる。

このアプローチにより、企業はYOLO11 訓練して、製造業における欠陥部品から保護プロジェクトにおける野生生物まで、あらゆるものをdetect せることができ、自社のニーズにぴったり合ったモデルを作ることができる。

物体検出の応用

次に、オブジェクト検出の実際のユースケースと、それがさまざまな業界をどのように変革しているかを見ていきましょう。

自動運転のための危険物検出

自動運転車は、物体検出などのコンピュータビジョンタスクを使用して、安全にナビゲートし、障害物を回避します。この技術は、歩行者、他の車両、くぼみ、道路の危険物を認識するのに役立ち、周囲の状況をより良く理解できるようにします。彼らは常に環境を分析することで、迅速な意思決定を行い、交通の中を安全に移動できます。

__wf_reserved_inherit
図4. YOLO11穴のdetect 物体検出を使用した例。

ヘルスケアにおける医療画像分析

X線、MRI、CTスキャン、超音波検査などの医療用画像診断技術は、人体の非常に詳細な画像を作成し、病気の診断や治療に役立てる。これらのスキャンは、放射線科医や病理医などの医師が病気をdetect ために注意深く分析しなければならない大量のデータを生成する。しかし、すべての画像を詳細に確認するには時間がかかり、人間の専門家は疲労や時間の制約のために細部を見逃すことがある。

YOLO11 ような物体検出モデルは、臓器、腫瘍、異常など、医療スキャンにおける主要な特徴を高い精度で自動的に識別することで支援することができる。カスタム・トレーニングされたモデルは、バウンディング・ボックスで懸念領域を強調表示することができ、医師が潜在的な問題に迅速に集中できるようにします。これにより、作業負荷が軽減され、効率が向上し、迅速な洞察が得られます。

__wf_reserved_inherit
図5. YOLO11用いた医用画像の解析。

人物および異常検知によるセキュリティの強化

オブジェクト・トラッキングは、YOLO11サポートするコンピュータ・ビジョン・タスクであり、リアルタイムのモニタリングとセキュリティの強化を可能にする。これは、オブジェクトを識別し、フレームをまたいでその動きを継続的に追跡することで、オブジェクト検出を基盤としています。この技術は、様々な環境における安全性を向上させる監視システムで広く使用されています。

例えば、学校や託児所では、オブジェクト・トラッキングが子どもたちを監視し、迷子の防止に役立つ。セキュリティ・アプリケーションでは、制限区域への侵入者を検知したり、群衆の過密状態や不審な行動を監視したり、不正な行動が検知された場合にリアルタイムでアラートを送信したりする上で重要な役割を果たします。YOLO11追跡システムは、物体の動きをtrack することで、セキュリティを強化し、監視を自動化し、潜在的な脅威への迅速な対応を可能にします。

物体検出の利点と欠点

物体検出がさまざまな産業にもたらす主な利点をいくつかご紹介します。

  • 自動化: オブジェクト検出は、CCTV映像の監視などのタスクにおける人間の監視の必要性を減らすのに役立ちます。
  • 他のAIモデルと連携: 顔認識、行動認識、追跡システムと統合して、精度と機能を向上させることができます。
  • リアルタイム処理: YOLO11ような多くの物体検出モデルは、高速かつ効率的であるため、即座に結果を必要とするリアルタイムアプリケーションに最適である。 

これらの利点は、物体検出がさまざまなユースケースにどのように影響するかを示していますが、その実装に伴う課題を考慮することも重要です。主な課題を以下に示します。

  • データのプライバシー: 視覚データの利用、特に監視や医療などの機密性の高い分野では、プライバシーの問題やセキュリティ上の懸念が生じる可能性があります。
  • オクルージョン:物体検出におけるオクルージョンは、物体が部分的に視界から遮られたり隠れたりすることで発生し、モデルが物体を正確にdetect classify することを困難にする。
  • 計算コストが高い: 高性能モデルは、処理に強力なGPU(Graphics Processing Units)が必要になることが多く、リアルタイムでのデプロイにコストがかかります。

主なポイント

物体検出は、機械が画像やビデオ内の物体をdetect し、位置を特定するのに役立つ、コンピュータ・ビジョンにおける画期的なツールである。自動運転車からヘルスケアまで、さまざまな分野で使用されており、作業をより簡単、安全、効率的にします。YOLO11ような新しいモデルにより、企業はカスタムオブジェクト検出モデルを簡単に作成し、特殊なコンピュータビジョンアプリケーションを作成することができます。 

プライバシーへの懸念や物体が視界から隠れてしまうといった課題はありますが、物体検出は信頼性の高い技術です。タスクの自動化、リアルタイムでの視覚データ処理、他のVision AIツールとの統合を可能にするその能力は、最先端のイノベーションに不可欠な要素となっています。

詳しくは、GitHub リポジトリをご覧いただき、コミュニティにご参加ください。ソリューションのページで、自動運転車の AI農業のコンピュータビジョンなどの分野のイノベーションをご覧ください。 yolo ライセンスオプションをチェックして、Vision AIプロジェクトを実現しましょう。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる