物体検出、AIにおけるその重要性、およびYOLO11のようなモデルが自動運転車、ヘルスケア、セキュリティなどの業界をどのように変革しているかについて学びます。

物体検出、AIにおけるその重要性、およびYOLO11のようなモデルが自動運転車、ヘルスケア、セキュリティなどの業界をどのように変革しているかについて学びます。

多くの業界が、人工知能(AI)ソリューションを業務に急速に統合しています。今日利用できる多くのAIテクノロジーの中で、コンピュータビジョンは最も人気のあるものの1つです。コンピュータビジョンは、コンピュータが人間と同じように画像やビデオの内容を見て理解するのに役立つAIの分野です。これにより、機械が物体を認識し、パターンを識別し、見ているものを理解することが可能になります。
コンピュータビジョンの世界市場価値は、2032年までに1,757億2,000万ドルに成長すると推定されています。コンピュータビジョンには、Vision AIシステムが視覚データを分析および解釈できるようにするさまざまなタスクが含まれています。コンピュータビジョンの最も広く使用され、不可欠なタスクの1つは、物体検出です。
物体検出は、視覚データ内の物体の位置特定と分類に焦点を当てています。たとえば、コンピュータに牛の画像を表示すると、コンピュータは牛を検出し、その周りにバウンディングボックスを描画できます。この機能は、動物の監視、自動運転車、監視などの実際のアプリケーションで役立ちます。
では、物体検出はどのように実行できるのでしょうか?その一つの方法として、コンピュータビジョンモデルがあります。例えば、Ultralytics YOLO11は、物体検出のようなコンピュータビジョンタスクをサポートするコンピュータビジョンモデルです。
このガイドでは、物体検出とその仕組みについて解説します。また、物体検出とUltralytics YOLO11の実際のアプリケーションについても解説します。

物体検出は、画像またはビデオ内の物体を識別して位置を特定するコンピュータビジョンのタスクです。これは、「画像内にどのような物体があるか」と「それらはどこに位置しているか」という2つの重要な質問に答えます。
物体検出は、2つの主要なステップを含むプロセスと考えることができます。1つ目のステップである物体分類では、システムが学習したパターンに基づいて、猫、車、人などの物体を認識してラベル付けできます。2つ目のステップであるローカリゼーションでは、物体の周囲にバウンディングボックスを描画して、画像内のどこに表示されるかを示すことで、物体の位置を特定します。これらのステップを組み合わせることで、マシンはシーン内の物体を検出して理解できます。
物体検出をユニークなものにしている側面は、物体を認識し、その位置を正確に特定する能力です。他のコンピュータビジョンタスクは、異なる目標に焦点を当てています。
例えば、画像分類は画像全体にラベルを割り当てます。一方、画像セグメンテーションは、さまざまな要素のピクセルレベルの理解を提供します。一方、オブジェクト検出は、認識とローカリゼーションを組み合わせます。これにより、リアルタイムで複数のオブジェクトをカウントするようなタスクに特に役立ちます。

さまざまなコンピュータビジョンの用語を調べていると、物体認識と物体検出は交換可能であるように感じるかもしれませんが、それらは異なる目的を果たします。違いを理解するのに最適な方法は、顔検出と顔認識を見ることです。
顔検出は、物体検出の一種です。画像中の顔の存在を識別し、バウンディングボックスを使用してその位置を特定します。「画像内の顔はどこにあるか?」という問いに答えるものです。この技術は、顔に自動的に焦点を合わせるスマートフォンカメラや、人物の存在を検出する防犯カメラなどで一般的に使用されています。
顔認識は、一方では、物体認識の一形態です。顔を検出するだけでなく、独自の特徴を分析し、それらをデータベースと比較することによって、誰の顔であるかを識別します。それは、「これは誰ですか?」という質問に答えます。これは、Face IDで携帯電話のロックを解除したり、身元を確認する空港のセキュリティシステムの背後にあるテクノロジーです。
簡単に言うと、物体検出は物体を見つけて位置を特定し、物体認識は物体を分類して識別します。

YOLO11のような多くの物体検出モデルは、顔検出をサポートするように設計されていますが、顔認識はサポートしていません。YOLO11は、画像内の顔の存在を効率的に識別し、その周りにバウンディングボックスを描画できるため、監視システム、群衆監視、自動写真タグ付けなどのアプリケーションに役立ちます。ただし、それが誰の顔であるかを判断することはできません。YOLO11は、FacenetやDeepFaceなど、顔認識用に特別にトレーニングされたモデルと統合して、1つのシステムで検出と識別を両方とも有効にすることができます。
物体検出の仕組みを説明する前に、まずコンピュータがどのように画像を分析するかを詳しく見てみましょう。コンピュータは、私たちが見るように画像を認識するのではなく、画像をピクセルと呼ばれる小さな正方形のグリッドに分解します。各ピクセルには、コンピュータが視覚データを解釈するために処理できる色と明るさの情報が含まれています。
これらのピクセルを理解するために、アルゴリズムは形状、色、および互いの近さに基づいて、意味のある領域にグループ化します。YOLO11 などの物体検出モデルは、これらのピクセルグループ内のパターンまたは特徴を認識できます。
例えば、自動運転車は、私たちが見るような歩行者を見ているのではなく、歩行者の特徴に一致する形状とパターンを検出します。これらのモデルは、ラベル付けされた画像データセットを使用した広範なトレーニングに依存しており、車、交通標識、人などのオブジェクトの独特な特性を学習できます。
一般的な物体検出モデルは、バックボーン、ネック、ヘッドという3つの主要部分で構成されています。バックボーンは画像から重要な特徴を抽出し、ネックはこれらの特徴を処理および洗練し、ヘッドは物体の位置を予測して分類します。
初期検出が行われると、精度を向上させ、冗長な予測を除外するために、後処理技術が適用されます。たとえば、重複するバウンディングボックスは削除され、最も関連性の高い検出のみが保持されるようにします。また、検出されたオブジェクトが特定のクラスに属するとモデルがどれだけ確信しているかを表す数値である信頼度スコアが、各検出されたオブジェクトに割り当てられ、モデルの予測に対する確実性を示します。
最終的に、検出されたオブジェクトの周囲にバウンディングボックスが描画され、予測されたクラスラベルと信頼性スコアとともに結果が表示されます。これらの結果は、現実世界のアプリケーションで使用できます。
今日、多くのコンピュータビジョンモデルが利用可能であり、最も人気のあるモデルのいくつかはUltralytics YOLOモデルです。それらは、その速度、精度、および汎用性で知られています。長年にわたり、これらのモデルはより高速、より正確になり、より幅広いタスクを処理できるようになりました。Ultralytics YOLOv5のリリースにより、PyTorchのようなフレームワークでのデプロイメントが容易になり、より多くの人々が高度な技術的専門知識を必要とせずに高度なVision AIを使用できるようになりました。
この基盤を基に、Ultralytics YOLOv8は、インスタンスセグメンテーション、ポーズ推定、画像分類などの新機能を導入しました。現在、YOLO11は、複数のタスクにわたってパフォーマンスを向上させることで、さらに進化を遂げています。YOLO11mは、YOLOv8mよりもパラメータが22%少ないにもかかわらず、COCOデータセットでより高い平均適合率(mAP)を達成しています。簡単に言うと、YOLO11は、より少ないリソースを使用しながら、より高い精度で物体を認識できるため、より高速で信頼性が高くなります。
AIのエキスパートでも、始めたばかりの方でも、YOLO11はコンピュータビジョンアプリケーション向けの強力でユーザーフレンドリーなソリューションを提供します。
Vision AIモデルのトレーニングでは、コンピュータが画像やビデオを認識して理解できるように支援します。ただし、トレーニングには時間がかかる場合があります。最初から始める代わりに、転移学習は、一般的なパターンをすでに認識している事前トレーニング済みのモデルを使用することで、処理を高速化します。
例えば、YOLO11は、多様な日常オブジェクトのセットを含むCOCOデータセットですでにトレーニングされています。この事前トレーニングされたモデルは、元のデータセットに含まれていない可能性のある特定のオブジェクトを検出するために、さらにカスタムトレーニングできます。
YOLO11をカスタムトレーニングするには、検出したいオブジェクトの画像を含むラベル付きデータセットが必要です。例えば、食料品店でさまざまな種類の果物を識別するモデルを構築したい場合、リンゴ、バナナ、オレンジなどのラベル付き画像を含むデータセットを作成します。データセットの準備ができたら、YOLO11をトレーニングし、バッチサイズ、学習率、エポックなどのパラメータを調整してパフォーマンスを最適化できます。
このアプローチにより、企業は製造業における不良部品の検出から、自然保護プロジェクトにおける野生生物種の検出まで、あらゆるものを検出するように YOLO11 をトレーニングし、モデルを正確なニーズに合わせて調整できます。
次に、オブジェクト検出の実際のユースケースと、それがさまざまな業界をどのように変革しているかを見ていきましょう。
自動運転車は、物体検出などのコンピュータビジョンタスクを使用して、安全にナビゲートし、障害物を回避します。この技術は、歩行者、他の車両、くぼみ、道路の危険物を認識するのに役立ち、周囲の状況をより良く理解できるようにします。彼らは常に環境を分析することで、迅速な意思決定を行い、交通の中を安全に移動できます。

医療画像技術(X線、MRI、CTスキャン、超音波など)は、人体の非常に詳細な画像を生成し、病気の診断と治療に役立てられています。これらのスキャンは大量のデータを生成し、放射線科医や病理医などの医師が注意深く分析して病気を検出する必要があります。しかし、すべての画像を詳細に確認するには時間がかかり、人間の専門家は疲労や時間的制約により、詳細を見落とすことがあります。
YOLO11のような物体検出モデルは、臓器、腫瘍、異常などの医療スキャンにおける主要な特徴を、高精度で自動的に識別するのに役立ちます。カスタムトレーニングされたモデルは、懸念領域をバウンディングボックスで強調表示し、医師が潜在的な問題に迅速に焦点を当てるのに役立ちます。これにより、作業負荷が軽減され、効率が向上し、迅速な洞察が得られます。

オブジェクト追跡は、YOLO11によってサポートされているコンピュータビジョンタスクであり、リアルタイムの監視とセキュリティの強化を可能にします。オブジェクトを識別し、フレーム全体での動きを継続的に追跡することにより、オブジェクト検出を基に構築されています。このテクノロジーは、さまざまな環境での安全性を向上させるために、監視システムで広く使用されています。
例えば、学校や保育園では、物体追跡は子供たちを監視し、迷子になるのを防ぐのに役立ちます。セキュリティアプリケーションでは、立ち入り禁止区域への侵入者の検出、群衆の過密状態や不審な行動の監視、不正な活動が検出された場合のリアルタイムアラートの送信において重要な役割を果たします。YOLO11を搭載した追跡システムは、物体の動きを追跡することで、セキュリティを強化し、監視を自動化し、潜在的な脅威への迅速な対応を可能にします。
物体検出がさまざまな産業にもたらす主な利点をいくつかご紹介します。
これらの利点は、物体検出がさまざまなユースケースにどのように影響するかを示していますが、その実装に伴う課題を考慮することも重要です。主な課題を以下に示します。
物体検出は、コンピュータビジョンの分野で、画像や動画内の物体を検出し、位置を特定する革新的なツールです。自動運転車から医療まで、さまざまな分野で使用されており、タスクをより簡単に、より安全に、より効率的にします。YOLO11のような新しいモデルを使用することで、企業はカスタム物体検出モデルを簡単に作成し、特殊なコンピュータビジョンアプリケーションを構築できます。
プライバシーへの懸念や物体が視界から隠れてしまうといった課題はありますが、物体検出は信頼性の高い技術です。タスクの自動化、リアルタイムでの視覚データ処理、他のVision AIツールとの統合を可能にするその能力は、最先端のイノベーションに不可欠な要素となっています。
詳細については、GitHub リポジトリにアクセスして、コミュニティにご参加ください。ソリューションページで、自動運転車における AIや農業におけるコンピュータビジョンなどの分野におけるイノベーションをご覧ください。YOLO のライセンスオプションをご確認いただき、Vision AI プロジェクトを実現しましょう。🚀