Ultralytics YOLO11による小物体検知の探索
Ultralytics YOLO11が、監視やロボティクスなどの実世界のアプリケーション全体で、どのように高速かつ正確な小物体検知を実現するかを発見してください。

ビジョンAIを搭載したドローンは、地上数百メートルの高さを飛行しながら、映像フィード上でわずか数ピクセルにしか見えない人物を検出することが求められます。実際、これはロボティクス、監視、リモートセンシングといったアプリケーションにおける一般的な課題であり、システムは画像内の非常に小さな物体を識別しなければなりません。
しかし、従来のobject detectionモデルでは、これを実現するのに苦労する場合があります。画像や動画内の小さな物体は、限られた視覚情報しか表していません。簡単に言えば、モデルがそれらを見るとき、そこから学習したり認識したりするための詳細な情報がほとんどないのです。
内部的には、これらのモデルは通常、畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャに依存しています。画像はネットワークの層を通過し、生のピクセルではなく、関連するパターンを強調する特徴マップや簡略化された表現へと変換されます。
画像がネットワークのより深い層へ進むにつれて、これらの特徴マップは小さくなります。これにより計算は高速化されますが、同時に細かいディテールが失われる可能性があります。
非常に小さな物体の場合、それらのディテールが極めて重要です。ディテールが失われると、コンピュータビジョンモデルは物体の検出が困難になり、バウンディングボックスの精度が低下したり、不一致が生じたりする可能性があります。
リアルタイムのエンドツーエンドのコンピュータビジョンシステムでは、これをさらに困難にします。高解像度の画像はディテールの維持に役立ちますが、推論が遅くなり、より多くのGPUパワーを必要とします。解像度を下げると高速化しますが、小さな物体はさらに検出しにくくなります。
これは、スピード、精度、ハードウェア制限の間の絶え間ないバランス調整となります。最近の技術の進歩により、Ultralytics YOLO11や次期モデルのUltralytics YOLO26のようなコンピュータビジョンモデルは、このトレードオフをより効果的に管理できるように設計されています。

図1:YOLO11を使用して航空画像内の小さな物体を検出する (Source)
本記事では、なぜ小物体検出が困難なのか、そしてYOLO11がそれをどのように容易にするのかを探ります。それでは始めましょう!
Link to this section小物体検出とは何か、そしてなぜそれが重要なのか?#
小物体検出は、AIの一分野であるコンピュータビジョンにおけるタスクであり、画像のごく小さな部分を占める物体の識別と位置特定に焦点を当てています。これらの物体は、デジタル画像の最小単位である限られた数のピクセルで表現されることが多く、そのため、より大きく鮮明なターゲット(多くのピクセルを含む)よりも検出が困難になります。
例えば、航空画像内の車両、工場の床にある工具、広角監視カメラで捉えられた人物などは、すべて画像内で小さな物体として見えます。これらを検出することは、多くの場合、重要な情報を含んでいるため重要であり、監視などの多くの実世界のアプリケーションは、これらの検出が正しく機能することに依存しています。
小さな物体を見逃すと、システムのパフォーマンスや意思決定に影響が出る可能性があります。無人航空機(UAV)による監視はその良い例で、地上で動く小さな物体を見逃すと、ナビゲーションや追跡の精度に影響を与える可能性があります。
Link to this section小物体検出に関連する課題#
初期のシステムでは、手作業で設計された特徴量や従来のコンピュータビジョン手法が使用されており、複雑または多様なシーンでは困難がありました。今日ではディープラーニングモデルがはるかに優れた性能を発揮していますが、小さなターゲットが画像内のごくわずかな部分しか占めていない場合、その検出は依然として困難です。
次に、小さな物体を検出する際にさまざまな実世界のシナリオで現れる一般的な課題のいくつかを見ていきましょう。
Link to this sectionサイズ、ピクセル、情報の損失#
小さな物体はごくわずかなピクセルしか含まれていないため、特徴抽出などの段階でモデルが学習できる視覚的な詳細情報が制限されます。その結果、エッジ、形状、テクスチャなどのパターンが検出しにくくなり、小さな物体は背景に溶け込みやすくなります。
画像がニューラルネットワークのconvolutional layersを通る際、ピクセル内の視覚情報は徐々に特徴マップへと圧縮されます。これはモデルの効率を維持するのに役立ちますが、同時に細かいディテールが消失することを意味します。

図2:特徴マップは画像内の視覚パターンを表す (Source)
小さなターゲットの場合、検出ネットワークが機能する前に重要なヒントが消失してしまう可能性があります。そうなると、位置特定が不安定になり、バウンディングボックスがずれたり、重なったり、あるいはターゲットを完全に見逃したりすることがあります。
Link to this sectionオクルージョン、スケールのバリエーション、コンテキスト#
サイズに関連する課題は、多くの場合オクルージョンによっても引き起こされます。オクルージョンとは、物体(特に小さなもの)がシーン内の他の物体によって部分的に隠される現象です。
これによりターゲットの可視領域が減少し、物体検出器が利用できる情報が制限されます。わずかなオクルージョンであっても、特に低解像度の入力と組み合わさると、検出ネットワークが混乱する可能性があります。これの興味深い例として、VisDroneのようなUAVデータセットがあります。そこでは、歩行者、自転車、車両が建物、木、または他の移動物体によって部分的に隠されることがあります。

図3:小さな物体を示すVisDroneデータセットの例 (Source)
同様に、距離やカメラ位置に応じて同じ物体が非常に小さく見えたり、相対的に大きく見えたりする場合、スケールのバリエーションがさらなる困難をもたらします。これらのハードルにもかかわらず、検出アルゴリズムは精度を落とすことなく、さまざまなスケールでこれらの小さな物体を認識しなければなりません。
コンテキストも検出において重要な役割を果たします。例えば、大きな物体は通常、役立つ視覚的手がかりを提供する明確な周囲環境と共に現れます。一方で、小さなターゲットにはこのコンテキスト情報が欠けていることが多く、パターン認識がより困難になります。
Link to this section小物体検出における隠れたメトリクスの問題#
一般的な評価指標であるIntersection over Union (IoU)は、予測されたバウンディングボックスがグラウンドトゥルースボックスとどの程度重なっているかを測定します。IoUは大きな物体にはうまく機能しますが、小さな物体では挙動が大きく異なります。
小さな物体はわずか数ピクセルしか占めないため、予測ボックスが少しずれるだけでも、相対的に大きな誤差が生じ、IoUスコアが急激に低下します。つまり、画像内で物体が目視できる場合であっても、小さな物体は予測を正解と見なすための標準的なIoUしきい値を満たせないことがよくあります。
その結果、位置特定の誤差が誤陽性や偽陰性に分類される可能性が高くなります。こうした限界から、研究者は物体検出システムが小さな、検出困難なターゲットを評価し処理する方法を再考するようになっています。
Link to this sectionマルチスケール特徴量:リアルタイム小物体検出の鍵#
小物体検出を改善するための研究が進む中で、複数のスケールにわたって視覚情報を保持し表現することが不可欠であることが明らかになりました。この知見は、最近のarXivの研究や、IEEE国際会議および欧州コンピュータビジョン協会(ECCV)などの会場で発表された論文でも裏付けられています。
画像がニューラルネットワークのより深い層へ進むと、小さな物体はディテールを失ったり、完全に消失したりする可能性があるため、YOLO11のような最新のコンピュータビジョンモデルは、特徴抽出の改善に強く重点を置いています。次に、特徴マップと特徴ピラミッドネットワーク(FPN)の核心となる概念を順を追って理解していきましょう。
Link to this section特徴マップとスケール表現#
リモートセンシング画像のような入力画像がニューラルネットワークに入ると、徐々に特徴マップへと変換されます。これらは、エッジ、形状、テクスチャなどの視覚パターンを強調する、画像の簡略化された表現です。
ネットワークが深くなるにつれて、これらの特徴マップは空間サイズが小さくなります。この削減はモデルを効率的に動作させ、高レベルの情報に集中させるのに役立ちます。しかし、特徴マップの縮小と深化は、空間的なディテールを低下させます。

図4:特徴抽出は小物体検出の鍵である (Source)
大きな物体は正確な検出に必要な十分な視覚情報を保持していますが、小さなターゲットはわずか数層のネットワークを通過しただけで重要な詳細を失ってしまう可能性があります。そうなると、モデルは小さな物体の存在さえ認識できなくなることがあります。これが、ディープな物体検出モデルで小さな物体が見逃される主な理由の一つです。
Link to this section特徴ピラミッドネットワークとマルチスケール学習#
Feature pyramid networks(しばしばFPNと呼ばれる)は、空間的な詳細情報の損失に対処するために導入されました。これらは、複数の層からの情報を組み合わせるサポートモジュールとして機能し、モデルがより効果的に小さな物体を検出できるようにします。このプロセスは、特徴集約や特徴融合とも呼ばれます。
浅い層は細かい空間的ディテールを提供し、深い層はセマンティックなコンテキストを追加することで、効果的なマルチスケール特徴学習を可能にします。単に特徴マップを拡大する単純なアップサンプリングとは異なり、FPNは意味のある情報を保持し、小物体検出を向上させます。
現代のアプローチでは、適応型特徴融合やコンテキスト認識設計を使用してこのアイデアを構築し、小さなターゲットの検出をさらに強化しています。言い換えれば、FPNはモデルが全体像と細かいディテールの両方を同時に見るのを助けます。この最適化は、物体が小さい場合に不可欠です。
Link to this section物体検出モデルがいかにして小さな物体を処理するように進化したか#
物体検出モデルが、小さな物体を含め、さまざまなサイズの物体をより良く検出するために、時間の経過とともにどのように進化し進歩してきたかを以下に概観します:
- 初期の検出手法: 初期のアプローチは、手作業で設計された特徴量や、古典的な画像処理に基づいたルールベースのアルゴリズムに依存していました。これらの特徴量は固定されていたため、異なる画像では性能が低下しました。
- 機械学習とディープラーニングの導入: 機械学習とディープラーニングの採用は、物体検出研究における大きな転換点となりました。あらかじめ定義されたルールに頼るのではなく、ニューラルネットワークがトレーニングデータから直接視覚表現を学習することで、さまざまな物体のサイズやシーンに対する適応性が向上しました。
- 畳み込みネットワーク: これらのニューラルネットワークは、画像内のパターンを認識することを学習します。各層が異なる詳細を拾い上げ、単純なエッジや色から始まり、形状、そして最終的には完全な物体へと進むため、現代のコンピュータビジョンにおいて不可欠な存在となっています。
- 2ステージ物体検出器: GirshickとRenによって導入されたFaster R-CNNなどの2ステージ検出器は、まず候補領域を生成してから分類を行いました。このアプローチは小さな物体の精度を向上させましたが、計算コストが増加し、リアルタイム性能を低下させました。
- 1ステージ物体検出器: SSD(Single-Shot Detector)やYOLO(You Only Look Once)ファミリー(YOLOv3、Ultralytics YOLOv5、その後のUltralytics YOLOv8を含む)のような1ステージ検出器は、単一のパスで検出を行います。この設計により、推論速度が大幅に向上しつつ、競争力のある精度が維持されます。
- 最新の最先端モデル: より新しい物体検出モデルは、リアルタイム性能とエッジデバイスへの展開に重点を置いています。Ultralytics YOLO11や次期モデルのUltralytics YOLO26といった最新のUltralytics YOLOモデルリリースは、高い精度と低レイテンシの推論をバランスよく実現するように設計されており、計算能力が制限されたデバイス上でも、小さなターゲットを含むあらゆるサイズの物体の検出に適しています。
Link to this section小物体検出のユースケースにおけるYOLO11の活用#
小物体検出がどのように機能するかを理解したところで、YOLO11が適用できるいくつかの実世界のアプリケーションを見てみましょう。
Link to this sectionUAVおよび航空画像#
忙しい都市の通りを高い場所から見下ろすドローンを想像してみてください。その高さからは、車、自転車、さらには人さえも、画面上でわずか数ピクセルにまで縮小してしまいます。
UAVおよび航空画像モジュールは、このようなシーンを頻繁に捉えます。そこでは、興味の対象となる物体は微小であり、雑然とした背景に囲まれているため、コンピュータビジョンモデルにとっては検出が困難になります。
このようなシナリオでは、YOLO11が理想的なモデルの選択肢となり得ます。例えば、YOLO11のようなモデルを搭載したドローンは、リアルタイムで交通状況を監視し、それぞれの物体が画像のごく一部しか占めていない場合でも、移動する車両、自転車、歩行者を検出できます。これにより、交通管理、公共の安全、都市計画といったアプリケーションにおいて、より迅速な意思決定とより正確な洞察が可能になります。
Link to this sectionロボティクスと自動化#
ロボットは、精度とタイミングが重要な環境でよく使用されます。倉庫、工場、農場などの現場では、ロボットは組み立てライン上の部品、パッケージのラベル、あるいは畑の小さな植物の芽のような、非常に小さな物体を認識し、迅速に対応する必要があるかもしれません。
このサイズの物体を検出することは、カメラフィード上でわずか数ピクセルとして現れる場合や、他の物体によって部分的に隠されている場合には特に複雑になる可能性があります。こうした小さなディテールを見逃すと、自動化の速度が低下したり、タスクを完了するロボットの能力に影響を与えたりする可能性があります。
YOLO11は、こうした状況で違いを生み出すことができます。その向上した特徴抽出機能と高速な推論機能により、ロボットはリアルタイムで小さな物体を検出し、直ちに行動を起こすことができます。
YOLO11はインスタンスセグメンテーションもサポートしており、これはロボットが一般的なバウンディングボックスの位置を特定するだけでなく、物体の境界や把持ポイントをより正確に理解するのに役立ちます。例えば、YOLO11を統合したロボットアームは、コンベアベルト上の小さな部品を見つけ、その正確な形状をセグメンテーションし、それらが手の届かない範囲に移動する前に掴み取ることができ、システムの効率と信頼性の維持に貢献します。
Link to this sectionYOLO11を小物体検出に効果的なものにしている要因#
今日、多くのコンピュータビジョンモデルが入手可能であるため、なぜUltralytics YOLO11が際立っているのか疑問に思うかもしれません。
Ultralytics YOLO11が、小さな物体を検出する必要があるアプリケーションにとって優れた選択肢である理由をいくつか挙げます:
- Better feature extraction:YOLO11は、改善されたバックボーンおよびネックアーキテクチャを使用して特徴抽出を強化し、より正確な物体検出を可能にします。
- エコシステムと使いやすさ:Ultralytics Python packageは、YOLO11のようなモデルのロード、トレーニング、検証、展開を行うための組み込み関数を提供するライブラリです。これらのワークフローはわずか数行のコードで済むため、チームは小物体検出のために迅速に実験を行い、モデルを微調整することができます。
- エッジ展開向けに最適化:YOLO11は、NVIDIA Jetson、Raspberry Pi、産業用カメラシステムなどのエッジデバイス上で効率的に動作します。簡単に言えば、デバイス上で直接リアルタイムのビジョンAIタスクを実現します。
Link to this sectionYOLO11で小さな物体を検出する際に使用する実践的な戦略#
YOLO11のようなモデルを使用することに加え、アノテーションの準備方法、データセット全体、およびモデルのトレーニング手順が、検出性能に大きな違いをもたらす可能性があります。
焦点を当てるべきポイントの簡単な概要は以下の通りです:
- 適切なデータオーギュメンテーション: スケーリングやクロッピングのような軽いデータオーギュメンテーションは、モデルが新しい画像に対して汎化するのに役立ちます。ただし、過度に強力な大規模オーギュメンテーションは、小さな物体を歪ませたり削除したりして、モデルが学習するのを難しくする可能性があります。
- 失敗ケースの分析: モデルが物体を見逃したり誤認識したりする場所を分析することは、ベースラインを作成し、問題がデータセットに起因しているのか、特徴抽出中に情報が失われているのか、あるいはトレーニング設定の調整が必要なのかを明らかにすることに役立ちます。
- データセットの構成: データセットには、モデルが意味のあるパターンを学習できるように、小さな物体の例が十分に含めるべきであり、トレーニング中に大きな物体が小さな物体を圧倒しないよう、バランスを保つ必要があります。
Link to this section重要なポイント#
小物体検出は、画像がコンピュータビジョンモデルを通過する際に、小さなターゲットがディテールを失うため困難です。YOLO11はこれらのディテールがどのように保持されるかを改善し、リアルタイム性能を犠牲にすることなく小物体検出をより信頼性の高いものにします。このバランスにより、YOLO11は実世界のアプリケーションにおいて正確かつ効率的な検出をサポートします。
成長を続ける私たちのコミュニティに参加してください!GitHubリポジトリを探索して、AIについてさらに詳しく学びましょう。小売におけるコンピュータビジョンや自動車業界におけるAIなどのイノベーションについては、ソリューションページをご覧ください。今日からコンピュータビジョンで開発を始めるには、ライセンスオプションをご確認ください。






