Receptive Field
受容野がニューラルネットワークの視覚範囲をどのように定義するかを解説します。Ultralytics YOLO26が空間コンテキストを最適化し、あらゆるサイズのオブジェクトを効果的に検出する方法を学びましょう。
コンピュータビジョン (CV) およびディープラーニングの領域において、受容野とはニューラルネットワーク (NN) 内の特定のニューロンが「見る」または分析する入力画像の特定の領域を指します。概念的には、人間の目やカメラレンズの視野と同様に機能します。これは、モデルがある層においてどの程度の空間的コンテキストを認識できるかを決定するものです。データが畳み込みニューラルネットワーク (CNN) 内を進むにつれて、受容野は通常拡大していき、システムはエッジやコーナーのような小さな局所的ディテールを特定する段階から、オブジェクト全体やシーンのような複雑なグローバル構造を理解する段階へと移行できるようになります。
Link to this section受容野のメカニズム#
受容野のサイズと深さは、ネットワークのアーキテクチャによって決まります。初期の層では、ニューロンは通常小さな受容野を持ち、細かいテクスチャを捉えるためにごくわずかなピクセルの集まりに焦点を合わせます。ネットワークが深くなるにつれ、プーリング層やストライド畳み込みなどの演算が、効果的に特徴マップをダウンサンプリングします。このプロセスにより、後続のニューロンは元の入力のより広い部分から情報を集約できるようになります。
最先端のUltralytics YOLO26を含む現代のアーキテクチャは、これらの領域を精緻にバランスさせるように設計されています。受容野が狭すぎると、モデルは形状全体を認識できないため、大きなオブジェクトを認識できない可能性があります。逆に、解像度を維持せずに受容野が広すぎると、モデルは小さなオブジェクトを見逃す可能性があります。これに対処するため、エンジニアは拡張畳み込み(atrous畳み込みとも呼ばれます)を使用して、空間解像度を低下させることなく受容野を拡大することがよくあります。これはセマンティックセグメンテーションのような高精度タスクにとって不可欠な手法です。
Link to this section実社会での応用#
受容野の最適化は、さまざまなAIソリューションの成功にとって極めて重要です。
- 自動運転: 自動車向けAIにおいて、認識システムは微細なディテールと大きな障害物を同時に追跡する必要があります。車両は遠くの信号機を識別するために小さな受容野を必要とする一方で、近くのトラックの軌道や道路の曲率を理解するために大きな受容野も必要とします。このマルチスケール認識により、より優れたAI安全性と意思決定が保証されます。
- 医療診断: ヘルスケアにおけるAIを適用する場合、放射線科医はスキャン内の異常を見つけるためにモデルに依存します。脳腫瘍を特定するには、脳全体の対称性と構造を理解するために、ネットワークは大きな受容野を必要とします。しかし、マンモグラフィにおける微小石灰化を検出する場合、モデルは微妙なテクスチャ変化に敏感な小さな受容野を持つ初期層に依存します。
Link to this section関連概念の区別#
ネットワーク設計を完全に理解するためには、受容野を類似の用語と区別することが役立ちます。
- 受容野とカーネルの違い: カーネル(またはフィルタ)サイズは、単一の畳み込み演算におけるスライディングウィンドウの次元(例:3x3)を定義します。受容野は、ニューロンに影響を与える累積的な入力領域全体を表す創発的なプロパティです。複数の3x3カーネルを重ねると、受容野は3x3よりもはるかに大きくなります。
- 受容野と特徴マップの違い: 特徴マップは層によって生成される出力ボリュームであり、学習された表現を含んでいます。受容野は、その特徴マップ上の単一の点と元の入力画像との関係を記述するものです。
- 受容野とコンテキストウィンドウの違い: どちらの用語も認識されたデータの範囲を指しますが、「コンテキストウィンドウ」は通常、自然言語処理 (NLP) やビデオ分析において、時間的または順序的な範囲(例:トークン制限)を示すために使用されます。受容野は、グリッド状のデータ(画像)における空間的な領域を厳密に指します。
Link to this sectionコードにおける実用的な使用方法#
新しいYOLO26のような最先端モデルは、Feature Pyramid Networks (FPN) を利用して、あらゆるサイズのオブジェクトに対して効果的な受容野を維持しています。以下の例は、モデルをロードしてオブジェクト検出を実行し、これらの内部アーキテクチャ最適化を自動的に活用する方法を示しています。最適化されたアーキテクチャで独自のモデルをトレーニングしたいユーザーは、Ultralytics Platformを利用して、シームレスなデータセット管理とクラウドトレーニングを行うことができます。
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()





