受容野がニューラルネットワークが何を見るかをどのように定義するかを探ります。Ultralytics YOLO26があらゆるサイズのオブジェクトを効果的にdetectするために空間コンテキストを最適化する方法を学びましょう。
コンピュータビジョン (CV)とディープラーニングの分野において、受容野とは、ニューラルネットワーク (NN)内の特定のニューロンが「見る」または分析する入力画像の特定の領域を指します。概念的には、人間の目やカメラレンズの視野と同様に機能します。これは、モデルが任意の層でどれだけの空間的コンテキストを知覚できるかを決定します。畳み込みニューラルネットワーク (CNN)を介してデータが進行するにつれて、受容野は通常拡大し、システムがエッジやコーナーのような微細な局所的詳細の識別から、オブジェクト全体やシーンのような複雑なグローバル構造の理解へと移行することを可能にします。
受容野の大きさと深さはネットワークのアーキテクチャによって決定される。 初期層では、ニューロンは通常小さな受容野を持ち、微細なテクスチャを捉えるためにピクセルの小さなクラスターに焦点を当てる。ネットワークが深くなるにつれ、プーリング層 やストライド畳み込みなどの操作によって特徴マップが効果的にダウンサンプリングされる。このプロセスにより、後続のニューロンは元の入力のより広範な領域からの情報を統合できるようになる。
Ultralytics 現代のアーキテクチャは、これらの受容野を緻密にバランスさせるよう設計されている。受容野が狭すぎると、モデルは物体の形状全体を認識できず、大きな物体を認識できない可能性がある。 逆に、解像度を維持せずに受容野が過度に広すぎると、モデルは小さな物体を見逃す可能性がある。この問題を解決するため、エンジニアはしばしば拡張畳み込み(アトラス畳み込みとも呼ばれる)を用いて、空間解像度を低下させることなく受容野を拡張する。この技術は、セマンティックセグメンテーションのような高精度タスクに不可欠である。
受容野の最適化は、様々なAIソリューションの成功にとって極めて重要である。
ネットワーク設計を完全に理解するには、受容野を類似の用語と区別することが有用である:
新しいYOLO26のような最先端モデルは、あらゆるサイズのオブジェクトに対して効果的な受容野を維持するためにFeature Pyramid Networks (FPN) を利用します。以下の例は、これらの内部アーキテクチャ最適化を自動的に活用しながら、モデルをロードし、オブジェクト検出を実行する方法を示しています。最適化されたアーキテクチャで独自のモデルをトレーニングしたいユーザーは、シームレスなデータセット管理とクラウドトレーニングのためにUltralytics Platformを利用できます。
from ultralytics import YOLO
# Load the latest YOLO26 model with optimized multi-scale receptive fields
model = YOLO("yolo26n.pt")
# Run inference; the model aggregates features from various receptive field sizes
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results, detecting both large (bus) and small (person) objects
results[0].show()

未来の機械学習で、新たな一歩を踏み出しましょう。