Yolo 深圳
深セン
今すぐ参加
用語集

受容野

コンピュータビジョンにおけるCNNの受容野の重要性について解説します。それらが、物体検出、セグメンテーション、およびAIの最適化にどのように影響するかを学びます。

コンピュータビジョン(CV)とディープラーニングの領域において 受容野とは、ニューラルネットワーク(NN)層の特徴が見ている入力画像の特定の領域を指す。 ニューラルネットワーク(NN)レイヤーの特徴が見ている入力画像の特定の領域を指す。 概念的には、人間の目やカメラのレンズの視野のようなもので、特定のニューロンがどの程度のコンテキストを認識できるかを決定する。 を決定する。情報が 畳み込みニューラルネットワーク(CNN)を情報が流れると、受容野は一般的に拡大し、単純で低レベルの特徴の検出から、複雑でグローバルな形状の理解へとモデルを移行させることができる。 複雑でグローバルな形状の理解へと移行する。

受信フィールドの力学

受容野の大きさと有効性は、ネットワークのアーキテクチャによって支配される。モデルの初期層では の初期層では、ニューロンは通常小さな受容野を持つ。これにより これによって、エッジ、コーナー、テクスチャなど、きめの細かい細部を捉えることができる。ネットワークが深くなるにつれて プーリングや ストライド畳み込み 特徴マップをダウンサンプリングする。この処理により、後続のニューロンの受容野が拡大し、次のことが可能になる。 元の画像のより大きな部分から情報を集約することができる。

以下のような最新のアーキテクチャ Ultralytics YOLO11のような最新のアーキテクチャは これらの場のバランスをとるように注意深く設計されている。受容野が小さすぎると、モデルは大きな物体を認識できない。 なぜなら、全体的な形を見ることができないからである。逆に、受容野が効果的に広すぎると、モデルは小さな物体を見落としたり、空間解像度が低下したりする。 は小さな物体を見落としたり、空間分解能を失ったりする。次のような高度なテクニック 拡張畳み込み(アトラス畳み込みとも呼ばれる)のような高度な技法は、しばしば受容野を拡大するために採用される。 のような高度な技法は、解像度を落とさずに受容野を広げるためによく使われる。 セマンティック・セグメンテーションのようなタスクに重要な戦略である。

実際のアプリケーション

受容野を最適化することの実用的なインパクトは、さまざまな 様々なAIソリューションに現れている。

  • 自律走行:自動車用AI 自動車用AIでは、車両は信号機のような小さな物体とトラックのような大きな物体を同時に 信号機のような小さな物体とトラックのような大きな物体を同時にtrack しなければならない。よく調整された受容野により 知覚システムは、遠くの道路標識(局所的な文脈が必要 遠くの道路標識(ローカルな文脈を必要とする)に対して高い精度を維持しながら、近くの車両の軌跡(グローバルな文脈を必要とする)を理解することができる。 を必要とする)。このバランスは このバランスは、道路上でのAIの安全性を確保するために不可欠である。
  • 医療診断医療診断 AIを医療に応用する場合、放射線技師は高解像度のスキャン画像から異常を検出するモデル 高解像度のスキャン画像から異常をdetect します。脳腫瘍を特定するには 脳腫瘍を特定するためには、臓器の構造と位置を理解するために 臓器の構造と位置を理解するために、ネットワークは大きな受容野を必要とする。しかし マンモグラムの微小石灰化を検出するためには、このモデルは、受容野が小さく、微細なテクスチャの変化に敏感な初期層に依存する。 テクスチャの変化に敏感である。

受容野と関連概念

ネットワーク・アーキテクチャを完全に理解するためには、受容野を類似の用語と区別することが役に立つ:

  • 受容野対カーネルサイズ:カーネルサイズ カーネル・サイズ:カーネル・サイズは、スライディング・ウィンドウの次元(例えば3x3)を定義するハイパーパラメータである。 カーネルサイズとは、畳み込み演算で使用されるスライディングウィンドウ(例えば3x3)の次元を定義するハイパーパラメータである。 次元を定義するハイパーパラメータである。受容野は 受容野は、ニューロンに影響を与える、累積された入力領域の総和を表 す特性である。複数の3x3カーネルのスタック を積み重ねると、受容野は3x3より大きくなる。
  • レセプティブ・フィールド対フィーチャーマップ:A 特徴マップは 入力の学習された表現を含む。受容野は、その特徴マップ上の1点と元の入力画像との間のつながりを記述する。 受容野は、その特徴マップ上の1点と元の入力画像との間のつながりを記述する。

コードで使用状況を可視化する

YOLO11 ような最先端のモデルは、(Feature Pyramid Networkのような)マルチスケールアーキテクチャを利用して、あらゆる大きさの物体に対して有効な受容野を維持している。 あらゆる大きさの物体に対して有効な受容野を維持する。次の例では、モデルをロードし、物体検出推論を実行する方法を示します。 オブジェクト検出推論を実行する方法を示します。 このような内部アーキテクチャの最適化を活用しています。

from ultralytics import YOLO

# Load an official YOLO11 model with optimized receptive fields
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects of varying scales
# The model automatically handles multi-scale features
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

モデル設計における重要性

ニューラルネットワークを設計するには、データがレイヤーをどのように流れるかを深く理解する必要がある。エンジニアは 適切な活性化関数と層構成を選択しなければならない。 を選択しなければならない。 勾配の消失のような問題を防ぐために、適切な活性化関数と層構成を選択しなければならない。 勾配の消失のような問題を防ぐために、適切な活性化関数と層構成を選択しなければならない。

転移学習を使用する実務家にとって ResNetやYOLOのようなモデルで ResNetや YOLO モデルで事前に訓練された受容野は、通常、一般的なタスクには十分である。 で十分である。しかし、特殊なデータ、例えば環境モニタリングのための衛星画像を扱う場合 環境モニタリングのための衛星画像のような特殊なデータを扱う場合、有効な受容野を変更するために入力解像度やアーキテクチャを調整することで、より良い精度が得られるかもしれない。 精度が向上するかもしれない。以下のようなフレームワークによって提供されるツール PyTorchのようなフレームワークが提供するツールによって、研究者はこれらの場を計算し、可視化することができる。 フィールドを計算して可視化し、モデルの性能をデバッグすることができます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加