Yolo 비전 선전
선전
지금 참여하기
용어집

수용 영역

컴퓨터 비전을 위한 CNN의 수용 영역(receptive field)이 갖는 중요성을 알아보세요. 수용 영역이 객체 감지, 분할 및 AI 최적화에 미치는 영향을 배우십시오.

컴퓨터 비전(CV) 과 딥러닝 영역에서 수용 영역은 학습 영역에서 수용 영역은 입력 이미지의 특정 영역을 의미하며, 신경망(NN) 레이어의 피처가 신경망(NN) 레이어의 피처가 보고 있는 입력 이미지의 특정 영역을 의미합니다. 개념적으로는 사람의 눈이나 카메라 렌즈의 시야와 매우 유사하게 작동하며, 특정 뉴런이 얼마나 많은 맥락을 인식할 수 있는지를 결정합니다. 특정 뉴런이 인식할 수 있는 컨텍스트를 결정합니다. 정보가 컨볼루션 신경망(CNN)을 통해 흐르면 컨볼루션 신경망(CNN)을 통해 정보가 흐르면 일반적으로 수용 영역이 확장되어 모델이 단순하고 낮은 수준의 특징을 감지하는 데 그치지 않고 복잡한 글로벌 형상을 이해하는 것으로 전환할 수 있습니다.

수신 필드의 역학

수신 필드의 크기와 효과는 네트워크의 아키텍처에 따라 결정됩니다. 모델의 초기 레이어에서 모델에서 뉴런은 일반적으로 작은 수용 필드를 가지며, 이는 작은 픽셀 클러스터만 처리한다는 의미입니다. 이 덕분에 가장자리, 모서리 또는 텍스처와 같은 세밀한 디테일을 포착할 수 있습니다. 네트워크가 깊어지면 풀링과 풀링과 스트라이드 컨볼루션과 같은 작업이 특징 맵을 효과적으로 다운샘플링합니다. 이 프로세스는 후속 뉴런의 수용 영역을 증가시켜 다음과 같은 작업을 수행할 수 있게 해줍니다. 원본 이미지의 더 많은 부분으로부터 정보를 수집할 수 있습니다.

다음과 같은 최신 아키텍처 Ultralytics YOLO11와 같은 최신 아키텍처는 이러한 필드의 균형을 맞추도록 세심하게 설계되었습니다. 수용 필드가 너무 작으면 모델이 전체 모양을 볼 수 없기 때문에 큰 물체를 물체를 인식하지 못할 수 있습니다. 반대로, 시야가 너무 넓으면 모델이 작은 물체를 놓치거나 작은 물체를 간과하거나 공간 해상도를 잃을 수 있습니다. 다음과 같은 고급 기술 확장 컨볼루션 (아트리스 컨볼루션이라고도 함)과 같은 고급 기술은 해상도를 낮추지 않고 수신 필드를 확장하는 데 자주 사용되며, 이는 다음과 같은 작업에 중요한 전략입니다. 시맨틱 세분화.

실제 애플리케이션

수신 필드 최적화의 실질적인 영향은 여러 가지 다양한 AI 솔루션 전반에 걸쳐 분명합니다.

  • 자율 주행: In 차량용 AI에서 차량은 신호등과 같은 작은 물체와 트럭 같은 큰 물체를 동시에 신호등과 같은 작은 물체와 트럭과 같은 큰 물체를 동시에 track 합니다. 잘 조정된 수신 필드를 사용하면 인식 시스템이 높은 정밀도를 유지할 수 있습니다. 멀리 떨어진 도로 표지판(로컬 컨텍스트 필요)에 대한 높은 정밀도를 유지하면서 주변 차량의 궤적(글로벌 컨텍스트 필요 컨텍스트 필요). 이러한 균형은 다음을 보장하는 데 필수적입니다. 도로 위의 AI 안전.
  • 의료 진단: 적용 시 의료 분야에서 AI를 적용할 때, 방사선 전문의는 고해상도 스캔에서 이상 징후를 감지하기 위해 모델을 사용하여 고해상도 스캔에서 이상 징후를 detect . 뇌종양을 식별하려면 뇌종양을 식별하려면 네트워크에 큰 장기의 구조와 위치를 파악할 수 있는 넓은 수신 필드가 필요합니다. 그러나 유방 촬영에서 미세 석회화를 detect 유방 촬영의 경우, 모델은 수용 필드가 작고 미세한 질감 변화에 민감한 초기 레이어에 의존합니다. 텍스처 변화에 민감합니다.

수용 영역(Receptive Field) vs. 관련 개념

네트워크 아키텍처를 완전히 이해하려면 수신 필드를 유사한 용어와 구분하는 것이 도움이 됩니다:

  • 수신 필드와 커널 크기 비교: 커널 크기 커널 크기는 슬라이딩 창에 사용되는 슬라이딩 창의 슬라이딩 창의 크기(예: 3x3)를 정의하는 하이퍼파라미터입니다. 컨볼루션 연산에 사용되는 슬라이딩 창 크기(예: 3x3)를 정의하는 하이퍼파라미터입니다. 수용 필드는 뉴런에 영향을 미치는 누적된 입력 영역의 총합을 나타내는 이머전 속성입니다. 3x3 커널을 여러 개 쌓으면 을 여러 개 쌓으면 3x3보다 큰 수용 필드가 됩니다.
  • 수신 필드 대 기능 맵: A 피처 맵은 입력의 학습된 표현을 포함하는 레이어에 의해 생성된 출력 볼륨으로, 입력의 학습된 표현을 포함합니다. 수용 필드는 해당 특징 맵의 단일 점과 피처 맵의 단일 점과 원본 입력 이미지 사이의 연결을 설명합니다.

코드에서 사용량 시각화

YOLO11 같은 최신 모델은 피처 피라미드 네트워크와 같은 멀티스케일 아키텍처를 활용하여 다양한 크기의 객체에 대해 모든 크기의 객체에 대해 효과적인 수용 필드를 유지합니다. 다음 예제는 모델을 로드하고 객체 감지 추론을 수행하는 방법을 보여줍니다. 이러한 내부 아키텍처 최적화를 활용하여 모델을 로드하고 객체 감지 추론을 수행하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load an official YOLO11 model with optimized receptive fields
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects of varying scales
# The model automatically handles multi-scale features
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

모델 디자인에서의 중요성

신경망을 설계하려면 데이터가 레이어를 통해 어떻게 흐르는지에 대한 깊은 이해가 필요합니다. 엔지니어는 적절한 활성화 기능 및 레이어 구성을 적절히 선택하여 소실 그라데이션과 같은 문제를 방지하기 위해 적절한 활성화 함수를 선택해야 합니다. 장거리 종속성을 학습하는 데 방해가 될 수 있습니다.

전이 학습을 사용하는 실무자의 경우 다음과 같은 모델에서 사전 훈련 된 수용 필드 ResNet 또는 YOLO 같은 모델의 사전 학습된 수용 필드는 일반적으로 일반 작업에는 충분합니다. 하지만 환경 모니터링용 위성 이미지와 같은 특수한 데이터를 다룰 때는 환경 모니터링과같은 특수 데이터를 다룰 때는 입력 해상도나 아키텍처를 조정하여효과적인 수신 필드를 수정하면 더 나은 정확도를 높일 수 있습니다. 다음과 같은 프레임워크에서 제공하는 도구 PyTorch 와 같은 프레임워크에서 제공하는 도구를 사용하면 연구자가 이러한 필드를 계산하고 시각화하여 필드를 계산하고 시각화하여 모델 성능을 디버깅할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기