Yolo 비전 선전
선전
지금 참여하기
용어집

객체 감지 아키텍처

이미지 이해를 위한 AI의 핵심인 객체 감지 아키텍처의 강력한 기능을 경험해 보세요. 유형, 도구 및 실제 응용 분야를 오늘 알아보세요!

객체 감지 아키텍처는 딥 러닝 모델의 구조적 프레임워크 역할을 합니다. 딥 러닝 모델의 구조적 프레임워크 역할을 합니다. 시각적 데이터 내에서 고유한 항목을 식별하도록 설계된 딥러닝 모델의 구조적 프레임워크 역할을 합니다. 표준 이미지 분류와 달리, 이 아키텍처는 전체 사진에 하나의 레이블을 할당하는 표준 이미지 분류와 달리, 이러한 아키텍처를 사용하면 기계가 여러 개체를 인식하여 정확한 위치를 정의하고 경계 상자로 위치를 정의하고 각각에 특정 클래스 레이블을 할당할 수 있습니다. 이 아키텍처는 신경망이 픽셀 데이터를 의미 있는 인사이트로 처리하는 방법을 효과적으로 지시합니다. 인사이트, 모델의 정확도에 직접적인 영향을 미칩니다, 속도 및 계산 효율성에 직접적인 영향을 미칩니다.

탐지 아키텍처의 주요 구성 요소

대부분의 최신 탐지 시스템은 세 가지 주요 단계로 구성된 모듈식 설계에 의존합니다. 이러한 구성 요소를 이해하면 연구자와 엔지니어는 다음과 같은 다양한 작업에 적합한 도구를 선택할 수 있습니다. 의료 이미지 분석부터 산업 자동화.

  • 백본: 백본: 네트워크의 초기 부분으로, 특징 추출을 담당합니다. 백본은 일반적으로 컨볼루션 신경망(CNN) 으로 원시 이미지를 처리하여 가장자리, 질감, 모양과 같은 패턴을 식별합니다. 널리 사용되는 백본은 다음과 같습니다. 잔여 네트워크(ResNet) 및 크로스 단계 부분(CSP) 네트워크가 YOLO 모델에 사용됩니다. 특징 추출에 대한 더 깊은 이해를 위해 다음을 검토할 수 있습니다. 스탠포드 대학교의 CS231n 노트를 참조하세요.
  • 목: 목: 목은 등뼈와 머리 사이에 위치하며, 여러 단계의 피처 맵을 피처 맵을 수집합니다. 이를 통해 모델은 다양한 규모(소형, 중형, 대형)의 물체를 detect 수 있습니다. 여기서 사용되는 일반적인 여기서 사용되는 기술은 피처 피라미드 네트워크(FPN)입니다. 이미지의 다중 스케일 표현을 생성합니다.
  • 탐지 헤드: 최종 구성 요소는 최종 결과물을 생성하는 탐지 헤드로, 최종 예측을 생성하는 예측을 생성합니다. 바운딩 박스에 대한 특정 좌표와 각 클래스에 대한 신뢰 점수를 출력합니다.

아키텍처 유형

아키텍처는 일반적으로 처리 방식에 따라 분류되며, 이는 종종 추론 속도와 탐지 정밀도 사이의 추론 속도와 탐지 정밀도 사이의 절충점을 나타냅니다.

1단계 및 2단계 감지기 비교

  • 2단계 물체 감지기: R-CNN 제품군과 같은 이러한 모델은 두 가지 단계로 작동합니다. 먼저 영역 제안을 생성한 다음(물체가 존재할 수 있는 영역 영역)을 생성한 다음 해당 영역을 분류하는 것입니다. 역사적으로 높은 정밀도로 알려져 있지만 계산 집약적입니다. 원본을 읽을 수 있습니다. 더 빠른 R-CNN 백서에서 이 접근 방식의 근원을 이해할 수 있습니다.
  • 1단계 객체 감지기: 다음과 같은 아키텍처 Ultralytics YOLO 시리즈와 같은 아키텍처는 감지를 단일 회귀 문제로 처리하여 이미지에서 직접 바운딩 박스와 클래스 확률을 한 번에 예측합니다. 이 구조는 실시간 추론을 가능하게 합니다, 비디오 스트림과 엣지 디바이스에 이상적입니다.

앵커 기반 대 앵커 프리

이전 아키텍처는 종종 앵커 박스(모델이 오브젝트에 맞게 조정하는 앵커 박스를 사용했습니다. 하지만 최신 앵커 프리 디텍터는 YOLO11와 같은 최신 앵커 프리 디텍터는 이러한 수동 하이퍼파라미터 조정이 필요하지 않습니다. 그 결과 트레이닝 파이프라인이 간소화되고 일반화가 개선됩니다. 앞으로 YOLO26과 같은 향후 R&D 프로젝트는 이러한 앵커 프리 개념을 더욱 개선하는 것을 목표로 합니다. 이러한 앵커 프리 개념을 더욱 구체화하여 네이티브 엔드투엔드 아키텍처를 대상으로 효율성을 더욱 높이는 것을 목표로 합니다.

실제 애플리케이션

객체 감지 아키텍처의 다목적성은 여러 분야에서 혁신을 주도하고 있습니다:

  • 자율주행 차량: 자율주행차는 고속 detect 사용하여 보행자, 교통 표지판 및 기타 차량을 실시간으로 실시간으로 감지합니다. 웨이모와 같은 회사는 이러한 첨단 비전 시스템을 활용하여 복잡한 도시 환경을 복잡한 도시 환경을 안전하게 탐색합니다.
  • 리테일 분석: 리테일 부문에서는 다음과 같은 용도로 아키텍처가 배포됩니다. 스마트 슈퍼마켓 재고를 관리하고 고객 행동을 분석하기 위한 아키텍처를 구축합니다. 매장은 진열대의 제품 이동을 추적하여 재입고 프로세스를 자동화할 수 있습니다. 재입고 프로세스를 자동화할 수 있습니다.
  • 정밀 농업: 농부들은 이러한 모델을 다음과 같은 용도로 활용합니다. 농작물 질병을 식별하거나 자동화된 잡초 탐지를 수행하여 화학 물질 사용량을 크게 줄일 수 있습니다.

객체 감지 구현하기

YOLO11 같은 최신 아키텍처를 사용하는 것은 하이레벨 Python API를 사용하면 간단합니다. 다음 예제 는 사전 학습된 모델을 로드하고 이미지에 대해 추론을 수행하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object detection on a remote image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results (bounding boxes and labels)
results[0].show()

다양한 아키텍처 선택이 성능에 미치는 영향을 비교하는 데 관심이 있는 경우, 자세한 모델 비교를 통해 YOLO11 다른 시스템 간의 벤치마크를 확인할 수 있습니다. 시스템 간의 벤치마크를 RT-DETR. 또한, 메트릭 이해 같은 메트릭을 이해하는 것은 아키텍처가 작업을 얼마나 잘 수행하는지 평가하는 데 매우 중요합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기