용어집

백본

딥 러닝에서 백본의 역할에 대해 알아보고, ResNet 및 ViT와 같은 최고의 아키텍처를 살펴보고, 실제 AI 애플리케이션에 대해 알아보세요.

백본은 특히 컴퓨터 비전(CV)에서 딥러닝 모델의 핵심 구성 요소입니다. 백본은 기본 특징 추출 네트워크 역할을 합니다. 백본의 주요 역할은 이미지와 같은 원시 입력 데이터를 가져와 객체 감지, 이미지 분할 또는 분류와 같은 다운스트림 작업에 사용할 수 있는 일련의 고급 특징 또는 특징 맵으로 변환하는 것입니다. 백본은 이미지 내에서 가장자리, 질감, 모양, 물체와 같은 기본적인 패턴을 '보고' 이해하는 방법을 학습하는 신경망(NN) 의 일부로 생각할 수 있습니다.

백본의 작동 방식

백본은 일반적으로 이미지넷과 같은 대규모 이미지 분류 데이터 세트에 대해 사전 학습된 심층 컨볼루션 신경망(CNN) 입니다. 전이 학습의 한 형태인 이 사전 훈련 프로세스는 네트워크가 일반적인 시각적 특징의 방대한 라이브러리를 인식하도록 학습시킵니다. 개발자는 새로운 작업을 위한 모델을 구축할 때 처음부터 다시 시작하는 대신 이러한 사전 훈련된 백본을 사용하는 경우가 많습니다. 이 접근 방식은 훈련 시간과 필요한 레이블 데이터의 양을 크게 줄이면서 모델 성능을 향상시키는 경우가 많습니다. 그런 다음 백본에서 추출한 특징은 네트워크의 '목'과 '머리'로 전달되어 추가 처리를 수행하고 최종 결과물을 생성합니다. 백본의 선택에는 정확도, 모델 크기, 추론 지연 시간 간의 절충이 수반되는 경우가 많으며, 이는 실시간 성능을 달성하는 데 매우 중요한 요소입니다.

일반적인 백본 아키텍처

백본의 설계는 수년에 걸쳐 발전해 왔으며, 새로운 아키텍처가 나올 때마다 효율성과 성능이 향상되었습니다. 가장 영향력 있는 백본 아키텍처는 다음과 같습니다:

  • 잔여 네트워크(ResNet): Microsoft Research에서 도입한 ResNet 모델은 '연결 건너뛰기'를 사용하여 네트워크가 잔여 함수를 학습할 수 있도록 합니다. 이 혁신 덕분에 사라지는 기울기 문제 없이 훨씬 더 깊은 네트워크를 훈련할 수 있게 되었습니다.
  • EfficientNet: Google AI에서 개발한 이 모델 제품군은 복합 스케일링 방법을 사용하여 네트워크 깊이, 너비, 해상도의 균형을 균일하게 맞춥니다. 그 결과 매우 정확하고 계산 효율이 높은 모델이 생성됩니다.
  • 비전 트랜스포머(ViT): NLP의 성공적인 트랜스포머 아키텍처를 비전에 적용한 ViT는 이미지를 일련의 패치로 취급하고 자체 주의를 사용하여 글로벌 컨텍스트를 캡처함으로써 CNN의 로컬 수신 필드와는 다른 접근 방식을 제공합니다.
  • CSPNet(교차 단계 부분 네트워크): 원본 백서에 설명된 이 아키텍처는 네트워크 단계의 시작과 끝에서 피처 맵을 통합하여 학습을 개선함으로써 그라데이션 전파를 향상시키고 계산 병목 현상을 줄입니다. 이 아키텍처는 많은 Ultralytics YOLO 모델의 핵심 구성 요소입니다.

백본 대 머리와 목

일반적인 객체 감지 아키텍처에서 모델은 세 가지 주요 부분으로 구성됩니다:

  1. 백본: 백본의 역할은 입력 이미지에서 특징 추출을 수행하여 다양한 스케일의 특징 맵을 생성하는 것입니다.
  2. 목: 이 컴포넌트는 백본과 헤드 사이에 위치합니다. 백본의 피처 맵을 정제하고 집계하며, 종종 여러 계층의 피처를 결합하여 더욱 풍부한 표현을 구축합니다. 일반적인 예로 피처 피라미드 네트워크(FPN)를 들 수 있습니다.
  3. 감지 헤드: 네트워크의 마지막 부분으로, 목에서 정제된 특징을 가져와 실제 감지 작업을 수행합니다. 이미지의 객체에 대한 경계 상자, 클래스 레이블, 신뢰도 점수를 예측합니다.

따라서 백본은 나머지 탐지 모델을 구축하는 기반이 됩니다. YOLOv8YOLO11과 같은 모델은 강력한 백본을 통합하여 고품질의 특징 추출을 보장하며, 이는 다양한 작업에서 최첨단 성능을 발휘하는 데 필수적인 요소입니다. 아키텍처 선택이 성능에 미치는 영향을 확인하기 위해 다양한 YOLO 모델 비교를 살펴볼 수 있습니다.

실제 애플리케이션

백본은 수많은 AI 애플리케이션의 기본 구성 요소입니다:

  1. 자율 주행: 자율 주행 차량의 시스템은 카메라와 LiDAR 센서의 입력을 처리하기 위해 강력한 백본(예: ResNet 또는 EfficientNet 변형)에 크게 의존합니다. 추출된 특징을 통해 차량, 보행자, 신호등, 차선을 감지하고 분류할 수 있으며, 이는 웨이모와 같은 회사에서 개발한 시스템에서 볼 수 있듯이 안전한 주행과 의사 결정에 매우 중요한 요소입니다.
  2. 의료 이미지 분석: 의료 AI 솔루션에서 백본은 엑스레이, CT, MRI와 같은 의료 스캔을 분석하는 데 사용됩니다. 예를 들어, DenseNet과 같은 백본은 흉부 엑스레이에서 특징을 추출하여 폐렴의 징후를 감지하거나 CT 스캔에서 잠재적인 종양을 식별할 수있습니다(관련 연구: 방사선학: AI). 이는 방사선 전문의의 진단과 치료 계획에 도움을 줍니다. YOLO11과 같은 울트라 애널리틱스 모델은 강력한 백본을 활용하여 종양 감지와 같은 작업에 적용할 수 있습니다.

데이터 세트 관리와 사용자 지정 모델 학습을 간소화하는 Ultralytics HUB와 같은 플랫폼을 사용하여 자체 프로젝트에 강력한 백본을 사용하는 프로세스를 간소화할 수 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨