YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

합성곱

합성곱이 컴퓨터 비전에서 AI를 어떻게 강화하여 객체 탐지, 이미지 인식, 정밀 의료 영상과 같은 작업을 가능하게 하는지 알아보세요.

컨볼루션은 딥 러닝(DL)에서, 특히 컴퓨터 비전(CV) 영역 내에서 기본적인 연산입니다. 이는 합성곱 신경망(CNN)의 주요 구성 요소 역할을 하여 모델이 이미지와 같은 그리드 형태의 데이터에서 계층적 특징을 자동으로 효율적으로 학습할 수 있도록 합니다. 이 프로세스에는 커널이라고 하는 작은 필터를 입력 이미지 위로 슬라이딩하여 가장자리, 텍스처 또는 모양과 같은 특정 패턴을 강조하는 특징 맵을 생성하는 작업이 포함됩니다. 이 방법은 동물의 시각 피질 구성에서 영감을 얻었으며 데이터 포인트 간의 공간적 관계가 중요한 작업에 매우 효과적입니다.

합성곱 작동 방식

핵심적으로 컨볼루션은 두 정보 세트를 병합하는 수학적 연산입니다. CNN의 맥락에서 컨볼루션은 입력 데이터(이미지의 픽셀 값)와 커널을 결합합니다. 커널은 특징 감지기 역할을 하는 가중치의 작은 행렬입니다. 이 커널은 입력 이미지의 높이와 너비를 따라 슬라이딩하며 각 위치에서 이미지의 겹치는 부분과 요소별 곱셈을 수행합니다. 결과는 합산되어 출력 특징 맵에서 단일 픽셀을 생성합니다. 이 슬라이딩 프로세스는 전체 이미지에서 반복됩니다.

CNN은 다양한 커널을 사용하여 광범위한 특징을 감지하도록 학습할 수 있습니다. 초기 레이어는 에지 및 색상과 같은 간단한 패턴을 인식하도록 학습할 수 있는 반면, 더 깊은 레이어는 이러한 기본 특징을 결합하여 눈, 바퀴 또는 텍스트와 같은 더 복잡한 구조를 식별할 수 있습니다. 시각적 특징의 계층 구조를 구축하는 이러한 능력이 CNN에 비전 작업에서 강력한 성능을 제공합니다. 이 프로세스는 두 가지 주요 원칙을 통해 계산적으로 효율적으로 이루어집니다.

  • 파라미터 공유: 동일한 커널이 전체 이미지에서 사용되므로 완전 연결 네트워크에 비해 학습 가능한 파라미터의 총 수가 크게 줄어듭니다. 이러한 효율적인 파라미터 사용 개념은 모델이 더 잘 일반화되도록 돕습니다.
  • 공간적 지역성: 이 연산은 서로 가까운 픽셀이 멀리 떨어진 픽셀보다 더 강력하게 관련되어 있다고 가정하며, 이는 자연 이미지에 매우 효과적인 강력한 귀납적 편향입니다.

딥러닝에서의 중요성

컨볼루션은 현대 컴퓨터 비전의 초석입니다. Ultralytics YOLO와 같은 모델은 강력한 특징 추출을 위해 백본 아키텍처에서 컨볼루션 레이어를 광범위하게 사용합니다. 이를 통해 객체 감지이미지 분할에서부터 보다 복잡한 작업에 이르기까지 광범위한 애플리케이션이 가능합니다. 컨볼루션의 효율성과 효과는 이미지 및 기타 공간 데이터를 처리하는 데 가장 적합한 방법이 되었으며, 비전 모델의 역사와 같은 리소스에 자세히 설명된 많은 최첨단 아키텍처의 기반을 형성합니다.

실제 애플리케이션

  • 의료 영상 분석: 헬스케어 AI에서 CNN은 컨볼루션을 사용하여 MRI 또는 CT 스캔과 같은 의료 스캔을 분석합니다. 커널은 종양 또는 기타 이상 징후의 특징적인 특정 질감과 모양을 감지하도록 학습되어 방사선 전문의가 더 빠르고 정확한 진단을 내릴 수 있도록 지원합니다. Radiology: Artificial Intelligence와 같은 저널에서 이러한 발전에 대해 자세히 알아볼 수 있습니다.
  • 자율 주행 차량: 자율 주행 자동차는 주변 환경을 인식하기 위해 CNN에 의존합니다. 컨볼루션은 카메라의 입력을 실시간으로 처리하여 보행자, 다른 차량, 차선 및 도로 표지판을 식별합니다. 이를 통해 자동차 시스템은 주변 환경에 대한 포괄적인 이해를 구축하고 Waymo와 같은 회사에서 개발한 기술에서 볼 수 있듯이 안전하게 탐색할 수 있습니다.

컨볼루션 vs. 관련 개념

컨볼루션(합성곱)을 다른 신경망 연산과 구별하는 것이 유용합니다.

  • 완전 연결 계층: 완전 연결 계층에서 모든 뉴런은 이전 계층의 모든 뉴런에 연결됩니다. 이미지의 경우 이는 공간 구조를 무시하고 엄청난 수의 파라미터로 이어지기 때문에 매우 비효율적입니다. 로컬 연결 및 파라미터 공유를 사용하는 컨볼루션은 훨씬 더 확장 가능하며 이미지 데이터에 더 적합합니다.
  • Vision Transformers (ViT): CNN의 로컬 특징 감지와 달리 Vision Transformersself-attention 메커니즘을 사용하여 서로 다른 이미지 패치 간의 전역 관계를 모델링합니다. 강력하지만 ViT는 일반적으로 이러한 관계를 처음부터 학습하려면 더 큰 데이터 세트가 필요한 반면, 컨볼루션의 귀납적 편향은 데이터 효율성을 높입니다. RT-DETR과 같은 하이브리드 모델은 두 접근 방식의 강점을 결합하는 것을 목표로 합니다.

도구 및 훈련

컨볼루션을 사용하는 모델의 구현 및 훈련은 다양한 딥 러닝 프레임워크에서 용이합니다. PyTorch(PyTorch 공식 사이트) 및 TensorFlow(TensorFlow 공식 사이트)와 같은 라이브러리는 CNN을 구축하기 위한 강력한 도구를 제공합니다. Keras와 같은 고급 API는 개발을 더욱 단순화합니다.

간소화된 경험을 위해 Ultralytics HUB와 같은 플랫폼을 통해 사용자는 데이터세트를 관리하고, 모델 학습을 수행하고, YOLO11과 같은 강력한 모델을 쉽게 배포할 수 있습니다. 컨볼루션, 커널 크기, 스트라이드, 패딩 및 결과 수용 필드와 같은 핵심 개념을 이해하는 것은 효과적인 모델 학습 및 아키텍처 설계에 매우 중요합니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.