합성곱 신경망(CNN)
합성곱 신경망(CNN)이 의료, 자율 주행 자동차 등에서 AI를 강화하여 컴퓨터 비전을 어떻게 혁신하는지 알아보세요.
CNN(Convolutional Neural Network)은 이미지와 같이 그리드와 유사한 토폴로지를 가진 데이터를 처리하는 데 매우 효과적인 특수한 유형의 신경망(NN)입니다. 인간의 시각 피질에서 영감을 받은 CNN은 입력 데이터에서 특징의 공간적 계층 구조를 자동으로 적응적으로 학습합니다. 따라서 CNN은 대부분의 최신 컴퓨터 비전(CV) 작업의 기본 아키텍처가 되었으며, 이미지 분류에서 객체 감지에 이르기까지 모든 분야에서 최첨단 결과를 달성했습니다.
CNN 작동 방식
한 레이어의 모든 뉴런이 다음 레이어의 모든 뉴런에 연결되는 표준 신경망과 달리 CNN은 컨볼루션이라는 특수한 수학적 연산을 사용합니다. 이를 통해 네트워크는 로컬 수용 필드에서 특징을 학습하여 픽셀 간의 공간적 관계를 유지할 수 있습니다.
일반적인 CNN 아키텍처는 다음과 같은 주요 레이어로 구성됩니다.
- 합성곱 계층: 이는 필터 또는 커널이 입력 이미지를 슬라이딩하며 특징 맵을 생성하는 핵심 구성 요소입니다. 이러한 맵은 가장자리, 모서리 및 텍스처와 같은 패턴을 강조 표시합니다. 이러한 필터의 크기와 감지하는 패턴은 모델 학습 중에 학습됩니다.
- 활성화 레이어: 각 컨볼루션 후에는 비선형성을 도입하기 위해 ReLU와 같은 활성화 함수가 적용되어 모델이 더 복잡한 패턴을 학습할 수 있습니다.
- Pooling (다운샘플링) 레이어: 이 레이어는 특징 맵의 공간적 차원(너비 및 높이)을 줄여 계산 부하를 줄이고 감지된 특징이 위치 및 방향 변화에 더 강력하게 대처하도록 돕습니다. 이 주제에 대한 고전적인 논문은 ImageNet Classification with Deep Convolutional Neural Networks입니다.
- 완전 연결 계층: 여러 컨볼루션 및 풀링 계층 후, 고급 특징은 평탄화되어 학습된 특징을 기반으로 분류를 수행하는 완전 연결 계층으로 전달됩니다.
CNN vs. 기타 아키텍처
CNN은 딥 러닝 모델의 한 유형이지만, 다른 아키텍처와는 크게 다릅니다.
- 신경망(NN): 표준 NN은 입력 데이터를 평면 벡터로 취급하여 모든 공간 정보를 잃게 됩니다. CNN은 이 정보를 보존하므로 이미지 분석에 이상적입니다.
- Vision Transformers (ViTs): 공간적 지역성에 대한 강력한 귀납적 편향을 갖는 CNN과 달리, ViTs 이미지를 패치 시퀀스로 취급하고 다음을 사용합니다. Self-Attention 전역 관계를 학습하는 메커니즘입니다. ViT는 훈련하는 데 더 많은 데이터가 필요한 경우가 많지만 장거리 컨텍스트가 중요한 작업에서 뛰어날 수 있습니다. 많은 최신 모델, 예: RT-DETR, CNN을 결합한 하이브리드 방식을 사용하고
backbone
Transformer 기반의 detection head
.
실제 애플리케이션
CNN은 수많은 실제 응용 분야의 원동력입니다.
도구 및 프레임워크
CNN의 개발 및 배포는 강력한 도구와 프레임워크에 의해 지원됩니다.