2019년에 Google AI의 연구원들은 이미지 속 사물과 패턴을 인식하기 위해 구축된 최첨단 컴퓨터 비전 모델인 EfficientNet을 도입했습니다. 이 모델은 주로 이미지를 미리 정의된 여러 범주 중 하나에 할당하는 이미지 분류를 위해 설계되었습니다. 하지만 오늘날에는 물체 감지, 세분화, 전이 학습과 같은 보다 복잡한 작업의 중추적인 역할을 하기도 합니다.
EfficientNet 이전에는 이러한 머신러닝 및 비전 AI 모델은 레이어를 더 추가하거나 레이어의 크기를 늘려 정확도를 개선하려고 했습니다. 레이어는 데이터를 처리하여 패턴을 학습하고 정확도를 향상시키는 신경망 모델(인간의 뇌에서 영감을 얻은 딥러닝 모델의 일종)의 단계입니다.
이러한 변화로 인해 기존 AI 모델은 더 크고 느려지는 반면, 필요한 컴퓨팅 성능이 크게 증가한 것에 비해 추가 정확도는 미미한 경우가 많다는 상충 관계가 생겼습니다.
EfficientNet은 다른 접근 방식을 취했습니다. 깊이(레이어 수), 너비(각 레이어의 단위 수), 이미지 해상도(입력 이미지의 세부 수준)를 균형 있게 함께 높였습니다. 복합 스케일링이라고 하는 이 방법은 사용 가능한 모든 처리 능력을 안정적으로 사용합니다. 그 결과 ResNet이나 DenseNet과 같은 이전 모델보다 더 작고 빠른 모델을 만들 수 있습니다.
오늘날 Ultralytics YOLO11과 같은 최신 컴퓨터 비전 모델은 더 뛰어난 정확도, 속도 및 효율성을 제공합니다. 그럼에도 불구하고 EfficientNet은 많은 고급 아키텍처의 설계에 영향을 미친 중요한 이정표로 남아 있습니다.
이 글에서는 5분 안에 EfficientNet의 작동 방식, 고유한 특징, 컴퓨터 비전에서 여전히 중요한 이유에 대해 자세히 설명합니다. 지금 시작하겠습니다!
EfficientNet이 설계되기 전에는 대부분의 이미지 인식 모델이 레이어를 조정하거나 입력 이미지 크기를 늘려 더 많은 디테일을 포착하는 방식으로 정확도를 향상시켰습니다. 이러한 전략은 결과를 개선했지만, 모델도 더 무겁고 더 까다롭게 만들었습니다. 즉, 더 많은 메모리와 더 나은 하드웨어가 필요했습니다.
EfficientNet은 개별 레이어를 변경하는 대신 복합 스케일링이라는 방법을 사용하여 깊이, 너비, 이미지 해상도를 함께 스케일링합니다. 이 접근 방식을 사용하면 단일 측면에 과부하가 걸리지 않고 모델을 효율적으로 확장할 수 있습니다.
EfficientNet 아키텍처는 각각 작은 모듈로 구성된 일련의 블록을 통해 이미지를 처리합니다. 각 블록의 모듈 수는 모델 크기에 따라 다릅니다.
작은 버전은 더 적은 수의 모듈을 사용하는 반면, 큰 버전은 모듈을 더 자주 반복합니다. 이러한 유연한 설계 덕분에 EfficientNet은 모바일 디바이스에서 대규모 시스템에 이르기까지 광범위한 애플리케이션에서 높은 정확도와 효율성을 제공할 수 있습니다.
복합 스케일링 방식은 모델의 깊이, 너비, 이미지 해상도를 확장하지만 균형을 유지합니다. 따라서 컴퓨팅 성능을 효율적으로 사용할 수 있습니다. 이 시리즈는 다른 모든 버전의 기반이 되는 EfficientNet-B0이라는 더 작은 기준 모델로 시작됩니다.
B0부터 모델은 EfficientNet-B1부터 EfficientNet-B7까지 더 큰 변형으로 확장됩니다. 각 단계에서 네트워크는 추가 레이어를 확보하고 채널 수(처리에 사용되는 단위)를 늘리며 더 높은 해상도의 입력 이미지를 처리합니다. 각 단계에서의 성장 정도는 복합 계수라는 매개변수에 의해 결정되며, 이는 깊이, 폭, 해상도가 독립적으로 증가하지 않고 고정된 비율로 증가하도록 보장합니다.
다음으로 EfficientNet의 아키텍처를 살펴보겠습니다.
모바일 및 임베디드 기기에 최적화된 경량 컴퓨터 비전 모델인 MobileNetV2를 기반으로 합니다. 그 핵심에는 표준 컨볼루션처럼 이미지 데이터를 처리하지만 더 적은 계산으로 처리하는 특수 레이어인 모바일 역병목 컨볼루션(MBConv) 블록이 있습니다. 이 블록은 모델의 속도와 메모리 효율을 높여줍니다.
각 MBConv 블록 내부에는 스퀴즈-엑티베이션(SE) 모듈이 있습니다. 이 모듈은 네트워크에서 서로 다른 채널의 강도를 조정합니다. 이 모듈은 필수 채널의 강도를 높이고 다른 채널의 강도를 낮춥니다. 이 모듈은 네트워크가 이미지에서 가장 중요한 기능에 집중하고 나머지는 무시할 수 있도록 도와줍니다. 또한 EfficientNet 모델은 Swish 활성화 함수(네트워크가 패턴을 학습하는 데 도움이 되는 수학적 함수)를 사용하여 이전 방법보다 이미지에서 패턴을 더 잘 찾아낼 수 있도록 도와줍니다.
이 외에도 네트워크 내부의 일부 연결이 훈련 중에 무작위로 꺼지는 DropConnect를 사용합니다. 이 확률적 정규화 방법(모델이 학습 데이터를 일반화하는 대신 암기하는 것을 방지하기 위한 무작위화 기법)은 네트워크가 보이지 않는 데이터에 더 잘 전달되는 더 강력한 특징 표현(데이터의 더 강력하고 일반적인 패턴)을 학습하도록 함으로써 과적합을 줄입니다.
이제 EfficientNet 모델이 어떻게 작동하는지 더 잘 이해했으니 다양한 모델 변형에 대해 논의해 보겠습니다.
EfficientNet 모델은 속도와 정확도의 균형을 맞추는 기준선인 B0에서 시작하여 B0부터 B7까지 확장됩니다. 각 버전은 깊이, 너비, 이미지 해상도를 높여 정확도를 향상시킵니다. 그러나 B1과 B2에서 고성능 B6과 B7에 이르기까지 더 많은 연산 능력이 요구됩니다.
EfficientNet-B3 및 EfficientNet-B4 모델은 큰 이미지에 균형을 맞추지만, 정밀도가 필요한 복잡한 데이터 세트에는 B5를 선택하는 경우가 많습니다. 이러한 모델 외에도 최신 모델인 EfficientNet V2는 학습 속도를 개선하고 작은 데이터 세트를 더 잘 처리할 수 있으며 최신 하드웨어에 최적화되어 있습니다.
EfficientNet은 다른 많은 모델보다 적은 메모리와 처리 능력을 사용하면서도 정확한 결과를 생성할 수 있습니다. 따라서 과학 연구부터 사람들이 매일 사용하는 제품에 이르기까지 다양한 분야에서 유용하게 사용할 수 있습니다.
폐 CT 스캔과 같은 의료 이미지에는 정확한 진단에 중요한 미묘한 디테일이 포함되어 있는 경우가 많습니다. AI 모델은 이러한 이미지를 분석하여 사람이 감지하기 어려운 패턴을 발견하는 데 도움을 줄 수 있습니다. 이러한 목적을 위해 특별히 의료 이미지 분석을 위해 설계된 MONAI(Medical Open Network for AI) EfficientNet이 이러한 목적에 맞게 변형된 EfficientNet 중 하나입니다.
EfficientNet의 아키텍처를 기반으로 연구원들은 폐 CT 스캔을 분류하여 종양을 탐지하는 모델인 Lung-EffNet도 개발했습니다. 이 모델은 종양을 양성, 악성 또는 정상으로 분류할 수 있으며, 실험 환경에서 99% 이상의 정확도를 달성한 것으로 보고되었습니다.
객체 감지는 이미지에서 객체를 찾아 그 위치를 파악하는 프로세스입니다. 보안 시스템, 자율 주행 자동차, 드론과 같은 애플리케이션의 핵심적인 부분입니다.
이미지에서 특징을 추출하는 매우 효율적인 방법을 제공했기 때문에 이 분야에서 EfficientNet이 중요해졌습니다. 깊이, 너비, 해상도를 확장하는 이 방법은 모델이 너무 무겁거나 느리지 않으면서도 정확도를 높일 수 있는 방법을 보여주었습니다. 이것이 바로 EfficientDet과 같은 많은 탐지 시스템이 EfficientNet을 백본으로 사용하는 이유입니다.
Ultralytics YOLO11과 같은 최신 모델도 속도와 정확성을 결합한다는 동일한 목표를 공유합니다. 효율적인 모델을 향한 이러한 추세는 EfficientNet과 같은 아키텍처의 아이디어에 큰 영향을 받았습니다.
컴퓨터 비전 프로젝트에서 EfficientNet을 사용하면 얻을 수 있는 몇 가지 이점은 다음과 같습니다:
EfficientNet 사용과 관련된 많은 이점이 있지만, 명심해야 할 EfficientNet의 몇 가지 제한 사항은 다음과 같습니다:
EfficientNet은 깊이, 너비, 이미지 해상도의 균형을 유지함으로써 컴퓨터 비전 모델의 성장 방식을 변화시켰습니다. 이 모델은 여전히 중요한 모델이며 최신 아키텍처에도 영향을 미쳤습니다. 특히 컴퓨터 비전의 역사에서 의미 있는 위치를 차지하고 있습니다.
커뮤니티와 GitHub 리포지토리에 가입하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 의료 분야의 AI와 자동차 분야의 컴퓨터 비전에 대해 알아보세요. 라이선스 옵션을 살펴보고 지금 바로 컴퓨터 비전으로 빌드를 시작하세요!