1,400만 개 이상의 이미지를 통해 컴퓨터 비전 발전을 촉진하고 AI 연구, 모델 및 애플리케이션을 강화하는 획기적인 데이터 세트인 ImageNet을 알아보세요.
ImageNet은 그림에 나타난 객체를 나타내기 위해 수동으로 주석이 달린 1,400만 개 이상의 이미지로 구성된 대규모의 공개적으로 액세스 가능한 데이터 세트입니다. WordNet 계층 구조에 따라 구성되어 있으며, "풍선" 또는 "딸기"와 같이 수백 개의 이미지를 포함하는 일반적인 범주와 함께 20,000개 이상의 범주를 포함합니다. 이 방대하고 다양한 컬렉션은 컴퓨터 비전(CV) 및 딥 러닝(DL) 분야를 발전시키는 데 중요한 역할을 수행했으며, 모델 훈련 및 벤치마킹을 위한 표준으로 사용됩니다.
Stanford University의 연구자들이 ImageNet을 만든 것은 인공 지능 (AI)에 중요한 순간이었습니다. ImageNet 이전에는 데이터 세트가 너무 작아서 복잡한 신경망 (NN)을 효과적으로 훈련할 수 없어 과적합과 같은 문제가 발생했습니다. ImageNet은 딥 모델을 훈련하는 데 필요한 규모를 제공하여 현대 AI 혁명의 길을 열었습니다. 원본 ImageNet 연구 논문을 읽으면 자세한 내용을 알 수 있습니다.
ImageNet의 영향력은 2010년부터 2017년까지 매년 개최된 ImageNet 대규모 시각 인식 챌린지(ILSVRC)에 의해 증폭되었습니다. 이 챌린지는 컴퓨터 비전 알고리즘의 성능을 평가하는 데 중요한 벤치마크가 되었습니다. 2012년에는 AlexNet이라는 합성곱 신경망(CNN)이 획기적인 승리를 거두어 이전의 모든 모델을 크게 능가했습니다. 이 성공은 딥러닝과 GPU 연산의 강력함을 입증하여 이 분야에 혁신의 물결을 일으켰습니다. ILSVRC는 많은 최신 아키텍처 개발의 핵심 동인이었으며, Papers with Code와 같은 사이트에서 다양한 벤치마크에서 오늘날 모델이 어떻게 수행되는지 확인할 수 있습니다.
ImageNet의 주요 용도는 모델 사전 훈련을 위한 리소스로 사용하는 것입니다. 이 방대한 데이터 세트에서 모델을 훈련함으로써 풍부한 시각적 특징을 인식하는 방법을 학습합니다. 그런 다음 이 지식을 새롭고 더 구체적인 작업으로 전송할 수 있습니다. 이 기술을 전이 학습이라고 합니다.
ImageNet을 다른 관련 용어 및 데이터 세트와 구별하는 것이 중요합니다.
YOLO11과 같은 모델은 감지 작업을 위해 COCO에서 학습되기 전에 분류 백본을 위해 ImageNet에서 사전 학습되는 경우가 많습니다. 이 다단계 학습 프로세스는 두 데이터 세트의 강점을 활용합니다. 모델 비교 페이지에서 이러한 벤치마크에서 다양한 모델을 비교하는 방법을 확인할 수 있습니다. 매우 영향력이 있지만 ImageNet에는 AI 윤리 관점에서 고려해야 할 알려진 데이터 세트 편향을 포함하여 제한 사항이 있다는 점에 유의해야 합니다.