YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

2025년 최고의 컴퓨터 비전 데이터 세트 살펴보기

Abirami Vina

5분 분량

2025년 2월 21일

2025년 최고의 컴퓨터 비전 데이터 세트를 자세히 살펴보는 데 동참하세요. 다양하고 고품질의 데이터 세트가 어떻게 더 스마트한 Vision AI 솔루션을 추진하는지 알아보세요.

데이터가 일상생활의 거의 모든 부분에서 역할을 한다는 것을 알고 계셨습니까? 비디오 시청, 사진 촬영 또는 Google 지도를 확인하는 것은 750억 개 이상의 연결된 장치에서 캡처한 정보의 지속적인 흐름에 기여합니다. 이러한 데이터 조각은 인공 지능(AI)의 기초를 형성합니다. 실제로 Ultralytics YOLO11과 같은 고급 컴퓨터 비전 모델은 시각적 데이터를 사용하여 패턴을 식별하고, 이미지를 해석하며, 주변 세계를 이해합니다.

흥미롭게도 데이터의 가치는 단순히 양에만 있는 것이 아닙니다. 데이터가 얼마나 잘 구성되고 준비되었는지가 더 중요합니다. 데이터 세트가 지저분하거나 불완전하면 오류가 발생할 수 있습니다. 그러나 데이터 세트가 깨끗하고 다양하면 컴퓨터 비전 모델이 군중 속에서 객체를 인식하거나 복잡한 시각적 요소를 분석하는 등 더 나은 성능을 발휘하는 데 도움이 됩니다. 고품질 데이터 세트는 모든 차이를 만듭니다.

본 문서에서는 2025년 최고의 컴퓨터 비전 데이터 세트를 살펴보고, 이러한 데이터 세트가 보다 정확하고 효율적인 컴퓨터 비전 모델을 구축하는 데 어떻게 기여하는지 살펴보겠습니다. 그럼 시작해 볼까요!

컴퓨터 비전 데이터 세트란 무엇입니까?

컴퓨터 비전 데이터 세트는 컴퓨터 비전 시스템이 시각 정보를 이해하고 인식하도록 돕는 이미지 또는 비디오 모음입니다. 이러한 데이터 세트는 모델이 데이터 내의 객체, 사람, 장면 및 패턴을 인식하는 데 도움이 되는 레이블 또는 어노테이션과 함께 제공됩니다.

이러한 데이터 세트는 컴퓨터 비전 모델을 훈련하는 데 사용될 수 있으며, 얼굴 식별, 객체 감지 또는 장면 분석과 같은 작업을 개선하는 데 도움이 됩니다. 데이터 세트가 잘 구성되고 다양하며 정확할수록 Vision AI 모델의 성능이 향상되어 일상 생활에서 더 스마트하고 유용한 기술로 이어집니다.

컴퓨터 비전 데이터 세트 구축 방법

컴퓨터 비전 데이터 세트 구축은 누군가에게 세상을 보고 이해하는 방법을 가르치기 위해 학습 노트를 준비하는 것과 같습니다. 개발 중인 특정 애플리케이션에 맞는 이미지와 비디오를 수집하는 것으로 시작합니다. 

이상적인 데이터 세트는 다양한 각도, 다양한 조명 조건, 여러 배경 및 환경에서 캡처한 관심 객체의 다양한 예시를 포함합니다. 이러한 다양성은 컴퓨터 비전 모델이 패턴을 정확하게 인식하고 실제 시나리오에서 안정적으로 작동하도록 보장합니다.

__wf_reserved_inherit
그림 1. 완벽한 비전 데이터 세트 구축. 이미지 출처: 작성자.

관련 이미지와 비디오를 수집한 후 다음 단계는 데이터 레이블링입니다. 이 프로세스에는 AI가 각 이미지 또는 비디오에 포함된 내용을 이해할 수 있도록 데이터에 태그, 주석 또는 설명을 추가하는 작업이 포함됩니다. 

레이블에는 객체 이름, 위치, 경계 또는 모델이 시각 정보를 정확하게 인식하고 해석하도록 돕는 기타 관련 세부 정보가 포함될 수 있습니다. 데이터 레이블링은 단순한 이미지 모음을 컴퓨터 비전 모델을 훈련하는 데 사용할 수 있는 구조화된 데이터 세트로 변환합니다.

모델 학습에는 고품질 데이터가 필요합니다.

무엇이 고품질 데이터 세트를 만드는지 궁금할 수 있습니다. 정확한 레이블링, 다양성 및 일관성과 같은 여러 요소가 관련되어 있습니다. 예를 들어 여러 어노테이터가 고양이 귀를 식별하기 위해 객체 감지 데이터 세트에 레이블을 지정하는 경우, 한 어노테이터는 귀를 머리의 일부로 레이블을 지정하고 다른 어노테이터는 귀를 별도로 레이블을 지정할 수 있습니다. 이러한 불일치는 모델을 혼란스럽게 하고 올바르게 학습하는 능력에 영향을 미칠 수 있습니다.

다음은 이상적인 컴퓨터 비전 데이터 세트의 품질에 대한 간략한 개요입니다.

  • 명확한 레이블: 각 이미지는 일관되고 정확한 레이블로 정확하게 주석 처리됩니다.
  • 다양한 데이터: 이 데이터 세트는 다양한 객체, 배경, 조명 조건 및 각도를 포함하여 모델이 다양한 상황에서 잘 작동하도록 돕습니다.
  • 고해상도 이미지: 선명하고 자세한 이미지는 모델이 특징을 학습하고 인식하는 데 도움이 됩니다.

Ultralytics는 다양한 데이터 세트를 지원합니다.

Ultralytics YOLO 모델(예: YOLO11)은 특정 YOLO 파일 형식의 데이터 세트와 함께 작동하도록 구축되었습니다. 자신의 데이터를 이 형식으로 쉽게 변환할 수 있지만, 즉시 실험을 시작하려는 사용자를 위해 번거로움 없는 옵션도 제공합니다. 

Ultralytics Python 패키지는 광범위한 컴퓨터 비전 데이터 세트를 지원하므로 추가 설정 없이 객체 감지, 인스턴스 분할 또는 포즈 추정과 같은 작업을 사용하여 프로젝트에 뛰어들 수 있습니다.  

사용자는 훈련 기능에서 데이터 세트 이름을 파라미터 중 하나로 지정하여 COCO, DOTA-v2.0, Open Images V7 및 ImageNet과 같이 즉시 사용 가능한 데이터 세트에 쉽게 액세스할 수 있습니다. 이렇게 하면 데이터 세트가 자동으로 다운로드되고 사전 구성되므로 모델 구축 및 개선에 집중할 수 있습니다.

2025년 상위 5개 컴퓨터 비전 데이터 세트

Vision AI의 발전은 혁신을 주도하고 획기적인 발전을 가능하게 하는 다양하고 대규모 데이터 세트에 의존합니다. Ultralytics에서 지원하며 컴퓨터 비전 모델에 영향을 미치는 가장 중요한 데이터 세트를 살펴보겠습니다.

ImageNet 데이터 세트 

Fei-Fei Li와 2007년 프린스턴 대학의 그녀의 팀이 만들고 2009년에 소개된 ImageNet은 1,400만 개 이상의 레이블이 지정된 이미지가 있는 대규모 데이터 세트입니다. 이는 다양한 객체를 인식하고 분류하도록 시스템을 훈련하는 데 널리 사용됩니다. 구조화된 디자인은 모델이 이미지를 정확하게 분류하도록 가르치는 데 특히 유용합니다. 잘 문서화되어 있지만 주로 이미지 분류에 중점을 두고 객체 감지와 같은 작업에 대한 자세한 주석이 부족합니다. 

다음은 ImageNet의 주요 강점 중 일부입니다.

  • 다양성: 20,000개 이상의 범주에 걸쳐 있는 이미지를 통해 ImageNet은 모델 학습 및 일반화를 향상시키는 광범위하고 다양한 데이터 세트를 제공합니다.
  • 구조화된 구성: 이미지는 WordNet 계층 구조를 사용하여 꼼꼼하게 분류되어 효율적인 데이터 검색 및 체계적인 모델 훈련을 용이하게 합니다.
  • 포괄적인 문서: 광범위한 연구와 수년간의 연구를 통해 ImageNet은 초보자와 전문가 모두가 접근할 수 있으며 컴퓨터 비전 프로젝트에 대한 귀중한 통찰력과 지침을 제공합니다.

그러나 다른 데이터 세트와 마찬가지로 제한 사항이 있습니다. 고려해야 할 몇 가지 과제는 다음과 같습니다.

  • 계산 요구 사항: 엄청난 크기로 인해 컴퓨팅 리소스가 제한된 소규모 팀에게는 어려움이 있을 수 있습니다.
  • 시간 데이터 부족: 정지 이미지만 포함하고 있기 때문에 비디오 또는 시간 기반 데이터가 필요한 애플리케이션의 요구 사항을 충족하지 못할 수 있습니다.
  • 오래된 이미지: 데이터 세트의 일부 이미지는 오래되었으며 현재 객체, 스타일 또는 환경을 반영하지 않아 최신 애플리케이션과의 관련성이 떨어질 수 있습니다.

DOTA-v2.0 데이터 세트

DOTA-v2.0 데이터 세트(DOTA는 공중 이미지의 객체 감지를 위한 데이터 세트의 약자)는 특히 OBB(Oriented Bounding Box) 객체 감지를 위해 생성된 광범위한 공중 이미지 모음입니다. OBB 감지에서는 회전된 경계 상자를 사용하여 이미지에서 객체의 실제 방향에 더 정확하게 정렬합니다. 이 방법은 객체가 다양한 각도로 나타나는 경우가 많은 항공 이미지에 특히 효과적이므로 더 정확한 현지화와 전반적으로 더 나은 감지로 이어집니다.

이 데이터 세트는 18개의 객체 범주에 걸쳐 11,000개 이상의 이미지와 170만 개 이상의 방향성 경계 상자로 구성됩니다. 이미지 크기는 800x800에서 20,000x20,000픽셀까지 다양하며, 비행기, 선박, 건물과 같은 객체를 포함합니다. 

__wf_reserved_inherit
Fig 2. DOTA-v2.0 데이터 세트의 이미지 및 어노테이션 예시. 이미지 출처: 작성자.

DOTA-v2.0은 자세한 주석 덕분에 원격 감지 및 항공 감시 프로젝트에 널리 사용되는 선택이 되었습니다. 다음은 DOTA-v2.0의 주요 기능 중 일부입니다.

  • 다양한 객체 범주: 차량, 항구, 저장 탱크와 같이 다양한 객체 유형을 다루어 모델이 다양한 실제 객체를 접할 수 있도록 합니다.
  • 고품질 어노테이션: 전문 어노테이터가 객체 모양과 방향을 명확하게 보여주는 정확하게 방향이 지정된 경계 상자를 제공했습니다.
  • 다중 스케일 이미지: 데이터 세트에는 다양한 크기의 이미지가 포함되어 있어 모델이 작고 큰 스케일 모두에서 객체를 탐지하는 방법을 학습하는 데 도움이 됩니다.

DOTA-v2는 많은 강점을 가지고 있지만 사용자가 명심해야 할 몇 가지 제한 사항이 있습니다.

  • 추가 다운로드 단계: DOTA 데이터 세트 유지 관리 방식 때문에 DOTA-v2.0에는 추가 설정 단계가 필요합니다. 먼저 DOTA-v1.0 이미지를 다운로드한 다음 DOTA-v2.0에 대한 추가 이미지와 업데이트된 주석을 추가하여 데이터 세트를 완료해야 합니다.
  • 복잡한 어노테이션: 경사 바운딩 박스는 모델 학습 중에 처리하는 데 추가 노력이 필요할 수 있습니다.
  • 제한된 범위: DOTA-v2는 항공 이미지를 위해 설계되었으므로 이 도메인 외부의 일반적인 객체 탐지 작업에는 덜 유용합니다.

Roboflow 100 데이터 세트 

Roboflow 100(RF100) 데이터 세트는 Intel의 지원을 받아 Roboflow에서 만들었습니다. 객체 감지 모델이 얼마나 잘 작동하는지 테스트하고 벤치마킹하는 데 사용할 수 있습니다. 이 벤치마크 데이터 세트에는 90,000개 이상의 공개 데이터 세트에서 선택한 100개의 서로 다른 데이터 세트가 포함되어 있습니다. 여기에는 의료, 항공 뷰, 게임과 같은 영역에서 224,000개 이상의 이미지와 800개의 객체 클래스가 있습니다. 

RF100 사용의 주요 이점은 다음과 같습니다.

  • 넓은 도메인 커버리지: 의료 영상, 항공 뷰, 수중 탐사와 같은 7개 분야의 데이터 세트를 포함합니다.
  • 모델 개선 장려: RF100의 변동성과 특정 도메인 관련 문제들은 현재 모델의 격차를 드러내어, 더욱 적응력이 뛰어나고 강력한 객체 탐지 솔루션 연구를 촉진합니다.
  • 일관된 이미지 형식: 모든 이미지의 크기가 640x640 픽셀로 조정됩니다. 이는 사용자가 이미지 크기를 조정할 필요 없이 모델을 학습하는 데 도움이 됩니다.

RF100은 여러 강점에도 불구하고 다음과 같은 단점들을 염두에 두어야 합니다.

  • 제한된 작업 범위: RF100은 객체 탐지를 위해 설계되었으므로 분할 또는 분류와 같은 작업을 수용할 수 없습니다.
  • 벤치마크 중심 집중: RF100은 실제 애플리케이션용 모델을 훈련하기보다는 주로 벤치마킹 도구로 설계되었으므로, 해당 결과가 실제 배포 시나리오에 완전히 적용되지 않을 수 있습니다.
  • 어노테이션 가변성: RF100은 크라우드 소싱 데이터 세트를 집계하므로 어노테이션 품질 및 레이블링 방식에 불일치가 있을 수 있으며, 이는 모델 평가 및 미세 조정에 영향을 미칠 수 있습니다.

COCO (Context 내 일반 객체) 데이터 세트

COCO 데이터 세트는 가장 널리 사용되는 컴퓨터 비전 데이터 세트 중 하나이며 자세한 이미지 주석이 포함된 330,000개 이상의 이미지를 제공합니다. 객체 감지, 분할 및 이미지 캡션을 위해 설계되어 많은 프로젝트에 유용한 리소스입니다. 경계 상자 및 분할 마스크를 포함한 자세한 레이블은 시스템이 이미지를 정확하게 분석하는 데 도움이 됩니다.

이 데이터 세트는 유연성이 뛰어나 간단한 프로젝트부터 복잡한 프로젝트까지 다양한 작업에 유용합니다. Vision AI 분야의 표준으로 자리 잡았으며, 모델 성능을 평가하기 위한 챌린지 및 대회에서 자주 사용됩니다.

몇 가지 강점은 다음과 같습니다.

  • 다양하고 현실적인 데이터: 이 데이터 세트는 실제 환경에서 촬영한 이미지들을 포함하며, 다수의 객체, 가려짐, 다양한 조명 조건을 포함합니다.
  • 강력한 커뮤니티 및 연구 채택: 주요 머신러닝 대회 및 연구에 사용되는 COCO 데이터 세트는 광범위한 문서, 사전 훈련된 모델 및 활발한 커뮤니티 지원을 제공합니다.
  • 풍부하고 상세한 어노테이션: COCO 데이터 세트는 객체 분할, 키포인트, 캡션 등 매우 상세한 어노테이션을 제공하므로 정확한 시각적 이해가 필요한 프로젝트에 이상적입니다.

다음은 몇 가지 인지해야 할 제한 요소입니다.

  • 높은 계산 요구 사항: 크기와 복잡성으로 인해 COCO에서 모델을 훈련하려면 상당한 계산 리소스가 필요하므로 하드웨어가 제한된 팀에게는 어려울 수 있습니다.
  • 데이터 불균형: 일부 객체 범주에는 다른 범주보다 훨씬 많은 이미지가 있어 모델 훈련에 편향을 초래할 수 있습니다.
  • 복잡한 어노테이션 구조: 데이터 세트의 상세한 어노테이션은 유용하지만 구조화된 Vision AI 데이터 세트 작업 경험이 부족한 초보자나 소규모 팀에게는 부담스러울 수 있습니다.

Open images V7 데이터 세트

Open Images V7은 Google에서 큐레이션한 대규모 오픈 소스 데이터 세트로, 600개 객체 범주에 대한 주석이 포함된 9백만 개 이상의 이미지를 제공합니다. 다양한 주석 유형이 포함되어 있으며 복잡한 컴퓨터 비전 문제를 해결하는 데 이상적입니다. 규모와 깊이는 컴퓨터 비전 모델을 훈련하고 테스트하기 위한 포괄적인 리소스를 제공합니다.

__wf_reserved_inherit
Fig 3. Open Images V7 데이터 세트를 간략하게 보여줍니다. 이미지 출처: 작성자.

또한 Open Images V7 데이터 세트는 연구 분야에서 인기가 높아 사용자가 학습할 수 있는 풍부한 리소스와 예제를 제공합니다. 그러나 데이터 세트의 크기가 매우 커서 특히 소규모 팀의 경우 다운로드 및 처리 시간이 오래 걸릴 수 있습니다. 또 다른 문제는 일부 어노테이션이 일관성이 없을 수 있으므로 데이터를 정리하는 데 추가 노력이 필요하고 통합이 항상 원활하지 않아 추가 준비가 필요할 수 있다는 것입니다. 

올바른 데이터세트 선택 

올바른 데이터 세트를 선택하는 것은 컴퓨터 비전 프로젝트를 성공적으로 설정하는 데 큰 부분을 차지합니다. 가장 적합한 선택은 특정 작업에 따라 다르며, 적합한 데이터 세트를 찾으면 모델이 올바른 기술을 배우는 데 도움이 됩니다. 또한 도구와 쉽게 통합되어 모델 구축에 더 집중하고 문제 해결에 시간을 덜 할애할 수 있습니다.

__wf_reserved_inherit
Fig 4. 올바른 데이터 세트 선택을 위한 요소. 이미지 출처: 작성자.

주요 내용

고품질 데이터 세트는 모든 컴퓨터 비전 모델의 근간이며, 시스템이 이미지를 정확하게 해석하도록 돕습니다. 다양하고 주석이 잘 달린 데이터 세트는 특히 중요합니다. 이러한 데이터 세트는 모델이 실제 시나리오에서 안정적으로 작동하고 제한적이거나 품질이 낮은 데이터로 인한 오류를 줄일 수 있도록 합니다.

Ultralytics는 컴퓨터 비전 데이터 세트에 대한 액세스 및 작업을 간소화하여 프로젝트에 적합한 데이터를 더 쉽게 찾을 수 있도록 합니다. 올바른 데이터 세트를 선택하는 것은 고성능 모델을 구축하는 데 중요한 단계이며, 더 정확하고 영향력 있는 결과를 얻을 수 있습니다.

커뮤니티에 참여하고 GitHub 저장소를 탐색하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 헬스케어를 위한 컴퓨터 비전자율 주행 자동차의 AI와 같은 발전을 찾아보세요. 라이선스 옵션을 확인하고 오늘 컴퓨터 비전을 시작하기 위한 첫 걸음을 내딛으세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.