YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

고품질 컴퓨터 비전 데이터 세트의 중요성

Abirami Vina

4분 소요

2024년 12월 16일

컴퓨터 비전 모델을 구축할 때 고품질 데이터가 왜 필요한지 함께 살펴보겠습니다. 데이터 품질이 모델 성능에 미치는 영향을 알아보세요.

2019년 현재 기업의 인공 지능(AI) 도입은 지난 4년 동안 270% 증가했습니다. 이러한 성장은 컴퓨터 비전(CV) 애플리케이션의 빠른 통합을 촉진했습니다. 컴퓨터 비전은 기계가 주변 세계의 시각적 데이터를 해석하고 분석할 수 있도록 하는 AI 시스템입니다. 이러한 애플리케이션은 의료 영상에서 질병을 감지하고 자율 주행 차량을 지원하는 것부터 교통 흐름을 최적화하고 보안 시스템에서 감시를 강화하는 데 이르기까지 광범위한 기술에 전력을 공급합니다. 

Ultralytics YOLO11과 같은 최첨단 컴퓨터 비전 모델의 놀라운 정확성과 탁월한 성능이 이러한 기하급수적인 성장을 주도했습니다. 그러나 이러한 모델의 성능은 모델을 훈련, 검증 및 테스트하는 데 사용되는 데이터의 품질과 양에 크게 좌우됩니다. 

충분한 고품질 데이터가 없으면 컴퓨터 비전 모델을 효과적으로 학습하고 미세 조정하여 산업 표준을 충족하기 어려울 수 있습니다. 이 기사에서는 컴퓨터 비전 모델 생성에서 데이터의 중요한 역할과 컴퓨터 비전에서 고품질 데이터가 중요한 이유를 살펴봅니다. 또한 사용자 정의 컴퓨터 비전 모델 학습 작업을 수행하면서 고품질 데이터 세트를 만드는 데 도움이 되는 몇 가지 팁을 안내합니다. 시작해 보겠습니다!

컴퓨터 비전 모델 구축에서 데이터의 역할

컴퓨터 비전 모델은 이미지 및 비디오의 대규모 데이터 세트에 대해 학습하여 패턴을 인식하고 정확한 예측을 할 수 있습니다. 예를 들어, 객체 감지 모델은 수백 또는 수천 개의 레이블이 지정된 이미지 및 비디오에 대해 학습하여 객체를 정확하게 식별할 수 있습니다. 

이 훈련 데이터의 품질과 양은 모델의 성능에 영향을 미칩니다. 

컴퓨터 비전 모델은 노출된 데이터로부터만 학습할 수 있으므로 고품질 데이터와 다양한 예제를 제공하는 것이 성공에 매우 중요합니다. 충분하고 다양한 데이터 세트가 없으면 이러한 모델은 실제 시나리오를 정확하게 분석하지 못하고 편향되거나 부정확한 결과를 생성할 수 있습니다. 

그렇기 때문에 모델 훈련에서 데이터의 역할을 명확하게 이해하는 것이 중요합니다. 고품질 데이터의 특징을 살펴보기 전에 컴퓨터 비전 모델을 훈련하는 동안 접할 수 있는 데이터 세트 유형을 이해해 보겠습니다.

컴퓨터 비전 데이터 세트 유형

컴퓨터 비전에서 학습 프로세스에 사용되는 데이터는 세 가지 유형으로 분류되며 각 유형은 특정 목적을 수행합니다. 각 유형에 대한 간략한 개요는 다음과 같습니다.

  • Training Data(훈련 데이터): 이는 모델을 처음부터 훈련하는 데 사용되는 기본 데이터 세트입니다. 미리 정의된 레이블이 있는 이미지와 비디오로 구성되어 모델이 패턴을 학습하고 객체를 인식할 수 있도록 합니다. 
  • Validation Data(검증 데이터): 이는 모델이 훈련되는 동안 모델이 얼마나 잘 수행되고 있는지 확인하는 데 사용되는 데이터 세트입니다. 모델이 새로운 미지의 데이터에서 올바르게 작동하는지 확인하는 데 도움이 됩니다.
  • Testing Data(테스트 데이터): 훈련된 모델의 최종 성능을 평가하는 데 사용되는 별도의 데이터 세트입니다. 모델이 완전히 새로운 미지의 데이터에 대해 예측을 얼마나 잘 수행하는지 확인합니다.
__wf_reserved_inherit
Fig 1. 컴퓨터 비전에서 데이터가 분류되는 방식.

고품질 컴퓨터 비전 데이터 세트의 5가지 주요 특징

데이터 세트 유형에 관계없이 성공적인 컴퓨터 비전 모델을 구축하려면 고품질 데이터가 필수적입니다. 다음은 데이터 세트를 고품질로 만드는 주요 특징 중 일부입니다.

  • 정확성: 데이터는 실제 상황을 정확하게 반영하고 올바른 레이블을 포함해야 합니다. 예를 들어, 헬스케어 분야의 비전 AI의 경우, X-레이 또는 스캔 이미지는 모델이 제대로 학습할 수 있도록 정확하게 레이블이 지정되어야 합니다.
  • 다양성: 좋은 데이터 세트는 모델이 다양한 상황에서 잘 수행되도록 다양한 예제를 포함합니다. 예를 들어, 모델이 자동차를 감지하는 방법을 학습하는 경우 데이터 세트에는 다양한 설정(낮, 밤, 비 등)에서 다양한 모양, 크기 및 색상의 자동차가 포함되어야 합니다.
  • 일관성: 고품질 데이터 세트는 균일한 형식과 품질 표준을 따릅니다. 예를 들어 이미지는 유사한 해상도를 가져야 하며(일부는 흐릿하고 다른 일부는 선명하지 않음) 크기 조정 또는 색상 조정과 같은 동일한 전처리 단계를 거쳐야 모델이 일관된 정보에서 학습할 수 있습니다.
  • 적시성: 정기적으로 업데이트되는 데이터 세트는 실제 변화에 발맞출 수 있습니다. 모든 유형의 차량을 감지하도록 모델을 훈련한다고 가정해 보겠습니다. 전기 스쿠터와 같은 새로운 차량이 도입되면 모델이 정확하고 최신 상태를 유지하도록 데이터 세트에 추가해야 합니다.
  • 개인 정보 보호: 데이터 세트에 사람들의 사진과 같은 민감한 정보가 포함되어 있는 경우 개인 정보 보호 규칙을 준수해야 합니다. 익명화(식별 가능한 세부 정보 제거) 및 데이터 마스킹(민감한 부분 숨기기)과 같은 기술은 데이터를 안전하게 사용할 수 있도록 하면서 개인 정보를 보호할 수 있습니다.

낮은 품질의 데이터로 인해 발생하는 문제

고품질 데이터의 특성을 이해하는 것도 중요하지만, 저품질 데이터가 컴퓨터 비전 모델에 어떤 영향을 미칠 수 있는지 고려하는 것도 그만큼 중요합니다.

과적합 및 과소적합과 같은 문제는 모델 성능에 심각한 영향을 미칠 수 있습니다. 과적합은 모델이 학습 데이터에서는 잘 작동하지만 데이터 세트에 다양성이 부족하여 새로운 데이터 또는 보이지 않는 데이터에서는 어려움을 겪을 때 발생합니다. 반면에 과소적합은 데이터 세트가 모델이 의미 있는 패턴을 학습하기에 충분한 예제 또는 품질을 제공하지 않을 때 발생합니다. 이러한 문제를 피하려면 다양하고 편향되지 않은 고품질 데이터 세트를 유지하여 학습 및 실제 응용 분야 모두에서 안정적인 성능을 보장하는 것이 중요합니다.

__wf_reserved_inherit
Fig 2. 과소 적합 vs. 과대 적합.

데이터 품질이 낮으면 모델이 원시 데이터에서 의미 있는 패턴을 추출하고 학습하는 데 어려움을 겪을 수 있으며, 이를 특징 추출이라고 합니다. 데이터 세트가 불완전하거나 관련성이 없거나 다양성이 부족하면 모델이 효과적으로 수행하는 데 어려움을 겪을 수 있습니다. 

경우에 따라 낮은 품질의 데이터는 데이터 단순화의 결과일 수 있습니다. 데이터 단순화는 저장 공간을 절약하고 처리 비용을 줄이는 데 도움이 될 수 있지만 과도한 단순화는 모델이 제대로 작동하는 데 필요한 중요한 세부 정보를 제거할 수 있습니다. 이것이 수집에서 배포에 이르기까지 전체 컴퓨터 비전 프로세스에서 고품질 데이터를 유지하는 것이 매우 중요한 이유입니다. 경험 법칙으로 데이터 세트는 신뢰할 수 있는 모델 예측을 보장하기 위해 필수 기능을 포함하는 동시에 다양하고 정확해야 합니다.

__wf_reserved_inherit
Fig 3. 특징 추출 이해.

컴퓨터 비전 데이터 세트의 품질을 유지하는 팁

이제 고품질 데이터의 중요성과 저품질 데이터의 영향에 대해 이해했으니, 데이터 세트가 높은 기준을 충족하는지 확인하는 방법을 살펴보겠습니다.

모든 것은 신뢰할 수 있는 데이터 수집에서 시작됩니다. 크라우드 소싱, 다양한 지리적 지역의 데이터 및 합성 데이터 생성과 같은 다양한 소스를 사용하면 편향을 줄이고 모델이 실제 시나리오를 처리하는 데 도움이 됩니다. 데이터가 수집되면 전처리가 중요합니다. 픽셀 값을 일관된 범위로 조정하는 정규화와 회전, 뒤집기 및 확대/축소와 같은 변환을 적용하는 증강과 같은 기술은 데이터 세트를 향상시킵니다. 이러한 단계를 통해 모델이 더 잘 일반화되고 더욱 강력해져 과적합 위험을 줄일 수 있습니다.

데이터 세트를 적절히 분할하는 것 또한 중요한 단계입니다. 일반적인 방법은 데이터의 70%를 학습에, 15%를 검증에, 15%를 테스트에 할당하는 것입니다. 이 세트 간에 중복이 없는지 다시 확인하면 데이터 누출을 방지하고 정확한 모델 평가를 보장할 수 있습니다.

__wf_reserved_inherit
그림 4. 일반적인 학습, 검증 및 테스트 데이터 분할.

시간과 컴퓨팅 자원을 절약하기 위해 YOLO11과 같은 사전 훈련된 모델을 사용할 수도 있습니다. 대규모 데이터 세트로 훈련되고 다양한 컴퓨터 비전 작업을 위해 설계된 YOLO11은 필요에 따라 특정 데이터 세트에서 미세 조정할 수 있습니다. 모델을 데이터에 맞게 조정하면 과적합을 방지하고 강력한 성능을 유지할 수 있습니다. 

컴퓨터 비전 데이터 세트의 미래

AI 커뮤니티는 전통적으로 더 많은 레이어를 가진 더 심층적인 모델을 구축하여 성능을 향상시키는 데 중점을 두었습니다. 그러나 AI가 계속 발전함에 따라 모델 최적화에서 데이터 세트 품질 향상으로 초점이 이동하고 있습니다. 종종 "AI의 아버지"라고 불리는 앤드류 응은 "AI 세계가 이 10년 동안 겪어야 할 가장 중요한 변화는 데이터 중심 AI로의 전환이 될 것"이라고 믿습니다. 

이 접근 방식은 레이블 정확도를 개선하고, 노이즈가 많은 예제를 제거하고, 다양성을 보장하여 데이터 세트를 개선하는 데 중점을 둡니다. 컴퓨터 비전의 경우 이러한 원칙은 편향 및 저품질 데이터와 같은 문제를 해결하는 데 중요하며 모델이 실제 시나리오에서 안정적으로 작동할 수 있도록 합니다.

미래를 내다보면 컴퓨터 비전의 발전은 방대한 양의 데이터를 수집하기보다는 더 작고 고품질의 데이터 세트를 만드는 데 달려 있습니다. Andrew Ng에 따르면 "데이터 개선은 일회성 전처리 단계가 아니라 머신 러닝 모델 개발의 반복적인 프로세스의 핵심 부분입니다." 데이터 중심 원칙에 집중함으로써 컴퓨터 비전은 다양한 산업 분야에서 더욱 접근하기 쉽고 효율적이며 영향력을 갖게 될 것입니다.

주요 내용

데이터는 비전 모델의 수명 주기 전반에 걸쳐 중요한 역할을 합니다. 데이터 수집에서 전처리, 학습, 검증 및 테스트에 이르기까지 데이터 품질은 모델의 성능과 신뢰성에 직접적인 영향을 미칩니다. 고품질 데이터와 정확한 라벨링을 우선시함으로써 신뢰할 수 있고 정확한 결과를 제공하는 강력한 컴퓨터 비전 모델을 구축할 수 있습니다. 

데이터 중심의 미래로 나아감에 따라 편향 및 개인 정보 보호 규정과 관련된 위험을 완화하기 위해 윤리적 고려 사항을 해결하는 것이 필수적입니다. 궁극적으로 데이터의 무결성과 공정성을 보장하는 것이 컴퓨터 비전 기술의 잠재력을 최대한 활용하는 데 핵심입니다.

커뮤니티에 가입하고 GitHub 저장소를 확인하여 AI에 대해 자세히 알아보세요. 솔루션 페이지에서 농업제조업과 같은 분야에서 AI 응용 사례를 더 살펴보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.