비전 AI

고품질 컴퓨터 비전 데이터셋의 중요성

컴퓨터 비전 모델을 구축할 때 고품질 데이터가 필요한 이유를 함께 살펴봅니다. 데이터 품질이 모델 성능에 어떤 영향을 미칠 수 있는지 확인하십시오.

ABAbirami Vina

4 min readDecember 16, 2024

2019년 기준으로, 기업의 인공지능(AI) 도입은 지난 4년 동안 270% 증가했습니다. 이러한 성장은 컴퓨터 비전(CV) 애플리케이션의 급속한 통합을 촉진했으며, 이는 기계가 주변 환경의 시각적 데이터를 해석하고 분석할 수 있게 하는 AI 시스템입니다. 이러한 애플리케이션은 의료 영상의 질병 탐지, 자율 주행 차량 구현부터 교통 시스템의 교통 흐름 최적화 및 보안 시스템의 감시 기능 향상에 이르기까지 광범위한 기술을 뒷받침합니다.

The remarkable accuracy and unmatched performance of cutting-edge computer vision models like Ultralytics YOLO11 have largely driven this exponential growth. However, the performance of these models heavily relies on the quality and quantity of the data used to train, validate, and test models.

충분한 고품질 데이터가 없으면 컴퓨터 비전 모델을 업계 표준에 맞게 효과적으로 학습시키고 미세 조정(fine-tuning)하기가 어려울 수 있습니다. 이 기사에서는 컴퓨터 비전 모델을 구축하는 데 있어 데이터의 중요한 역할과 컴퓨터 비전에서 고품질 데이터가 왜 중요한지 살펴봅니다. 또한 맞춤형 컴퓨터 비전 모델을 학습시키면서 고품질 데이터셋을 생성하는 데 도움이 되는 몇 가지 팁을 안내해 드리겠습니다. 시작해 볼까요?

Link to this section컴퓨터 비전 모델 구축에 있어 데이터의 역할#

컴퓨터 비전 모델은 이미지와 비디오로 구성된 대규모 데이터셋으로 학습되어 패턴을 인식하고 정확한 예측을 수행할 수 있습니다. 예를 들어, 객체 탐지 모델은 수백 또는 수천 개의 라벨링된 이미지와 비디오로 학습하여 객체를 정확하게 식별할 수 있습니다.

이 학습 데이터의 품질과 양은 모델의 성능에 영향을 미칩니다.

컴퓨터 비전 모델은 노출된 데이터로부터만 학습할 수 있으므로, 고품질 데이터와 다양한 예시를 제공하는 것이 성공의 핵심입니다. 충분하고 다양한 데이터셋이 없으면 모델이 실제 시나리오를 정확하게 분석하지 못할 수 있으며 편향되거나 부정확한 결과를 생성할 수 있습니다.

이것이 모델 학습에서 데이터의 역할을 명확히 이해해야 하는 이유입니다. 고품질 데이터의 특성을 살펴보기 전에, 컴퓨터 비전 모델을 학습할 때 접할 수 있는 데이터셋 유형을 이해해 보겠습니다.

Link to this section컴퓨터 비전 데이터셋 유형#

컴퓨터 비전에서 학습 과정에 사용되는 데이터는 각각 특정 목적에 맞는 세 가지 유형으로 분류됩니다. 각 유형을 간략히 살펴보겠습니다:

학습 데이터: 모델을 처음부터 학습시키는 데 사용되는 기본 데이터셋입니다. 이는 사전 정의된 라벨이 포함된 이미지와 비디오로 구성되어 있어, 모델이 패턴을 배우고 객체를 인식할 수 있게 합니다.
검증 데이터: 학습 중에 모델이 얼마나 잘 수행되고 있는지 확인하는 데 사용되는 데이터 세트입니다. 모델이 새롭고 보지 못한 데이터에서도 올바르게 작동하는지 확인하는 데 도움이 됩니다.
테스트 데이터: 학습된 모델의 최종 성능을 평가하는 데 사용되는 별도의 데이터 세트입니다. 모델이 완전히 새롭고 보지 못한 데이터에 대해 얼마나 잘 예측을 수행하는지 확인합니다.

컴퓨터 비전에서 데이터가 분류되는 방식

그림 1. 컴퓨터 비전에서 데이터가 분류되는 방식.

Link to this section고품질 컴퓨터 비전 데이터셋의 5가지 주요 특징#

데이터셋 유형에 관계없이 고품질 데이터는 성공적인 컴퓨터 비전 모델을 구축하는 데 필수적입니다. 데이터셋을 고품질로 만드는 핵심 특성은 다음과 같습니다:

정확성: 이상적으로 데이터는 실제 상황을 면밀히 반영하고 올바른 라벨을 포함해야 합니다. 예를 들어 의료 분야의 비전 AI의 경우, 모델이 올바르게 학습할 수 있도록 X-레이나 스캔 이미지에 정확한 라벨이 지정되어야 합니다.
다양성: 좋은 데이터셋에는 모델이 다양한 상황에서 잘 수행될 수 있도록 돕는 다양한 예시가 포함됩니다. 예를 들어, 모델이 자동차를 탐지하도록 학습하는 경우, 데이터셋에는 다양한 환경(낮, 밤, 비 등)에서 다양한 모양, 크기, 색상의 자동차가 포함되어야 합니다.
일관성: 고품질 데이터셋은 통일된 형식과 품질 표준을 따릅니다. 예를 들어, 이미지의 해상도는 비슷해야 하며(일부는 흐리고 일부는 선명해서는 안 됨), 모델이 일관된 정보로부터 학습할 수 있도록 크기 조정이나 색상 조정과 같은 동일한 전처리 단계를 거쳐야 합니다.
적시성: 정기적으로 업데이트되는 데이터셋은 실제 변화를 따라갈 수 있습니다. 예를 들어, 모든 유형의 차량을 탐지하기 위해 모델을 학습하고 있다고 가정해 보겠습니다. 전기 스쿠터와 같은 새로운 차량이 도입되면, 모델이 정확하고 최신 상태를 유지할 수 있도록 데이터셋에 추가해야 합니다.
개인정보 보호: 데이터셋에 사람의 사진과 같은 민감한 정보가 포함된 경우, 개인정보 보호 규칙을 따라야 합니다. 비식별화(식별 가능한 세부 정보 제거) 및 데이터 마스킹(민감한 부분 숨기기)과 같은 기술은 데이터를 안전하게 사용하면서도 개인정보를 보호할 수 있습니다.

Link to this section저품질 데이터로 인해 발생하는 문제#

고품질 데이터의 특성을 이해하는 것도 중요하지만, 저품질 데이터가 컴퓨터 비전 모델에 어떤 영향을 미칠 수 있는지 고려하는 것도 똑같이 중요합니다.

과적합(overfitting) 및 과소적합(underfitting)과 같은 문제는 모델 성능에 심각한 영향을 줄 수 있습니다. 과적합은 데이터셋의 다양성이 부족하여 모델이 학습 데이터에서는 좋은 성능을 보이지만 새롭거나 보지 못한 데이터에서는 어려움을 겪을 때 발생합니다. 반면, 과소적합은 데이터셋이 모델이 유의미한 패턴을 학습하기에 충분한 예시나 품질을 제공하지 못할 때 발생합니다. 이러한 문제를 방지하려면 다양하고 편향되지 않은 고품질 데이터셋을 유지하여 학습 및 실제 애플리케이션 모두에서 안정적인 성능을 보장하는 것이 필수적입니다.

과소적합 대 과대적합

그림 2. 과소적합 vs. 과적합.

저품질 데이터는 또한 모델이 원시 데이터에서 유의미한 패턴을 추출하고 학습하는 과정인 특성 추출을 어렵게 만들 수 있습니다. 데이터셋이 불완전하거나 무관하거나 다양성이 부족하면 모델이 효과적으로 수행하기 어려울 수 있습니다.

Sometimes, low-quality data can be a result of simplifying data. Simplifying data can help save storage space and reduce processing costs, but oversimplification can remove important details the model needs to work well. This is why it’s so important to maintain high-quality data throughout the entire computer vision process, from collection to deployment. As a rule of thumb, datasets should include essential features while staying diverse and accurate to guarantee reliable model predictions.

특징 추출 이해하기

그림 3. 특성 추출 이해하기.

Link to this section컴퓨터 비전 데이터셋의 품질을 유지하기 위한 팁#

고품질 데이터의 중요성과 저품질 데이터의 영향을 이해했으니, 이제 데이터셋이 높은 표준을 충족하도록 보장하는 방법을 살펴보겠습니다.

모든 것은 신뢰할 수 있는 데이터 수집에서 시작됩니다. 크라우드소싱, 다양한 지리적 지역의 데이터, 합성 데이터 생성과 같은 다양한 소스를 사용하면 편향을 줄이고 모델이 실제 시나리오를 처리하는 데 도움이 됩니다. 데이터가 수집되면 전처리가 매우 중요합니다. 픽셀 값을 일관된 범위로 조정하는 정규화와 회전, 뒤집기, 확대/축소와 같은 변환을 적용하는 증강 기술은 데이터셋을 향상시킵니다. 이러한 단계는 모델의 일반화 능력을 높이고 더 강력하게 만들어 과적합 위험을 줄여줍니다.

데이터셋을 적절하게 분할하는 것도 중요한 단계입니다. 일반적인 접근 방식은 데이터의 70%를 학습, 15%를 검증, 15%를 테스트용으로 할당하는 것입니다. 이러한 세트 간에 겹치는 부분이 없는지 다시 확인하면 데이터 유출을 방지하고 정확한 모델 평가를 보장할 수 있습니다.

학습, 검증 및 테스트 간의 일반적인 데이터 분할

그림 4. 학습, 검증 및 테스트 간의 일반적인 데이터 분할.

YOLO11과 같은 사전 학습된 모델을 사용하여 시간과 계산 자원을 절약할 수도 있습니다. 대규모 데이터셋으로 학습되고 다양한 컴퓨터 비전 작업을 위해 설계된 YOLO11은 귀하의 특정 데이터셋에 맞춰 미세 조정할 수 있습니다. 모델을 데이터에 맞게 조정함으로써 과적합을 방지하고 강력한 성능을 유지할 수 있습니다.

Link to this section컴퓨터 비전 데이터셋의 향후 방향#

AI 커뮤니티는 전통적으로 더 많은 레이어를 가진 더 깊은 모델을 구축하여 성능을 향상시키는 데 집중해 왔습니다. 그러나 AI가 계속 진화함에 따라 초점은 모델 최적화에서 데이터셋의 품질을 개선하는 방향으로 이동하고 있습니다. 종종 “AI의 아버지”라고 불리는 Andrew Ng은 "이번 10년 동안 AI 세계가 거쳐야 할 가장 중요한 변화는 데이터 중심 AI로의 전환이 될 것"이라고 믿습니다.

이 접근 방식은 라벨 정확도를 개선하고 노이즈가 많은 예시를 제거하며 다양성을 보장함으로써 데이터셋을 정제하는 데 중점을 둡니다. 컴퓨터 비전의 경우, 이러한 원칙은 편향 및 저품질 데이터와 같은 문제를 해결하는 데 매우 중요하며 모델이 실제 시나리오에서 안정적으로 작동할 수 있도록 합니다.

미래를 내다볼 때 컴퓨터 비전의 발전은 방대한 양의 데이터를 수집하는 것보다 더 작고 고품질인 데이터셋을 만드는 데 의존할 것입니다. Andrew Ng에 따르면, "데이터를 개선하는 것은 일회성 전처리 단계가 아닙니다. 이는 머신러닝 모델 개발의 반복적인 과정에서 핵심적인 부분입니다." 데이터 중심 원칙에 집중함으로써 컴퓨터 비전은 다양한 산업 전반에서 더욱 접근하기 쉽고 효율적이며 영향력 있게 지속될 것입니다.

Link to this section핵심 요약#

데이터는 비전 모델의 전체 수명 주기 동안 중요한 역할을 합니다. 데이터 수집에서 전처리, 학습, 검증 및 테스트에 이르기까지 데이터의 품질은 모델의 성능과 신뢰성에 직접적인 영향을 미칩니다. 고품질 데이터와 정확한 라벨링을 우선시함으로써 안정적이고 정밀한 결과를 제공하는 강력한 컴퓨터 비전 모델을 구축할 수 있습니다.

데이터 중심의 미래로 나아감에 따라, 편향 및 개인정보 보호 규정과 관련된 위험을 완화하기 위해 윤리적 고려 사항을 다루는 것이 필수적입니다. 궁극적으로 데이터의 무결성과 공정성을 보장하는 것은 컴퓨터 비전 기술의 잠재력을 완전히 실현하는 열쇠입니다.

저희 커뮤니티에 가입하고 GitHub 저장소를 확인하여 AI에 대해 자세히 알아보세요. 농업 및 제조와 같은 분야에서 더 많은 AI 애플리케이션을 탐색하려면 솔루션 페이지를 확인하세요.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

고품질 컴퓨터 비전 데이터셋의 중요성

Link to this section컴퓨터 비전 모델 구축에 있어 데이터의 역할#

Link to this section컴퓨터 비전 데이터셋 유형#

Link to this section고품질 컴퓨터 비전 데이터셋의 5가지 주요 특징#

Link to this section저품질 데이터로 인해 발생하는 문제#

Link to this section컴퓨터 비전 데이터셋의 품질을 유지하기 위한 팁#

Link to this section컴퓨터 비전 데이터셋의 향후 방향#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!