컴퓨터 비전 프로젝트에서 데이터셋을 보다 효율적으로 관리하기 위해 Ultralytics 어떻게 활용할 수 있는지 알아보세요. 데이터셋을 손쉽게 추적하고, 비교하며, 개선해 보세요.
컴퓨터 비전 프로젝트에서 데이터셋을 보다 효율적으로 관리하기 위해 Ultralytics 어떻게 활용할 수 있는지 알아보세요. 데이터셋을 손쉽게 추적하고, 비교하며, 개선해 보세요.
비전 AI, 즉 컴퓨터 비전은 초기 단계부터 큰 발전을 거듭해 왔으며, 실험적 연구 단계에서 벗어나 현실 세계의 다양한 응용 분야를 뒷받침하는 핵심 기술로 자리 잡았습니다. 오늘날 AI 애호가들은 손쉽게 이용할 수 있는 도구와 프레임워크를 활용해 물체 탐지나 인스턴스 분할과 같은 작업을 위한 강력한 모델을 구축할 수 있습니다.
그러나 이러한 애플리케이션이 실험 단계에서 실제 운영 단계로 넘어감에 따라, 데이터셋 관리는 여전히 중요하지만 종종 간과되는 과제입니다. 컴퓨터 비전 데이터셋의 규모와 복잡성이 증가함에 따라, 팀들은 일관된 주석 유지, 버전 간 track , 전반적인 데이터 품질 확보에 어려움을 겪는 경우가 많습니다.
훈련에 사용된 데이터가 불완전하거나, 불균형하거나, 관리가 부실하다면 최첨단 모델조차 실제 환경에서는 기대에 미치지 못하는 성능을 보일 수 있습니다. 개발 단계에서의 성능과 실제 환경에서의 신뢰성 사이에 벌어지는 이러한 격차가 바로 데이터셋 관리에 있어 보다 체계적인 접근 방식이 필요한 이유입니다.
또 다른 일반적인 한계는 데이터 수집, 라벨링, 훈련이 종종 서로 다른 도구로 처리된다는 점입니다. 이러한 분산된 워크플로는 데이터셋을 효율적으로 관리하기 어렵게 만들고, 불일치 발생 위험을 높이며, 반복 작업 속도를 저하시킵니다.
데이터셋 관리 및 분산된 워크플로우와 같은 비전 AI의 병목 현상을 해결하기 위해, 당사는 최근 Ultralytics 출시했습니다. 이는 데이터셋 관리, 라벨링, 훈련, 배포 및 모니터링을 하나의 통합된 워크플로우로 통합한 엔드투엔드 작업 공간입니다.
컴퓨터 비전 라이프사이클의 각 단계를 연결함으로써, track 변경 사항을 track , 버전 간 성능을 비교하며, 더 나은 결과를 얻기 위해 데이터를 지속적으로 개선하는 것이 더 쉬워집니다.

이 글에서는 Ultralytics 어떻게 데이터 세트를 track 비교하며 개선하여, 더 신뢰할 수 있는 컴퓨터 비전 모델을 구축할 수 있도록 지원하는지 자세히 살펴보겠습니다. 그럼 시작해 볼까요!
컴퓨터 비전 모델의 성능은 훈련에 사용된 데이터와 밀접한 관련이 있습니다. 모델의 정확도, 즉 예측이 얼마나 자주 맞는지 여부는 알고리즘뿐만 아니라 데이터셋이 실제 상황을 얼마나 잘 반영하느냐에 달려 있습니다.
간단히 말해, 모델은 데이터에서 직접 패턴을 학습하므로 데이터셋에 존재하는 누락, 편향 또는 불일치는 예측 결과에 영향을 미칠 수 있습니다. 다시 말해, 데이터 품질이 낮거나 주석이 부정확하거나, 다양한 조명 조건, 물체의 각도, 배경, 가림 정도와 같은 실제 환경의 변수를 충분히 반영하지 못한 경우, 모델 아키텍처 자체가 우수하더라도 정확도가 크게 떨어질 수 있습니다.
이는 모델을 미세 조정할 때도 마찬가지입니다. 미세 조정이란 사전 학습된 모델을 새로운 데이터나 업데이트된 데이터로 추가 훈련시켜 특정 사용 사례나 환경에 더 잘 적응하도록 하는 과정을 말합니다. 모델의 정확도는 데이터에 크게 좌우되므로, 해당 데이터를 적절히 관리하는 것이 필수적입니다.
데이터셋 관리에는 데이터의 정확성과 관련성을 유지하기 위한 정리, 라벨링 및 지속적인 업데이트가 포함됩니다. 이를 통해 시간이 지남에 따라 성능을 향상시키는 것이 더 쉬워지며, 특히 새로운 데이터로 모델을 재훈련하거나 미세 조정할 때 그 효과가 두드러집니다.
보안 모니터링 시스템과 같은 컴퓨터 비전 활용 사례는 적절한 데이터 관리가 왜 필수적인지 보여주는 훌륭한 예시입니다. 이러한 시스템은 다양한 조명 환경, 카메라 각도, 혼잡도, 부분적인 가림 현상 등 실제 환경에서 발생하는 다양한 조건에서도 안정적으로 작동해야 합니다.
훈련 데이터가 이러한 변형을 충분히 반영하지 못하거나, 다양한 장면과 환경에서 물체가 나타나는 방식에 대한 다양성이 부족할 경우, 모델은 detect 정확하게 detect 데 어려움을 겪을 수 있습니다. 예를 들어, 주로 조명이 밝고 주변이 깔끔한 장면으로 훈련된 모델은 저조도 환경이나 혼잡한 장소에서는 성능이 떨어질 수 있습니다. 보안 시스템의 경우, 이로 인해 사건을 놓치거나 오경보가 발생할 수 있습니다.
이를 방지하려면 데이터셋을 단순히 깨끗하고 정확하게 라벨링된 상태로 유지하는 것뿐만 아니라, 균형 잡히고 지속적으로 업데이트되도록 관리하는 것이 중요합니다. 즉, 데이터의 누락된 부분을 파악하고, 상황이 변함에 따라 새로운 사례를 추가하며, 서로 다른 클래스와 환경이 고르게 반영되도록 해야 합니다.
더 완전하고 체계적인 데이터셋을 활용하면, 모델은 실제 환경의 변동성을 더 잘 처리하고 더 신뢰할 수 있는 예측 결과를 도출할 수 있습니다.
그렇다면 데이터셋 관리는 실제로 어떤 모습일까요? 이는 모델 개발 과정 전반에 걸쳐 데이터를 효과적으로 활용할 수 있도록 데이터를 정리하고, 라벨을 지정하며, 관리하는 작업을 포함합니다.
예를 들어, 데이터를 정리하는 과정에는 데이터셋을 구조화하고 이를 훈련 세트, 검증 세트, 테스트 세트로 나누는 작업이 포함됩니다. 훈련 세트는 모델에 학습을 시키는 데 사용되며, 검증 세트는 성능을 모니터링하고 개발 과정에서 조정을 안내하는 데 사용되며, 테스트 세트는 최종 모델이 이전에 본 적 없는 데이터에서 얼마나 잘 작동하는지 평가하는 데 사용됩니다.
한편, 라벨링이란 클래스 라벨, 바운딩 박스, 분할 마스크와 같은 세부 정보를 이미지에 주석으로 달아주는 작업을 말합니다. 모델은 이러한 주석 정보를 바탕으로 학습하므로, 모델이 의미 있는 패턴을 학습하고 신뢰할 수 있는 예측을 내리기 위해서는 정확성과 일관성이 매우 중요합니다.
이 외에도 데이터셋을 유지 관리하려면 시간이 지남에 따라 데이터를 검토하고 업데이트해야 합니다. 여기에는 주석 오류를 수정하고, 품질이 낮은 데이터나 중복 데이터를 제거하며, 누락된 사례나 변화하는 조건을 반영하기 위해 새로운 예시를 추가하는 작업이 포함될 수 있습니다.
더 넓게 보면, 데이터셋 관리는 지속적인 과정입니다. 모델이 평가되고 새로운 데이터가 수집됨에 따라, 실제 환경과 극한 사례를 반영하도록 데이터셋을 업데이트해야 합니다. 이러한 업데이트를 추적하고 서로 다른 버전을 비교함으로써, 팀은 어떤 요소가 성능을 향상시키는지, 그리고 어디에 추가적인 변경이 필요한지 파악할 수 있습니다.
Ultralytics 단일 환경 내에서 데이터셋을 관리하기 위한 체계적인 워크플로를 제공하며, 데이터 전처리부터 내보내기까지 모든 과정을 포괄합니다. 이 플랫폼은 개인 개발자와 팀 모두를 지원하도록 설계되어, 혼자 작업하든 여러 프로젝트 간에 협업하든 관계없이 데이터셋을 일관성 있게 관리할 수 있도록 돕습니다.
각 단계는 모델 개발 라이프사이클 전반에 걸쳐 데이터셋을 구성, 처리 및 활용하는 과정을 간소화하도록 설계되었습니다. 이러한 단계들을 한곳에 통합함으로써, 이 플랫폼은 분산 현상을 줄이고 워크플로우 전반에 걸쳐 일관성을 유지하는 과정을 더욱 간편하게 만듭니다.
다음으로, 관련 주요 단계와 플랫폼이 각 단계를 어떻게 지원하는지 살펴보겠습니다.
이 플랫폼에서 데이터셋을 시작하는 방법은 유연하며, 데이터를 가져오거나 재사용할 수 있는 다양한 방법이 제공됩니다. 직접 데이터를 업로드하거나, 플랫폼을 통해 제공되는 공개 데이터셋을 활용하여 더 빠르게 시작할 수 있습니다. 또한 커뮤니티에서 공유한 기존 데이터셋을 복제하여 이를 기반으로 작업을 진행할 수도 있습니다.
이 플랫폼의 커뮤니티 기능을 통해 기존 자료를 쉽게 탐색하고 재사용할 수 있습니다. 수백만 장의 이미지와 주석을 포함한 다른 사용자가 생성한 데이터셋에 접근할 수 있으므로, 모든 자료를 직접 수집하고 라벨링할 필요 없이 빠르게 작업을 시작할 수 있습니다. 데이터셋을 복제하면 작업 공간에 사본이 생성되어, 원본을 그대로 유지한 채 수정하고 확장할 수 있습니다.
이 플랫폼은 이미지, 동영상, ZIP, TAR, GZ 파일 등의 데이터셋 아카이브를 개별적으로 업로드할 수 있도록 지원합니다. 또한 YOLO COCO 같이 널리 사용되는 데이터셋 형식을 지원하므로, 별도의 변환 과정 없이 기존 데이터셋과 주석을 쉽게 가져올 수 있습니다. 이 외에도 플랫폼에서 내보낸 NDJSON 파일을 사용하여 데이터셋을 업로드할 수 있어, 프로젝트 간에 데이터셋을 원활하게 재구성하거나 재사용할 수 있습니다.
데이터가 업로드되면 플랫폼은 체계적인 파이프라인을 통해 데이터를 처리합니다. 여기에는 파일 형식과 크기 검증, 필요한 경우 이미지 크기 조정, 주석 분석, 데이터셋 통계 생성 등이 포함됩니다.
예를 들어, 동영상은 훈련에 활용할 수 있도록 프레임 단위로 변환되며, 이미지는 더 쉽게 탐색하고 분석할 수 있도록 최적화 및 준비됩니다. 처리 과정이 완료되면 데이터셋은 플랫폼 내에서 주석 달기, 분석 및 모델 훈련에 바로 사용할 수 있게 됩니다.
데이터셋을 업로드하면 플랫폼 내에서 직접 검토하고 주석을 달 수 있습니다. 이 플랫폼에는 물체 탐지, 인스턴스 분할, 자세 추정, 방향성 바운딩 박스(OBB) 탐지, 이미지 분류 등 다양한 컴퓨터 비전 작업을 위한 내장형 이미지 주석 도구가 포함되어 있습니다.

이러한 도구를 사용하여 수동으로 주석을 생성할 수도 있고, SAM 스마트 주석과 같은 AI 지원 기능을 활용해 작업 속도를 높일 수도 있습니다. SAM 사용하면 이미지와 상호작용하여 마스크, 바운딩 박스 또는 방향 지정 박스를 생성할 수 있어, 정확도를 유지하면서 라벨링 과정을 가속화하는 데 도움이 됩니다.
데이터를 준비하고 라벨링하는 것 외에도, 신뢰할 수 있는 컴퓨터 비전 모델을 구축하려면 데이터셋의 품질을 파악하는 것이 필수적입니다. 클래스 분포, 라벨링 품질, 데이터셋 분할, 그리고 다양한 조건에서 데이터가 어떻게 표현되는지와 같은 요소를 명확히 파악하지 못하면, 모델 성능에 영향을 미치는 문제점을 발견하기 어려울 수 있습니다.
Ultralytics 데이터 세트를 보다 효과적으로 분석할 수 있도록 돕는 기본 제공 기능이 포함되어 있습니다. 이러한 분석 결과는 데이터 세트 인터페이스 내에서 ‘이미지(Images)’, ‘클래스(Classes)’, ‘차트(Charts)’ 등의 탭을 통해 바로 확인할 수 있습니다.
‘차트’ 탭에서는 분할 분포(훈련, 검증, 테스트), 클래스 빈도, 그리고 이미지 내에서 객체가 나타나는 위치를 보여주는 라벨링 히트맵과 같은 데이터셋 수준의 통계를 확인할 수 있습니다.
‘클래스’ 탭에서는 클래스별 주석 수를 상세히 확인할 수 있어, 클래스 간 불균형을 쉽게 파악할 수 있습니다. 한편, ‘이미지’ 탭에서는 이미지 크기, 주석 수, 개별 이미지에 라벨이 어떻게 분포되어 있는지 등의 세부 정보를 확인할 수 있습니다.
이러한 통찰력을 통해 클래스 불균형, 누락된 시나리오, 데이터 분포의 불균형과 같은 문제를 더 쉽게 파악할 수 있습니다. 예를 들어, 특정 클래스의 예시가 매우 적거나 대부분의 라벨링이 이미지의 특정 영역에 집중되어 있다는 사실을 발견할 수 있습니다.
데이터 분석 외에도, 이 플랫폼은 데이터셋 큐레이션 및 보강 기능을 지원합니다. 즉, 문제가 있는 데이터를 수정하거나 제거하여 데이터셋을 정제하고, 모델 성능을 향상시키기 위해 기존 데이터의 변형 버전을 생성할 수 있습니다. 이러한 개선 작업은 분석 결과를 바탕으로 주석을 업데이트하거나, 새로운 데이터를 추가하거나, 데이터셋 분할을 재구성함으로써 플랫폼 내에서 직접 수행할 수 있습니다.
데이터셋을 준비하고 검증한 후에는 다양한 환경에서 사용할 수 있도록 내보낼 수 있습니다. 이를 통해 로컬, 클라우드, 또는 기타 도구 및 워크플로우에서 모델을 훈련하는 등 원하는 곳 어디서나 컴퓨터 비전 데이터를 유연하게 활용할 수 있습니다.
Ultralytics YOLO, COCO, NDJSON 등 다양한 내보내기 형식을 지원하므로, 데이터셋을 다양한 훈련 워크플로우 및 도구와 손쉽게 통합할 수 있습니다.

데이터셋을 내보내면 이미지, 주석, 구조를 포함한 특정 시점의 데이터 상태를 고정된 스냅샷으로 생성합니다. 새로운 데이터가 추가되거나, 주석이 업데이트되거나, 분할이 조정됨에 따라 데이터셋은 종종 변경되기 때문에 이 기능은 유용합니다. 스냅샷을 내보내면 특정 훈련 실행에 사용된 데이터셋의 정확한 버전을 보존할 수 있습니다.
이렇게 하면 나중에 결과를 재현하기가 더 쉬워집니다. 동일한 데이터 구성으로 모델을 다시 훈련시키고, 서로 다른 데이터셋 버전의 성능을 비교할 수 있기 때문입니다. 예를 들어, 무엇이 달라졌는지 추측하는 대신, 새로운 이미지를 추가하거나 라벨링 오류를 수정하는 것이 실제로 모델의 정확도를 향상시키는지 평가할 수 있습니다.
수출 작업은 비동기 방식으로 처리되며, 준비가 완료되면 데이터 세트를 다운로드하여 로컬, 클라우드 또는 오프라인 훈련 환경에서 사용할 수 있습니다.
머신러닝 및 딥러닝 워크플로우에서는 실제 데이터가 훈련 시 사용된 데이터와 종종 다르기 때문에, 배포 후에도 데이터셋 관리가 계속됩니다.
모델이 새로운 입력 데이터를 접하게 되면, 저조도 환경, 다양한 카메라 각도, 물체 가림 현상, 복잡한 장면과 같은 누락된 조건이나 주석 오류 등 데이터셋의 한계가 더욱 두드러지게 나타나며, 이에 따라 시간이 지남에 따라 데이터를 지속적으로 개선해야 할 필요성이 대두됩니다.
데이터셋을 개선하는 방법에는 여러 가지가 있습니다. 저조도 환경, 다양한 카메라 각도, 피사체 가림 현상, 혼잡한 장면 등 데이터에 누락된 상황을 보완하기 위해 새로운 이미지나 동영상을 추가함으로써 데이터의 사각지대를 줄일 수 있습니다.
동시에, 객체의 정확한 라벨링이나 정밀한 바운딩 박스 및 마스크와 같이 주석이 정확하고 일관되도록 하는 것은 모델이 더 신뢰할 수 있는 패턴을 학습하는 데 도움이 됩니다.
이는 일반적으로 다음과 같은 간단한 반복 과정을 따릅니다: 모델을 훈련시키고, 결과를 평가하며, 오류를 파악하고, 데이터셋을 개선한 뒤 다시 훈련하는 것입니다. 각 단계는 잘못된 라벨링, 누락된 데이터, 또는 충분히 반영되지 않은 사례와 같은 문제점을 드러내는 데 도움이 됩니다.
가령 매장에서 detect 실시간 진열대 모니터링 시스템을 개발하고 있다고 가정해 봅시다. 데이터셋의 초기 버전에는 특정 상품 유형, 조명 조건, 또는 진열대가 붐비는 상황이 포함되지 않았을 수 있습니다. 평가 과정에서 모델이 이러한 상황에서 detect 데 어려움을 겪는다는 사실을 발견할 수 있습니다.
성능을 향상시키기 위해, 누락된 시나리오를 포괄하는 새로운 이미지를 수집하고 필요한 경우 주석을 업데이트할 수 있습니다. 시간이 지남에 따라 이 과정을 반복하면 모델이 실제 환경에서 더 정확하고 신뢰할 수 있게 됩니다.
Ultralytics 데이터셋 업데이트를 학습 및 평가 과정과 연동하여 이러한 워크플로를 지원합니다. 내장된 실험 추적 및 성과 지표 기능을 통해 진행 상황을 모니터링하고 시간이 지남에 따라 데이터셋을 지속적으로 개선하는 것이 더욱 쉬워집니다.
모델 개발 과정의 일환으로, 데이터셋이 시간이 지남에 따라 어떻게 변화하는지에 대해 간략히 살펴보았습니다. 새로운 데이터가 추가되고, 라벨링이 정교해지며, 클래스가 업데이트됨에 따라, 이러한 track 데이터 품질을 유지하고 모델 성능의 일관성을 보장하는 데 핵심적인 요소가 됩니다.
다음은 데이터 세트 추적 및 버전 관리를 지원하는 Ultralytics 주요 기능들입니다:

Ultralytics AI 모델 개발의 여러 단계를 하나의 통합 파이프라인으로 연결합니다. 이를 통해 원시 데이터에서 실제 운영에 투입 가능한 비전 AI 애플리케이션으로 이어지는 과정을 효율화합니다.
데이터셋을 준비하고 라벨링이 완료되면, 플랫폼 내에서 직접 Ultralytics 같은 컴퓨터 비전 모델을 훈련하는 데 활용할 수 있습니다. 훈련 과정 중에는 내장된 대시보드를 통해 성능 지표를 모니터링하고, track 진행 상황을 track , 모델의 학습 성과를 평가할 수 있습니다.

훈련이 완료된 후에는 브라우저에서 바로 새로운 이미지로 모델을 테스트하여 예측 결과를 평가하고, 배포 전에 개선이 필요한 부분을 파악할 수 있습니다. 모델의 성능이 양호할 경우, 실제 운영 환경에 배포할 수 있습니다.
이 플랫폼은 모델을 다양한 형식으로 내보내거나 추론 서비스 및 전용 엔드포인트를 통해 배포할 수 있도록 지원하여, 서로 다른 환경에서 모델을 실행할 수 있게 해줍니다.
배포가 완료되면 내장된 모니터링 도구를 통해 사용량 및 모델 동작과 관련된 지표를 포함하여 track 성능을 지속적으로 track 수 있습니다. 이를 통해 실제 환경에서 비전 AI 시스템을 보다 손쉽게 유지 관리하고 개선할 수 있습니다.
Ultralytics 사용하여 데이터 세트를 관리할 때 유의해야 할 주요 사항은 다음과 같습니다:
Ultralytics 대해 더 자세히 알아보시려면 Ultralytics 공식 Ultralytics 확인해 주세요.
컴퓨터 비전 프로젝트의 규모가 커짐에 따라, 데이터셋을 효과적으로 관리하는 것은 모델 개발만큼이나 중요해집니다. 체계적인 데이터셋 관리 방식은 데이터 품질을 향상시키고, 워크플로를 간소화하며, 시간이 지남에 따라 모델의 성능을 더욱 높이는 데 기여합니다.
Ultralytics 데이터셋 관리, 모델 훈련 및 배포를 단일 워크플로로 통합하여 이 과정을 간소화합니다. 데이터셋 관리에 체계적인 접근 방식을 도입함으로써, 팀은 복잡성을 줄이고 효율성을 높이며, 확장성과 신뢰성이 뛰어난 컴퓨터 비전 시스템을 구축할 수 있습니다.
점점 더 성장하고 있는 저희 커뮤니티에 참여하시고, GitHub 저장소에서 AI 관련 리소스를 확인해 보세요. 지금 바로 비전 AI를 활용해 프로젝트를 구축하려면 라이선스 옵션을 살펴보시기 바랍니다. 솔루션 페이지를 방문하여 농업 분야의 AI가 농업을 어떻게 변화시키고 있는지, 그리고 의료 분야의 비전 AI가 미래를 어떻게 만들어가고 있는지 알아보세요.
미래의 머신러닝 여정을 시작하세요