컴퓨터 비전에서 합성 데이터란 무엇인가요? 개요

아비라미 비나

5분 읽기

2025년 7월 4일

의료 및 로봇 공학 등 다양한 산업 분야의 컴퓨터 비전 애플리케이션에서 AI 모델 학습을 위한 합성 데이터가 어떻게 사용되는지 살펴보세요.

데이터는 분석 및 인공지능(AI)과 같은 분야에서 항상 원동력이 되어 왔습니다. 실제로 데이터를 수집, 생성, 사용하는 방식이 지능형 시스템의 미래를 형성하고 있습니다. 예를 들어, 자율주행차는 도로 표지판부터 보행자의 움직임까지 수백만 개의 라벨이 붙은 이미지와 센서 판독값에 의존하여 도로를 안전하게 탐색하는 방법을 학습합니다.

특히 자율주행차나 보안과 같은 분야에서 이러한 발전을 뒷받침하는 가장 중요한 데이터 유형 중 하나는 이미지와 동영상과 같은 시각적 데이터입니다. 

특히 기계가 이러한 시각 정보를 해석할 수 있도록 하는 AI 분야를 컴퓨터 비전이라고 합니다. 컴퓨터 비전은 시스템이 사람처럼 시각적 입력을 이해하고 분석하여 얼굴 인식, 교통 표지판 감지, 의료 이미지 분석과 같은 작업을 지원합니다. 

그러나 현실 세계에서 대규모의 고품질 시각적 데이터 세트를 수집하는 것은 시간과 비용이 많이 들고 개인정보 보호 문제가 발생할 수 있습니다. 그렇기 때문에 연구자들은 합성 데이터를 활용하는 개념을 적극적으로 탐구하고 있습니다. 

합성 데이터는 실제 이미지와 동영상을 매우 유사하게 모방한 인공적으로 생성된 비주얼을 말합니다. 합성 데이터는 3D 모델링, 컴퓨터 시뮬레이션, 실제 데이터에서 패턴을 학습하여 사실적인 새로운 예시를 생성하는 생성적 적대 신경망(GAN)과 같은 생성 AI 기법을 사용하여 만들어집니다.

가트너는 2030년까지 합성 데이터가 실제 데이터보다 더 중요한 역할을 하게 될 것이라고 예측하면서 합성 데이터가 곧 AI 개발에 중요한 역할을 할 것으로 예상하고 있습니다. 이 글에서는 컴퓨터 비전의 맥락에서 합성 데이터가 무엇인지, 어떻게 생성되는지, 실제 시나리오에서 합성 데이터가 어디에 적용되는지 살펴봅니다. 시작해 보겠습니다!

컴퓨터 비전에서 합성 데이터란 무엇인가요?

다양한 환경과 조건에서 물체를 감지하도록 Vision AI 모델을 학습시키고 싶다고 가정해 보겠습니다. 실제 데이터에만 의존하는 것은 어렵고 때로는 한계가 느껴질 수 있습니다. 

한편 합성 데이터는 인위적으로 만든 다양한 조건의 오브젝트를 포함하는 올바른 데이터 세트를 생성하는 데 사용할 수 있습니다. 개발자는 3D 모델링 및 시뮬레이션과 같은 도구를 사용하여 조명, 각도, 오브젝트 배치와 같은 요소를 정밀하게 제어하여 이미지를 생성할 수 있습니다. 이는 결과적으로 실제 데이터보다 모델 훈련에 더 많은 유연성을 제공합니다.

합성 데이터는 실제 데이터를 수집하기 어렵거나 불가능할 때 특히 유용합니다. 예를 들어 달리기, 웅크린 자세, 누워 있는 자세 등 다양한 포즈의 사람을 인식하도록 모델을 훈련하려면 다양한 설정, 각도, 조명 조건에서 수천 장의 사진을 캡처해야 합니다. 

반면 합성 데이터를 사용하면 개발자가 정확한 레이블을 사용하여 이러한 변형을 쉽게 생성할 수 있으므로 시간과 노력을 절약하고 모델 성능을 개선할 수 있습니다.

그림 1. 다양한 사람의 포즈와 조명 변화가 있는 합성 데이터 세트(소스).

AI의 합성 데이터와 실제 데이터 비교

다음으로 합성 데이터와 실제 데이터의 차이점을 자세히 살펴보겠습니다. 두 가지 모두 AI 모델 학습에 있어 장단점이 있습니다. 

예를 들어, 합성 데이터는 실제 데이터를 수집하기 어려울 때 유용하지만 실제 생활에서 발견되는 모든 사소한 세부 사항을 포착하지 못할 수 있습니다. 동시에 실제 데이터는 더 사실적이지만 소싱하기 어렵고 라벨링하는 데 시간이 많이 걸리며 모든 상황을 포괄하지 못할 수 있습니다.

개발자는 합성 데이터와 실제 데이터를 결합하여 두 가지 장점을 모두 얻을 수 있습니다. 이러한 균형은 AI 모델이 더 정확하게 학습하고, 다양한 시나리오에서 더 잘 일반화하며, 편견을 줄이는 데 도움이 됩니다.

그림 2. AI의 합성 데이터와 실제 데이터 비교. 작성자 이미지.

컴퓨터 비전 모델을 위한 데이터 생성 살펴보기

3D 툴을 사용한 가상 세계 구축부터 제너레이티브 AI를 사용한 이미지 생성까지, 컴퓨터 비전 모델을 위한 합성 훈련 데이터를 생성하는 데 사용되는 몇 가지 일반적인 방법을 소개합니다:

  • 3D 모델링: 개발자는 3D 소프트웨어를 사용하여 디지털 오브젝트와 장면을 만듭니다. 이를 통해 조명, 카메라 각도, 오브젝트 배치 등을 완벽하게 제어할 수 있으며 사람, 차량, 환경의 사실적인 이미지를 생성하는 데 유용합니다.

  • 시뮬레이션: 시뮬레이션은 물리 기반 엔진을 사용하여 교통이나 공장 환경과 같은 실제 상황을 재현합니다. 시뮬레이션은 로봇 공학이나 자율 주행 자동차 같은 분야에서 훈련 데이터를 안전하게 생성하는 데 유용합니다.

  • 생성적 적대적 네트워크: GAN은 이미지를 생성하는 네트워크와 이미지를 평가하는 네트워크로 구성된 딥러닝 모델의 일종입니다. 이 두 네트워크는 실제 사례를 통해 학습하여 사람의 얼굴이나 거리 풍경과 같은 매우 사실적인 이미지를 생성합니다.

  • 절차적 생성: 이 기술은 사전 정의된 규칙이나 수학적 모델을 사용하여 지형, 건물 또는 텍스처와 같은 복잡한 시각적 구조를 자동으로 생성합니다. 게임 및 시뮬레이션 플랫폼에서 자주 사용되며 최소한의 인력 입력으로 대규모의 다양한 데이터 세트를 생성할 수 있습니다.

  • 도메인 무작위화: 합성 장면에서 조명, 색상, 오브젝트 모양 등을 임의로 변경할 수 있습니다. 이 기술의 목표는 모델이 실제로 중요한 것에 집중하여 실제 환경에 더 잘 적응할 수 있도록 돕는 것입니다.
그림 3. 데이터 예시: (a) 3D 모델 기반, (b) 합성 다중 객체 장면, (c) 실제 데이터 세트 이미지(소스).

합성 데이터로 비전 AI 모델 학습

이제 합성 데이터를 생성하는 데 사용되는 몇 가지 다양한 방법에 대해 살펴봤으니, 합성 데이터가 AI 모델 학습에 어떻게 사용되는지 살펴보겠습니다. 

일단 생성된 합성 데이터는 일반적으로 실제 데이터와 동일한 방식으로 훈련 파이프라인에 직접 통합할 수 있습니다. 일반적으로 객체 레이블, 경계 상자 또는 분할 마스크와 같은 필요한 주석이 포함되어 있어 수동으로 레이블을 지정할 필요 없이 모델이 레이블이 지정된 입출력 쌍을 통해 학습하는 지도 학습 작업에 사용할 수 있습니다.

훈련 중에 모델은 합성 이미지를 처리하여 특징을 감지하고 패턴을 인식하며 물체를 분류하는 방법을 학습합니다. 이 데이터는 모델의 초기 버전을 처음부터 구축하거나 기존 데이터 세트를 보강하는 데 사용하여 모델 성능을 개선하는 데 도움이 될 수 있습니다.

많은 워크플로우에서 합성 데이터는 사전 학습에도 사용되어 실제 사례를 통해 모델을 미세 조정하기 전에 폭넓은 기초 이해를 제공합니다. 마찬가지로 다양한 조명 조건, 각도, 희귀한 개체 클래스 등 제어된 변형을 도입하여 데이터 세트를 보강하여 일반화를 개선하고 과적합을 줄이는 데도 사용됩니다. 

합성 데이터와 실제 데이터를 결합함으로써 팀은 시간과 비용이 많이 드는 수동 데이터 수집 노력에 대한 의존도를 줄이면서 다양한 조건에서 우수한 성능을 발휘하는 더욱 강력한 모델을 학습시킬 수 있습니다.

컴퓨터 비전에서 합성 데이터의 실제 응용 분야

합성 데이터의 실용성과 접근성이 향상됨에 따라 다양한 실제 비전 AI 사용 사례에서 합성 데이터가 채택되기 시작했습니다. 컴퓨터 비전 분야에서 가장 영향력 있는 몇 가지 애플리케이션에서 합성 데이터가 사용되고 있는 사례를 살펴보겠습니다.

자율주행 차량의 물체 감지를 위한 합성 데이터 사용

자율주행차가 안전하게 운전하도록 가르치려면 드물거나 위험한 상황을 포함한 다양한 시나리오에서 모델을 훈련시켜야 합니다. 하지만 이러한 엣지 케이스에 대한 실제 데이터를 수집하는 것은 어렵고 때로는 안전하지 않을 수 있습니다. 합성 데이터는 모델이 어려운 상황에서 물체를 감지하는 방법을 학습할 수 있는 장면을 만드는 데 도움이 될 수 있습니다. 또한 모든 자율주행차가 동일한 하드웨어를 사용하는 것은 아니기 때문에 다양한 센서 구성을 모방할 수 있어 도움이 됩니다.

엔비디아의 드라이브 심 플랫폼이 그 좋은 예입니다. 이 플랫폼은 사실적인 3D 모델, 가상 환경 및 센서 시뮬레이션을 사용하여 고품질 합성 데이터를 생성합니다. 또한 단일 이미지에서 여러 주행 각도의 이미지를 생성할 수도 있습니다. 이와 같은 합성 데이터를 사용하면 비용이 많이 드는 실제 테스트의 필요성을 줄이면서도 모델이 효과적으로 학습하는 데 필요한 다양성을 확보할 수 있습니다.

그림 4. 하나의 이미지에서 여러 개의 드라이빙 뷰 만들기(소스).

합성 데이터로 의료 영상 AI의 편향성 줄이기

물체 감지 및 인스턴스 분할과 같은 작업을 지원하는 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 의료용 이미징 애플리케이션에 맞게 맞춤 학습할 수 있습니다. 그러나 실제 훈련 데이터에는 모든 인구 통계 그룹의 환자를 적절하게 대표하지 못할 수 있으므로 편향이 포함되어 있는 경우가 많습니다.

예를 들어, 피부색이 어두운 사람의 경우 피부암 진단 빈도가 낮기 때문에 해당 인구에 대한 데이터가 제한적입니다. 이러한 불균형은 특히 조직 병리학, 흉부 엑스레이, 피부과와 같은 분야에서 오진 및 불평등한 의료 결과의 원인이 될 수 있습니다.

합성 이미지는 이러한 데이터의 격차를 줄이는 데 한 걸음 더 나아가는 데 중요한 역할을 할 수 있습니다. 합성 데이터는 다양한 조직 이상, 광범위한 폐 상태, 병변 유형이 다른 피부 톤과 같은 추가적이고 다양한 사례를 생성함으로써 소외된 그룹의 모델 성능을 개선하는 데 도움이 될 수 있습니다. 

연구자들은 현재 이러한 목표를 지원하기 위해 합성 데이터 세트를 개발하고 검증하는 작업을 진행하고 있습니다. 또한 실제 환자 기록에 의존하지 않고 합성 데이터를 사용하여 의료 도구와 치료 전략을 테스트함으로써 환자의 개인정보를 보호하면서 연구를 가속화할 수 있는 방법을 모색하고 있습니다. 이러한 연구를 통해 합성 데이터는 보다 포용적이고 정확하며 윤리적인 의료 AI 시스템을 위한 길을 열어가고 있습니다.

정밀 농업을 위한 합성 데이터로 농업 AI의 발전

농업 애플리케이션을 위한 비전 AI 시스템을 구축하려면 대량의 라벨링된 데이터에 액세스할 수 있어야 합니다. 그러나 작물, 질병, 현장 상태의 사진을 수집하고 라벨을 붙이는 작업은 느리고 비용이 많이 들며 날씨, 재배 계절, 특정 지역에 도달하기 어려운 정도 등으로 인해 제한되는 경우가 많습니다. 

이러한 문제로 인해 식물 질병 탐지, 작물 모니터링 또는 수확량 예측과 같은 작업을 처리하도록 컴퓨터 비전 모델을 훈련시키는 것이 어렵습니다. 이때 합성 데이터가 도움이 될 수 있는데, 다양한 농업 환경을 모방하여 유용한 훈련 예제를 생성할 수 있습니다.

그림 5. 향상된 질병 탐지를 위한 합성 이미지 사용(출처).

주요 요점

합성 데이터를 사용하는 것은 특히 실제 데이터가 제한적이거나 구하기 어려운 분야의 컴퓨터 비전 시스템에서 AI 모델 학습에 있어 중요한 진전을 의미합니다. 비용이 많이 들고 시간이 오래 걸리거나 개인정보 보호 문제가 발생할 수 있는 실제 사진이나 동영상에만 의존하는 대신 합성 데이터를 사용하면 필요에 따라 사실적이고 레이블이 지정된 이미지를 생성할 수 있습니다. 

이를 통해 자율 주행, 질병 감지, 농작물 모니터링과 같은 작업을 위해 Vision AI 모델을 더 쉽게 훈련할 수 있습니다. AI가 계속 발전함에 따라 합성 데이터는 산업 전반에서 혁신을 가속화하고 접근성을 개선하는 데 더욱 큰 역할을 할 것입니다.

GitHub 리포지토리에서 AI에 대해 자세히 알아보고 성장하는 커뮤니티에 참여하세요. 자율 주행 차량의 AI와 농업 분야의 컴퓨터 비전과 같은 애플리케이션이 미치는 영향에 대해 알아보세요. 라이선스 옵션을 살펴보고 Vision AI 프로젝트를 실현하세요.

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨