가이드

컴퓨터 비전에서 합성 데이터란 무엇인가? 개요

AI 모델 학습을 위한 합성 데이터가 헬스케어 및 로봇 공학과 같은 다양한 산업의 컴퓨터 비전 응용 분야에서 어떻게 사용되는지 살펴보십시오.

ABAbirami Vina

5 min readJuly 4, 2025

데이터는 분석 및 인공지능(AI)과 같은 분야에서 항상 핵심적인 추진 요인이었습니다. 사실, 데이터를 수집, 생성, 사용하는 방식이 지능형 시스템의 미래를 형성하고 있습니다. 예를 들어, 자율주행 자동차는 도로 표지판부터 보행자의 움직임에 이르기까지 수백만 개의 라벨링된 이미지와 센서 판독값에 의존하여 도로를 안전하게 주행하는 방법을 학습합니다.

이러한 발전을 뒷받침하는 가장 중요한 데이터 유형 중 하나는 자율주행 차량 및 보안 분야에서 특히 중요한 이미지 및 비디오와 같은 시각 데이터입니다.

특히 기계가 이러한 시각 정보를 해석할 수 있도록 하는 AI 분야를 컴퓨터 비전이라고 합니다. 이는 시스템이 인간처럼 시각적 입력을 이해하고 분석하도록 도우며, 얼굴 인식, 교통 표지판 감지, 의료 영상 분석과 같은 작업을 지원합니다.

그러나 실제 세계에서 대규모의 고품질 시각 데이터셋을 수집하는 것은 시간이 많이 걸리고 비용이 많이 들며, 종종 개인정보 보호 문제를 야기합니다. 이것이 바로 연구자들이 합성 데이터를 활용하는 개념을 적극적으로 탐구하는 이유입니다.

합성 데이터는 실제 이미지와 비디오를 밀접하게 모방하여 인공적으로 생성된 시각 자료를 의미합니다. 이는 3D 모델링, 컴퓨터 시뮬레이션, 그리고 실제 데이터의 패턴을 학습하여 사실적인 새로운 예시를 생성하는 적대적 생성 신경망(GAN)과 같은 생성형 AI 방식 등의 기법을 사용하여 만들어집니다.

합성 데이터는 곧 AI 개발에서 중요한 역할을 할 것으로 기대됩니다. Gartner는 2030년까지 합성 데이터가 실제 데이터보다 더 중요해질 것이라고 예측했습니다. 이 기사에서는 컴퓨터 비전의 맥락에서 합성 데이터가 무엇인지, 어떻게 생성되는지, 실제 시나리오에서 어떻게 적용되는지 살펴보겠습니다. 시작해 보겠습니다!

Link to this section컴퓨터 비전에서의 합성 데이터란 무엇인가요?#

다양한 환경과 조건에서 객체를 감지하도록 비전 AI 모델을 학습시키고자 한다고 가정해 보겠습니다. 실제 데이터에만 의존하는 것은 어려울 수 있으며 때로는 한계가 있다고 느껴질 수 있습니다.

반면, 합성 데이터는 인공적으로 생성된 다양한 조건의 객체를 포함하는 올바른 데이터셋을 만드는 데 사용될 수 있습니다. 개발자는 3D 모델링 및 시뮬레이션과 같은 도구를 사용하여 조명, 각도, 객체 배치와 같은 요소를 정밀하게 제어하면서 이미지를 생성할 수 있습니다. 이는 결과적으로 실제 데이터보다 모델 학습에 더 큰 유연성을 제공합니다.

합성 데이터는 실제 데이터를 수집하기 어렵거나 불가능할 때 특히 유용합니다. 예를 들어, 달리기, 웅크리기, 누워 있기 등 다양한 자세의 사람을 인식하도록 모델을 학습시키려면 여러 설정, 각도, 조명 조건에서 수천 장의 사진을 촬영해야 할 것입니다.

반면, 합성 데이터를 사용하면 개발자가 이러한 변형을 정확한 라벨과 함께 쉽게 생성할 수 있어 시간과 노력을 절약하면서 모델 성능을 향상시킬 수 있습니다.

다양한 사람의 포즈와 조명 변화가 포함된 합성 데이터셋

그림 1. 다양한 인간 자세와 조명 변화가 포함된 합성 데이터셋 (출처).

Link to this sectionAI에서의 합성 데이터 대 실제 데이터#

다음으로, 합성 데이터와 실제 데이터의 차이점을 자세히 살펴보겠습니다. AI 모델 학습에 있어 두 가지 모두 장단점이 있습니다.

예를 들어, 합성 데이터는 실제 데이터를 수집하기 어려울 때 유용하지만, 실제 생활에서 발견되는 모든 작은 세부 사항을 포착하지 못할 수도 있습니다. 동시에 실제 데이터는 더 진정성이 있지만, 소싱하기 어렵고 라벨링하는 데 시간이 많이 걸리며 모든 상황을 다루지 못할 수도 있습니다.

합성 데이터와 실제 데이터를 결합함으로써 개발자는 두 가지 방식의 장점을 모두 취할 수 있습니다. 이러한 균형은 AI 모델이 더 정확하게 학습하고, 다양한 시나리오에서 더 잘 일반화하며, 편향을 줄이는 데 도움이 됩니다.

AI에서의 합성 데이터와 실제 데이터 비교

그림 2. AI에서의 합성 데이터 대 실제 데이터. 이미지 제공: 저자.

Link to this section컴퓨터 비전 모델을 위한 데이터 생성 살펴보기#

3D 도구로 가상 세계를 구축하는 것부터 생성형 AI를 사용하여 이미지를 만드는 것까지, 컴퓨터 비전 모델을 위한 합성 학습 데이터를 만드는 데 사용되는 몇 가지 일반적인 방법은 다음과 같습니다.

3D 모델링: 개발자는 3D 소프트웨어를 사용하여 디지털 객체와 장면을 만듭니다. 이를 통해 조명, 카메라 각도, 객체 배치 등을 완전히 제어할 수 있으며 사람, 차량, 환경의 사실적인 이미지를 생성하는 데 도움이 됩니다.
시뮬레이션: 이는 물리 기반 엔진을 사용하여 교통이나 공장 환경과 같은 실제 상황을 재현합니다. 시뮬레이션은 로봇 공학 및 자율주행 자동차와 같은 분야에서 안전하게 학습 데이터를 생성하는 데 유용합니다.
적대적 생성 신경망: GAN은 이미지를 생성하는 네트워크와 이를 평가하는 네트워크, 두 가지 네트워크로 구성된 딥러닝 모델의 일종입니다. 이들은 함께 실제 예시를 학습하여 사람의 얼굴이나 거리 풍경과 같이 매우 사실적인 이미지를 생성합니다.
절차적 생성: 이 기법은 사전 정의된 규칙이나 수학적 모델을 사용하여 지형, 건물, 텍스처와 같은 복잡한 시각 구조를 자동으로 생성합니다. 이는 종종 게임 및 시뮬레이션 플랫폼에서 사용되며 최소한의 인간 개입으로 대규모의 다양한 데이터셋을 생성할 수 있습니다.
도메인 무작위화: 합성 장면에서 조명, 색상, 객체 모양과 같은 것들을 무작위로 변경할 수 있습니다. 이 기법의 목표는 모델이 정말 중요한 것에 집중하도록 도와 실제 환경에 더 잘 적응하게 하는 것입니다.

3D 모델 기반, 합성 및 실제 데이터셋 이미지 예시

그림 3. 데이터 예시: (a) 3D 모델 기반, (b) 합성 다중 객체 장면, (c) 실제 데이터셋 이미지 (출처).

Link to this section합성 데이터를 사용한 비전 AI 모델 학습#

이제 합성 데이터를 만드는 다양한 방법을 논의했으니, 이를 AI 모델 학습에 어떻게 사용하는지 알아보겠습니다.

생성된 합성 데이터는 일반적으로 실제 데이터와 같은 방식으로 학습 파이프라인에 직접 통합될 수 있습니다. 일반적으로 객체 라벨, BBox, 세그먼테이션 마스크와 같은 필요한 주석이 포함되어 있어, 모델이 라벨링된 입력-출력 쌍으로부터 학습하는 지도 학습 작업에 수동 라벨링 없이 사용될 수 있습니다.

학습 중에 모델은 합성 이미지를 처리하여 특징을 감지하고, 패턴을 인식하며, 객체를 분류하는 방법을 학습합니다. 이 데이터는 처음부터 모델의 초기 버전을 구축하거나 기존 데이터셋을 보강하여 모델 성능을 향상시키는 데 사용될 수 있습니다.

많은 워크플로우에서 합성 데이터는 사전 학습(pretraining)에도 사용되며, 실제 예시로 미세 조정(fine-tuning)되기 전에 모델에 광범위한 기초 이해를 제공합니다. 마찬가지로, 일반화를 향상하고 과적합을 줄이기 위해 조명 조건, 각도 또는 희귀한 객체 클래스와 같은 통제된 변형을 도입하여 데이터셋을 증강하는 데 사용됩니다.

합성 데이터와 실제 데이터를 결합함으로써 팀은 다양한 조건에서 잘 작동하는 더 강력한 모델을 학습시킬 수 있으며, 동시에 시간이 많이 걸리고 비용이 많이 드는 수동 데이터 수집 노력에 대한 의존도를 줄일 수 있습니다.

Link to this section컴퓨터 비전에서 합성 데이터의 실제 적용 사례#

합성 데이터가 더욱 실용적이고 접근 가능해짐에 따라, 다양한 실제 비전 AI 사용 사례에서 채택되는 것을 볼 수 있습니다. 가장 영향력 있는 컴퓨터 비전 적용 사례 중 일부를 살펴보겠습니다.

Link to this section자율주행 차량의 객체 감지를 위한 합성 데이터 활용#

자율주행 자동차가 안전하게 주행하도록 가르치려면 희귀하거나 위험한 상황을 포함한 다양한 시나리오에서 모델을 학습시켜야 합니다. 그러나 이러한 엣지 케이스에 대한 실제 데이터를 수집하는 것은 어려울 수 있으며 때로는 안전하지 않을 수도 있습니다. 합성 데이터는 모델이 어려운 상황에서 객체를 감지하도록 학습할 수 있는 장면을 만드는 데 도움이 됩니다. 또한 모든 자율주행 자동차가 동일한 하드웨어를 사용하는 것은 아니기 때문에 서로 다른 센서 구성을 모방하는 데 도움이 될 수 있습니다.

NVIDIA의 DRIVE Sim 플랫폼은 이에 대한 훌륭한 예시입니다. 이 플랫폼은 사진처럼 사실적인 3D 모델, 가상 환경, 센서 시뮬레이션을 사용하여 고품질 합성 데이터를 생성합니다. 또한 단일 이미지에서 여러 주행 각도의 이미지를 생성할 수도 있습니다. 이와 같은 합성 데이터를 사용하면 값비싼 실제 테스트의 필요성을 줄이면서도 모델이 효과적으로 학습하는 데 필요한 다양성을 제공할 수 있습니다.

단일 이미지에서 여러 주행 뷰 생성

그림 4. 단일 이미지에서 여러 주행 뷰 생성 (출처).

Link to this section합성 데이터로 의료 영상 AI의 편향 줄이기#

객체 감지 및 인스턴스 세그먼테이션과 같은 작업을 지원하는 Ultralytics YOLO11과 같은 컴퓨터 비전 모델은 의료 영상 애플리케이션을 위해 맞춤 학습될 수 있습니다. 그러나 실제 학습 데이터는 모든 인구 통계학적 그룹의 환자를 적절하게 대표하지 못할 수 있으므로 종종 편향을 포함합니다.

예를 들어, 피부암은 피부색이 어두운 개인에게서 덜 자주 진단되어 해당 인구에 대한 데이터가 제한적입니다. 이러한 불균형은 특히 조직 병리학, 흉부 X-레이, 피부과 분야에서 오진과 불평등한 의료 결과에 기여할 수 있습니다.

합성 이미지는 데이터의 이러한 격차를 해소하는 데 한 걸음 다가가는 역할을 할 수 있습니다. 다양한 조직 이상, 광범위한 폐 질환 상태, 서로 다른 병변 유형을 가진 피부색 등 다양하고 추가적인 예시를 생성함으로써 합성 데이터는 과소 대표된 그룹 전반에서 모델 성능을 향상시키는 데 도움이 될 수 있습니다.

연구자들은 현재 이러한 목표를 지원하기 위해 합성 데이터셋을 개발하고 검증하는 작업을 진행 중입니다. 또한 그들은 실제 환자 기록에 의존하지 않고 의료 도구 및 치료 전략을 테스트하기 위해 합성 데이터를 어떻게 사용할 수 있는지 탐구하고 있으며, 환자 개인정보를 보호하면서 연구를 가속화하는 데 도움을 주고 있습니다. 이러한 작업을 통해 합성 데이터는 더욱 포용적이고 정확하며 윤리적인 의료 AI 시스템을 위한 길을 열고 있습니다.

Link to this section정밀 농업을 위한 합성 데이터로 농업 AI 발전시키기#

농업 애플리케이션을 위한 비전 AI 시스템을 구축하는 것은 방대한 양의 라벨링된 데이터에 대한 접근성에 달려 있습니다. 그러나 작물, 질병, 현장 상태의 사진을 수집하고 라벨링하는 것은 느리고 비용이 많이 들며, 종종 날씨, 재배 계절 또는 특정 지역에 접근하기 어려운 등의 요인으로 제한됩니다.

이러한 도전 과제들 때문에 식물 질병 감지, 작물 모니터링 또는 수확량 예측과 같은 작업을 처리하도록 컴퓨터 비전 모델을 학습시키는 것이 어렵습니다. 바로 이때 합성 데이터가 도움이 될 수 있습니다. 다양한 농업 환경을 모방하여 유용한 학습 예시를 생성하는 것입니다.

식물 질병 탐지 개선을 위한 합성 이미지 사용

그림 5. 향상된 질병 감지를 위한 합성 이미지 사용 (출처).

Link to this section핵심 요약#

합성 데이터를 사용하는 것은 특히 실제 데이터가 제한적이거나 얻기 어려운 영역의 컴퓨터 비전 시스템에 대해 AI 모델 학습의 중요한 진전을 의미합니다. 비용이 많이 들고 시간이 걸리거나 개인정보 보호 문제를 야기할 수 있는 실제 사진이나 비디오에만 의존하는 대신, 합성 데이터는 사실적이고 라벨링된 이미지를 필요에 따라 생성할 수 있게 해줍니다.

이는 자율주행, 질병 감지, 작물 모니터링과 같은 작업을 위한 비전 AI 모델을 학습하기 쉽게 만듭니다. AI가 계속 진화함에 따라 합성 데이터는 산업 전반에서 혁신을 가속화하고 접근성을 향상시키는 데 훨씬 더 큰 역할을 할 것입니다.

GitHub 저장소에서 AI에 대해 자세히 알아보고 성장하는 커뮤니티에 참여하세요. 자율주행 차량의 AI 및 농업 분야의 컴퓨터 비전과 같은 애플리케이션의 영향을 발견해 보세요. 라이선스 옵션을 살펴보고 비전 AI 프로젝트를 현실로 만들어 보세요.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

컴퓨터 비전에서 합성 데이터란 무엇인가? 개요

Link to this section컴퓨터 비전에서의 합성 데이터란 무엇인가요?#

Link to this sectionAI에서의 합성 데이터 대 실제 데이터#

Link to this section컴퓨터 비전 모델을 위한 데이터 생성 살펴보기#

Link to this section합성 데이터를 사용한 비전 AI 모델 학습#

Link to this section컴퓨터 비전에서 합성 데이터의 실제 적용 사례#

Link to this section자율주행 차량의 객체 감지를 위한 합성 데이터 활용#

Link to this section합성 데이터로 의료 영상 AI의 편향 줄이기#

Link to this section정밀 농업을 위한 합성 데이터로 농업 AI 발전시키기#

Link to this section핵심 요약#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!