Synthetic Data Generation

합성 데이터 생성이 고충실도 AI 학습 세트를 어떻게 생성하는지 살펴보세요. Ultralytics YOLO26 성능을 향상시키고 데이터 개인정보 보호 장벽을 극복하는 방법을 배우세요.

합성 데이터 생성(Synthetic Data Generation)은 실제 개인이나 사건을 포함하지 않으면서 실제 데이터의 통계적 속성과 패턴을 모방하는 인공 데이터셋을 만드는 과정입니다. 인공지능(AI) 및 머신러닝(ML) 영역에서 이 기술은 데이터 부족, 개인정보 보호 문제, 편향성 문제를 극복하기 위한 초석이 되었습니다. 사건이 발생할 때 기록하는 것에 의존하는 전통적인 데이터 수집 방식과 달리, 합성 생성은 알고리즘, 시뮬레이션, 생성 모델을 사용하여 고충실도 데이터를 필요에 따라 제작합니다. 이 접근 방식은 강력한 컴퓨터 비전(CV) 모델을 학습시키는 데 특히 중요하며, 이를 통해 개발자는 현실에서 캡처하기 희귀하거나 위험하거나 비용이 많이 드는 시나리오에 대해 완벽하게 레이블이 지정된 방대한 양의 학습 데이터를 생성할 수 있습니다.

Link to this section합성 생성의 원리#

합성 데이터 생성을 구동하는 핵심 기술에는 종종 고급 생성형 AI 아키텍처가 포함됩니다. 이러한 시스템은 더 작은 실제 데이터 샘플을 분석하여 데이터의 기본 구조와 상관관계를 이해합니다. 모델이 이러한 분포를 학습하면 해당 분포에서 샘플링하여 새롭고 고유한 인스턴스를 생성할 수 있습니다.

주로 두 가지 방법이 지배적입니다:

컴퓨터 시뮬레이션: 비전 작업의 경우 개발자는 비디오 게임에서 사용되는 것과 유사한 3D 그래픽 엔진을 사용하여 사실적인 장면을 렌더링합니다. 이를 통해 조명, 날씨, 물체 배치를 정밀하게 제어할 수 있습니다. 컴퓨터가 장면을 생성하기 때문에 객체 탐지를 위한 바운딩 박스와 같은 완벽한 주석도 자동으로 생성되어 수동 데이터 어노테이션의 필요성을 우회할 수 있습니다.
딥 생성 모델: 생성적 적대 신경망(GAN) 및 확산 모델과 같은 아키텍처는 매우 사실적인 이미지나 표 데이터를 합성할 수 있습니다. 예를 들어 NVIDIA 연구원들은 이러한 모델을 활용하여 자율 주행 기계를 위한 다양한 학습 환경을 구축합니다.

Link to this sectionAI의 실제 응용 사례#

합성 데이터 생성은 데이터가 병목 현상이 되는 산업을 변화시키고 있습니다.

자율 주행: 자율 주행 자동차를 훈련하려면 수십억 마일에 달하는 주행 데이터가 필요합니다. 이를 물리적으로 수집하는 것은 불가능합니다. 대신 기업들은 합성 환경을 사용하여 아이가 공을 쫓아 도로로 뛰어드는 상황이나 태양의 눈부신 섬광과 같은 위험한 에지 케이스를 시뮬레이션합니다. 이를 통해 자율 주행 자동차 인식 시스템이 실제 도로에서는 거의 마주치기 어려운 중요한 시나리오를 학습할 수 있도록 보장합니다.
의료 및 의료 영상: HIPAA와 같은 환자 개인정보 보호법은 의료 기록 공유를 엄격히 제한합니다. 합성 생성을 통해 연구원들은 종양과 같은 질병의 생물학적 마커를 유지하면서도 실제 환자와는 완전히 단절된 X-레이 또는 MRI 스캔 데이터셋을 만들 수 있습니다. 이를 통해 환자의 기밀성을 침해하지 않고 의료 영상 분석 도구를 개발할 수 있습니다.

Link to this sectionUltralytics YOLO26와의 시너지#

합성 데이터를 워크플로에 통합하면 Ultralytics YOLO26과 같은 최첨단 모델의 성능을 크게 향상시킬 수 있습니다. 실제 데이터셋에 합성 예제를 보완함으로써 모델이 새로운 환경으로 일반화하는 능력을 개선할 수 있습니다.

아래는 실제 데이터와 합성 데이터의 혼합으로 학습될 수 있는 모델을 로드하여 추론을 수행하는 방법을 보여주는 Python 예제입니다.

from ultralytics import YOLO

# Load a YOLO26 model (trained on diverse synthetic and real data)
model = YOLO("yolo26n.pt")

# Run inference on an image to verify detection capabilities
# Synthetic training helps models handle varied lighting and angles
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and confidence scores
results[0].show()

Link to this section데이터 증강과 합성 데이터의 차이점#

두 기술 모두 데이터셋 확장을 목표로 하지만, 합성 데이터 생성과 데이터 증강을 구분하는 것은 중요합니다.

데이터 증강은 기존의 실제 이미지를 가져와 뒤집기, 회전, 색상 균형 변경 등을 통해 변형하여 변형본을 만듭니다. 이는 엄격하게 원본 캡처에서 파생된 것입니다.
합성 데이터 생성은 완전히 새로운 데이터 포인트를 처음부터 만듭니다. 생성 과정 중에 실제 원본 이미지와 일대일 대응이 필요하지 않으므로 물리적으로 존재한 적이 없는 장면을 만들 수 있습니다.

Link to this section모범 사례 및 과제#

합성 데이터를 효과적으로 사용하려면 "심투리얼(sim-to-real)" 전송 가능성을 보장하는 것이 중요합니다. 이는 합성 데이터로 학습된 모델이 실제 입력에서 얼마나 잘 작동하는지를 나타냅니다. 합성 데이터에 실제 이미지의 질감이나 노이즈가 부족하면 모델이 배포 시 실패할 수 있습니다. 이를 완화하기 위해 개발자들은 도메인 무작위화와 같은 기술을 사용하여 시뮬레이션의 질감과 조명을 다양하게 변경함으로써 모델이 특정 아티팩트에 의존하기보다 형태 기반 기능을 학습하도록 강제합니다.

Ultralytics Platform을 사용하여 팀은 이러한 하이브리드 데이터셋을 관리하고, 모델 성능을 모니터링하며, 합성 데이터 포함이 mAP(mean Average Precision)와 같은 정확도 지표를 실제로 개선하고 있는지 확인할 수 있습니다. Gartner에서 언급했듯이, 합성 데이터는 더 공정하고 강력하며 편향되지 않은 모델을 학습시킬 수 있는 경로를 제공하며, 유능한 AI 시스템을 구축하기 위한 표준 요구 사항으로 빠르게 자리 잡고 있습니다.

Explore solutions

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

Synthetic Data Generation

Link to this section합성 생성의 원리#

Link to this sectionAI의 실제 응용 사례#

Link to this sectionUltralytics YOLO26와의 시너지#

Link to this section데이터 증강과 합성 데이터의 차이점#

Link to this section모범 사례 및 과제#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!