Synthetic Data
합성 데이터가 어떻게 AI와 머신러닝을 구동하는지 알아보세요. 모델 정확도를 높이기 위해 Ultralytics YOLO26을 위한 고품질 데이터셋을 생성하는 방법을 지금 배우세요.
합성 데이터는 실제 데이터의 통계적 속성, 패턴 및 구조적 특성을 모방하여 인공적으로 생성된 정보입니다. 급변하는 인공지능(AI) 및 머신러닝(ML) 분야에서, 이 데이터는 실제 데이터를 수집하는 것이 비용이 많이 들거나 시간이 오래 걸리거나 개인정보 보호 규정으로 인해 제한될 때 중요한 자원 역할을 합니다. 실제 사건에서 수집되는 유기적 데이터와 달리, 합성 데이터는 컴퓨터 시뮬레이션 및 고급 생성 모델과 같은 기술을 사용하여 알고리즘 방식으로 만들어집니다. Gartner의 예측에 따르면, 2030년까지 합성 데이터가 AI 모델에서 실제 데이터를 압도하여 지능형 시스템이 구축되고 배포되는 방식을 근본적으로 변화시킬 것입니다.
Link to this sectionAI 개발에서 합성 데이터의 역할#
합성 데이터셋을 활용하는 주요 이유는 기존의 데이터 수집 및 라벨링에서 발생하는 한계를 극복하기 위함입니다. 강력한 컴퓨터 비전(CV) 모델을 학습시키려면 종종 다양한 시나리오를 포함하는 방대한 데이터셋이 필요합니다. 희귀 질환 진단이나 위험한 엣지 케이스 교통사고와 같이 실제 데이터를 구하기 어려운 경우, 합성 데이터가 그 격차를 해소합니다.
이 데이터를 생성하면 개발자는 필요에 따라 완벽하게 라벨링된 학습 데이터를 만들 수 있습니다. 여기에는 객체 탐지를 위한 정밀한 BBox나 의미론적 분할을 위한 픽셀 단위의 마스크가 포함되며, 수동 라벨링 과정에서 흔히 발생하는 인적 오류를 제거합니다. 또한, 엔지니어가 데이터셋 내의 과소 대표된 그룹이나 환경 조건을 의도적으로 균형 있게 조정할 수 있도록 함으로써 AI 편향성 문제를 해결하고 더 공정한 모델 성능을 보장합니다.
Link to this section실제 애플리케이션 사례#
합성 데이터는 데이터 프라이버시, 안전성 및 확장성이 매우 중요한 산업 분야를 혁신하고 있습니다.
- 자율주행 시뮬레이션: 자율주행 차량을 물리적 세계에서만 테스트하는 것은 위험하며 지리적으로도 한계가 있습니다. 기업들은 NVIDIA Omniverse와 같은 사실적인 시뮬레이터를 사용하여 인식 시스템을 학습시킵니다. 이러한 시뮬레이터는 수십억 마일의 가상 주행 데이터를 생성하여 AI가 실제 환경에서는 일관되게 포착하기 어려운 위험한 날씨, 보행자의 돌발 행동 및 복잡한 도시 구조를 경험하도록 합니다.
- 의료 및 의료 영상: HIPAA 및 GDPR과 같은 환자 개인정보 보호법은 의료 기록 공유를 엄격하게 규제합니다. 합성 데이터는 개인 식별 정보가 포함되지 않으면서도 질병의 특징을 유지하는 X-레이나 MRI 스캔과 같은 사실적인 의료 영상 분석 데이터셋 생성을 가능하게 합니다. 이를 통해 연구자들은 환자의 기밀을 유지하면서 협력하여 종양 탐지 모델을 학습시킬 수 있습니다.
Link to this section비전 AI를 위한 합성 데이터 생성#
고품질 합성 데이터를 생성하는 방법은 크게 시뮬레이션 엔진과 생성형 AI 두 가지 접근 방식이 있습니다. Unity Engine과 같은 시뮬레이션 엔진은 3D 그래픽을 사용하여 물리 기반 조명과 텍스처로 장면을 렌더링합니다. 반면 생성적 적대 신경망(GAN) 및 확산 모델과 같은 생성 모델은 실제 데이터의 분포를 학습하여 새롭고 사실적인 데이터를 합성합니다.
합성 데이터셋이 생성되면 이를 사용하여 고성능 모델을 학습시킬 수 있습니다. 다음 Python 예제는 ultralytics 패키지를 사용하여 잠재적으로 합성 데이터로 학습된 모델을 로드하고 이미지에 대해 추론을 수행하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()Link to this section합성 데이터 vs. 데이터 증강#
합성 데이터와 데이터 증강을 구분하는 것이 도움이 됩니다. 두 기법 모두 데이터셋을 확장하는 것을 목표로 하지만 작동 방식은 다릅니다.
- 데이터 증강은 기존의 실제 이미지에 뒤집기, 회전, 자르기 또는 색상 조정과 같은 변환을 적용하여 약간의 변형을 만드는 것을 포함합니다. 이는 원래의 데이터 소스에 의존합니다.
- 합성 데이터는 알고리즘이나 시뮬레이션을 사용하여 처음부터 완전히 새로운 데이터 인스턴스를 만드는 것을 포함합니다. 모든 결과물에 대해 원본 이미지가 반드시 필요한 것은 아니며, 카메라로 포착된 적 없는 시나리오를 생성할 수 있습니다.
Ultralytics Platform의 최신 워크플로우는 종종 두 가지 접근 방식을 결합합니다. 합성 데이터를 사용하여 데이터셋의 공백을 채우고, 학습 중에 데이터 증강을 적용하여 YOLO26과 같은 모델의 견고성을 극대화합니다.






