합성 데이터
AI/ML을 위한 합성 데이터의 힘을 활용하세요! 데이터 부족, 개인 정보 문제 및 비용을 극복하면서 모델 학습 및 혁신을 강화하세요.
합성 데이터는 실제 데이터를 모방하기 위해 인위적으로 생성된 정보입니다. 인공 지능(AI) 및 머신 러닝(ML) 분야에서 AI 모델 훈련을 위한 실제 데이터에 대한 강력한 대안 또는 보완 역할을 합니다. 광범위하고 고품질이며 적절하게 레이블이 지정된 실제 데이터 세트를 수집하는 것은 비용이 많이 들고 시간이 많이 걸릴 수 있으며 개인 정보 보호 규정 또는 특정 이벤트의 희소성으로 인해 때로는 비현실적일 수 있습니다. 합성 데이터는 개발자가 필요에 따라 완벽하게 레이블이 지정된 방대한 양의 데이터를 생성하여 이러한 제한 사항을 해결하고 강력한 컴퓨터 비전(CV) 시스템 개발을 가속화할 수 있도록 함으로써 솔루션을 제공합니다.
합성 데이터는 어떻게 생성되나요?
합성 데이터는 여러 가지 고급 기술을 사용하여 만들 수 있으며, 각 기술은 다양한 애플리케이션에 적합합니다. 이러한 방법을 통해 조명, 객체 배치 및 환경 조건과 같이 생성된 데이터의 특성을 정확하게 제어할 수 있습니다.
- 3D 모델링 및 시뮬레이션: 개발자는 컴퓨터 그래픽 및 시뮬레이션 환경을 사용하여 실사적인 가상 세계를 만듭니다. 이 접근 방식은 물리 엔진이 실제 물리 현상을 시뮬레이션할 수 있는 로봇 공학 및 자율 시스템에서 일반적입니다. NVIDIA DRIVE Sim과 같은 플랫폼은 자율 주행 자동차 훈련을 위한 데이터를 생성하는 데 사용됩니다.
- 생성 모델: GAN(Generative Adversarial Networks) 및 최근의 Diffusion 모델과 같은 기술은 생성 AI의 핵심 구성 요소입니다. 이러한 모델은 실제 데이터에서 기본 패턴을 학습하여 완전히 새롭고 현실적인 샘플을 생성합니다. 이는 다양한 사람의 얼굴이나 복잡한 장면을 생성하는 데 특히 유용합니다.
- 절차적 생성: 이 방법은 알고리즘과 규칙을 사용하여 자동으로 데이터를 생성합니다. 비디오 게임 개발에서 대규모 환경을 생성하는 데 널리 사용되며 최소한의 수동 작업으로 다양한 학습 데이터를 생성하도록 조정할 수 있습니다.
- 도메인 랜덤화: 시뮬레이션의 파라미터(예: 조명, 텍스처, 객체 위치)를 의도적으로 다양하게 변경하는 기술입니다. 이는 훈련된 모델이 필수 기능에 집중하도록 하여 시뮬레이션 환경에서 실제 환경으로 더 잘 일반화되도록 돕습니다. Tobin et al.의 중요한 논문에서 로봇 조작에 대한 효과를 입증했습니다.
실제 애플리케이션
합성 데이터의 사용은 많은 산업 분야로 확장되고 있으며, 실제 데이터가 병목 현상을 일으키는 곳에서 획기적인 발전을 가능하게 합니다.
- 자율 주행 차량: 자율 주행 자동차를 학습하려면 사고 또는 극한 기상 조건과 같은 드물고 위험한 시나리오를 포함하여 수백만 마일의 주행 데이터가 필요합니다. 이 데이터를 실제 세계에서 수집하는 것은 안전하지 않고 비현실적입니다. 합성 데이터를 통해 개발자는 안전하고 제어된 환경에서 이러한 에지 케이스를 시뮬레이션하여 객체 감지 및 탐색 시스템의 견고성을 향상시킬 수 있습니다. Waymo와 같은 회사는 테스트 및 검증을 위해 시뮬레이션에 크게 의존합니다.
- 헬스케어 분야의 AI: 의료 영상 분석에서 환자 데이터는 매우 민감하며 HIPAA와 같은 엄격한 개인 정보 보호법에 의해 보호됩니다. 또한 희귀 질환에 대한 데이터는 부족합니다. 합성 데이터는 데이터 개인 정보 보호를 침해하지 않고 실제 의료 스캔(예: CT 또는 MRI)을 생성하는 데 사용할 수 있습니다. 이는 더 크고 균형 잡힌 데이터 세트를 만드는 데 도움이 되어 AI 편향을 줄이고 피부암 진단과 같은 질환에 대한 진단 모델의 정확성을 향상시킵니다.
합성 데이터 vs. 데이터 증강
합성 데이터와 데이터 증강은 모두 데이터 세트를 향상시키는 것을 목표로 하지만, 작동 방식은 다릅니다.
- 데이터 증강: 이 기술은 기존 실제 이미지에 회전, 자르기 또는 색상 이동과 같은 변환을 적용하는 것을 포함합니다. 원래 데이터의 수정된 버전을 만들어 훈련 세트의 다양성을 높입니다. Ultralytics YOLO 모델에서 사용되는 증강에 대해 자세히 알아볼 수 있습니다.
- 합성 데이터: 시뮬레이션 또는 생성 모델을 사용하여 처음부터 완전히 새로운 데이터를 생성하는 것을 포함합니다. 기존 데이터 포인트에서 파생되지 않으며 원래 데이터 세트에 완전히 없는 시나리오를 나타낼 수 있습니다.
요약하자면, 데이터 증강은 기존 데이터를 다양화하는 반면, 합성 데이터는 새로운 데이터를 생성합니다. 둘 다 강력한 기술이며, Ultralytics HUB와 같은 플랫폼을 통해 관리되는 매우 강력하고 정확한 딥 러닝 모델을 구축하기 위해 결합할 수 있습니다.