합성 데이터
AI/ML을 위한 합성 데이터의 힘을 활용하세요! 데이터 부족, 개인정보 보호 문제, 비용을 극복하는 동시에 모델 학습과 혁신을 촉진하세요.
합성 데이터는 실제 데이터를 모방하기 위해 인위적으로 생성된 정보입니다. 인공 지능(AI) 및 머신 러닝(ML) 분야에서는 AI 모델 학습을 위한 실제 데이터의 강력한 대안 또는 보완 자료로 사용됩니다. 라벨이 적절히 지정된 고품질의 실제 데이터 세트를 광범위하게 수집하는 것은 비용과 시간이 많이 소요되며, 개인정보 보호 규정이나 특정 이벤트의 희귀성으로 인해 비현실적일 수 있습니다. 합성 데이터는 개발자가 온디맨드 방식으로 완벽하게 라벨링된 방대한 양의 데이터를 생성하여 이러한 한계를 해결하고 강력한 컴퓨터 비전(CV) 시스템 개발을 가속화할 수 있는 솔루션을 제공합니다.
합성 데이터는 어떻게 생성되나요?
합성 데이터는 각각 다른 애플리케이션에 적합한 여러 가지 고급 기술을 사용하여 생성할 수 있습니다. 이러한 방법을 사용하면 조명, 물체 배치, 환경 조건 등 생성된 데이터의 특성을 정밀하게 제어할 수 있습니다.
- 3D 모델링 및 시뮬레이션: 개발자는 컴퓨터 그래픽과 시뮬레이션 환경을 사용하여 사실적인 가상 세계를 만듭니다. 이 접근 방식은 물리적 엔진이 실제 물리학을 시뮬레이션할 수 있는 로봇 공학 및 자율 시스템에서 흔히 사용됩니다. 자율주행차 훈련용 데이터를 생성하는 데는 NVIDIA DRIVE Sim과 같은 플랫폼이 사용됩니다.
- 생성 모델: 생성적 적대 신경망(GAN), 그리고 최근에는 확산 모델과 같은 기술은 생성적 AI의 핵심 구성 요소입니다. 이러한 모델은 실제 데이터에서 기본 패턴을 학습하여 완전히 새롭고 사실적인 샘플을 생성합니다. 이는 다양한 사람의 얼굴이나 복잡한 장면을 생성하는 데 특히 유용합니다.
- 절차적 생성: 이 방법은 알고리즘과 규칙을 사용하여 데이터를 자동으로 생성합니다. 비디오 게임 개발에서 대규모 환경을 생성하는 데 널리 사용되며 최소한의 수작업으로 다양한 훈련 데이터를 생성하도록 조정할 수 있습니다.
- 도메인 무작위화: 시뮬레이션의 매개변수(예: 조명, 텍스처, 오브젝트 위치)를 의도적으로 변화시키는 기법입니다. 이를 통해 훈련된 모델이 필수 기능에 집중하도록 함으로써 시뮬레이션 환경에서 실제 환경으로 더 잘 일반화할 수 있습니다. Tobin 등의 중요한 논문에서 로봇 조작에 대한 효과를 입증했습니다.
실제 애플리케이션
합성 데이터의 사용은 많은 산업에서 확대되고 있으며, 실제 데이터가 병목 현상을 일으키는 곳에서 혁신을 가능하게 합니다.
- 자율주행 차량: 자율주행차를 훈련하려면 사고나 극한의 날씨와 같은 드물고 위험한 시나리오를 포함하여 수백만 마일을 주행한 데이터가 필요합니다. 현실 세계에서 이러한 데이터를 수집하는 것은 안전하지 않고 비현실적입니다. 합성 데이터를 사용하면 개발자가 안전하고 통제된 환경에서 이러한 엣지 케이스를 시뮬레이션하여 물체 감지 및 내비게이션 시스템의 견고성을 향상시킬 수 있습니다. 웨이모와 같은 기업은 테스트와 검증을 위해 시뮬레이션에 크게 의존합니다.
- 의료 분야의 AI: 의료 영상 분석에서 환자 데이터는 매우 민감하며 HIPAA와 같은 엄격한 개인정보 보호법에 의해 보호됩니다. 게다가 희귀 질환에 대한 데이터는 매우 부족합니다. 합성 데이터를 사용하면 데이터 프라이버시를 침해하지 않으면서도 사실적인 의료 스캔(예: CT 또는 MRI)을 생성할 수 있습니다. 이를 통해 더 크고 균형 잡힌 데이터 세트를 생성하여 AI 편향을 줄이고 피부암 발견과 같은 질환에 대한 진단 모델의 정확도를 향상시킬 수 있습니다.
합성 데이터 대 데이터 증강
합성 데이터와 데이터 증강은 모두 데이터 집합을 향상시키는 것을 목표로 하지만, 작동 방식은 다릅니다.
- 데이터 증강: 이 기술은 기존 실제 이미지에 회전, 자르기 또는 색상 이동과 같은 변형을 적용하는 것입니다. 원본 데이터의 수정된 버전을 생성하여 훈련 세트의 다양성을 높입니다. Ultralytics YOLO 모델에 사용되는 증강에 대해 자세히 알아볼 수 있습니다.
- 합성 데이터: 여기에는 시뮬레이션 또는 생성 모델을 사용하여 완전히 새로운 데이터를 처음부터 생성하는 것이 포함됩니다. 기존 데이터 포인트에서 파생되지 않으며 원본 데이터 세트에 전혀 없는 시나리오를 나타낼 수 있습니다.
요약하자면, 데이터 증강은 기존 데이터를 변화시키는 반면, 합성 데이터는 새로운 데이터를 생성합니다. 두 가지 모두 강력한 기술이며, 이 두 가지를 결합하여 울트라틱스 허브와 같은 플랫폼을 통해 관리되는 매우 강력하고 정확한 딥 러닝 모델을 구축할 수 있습니다.