Синтетические данные
Раскройте возможности синтетических данных для ИИ/МЛ! Преодолейте нехватку данных, проблемы конфиденциальности и затраты, повысив эффективность обучения моделей и инноваций.
Синтетические данные - это искусственно сгенерированная информация, созданная для имитации реальных данных. В области искусственного интеллекта (ИИ) и машинного обучения (МЛО) они служат мощной альтернативой или дополнением к реальным данным для обучения моделей ИИ. Сбор обширных, высококачественных и правильно маркированных наборов реальных данных может быть дорогостоящим, отнимать много времени, а иногда и нецелесообразным из-за правил конфиденциальности или редкости определенных событий. Синтетические данные позволяют разработчикам генерировать огромные объемы идеально маркированных данных по требованию, устраняя эти ограничения и ускоряя разработку надежных систем компьютерного зрения (КЗ).
Как создаются синтетические данные?
Синтетические данные могут быть созданы с помощью нескольких современных методов, каждый из которых подходит для различных приложений. Эти методы позволяют точно контролировать характеристики генерируемых данных, такие как освещение, расположение объектов и условия окружающей среды.
- 3D-моделирование и симуляция: Разработчики используют компьютерную графику и среды моделирования для создания фотореалистичных виртуальных миров. Такой подход распространен в робототехнике и автономных системах, где физические двигатели могут имитировать физику реального мира. Такие платформы, как NVIDIA DRIVE Sim, используются для получения данных для обучения самоуправляемых автомобилей.
- Генеративные модели: Такие техники, как генеративные адверсарные сети (GAN) и, в последнее время, диффузионные модели, являются основным компонентом генеративного ИИ. Эти модели изучают закономерности, лежащие в основе реальных данных, чтобы создавать совершенно новые, реалистичные образцы. Это особенно полезно для создания разнообразных человеческих лиц или сложных сцен.
- Процедурная генерация: Этот метод использует алгоритмы и правила для автоматического создания данных. Он широко используется в разработке видеоигр для создания масштабных окружений и может быть адаптирован для получения разнообразных обучающих данных с минимальными ручными усилиями.
- Рандомизация домена: Метод, при котором параметры моделирования (например, освещение, текстура и положение объектов) намеренно изменяются. Это помогает обученной модели лучше обобщать данные из симулятора в реальную среду, заставляя ее фокусироваться на существенных особенностях. В основополагающей работе Тобина и др. была продемонстрирована эффективность этого метода для роботов-манипуляторов.
Применение в реальном мире
Использование синтетических данных расширяется во многих отраслях, позволяя совершать прорывы там, где реальные данные являются узким местом.
- Автономные транспортные средства: Для обучения самоуправляемых автомобилей требуются данные о миллионах километров пробега, включая редкие и опасные сценарии, такие как аварии или экстремальные погодные условия. Собирать такие данные в реальном мире небезопасно и непрактично. Синтетические данные позволяют разработчикам моделировать такие ситуации в безопасной, контролируемой среде, повышая надежность систем обнаружения объектов и навигации. Такие компании, как Waymo, в значительной степени полагаются на моделирование при тестировании и проверке.
- ИИ в здравоохранении: При анализе медицинских изображений данные пациентов очень чувствительны и защищены строгими законами о конфиденциальности, такими как HIPAA. Кроме того, данные о редких заболеваниях весьма скудны. Синтетические данные можно использовать для создания реалистичных медицинских снимков (например, КТ или МРТ) без ущерба для конфиденциальности данных. Это помогает создавать более крупные и сбалансированные наборы данных, уменьшая предвзятость ИИ и повышая точность диагностических моделей для таких заболеваний, как рак кожи.
Синтетические данные против дополнения данных
Хотя и синтетические данные, и расширение данных направлены на расширение наборов данных, они действуют по-разному.
- Дополнение данных: Эта техника предполагает применение таких преобразований, как поворот, кадрирование или изменение цвета, к существующим изображениям реального мира. Это увеличивает разнообразие обучающего набора за счет создания модифицированных версий исходных данных. Вы можете узнать больше о дополнениях, используемых в моделях Ultralytics YOLO.
- Синтетические данные: Это предполагает создание совершенно новых данных с нуля с помощью имитационных или генеративных моделей. Они не основаны на существующих точках данных и могут представлять сценарии, полностью отсутствующие в исходном наборе данных.
В итоге можно сказать, что расширение данных изменяет существующие данные, а синтетические данные создают новые данные. Оба метода являются мощными, и их можно комбинировать для создания высоконадежных и точных моделей глубокого обучения, управляемых с помощью таких платформ, как Ultralytics HUB.