Глоссарий

Синтетические данные

Раскройте возможности синтетических данных для AI/ML! Преодолейте нехватку данных, проблемы конфиденциальности и затраты, одновременно стимулируя обучение и инновации моделей.

Синтетические данные - это искусственно созданная информация, которая имитирует статистические свойства и закономерности реальных данных. В областях машинного обучения (ML) и компьютерного зрения (КВ), они служат мощным ресурсом для разработки высокопроизводительных моделей, когда получение подлинных данных затруднено, дорого или ограничено из-за соображений конфиденциальности. В отличие от традиционных наборов данных, собранных на основе физических событий, синтетические данные программируются или симулируются, что позволяет разработчикам создавать обширные хранилища идеально маркированных обучающих данных по запросу. По прогнозам отраслевых аналитиков Gartner прогнозируют что к 2030 году синтетические данные затмят реальные данные в моделях ИИ, что приведет к серьезным изменениям в построении интеллектуальных систем. создания интеллектуальных систем.

Как генерируются синтетические данные

Создание высококачественных синтетических наборов данных включает в себя сложные технологии, которые варьируются от классической компьютерной графики до современного генеративного ИИ. Эти методы гарантируют, что искусственные данные достаточно разнообразны, чтобы модели хорошо обобщались на новые, невиданные сценарии.

3D-моделирование и рендеринг: Игровые движки, такие как Unity и Unreal Engine, позволяют разработчикам создавать фотореалистичные виртуальные среды. Здесь физические движки моделируют свет, гравитацию и взаимодействие объектов, чтобы создавая изображения, которые выглядят реалистично. Это часто используется в сочетании с рабочими процессами обнаружения 3D-объектов.
Генеративные модели: Передовые алгоритмы, такие как генеративные адверсарные сети (GAN) и диффузионные модели, изучают базовую структуру небольшого набора данных реального мира, чтобы генерировать бесконечное множество новых вариантов. Такие инструменты, как Stable Diffusion, демонстрируют, как эти модели могут создавать сложные визуальные данные с нуля. с нуля.
Рандомизация доменов: Чтобы предотвратить Чтобы предотвратить чрезмерную подгонку под конкретный моделируемый вид, разработчики используют рандомизацию домена. Эта техника варьирует такие параметры, как освещение, текстура и угол обзора камеры, заставляя ИИ изучать основные характеристики объекта, а не а не фоновый шум.

Применение в реальном мире

Синтетические данные совершают революцию в тех отраслях, где сбор данных является узким местом.

Автономные транспортные средства: Для подготовки самоуправляемых автомобилей необходимо подвергнуть их миллионам сценариев вождения сценариев вождения, включая редкие и опасные события, такие как выбегающие на дорогу пешеходы или сложные погодные условия. Собирать такие данные физически небезопасно. Такие компании, как Waymo, используют моделирование для проверки своих автономные автомобили на миллиардах виртуальных миль, совершенствуя свои системы обнаружения объектов без риска для жизни.
Здравоохранение и медицинская визуализация: Записи пациентов защищены строгими правилами, такими как HIPAA. Обмен реальными рентгеновскими снимками или снимками МРТ для исследований часто является юридически сложным. Синтетические данные позволяют исследователям генерировать реалистичные наборы данных для анализа медицинских изображений, которые сохраняющие статистические маркеры заболеваний и не содержащие никакой личной идентифицируемой информации (PII). Это позволяет сохранить конфиденциальность данных и одновременно развивает диагностические инструменты.