Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Синтетические данные

Раскройте возможности синтетических данных для AI/ML! Преодолейте нехватку данных, проблемы конфиденциальности и затраты, одновременно стимулируя обучение и инновации моделей.

Синтетические данные - это искусственно созданная информация, которая имитирует статистические свойства и закономерности реальных данных. В областях машинного обучения (ML) и компьютерного зрения (КВ), они служат мощным ресурсом для разработки высокопроизводительных моделей, когда получение подлинных данных затруднено, дорого или ограничено из-за соображений конфиденциальности. В отличие от традиционных наборов данных, собранных на основе физических событий, синтетические данные программируются или симулируются, что позволяет разработчикам создавать обширные хранилища идеально маркированных обучающих данных по запросу. По прогнозам отраслевых аналитиков Gartner прогнозируют что к 2030 году синтетические данные затмят реальные данные в моделях ИИ, что приведет к серьезным изменениям в построении интеллектуальных систем. создания интеллектуальных систем.

Как генерируются синтетические данные

Создание высококачественных синтетических наборов данных включает в себя сложные технологии, которые варьируются от классической компьютерной графики до современного генеративного ИИ. Эти методы гарантируют, что искусственные данные достаточно разнообразны, чтобы модели хорошо обобщались на новые, невиданные сценарии.

  • 3D-моделирование и рендеринг: Игровые движки, такие как Unity и Unreal Engine, позволяют разработчикам создавать фотореалистичные виртуальные среды. Здесь физические движки моделируют свет, гравитацию и взаимодействие объектов, чтобы создавая изображения, которые выглядят реалистично. Это часто используется в сочетании с рабочими процессами обнаружения 3D-объектов.
  • Генеративные модели: Передовые алгоритмы, такие как генеративные адверсарные сети (GAN) и диффузионные модели, изучают базовую структуру небольшого набора данных реального мира, чтобы генерировать бесконечное множество новых вариантов. Такие инструменты, как Stable Diffusion, демонстрируют, как эти модели могут создавать сложные визуальные данные с нуля. с нуля.
  • Рандомизация доменов: Чтобы предотвратить Чтобы предотвратить чрезмерную подгонку под конкретный моделируемый вид, разработчики используют рандомизацию домена. Эта техника варьирует такие параметры, как освещение, текстура и угол обзора камеры, заставляя ИИ изучать основные характеристики объекта, а не а не фоновый шум.

Применение в реальном мире

Синтетические данные совершают революцию в тех отраслях, где сбор данных является узким местом.

  • Автономные транспортные средства: Для подготовки самоуправляемых автомобилей необходимо подвергнуть их миллионам сценариев вождения сценариев вождения, включая редкие и опасные события, такие как выбегающие на дорогу пешеходы или сложные погодные условия. Собирать такие данные физически небезопасно. Такие компании, как Waymo, используют моделирование для проверки своих автономные автомобили на миллиардах виртуальных миль, совершенствуя свои системы обнаружения объектов без риска для жизни.
  • Здравоохранение и медицинская визуализация: Записи пациентов защищены строгими правилами, такими как HIPAA. Обмен реальными рентгеновскими снимками или снимками МРТ для исследований часто является юридически сложным. Синтетические данные позволяют исследователям генерировать реалистичные наборы данных для анализа медицинских изображений, которые сохраняющие статистические маркеры заболеваний и не содержащие никакой личной идентифицируемой информации (PII). Это позволяет сохранить конфиденциальность данных и одновременно развивает диагностические инструменты.

Синтетические данные vs. Аугментация данных

Важно отличать синтетические данные от дополнения данных, поскольку и то, и другое используется для расширения наборов данных.

  • Для дополнения данных берутся существующие изображения реального мира и изменяются - переворачиваются, вращаются, или изменение цветового баланса, чтобы увеличить разнообразие. Подробнее об этом вы можете прочитать в Руководство по дополнению данныхYOLO .
  • Синтетические данные создаются с нуля. Они не зависят от модификации конкретного исходного образа, а генерирует совершенно новые экземпляры, позволяя создавать сценарии, которые, возможно, никогда не были сняты камерой.

Интеграция с Ultralytics YOLO

Синтетические наборы данных оформляются так же, как и реальные, обычно с изображениями и соответствующими файлами аннотаций. Вы можно без проблем обучать самые современные модели, такие как YOLO11 на на этих данных, чтобы повысить производительность в нишевых задачах.

В следующем примере показано, как с помощью кода сгенерировать простое синтетическое изображение и выполнить на нем вывод с помощью сайт ultralytics пакет.

import cv2
import numpy as np
from ultralytics import YOLO

# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)

# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)

# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас