Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos sintéticos

¡Desbloquea el poder de los datos sintéticos para la IA/ML! Supera la escasez de datos, los problemas de privacidad y los costes, al tiempo que impulsas el entrenamiento y la innovación de los modelos.

Los datos sintéticos son información generada artificialmente que imita las propiedades estadísticas y los patrones de los datos del mundo real. de los datos reales. En los campos del aprendizaje automático (AM) y visión por ordenador (CV), constituyen un potente para desarrollar modelos de alto rendimiento cuando la obtención de datos auténticos es difícil, cara o está restringida por cuestiones de privacidad. por motivos de privacidad. A diferencia de los conjuntos de datos tradicionales recogidos a partir de eventos físicos, los datos sintéticos se programan o simulan, lo que permite a los desarrolladores crear grandes volúmenes de datos. sintéticos se programan o simulan, lo que permite a los desarrolladores crear vastos repositorios de datos de perfectamente etiquetados. Los analistas del sector de Gartner predicen Gartner predicen que, para 2030, los datos sintéticos eclipsarán a los reales en los modelos de IA, impulsando un cambio importante en la forma en que se construyen los sistemas inteligentes. inteligentes.

Cómo se generan los datos sintéticos

La creación de conjuntos de datos sintéticos de alta calidad requiere técnicas sofisticadas que van desde la infografía clásica a la IA generativa moderna. Estos métodos garantizan que los datos artificiales sean lo suficientemente diversos como para ayudar a los modelos a generalizar bien en escenarios nuevos y desconocidos.

  • Simulación y renderizado 3D: Motores de juego como Unity y Unreal Engine permiten a los desarrolladores crear entornos virtuales fotorrealistas. Aquí, los motores de física simulan la luz, la gravedad y las interacciones de los objetos para producir imágenes que parezcan auténticas. producir imágenes que parezcan auténticas. Esto se utiliza a menudo junto con flujos de trabajo de detección de objetos 3D.
  • Modelos generativos: Algoritmos avanzados como redes generativas adversariales (GAN) y los modelos de difusión aprenden la de un pequeño conjunto de datos del mundo real para generar infinitas variaciones nuevas. Herramientas como Stable Diffusion ejemplifican cómo estos modelos pueden crear datos visuales complejos desde desde cero.
  • Aleatorización de dominios: Para evitar el ajuste excesivo a un aspecto simulado específico, los desarrolladores utilizan la aleatorización de dominios. Esta técnica varía parámetros como la iluminación, la textura y el ángulo de la cámara, obligando a la IA a aprender las características esenciales de un objeto en lugar del ruido de fondo. el ruido de fondo.

Aplicaciones en el mundo real

Los datos sintéticos están revolucionando los sectores en los que la recopilación de datos es un cuello de botella.

  • Vehículos autónomos: Para entrenar a los vehículos autónomos hay que exponerlos a millones de de situaciones de conducción, incluidos sucesos raros y peligrosos como peatones que se cruzan en el tráfico o condiciones meteorológicas adversas. Recopilar estos datos físicamente no es seguro. Empresas como Waymo utilizan simulación para probar sus vehículos autónomos en miles de millones de kilómetros virtuales, perfeccionando sistemas de detección de objetos sin arriesgar vidas.
  • Sanidad e imagen médica: Los historiales de los pacientes están protegidos por normativas estrictas como HIPAA. Compartir radiografías o resonancias magnéticas reales para la investigación suele ser suele ser jurídicamente complejo. Los datos sintéticos permiten a los investigadores análisis de imágenes médicas realistas que que conservan los marcadores estadísticos de las enfermedades información personal identificable (IPI). Esto preserva la privacidad de los datos al tiempo que se avanza en las herramientas de diagnóstico.

Datos Sintéticos vs. Aumento de Datos

Es importante distinguir entre datos sintéticos y aumento de datos, ya que ambos se utilizan para mejorar conjuntos de datos.

  • El aumento de datos toma imágenes existentes del mundo real y las modifica (volteándolas, rotándolas o cambiando el equilibrio de color) para aumentar la variedad, o cambiando el balance de color para aumentar la variedad. Puede obtener más información en la Guía de aumento de datosYOLO .
  • Los datos sintéticos se crean a partir de cero. No se basa en la modificación de una imagen de origen específica, sino que sino que genera instancias completamente nuevas, lo que permite crear escenarios que puede que nunca hayan sido capturados por una cámara. cámara.

Integración con Ultralytics YOLO

Los conjuntos de datos sintéticos tienen el mismo formato que los reales, normalmente con imágenes y los correspondientes archivos de anotaciones. En puede entrenar sin problemas modelos de última generación como YOLO11 en para mejorar el rendimiento en tareas específicas.

El siguiente ejemplo muestra cómo generar una imagen sintética sencilla utilizando código y ejecutar inferencia sobre ella utilizando el sitio ultralytics paquete.

import cv2
import numpy as np
from ultralytics import YOLO

# 1. Generate a synthetic image (black background, white rectangle)
# This mimics a simple object generation process
synthetic_img = np.zeros((640, 640, 3), dtype=np.uint8)
cv2.rectangle(synthetic_img, (100, 100), (400, 400), (255, 255, 255), -1)

# 2. Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# 3. Run inference on the synthetic data
# The model attempts to detect objects within the generated image
results = model.predict(synthetic_img)

# Display result count
print(f"Detected {len(results[0].boxes)} objects in synthetic image.")

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora