Glosario

Datos sintéticos

¡Libera el poder de los datos sintéticos para la IA/ML! Supera la escasez de datos, los problemas de privacidad y los costes, a la vez que impulsas el entrenamiento de modelos y la innovación.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los datos sintéticos se refieren a la información generada artificialmente que imita las propiedades estadísticas de los datos del mundo real, en lugar de recogerse directamente de hechos o mediciones reales. En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos sintéticos sirven como alternativa o complemento crucial a los datos de entrenamiento reales. Son especialmente valiosos cuando recopilar suficientes datos del mundo real es difícil, caro, lleva mucho tiempo(Guía de Recopilación y Anotación de Datos), o plantea problemas de privacidad de los datos. Esta información creada artificialmente ayuda a entrenar modelos como Ultralytics YOLOprobar sistemas y explorar escenarios que podrían ser raros o peligrosos en la realidad, impulsando en última instancia la innovación y el rendimiento de los modelos.

Cómo se crean los datos sintéticos

La generación de datos sintéticos emplea diversas técnicas, según la complejidad y fidelidad requeridas. Algunos enfoques habituales son

Importancia en IA y Visión Artificial

Los datos sintéticos ofrecen varias ventajas significativas para el desarrollo de la IA y la visión por ordenador:

  • Superar la escasez de datos: Proporciona grandes volúmenes de datos cuando los datos del mundo real son limitados o caros de adquirir, ayudando a entrenar modelos robustos(Consejos para el entrenamiento de modelos).
  • Mejora de la Privacidad de los Datos: Genera datos que conservan propiedades estadísticas sin contener información sensible del mundo real, ayudando a cumplir la normativa sobre privacidad y permitiendo técnicas como la Privacidad Diferencial.
  • Reducir el sesgo: Puede controlarse cuidadosamente para mitigar o aumentar la representación de grupos o escenarios infrarrepresentados, ayudando a abordar el sesgo del conjunto de datos y a promover la equidad en la IA.
  • Cubrir casos límite: Permite crear datos que representen escenarios raros o peligrosos (por ejemplo, accidentes de vehículos autónomos, enfermedades raras) que son difíciles de captar en la realidad. Esto mejora la generalización del modelo.
  • Eficiencia en coste y tiempo: A menudo es más barato y rápido de generar que recopilar y etiquetar datos del mundo real(Explicación del etiquetado de datos).

En visión por ordenador, las imágenes sintéticas se utilizan con frecuencia para entrenar modelos para tareas como la detección de objetos, la segmentación de imágenes y la estimación de poses en condiciones diversas (por ejemplo, iluminación variable, condiciones meteorológicas, puntos de vista) que pueden ser difíciles de encontrar en los conjuntos de datos disponibles.

Aplicaciones en el mundo real

Los datos sintéticos se aplican en numerosos sectores:

  • IA en automoción: El entrenamiento de modelos para coches autoconducidos requiere grandes cantidades de datos de conducción diversos. Las simulaciones, como el entorno de simulación de Waymo, generan escenarios sintéticos que incluyen sucesos poco frecuentes, como accidentes o condiciones inusuales de la carretera, cruciales para las pruebas de seguridad sin riesgo en el mundo real. Esto acelera el desarrollo de sistemas autónomos fiables.
  • La IA en la asistencia sanitaria: El desarrollo de modelos de IA para el análisis de imágenes médicas, por ejemplo para la detección de tumores, a menudo se enfrenta a retos debido a las normativas sobre privacidad de los pacientes (como la HIPAA) y a la escasez de datos etiquetados para enfermedades raras. Las imágenes médicas sintéticas o los registros de pacientes (por ejemplo, generados mediante herramientas como Synthea) permiten a los investigadores entrenar modelos sin comprometer la privacidad, democratizando el acceso a los datos.

Otras aplicaciones son la modelización financiera(AI in Finance), el comercio minorista(AI for Smarter Retail) y la formación en robótica.

Datos Sintéticos vs. Aumento de Datos

Aunque tanto los datos sintéticos como el aumento de datos pretenden mejorar los conjuntos de datos, son conceptos distintos:

  • Aumento de datos: Consiste en aplicar transformaciones (como rotación, recorte, cambios de color) a puntos de datos reales existentes para crear versiones ligeramente modificadas. Aumenta la diversidad del conjunto de entrenamiento basándose en la distribución original de los datos. Los modelos Ultralytics suelen incorporar aumentosintegrados (Integración de Albumentaciones).
  • Datos sintéticos: Se refiere a datos totalmente nuevos generados artificialmente, a menudo utilizando simulaciones o modelos generativos como los GAN. No parten necesariamente de un punto de datos real concreto y pueden representar escenarios completamente ausentes del conjunto de datos original.

En esencia, el aumento de datos amplía la varianza en torno a los datos existentes, mientras que los datos sintéticos pueden crear puntos de datos y escenarios totalmente novedosos, ofreciendo una potente forma de complementar o incluso sustituir los datos reales en el entrenamiento de modelos de IA gestionados a través de plataformas como Ultralytics HUB.

Leer todo