Datos sintéticos
Libere el poder de los datos sintéticos para la IA/ML. Supere la escasez de datos, los problemas de privacidad y los costes a la vez que potencia la formación de modelos y la innovación.
Los datos sintéticos se refieren a la información generada artificialmente que imita las propiedades estadísticas de los datos del mundo real, en lugar de recopilarse directamente a partir de eventos o mediciones reales. En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos sintéticos son una alternativa o complemento crucial a los datos de entrenamiento reales. Son especialmente valiosos cuando recopilar suficientes datos del mundo real es difícil, caro, lleva mucho tiempo(Guía de recopilación y anotación de datos) o plantea problemas de privacidad de los datos. Esta información creada artificialmente ayuda a entrenar modelos como Ultralytics YOLO, probar sistemas y explorar escenarios que podrían ser raros o peligrosos en la realidad, impulsando en última instancia la innovación y el rendimiento de los modelos.
Cómo se crean los datos sintéticos
La generación de datos sintéticos emplea diversas técnicas, en función de la complejidad y la fidelidad requeridas. Algunos enfoques comunes incluyen:
Importancia en la IA y la visión por ordenador
Los datos sintéticos ofrecen varias ventajas significativas para el desarrollo de la IA y la visión por ordenador:
- Superar la escasez de datos: Proporciona grandes volúmenes de datos cuando los datos del mundo real son limitados o caros de adquirir, lo que ayuda a entrenar modelos robustos(Consejos para el entrenamiento de modelos).
- Mejora de la privacidad de los datos: Genera datos que conservan propiedades estadísticas sin contener información sensible del mundo real, lo que ayuda a cumplir la normativa sobre privacidad y permite utilizar técnicas como la privacidad diferencial.
- Reducción del sesgo: Puede controlarse cuidadosamente para mitigar o aumentar la representación de grupos o escenarios infrarrepresentados, ayudando a abordar el sesgo del conjunto de datos y a promover la equidad en la IA.
- Cobertura de casos extremos: Permite la creación de datos que representan escenarios raros o peligrosos (por ejemplo, accidentes de vehículos autónomos, condiciones médicas raras) que son difíciles de capturar en la realidad. Esto mejora la generalización del modelo.
- Eficiencia en costes y tiempo: A menudo es más barato y rápido de generar que recopilar y etiquetar datos del mundo real(Explicación del etiquetado de datos).
En visión por ordenador, las imágenes sintéticas se utilizan con frecuencia para entrenar modelos para tareas como la detección de objetos, la segmentación de imágenes y la estimación de poses en condiciones diversas (por ejemplo, iluminación variable, condiciones meteorológicas, puntos de vista) que pueden ser difíciles de encontrar en los conjuntos de datos disponibles.
Aplicaciones reales
Los datos sintéticos se aplican en numerosos sectores:
- La IA en la automoción: El entrenamiento de modelos para coches autoconducidos requiere grandes cantidades de datos de conducción diversos. Las simulaciones, como el entorno de simulación de Waymo, generan escenarios sintéticos que incluyen sucesos poco frecuentes, como accidentes o condiciones inusuales de la carretera, cruciales para las pruebas de seguridad sin riesgo en el mundo real. Esto acelera el desarrollo de sistemas autónomos fiables.
- La IA en la sanidad: El desarrollo de modelos de IA para el análisis de imágenes médicas, por ejemplo para la detección de tumores, a menudo se enfrenta a desafíos debido a las regulaciones de privacidad del paciente (como HIPAA) y la escasez de datos etiquetados para enfermedades raras. Las imágenes médicas sintéticas o los historiales de pacientes (por ejemplo, generados con herramientas como Synthea) permiten a los investigadores entrenar modelos sin comprometer la privacidad, democratizando el acceso a los datos.
Otras aplicaciones son la modelización financiera(AI in Finance), el comercio minorista(AI for Smarter Retail) y la formación en robótica.
Datos sintéticos frente a aumento de datos
Aunque tanto los datos sintéticos como el aumento de datos pretenden mejorar los conjuntos de datos, son conceptos distintos:
- Aumento de datos: Consiste en aplicar transformaciones (como rotación, recorte, cambios de color) a puntos de datos reales existentes para crear versiones ligeramente modificadas. Aumenta la diversidad del conjunto de entrenamiento basándose en la distribución original de los datos. Los modelos de Ultralytics incorporan a menudo aumentosintegrados (Integración de Albumentaciones).
- Datos sintéticos: Se refiere a datos totalmente nuevos generados artificialmente, a menudo mediante simulaciones o modelos generativos como los GAN. No parten necesariamente de un punto de datos real específico y pueden representar escenarios completamente ausentes del conjunto de datos original.
En esencia, el aumento de datos amplía la varianza en torno a los datos existentes, mientras que los datos sintéticos pueden crear puntos de datos y escenarios totalmente nuevos, ofreciendo una forma potente de complementar o incluso sustituir los datos reales en el entrenamiento de modelos de IA gestionados a través de plataformas como Ultralytics HUB.