Datos sintéticos
Libere el poder de los datos sintéticos para la IA/ML. Supere la escasez de datos, los problemas de privacidad y los costes a la vez que potencia la formación de modelos y la innovación.
Los datos sintéticos son información generada artificialmente para imitar los datos del mundo real. En los campos de la inteligencia artificial (IA) y el aprendizaje automático (AM), constituyen una potente alternativa o complemento a los datos reales para el entrenamiento de modelos de IA. La recopilación de conjuntos de datos reales amplios, de alta calidad y debidamente etiquetados puede ser costosa, requerir mucho tiempo y, en ocasiones, resultar poco práctica debido a las normativas sobre privacidad o a la rareza de determinados acontecimientos. Los datos sintéticos ofrecen una solución, ya que permiten a los desarrolladores generar grandes cantidades de datos perfectamente etiquetados a la carta, lo que resuelve estas limitaciones y acelera el desarrollo de sistemas sólidos de visión por ordenador (VC ).
¿Cómo se generan los datos sintéticos?
Los datos sintéticos pueden crearse utilizando varias técnicas avanzadas, cada una de ellas adecuada para aplicaciones diferentes. Estos métodos permiten controlar con precisión las características de los datos generados, como la iluminación, la colocación de objetos y las condiciones ambientales.
- Modelado y simulación 3D: Los desarrolladores utilizan gráficos por ordenador y entornos de simulación para crear mundos virtuales fotorrealistas. Este enfoque es habitual en robótica y sistemas autónomos, donde los motores físicos pueden simular la física del mundo real. Plataformas como NVIDIA DRIVE Sim se utilizan para generar datos para el entrenamiento de coches de conducción autónoma.
- Modelos generativos: Técnicas como las redes generativas adversariales (GAN ) y, más recientemente, los modelos de difusión son un componente básico de la IA generativa. Estos modelos aprenden los patrones subyacentes a partir de datos reales para crear muestras totalmente nuevas y realistas. Esto resulta especialmente útil para generar rostros humanos diversos o escenas complejas.
- Generación por procedimientos: Este método utiliza algoritmos y reglas para crear datos automáticamente. Se utiliza mucho en el desarrollo de videojuegos para generar entornos a gran escala y puede adaptarse para producir datos de entrenamiento variados con un esfuerzo manual mínimo.
- Aleatorización de dominios: Técnica en la que se varían intencionadamente los parámetros de una simulación (como la iluminación, la textura y la posición de los objetos). Esto ayuda al modelo entrenado a generalizar mejor de entornos simulados al mundo real, forzándolo a centrarse en características esenciales. Tobin et al. demostraron su eficacia en la manipulación robótica.
Aplicaciones reales
El uso de datos sintéticos se está extendiendo a muchos sectores, lo que permite realizar avances allí donde los datos del mundo real suponen un cuello de botella.
- Vehículos autónomos: El entrenamiento de los coches autónomos requiere datos de millones de kilómetros de conducción, incluidos escenarios raros y peligrosos como accidentes o condiciones meteorológicas extremas. No es seguro ni práctico recopilar estos datos en el mundo real. Los datos sintéticos permiten a los desarrolladores simular estos casos extremos en un entorno seguro y controlado, mejorando la solidez de los sistemas de detección de objetos y navegación. Empresas como Waymo dependen en gran medida de la simulación para las pruebas y la validación.
- La IA en la sanidad: En el análisis de imágenes médicas, los datos de los pacientes son muy sensibles y están protegidos por estrictas leyes de privacidad como la HIPAA. Además, los datos sobre enfermedades raras son escasos. Se pueden utilizar datos sintéticos para generar exploraciones médicas realistas (por ejemplo, TAC o RM) sin comprometer la privacidad de los datos. Esto ayuda a crear conjuntos de datos más amplios y equilibrados, lo que reduce el sesgo de la IA y mejora la precisión de los modelos de diagnóstico para enfermedades como la detección del cáncer de piel.
Datos sintéticos frente a aumento de datos
Aunque tanto los datos sintéticos como el aumento de datos pretenden mejorar los conjuntos de datos, su funcionamiento es diferente.
- Aumento de datos: Esta técnica consiste en aplicar transformaciones como la rotación, el recorte o los cambios de color a imágenes existentes del mundo real. Aumenta la diversidad del conjunto de entrenamiento creando versiones modificadas de los datos originales. Puede obtener más información sobre los aumentos utilizados en los modelos YOLO de Ultralytics.
- Datos sintéticos: Se trata de crear datos totalmente nuevos a partir de cero mediante simulaciones o modelos generativos. No se derivan de puntos de datos existentes y pueden representar escenarios completamente ausentes del conjunto de datos original.
En resumen, el aumento de datos varía los datos existentes, mientras que los datos sintéticos crean datos nuevos. Ambas son técnicas potentes, y pueden combinarse para construir modelos de aprendizaje profundo muy sólidos y precisos gestionados a través de plataformas como Ultralytics HUB.