Guías

¿Qué son los datos sintéticos en la visión artificial? Una visión general

Explora cómo se utilizan los datos sintéticos para el entrenamiento de modelos de IA en aplicaciones de visión artificial en una variedad de industrias como la salud y la robótica.

ABAbirami Vina

5 min readJuly 4, 2025

Un conjunto de datos sintéticos que muestra diferentes poses humanas y variaciones de iluminación

Los datos siempre han sido un factor determinante en campos como la analítica y la inteligencia artificial (IA). De hecho, la forma en que recopilamos, generamos y usamos los datos está dando forma al futuro de los sistemas inteligentes. Por ejemplo, los coches autónomos dependen de millones de imágenes etiquetadas y lecturas de sensores, desde señales de tráfico hasta movimientos de peatones, para aprender a navegar por las carreteras de forma segura.

Uno de los tipos de datos más vitales que impulsan este progreso, especialmente en áreas como los vehículos autónomos y la seguridad, son los datos visuales, como imágenes y vídeos.

En particular, el campo de la IA que permite a las máquinas interpretar esta información visual se denomina visión artificial. Ayuda a los sistemas a comprender y analizar las entradas visuales de forma muy similar a como lo hacemos los humanos, apoyando tareas como el reconocimiento facial, la detección de señales de tráfico y el análisis de imágenes médicas.

Sin embargo, reunir conjuntos de datos visuales de alta calidad y a gran escala del mundo real puede llevar mucho tiempo, ser costoso y, a menudo, plantear problemas de privacidad. Por eso, los investigadores están explorando activamente el concepto de aprovechar los datos sintéticos.

Los datos sintéticos se refieren a elementos visuales generados artificialmente que imitan fielmente imágenes y vídeos del mundo real. Se crean mediante técnicas como el modelado 3D, las simulaciones informáticas y métodos de IA generativa, como las Redes Generativas Antagónicas (GANs), que aprenden patrones a partir de datos reales para producir nuevos ejemplos realistas.

Se espera que los datos sintéticos desempeñen pronto un papel fundamental en el desarrollo de la IA. Gartner predice que, para 2030, serán más esenciales que los datos del mundo real. En este artículo, exploraremos qué son los datos sintéticos en el contexto de la visión artificial, cómo se generan y dónde se aplican en escenarios del mundo real. ¡Empecemos!

Link to this section¿Qué son los datos sintéticos en visión artificial?#

Supón que quieres entrenar un modelo de IA de visión para detectar objetos en entornos y condiciones diversos. Depender únicamente de datos del mundo real puede ser difícil y, a veces, sentirse limitado.

Mientras tanto, los datos sintéticos pueden utilizarse para crear el conjunto de datos adecuado, conteniendo objetos en diversas condiciones creadas artificialmente. Mediante el uso de herramientas como el modelado 3D y simulaciones, los desarrolladores pueden generar imágenes con un control preciso sobre factores como la iluminación, los ángulos y la colocación de los objetos. Esto, a su vez, ofrece más flexibilidad para el entrenamiento de modelos que los datos del mundo real.

Los datos sintéticos son especialmente útiles cuando recopilar datos del mundo real resulta difícil o imposible. Por ejemplo, entrenar un modelo para reconocer a personas en una amplia gama de posturas, como correr, agacharse o tumbarse, requeriría capturar miles de fotos en muchos entornos, ángulos y condiciones de iluminación diferentes.

Por otro lado, con los datos sintéticos, los desarrolladores pueden generar fácilmente estas variaciones con etiquetas precisas, ahorrando tiempo y esfuerzo mientras mejoran el rendimiento del modelo.

Un conjunto de datos sintético con diferentes poses humanas y variaciones de iluminación

Fig 1. Un conjunto de datos sintético con diferentes posturas humanas y variaciones de iluminación (fuente).

Link to this sectionDatos sintéticos frente a reales en IA#

A continuación, analicemos más de cerca las diferencias entre los datos sintéticos y los reales. Ambos tienen sus pros y sus contras a la hora de entrenar modelos de IA.

Por ejemplo, los datos sintéticos son útiles cuando es difícil recopilar datos reales, pero es posible que no capturen todos los pequeños detalles de la vida real. Al mismo tiempo, los datos reales son más auténticos, pero pueden ser difíciles de obtener, lentos de etiquetar y es posible que no cubran todas las situaciones.

Al combinar datos sintéticos y reales, los desarrolladores pueden obtener lo mejor de ambos mundos. Este equilibrio ayuda a que los modelos de IA aprendan con mayor precisión, se generalicen mejor en distintos escenarios y reduzcan el sesgo.

Comparación de datos sintéticos frente a datos reales en IA

Fig 2. Datos sintéticos frente a reales en IA. Imagen del autor.

Link to this sectionUn vistazo a la generación de datos para modelos de visión artificial#

Desde la creación de mundos virtuales con herramientas 3D hasta la generación de imágenes mediante IA generativa, aquí tienes algunos métodos comunes utilizados para crear datos de entrenamiento sintéticos para modelos de visión artificial:

Modelado 3D: Los desarrolladores utilizan software 3D para crear objetos y escenas digitales. Esto permite un control total sobre aspectos como la iluminación, los ángulos de cámara y la colocación de objetos, y es útil para generar imágenes realistas de personas, vehículos y entornos.
Simulaciones: Recrean situaciones del mundo real, como el tráfico o entornos de fábrica, utilizando motores basados en la física. Las simulaciones son útiles para generar de forma segura datos de entrenamiento en campos como la robótica y los coches autónomos.
Redes generativas antagónicas: Las GANs son un tipo de modelo de aprendizaje profundo compuesto por dos redes: una que crea imágenes y otra que las evalúa. Juntas, generan imágenes altamente realistas, como rostros humanos o vistas de calles, aprendiendo a partir de ejemplos reales.
Generación procedimental: Esta técnica utiliza reglas predefinidas o modelos matemáticos para generar automáticamente estructuras visuales complejas como terrenos, edificios o texturas. Se utiliza a menudo en plataformas de juegos y simulación y puede producir conjuntos de datos diversos y a gran escala con una mínima intervención humana.
Aleatorización de dominio: Puede cambiar aleatoriamente aspectos como la iluminación, los colores y las formas de los objetos en escenas sintéticas. El objetivo de esta técnica es ayudar a los modelos a centrarse en lo que realmente importa, haciéndolos más adaptables a los entornos del mundo real.

Ejemplos de imágenes de conjuntos de datos basados en modelos 3D, sintéticos y reales

Fig 3. Ejemplos de datos: (a) basados en modelos 3D, (b) escenas sintéticas con múltiples objetos y (c) imágenes de conjuntos de datos reales (fuente).

Link to this sectionEntrenamiento de modelos de IA de visión con datos sintéticos#

Ahora que hemos comentado algunos de los diferentes métodos utilizados para crear datos sintéticos, veamos cómo se utilizan para entrenar modelos de IA.

Una vez generados, los datos sintéticos suelen poder integrarse directamente en el proceso de entrenamiento de la misma forma que los datos del mundo real. Normalmente incluyen las anotaciones necesarias, como etiquetas de objetos, cuadros delimitadores o máscaras de segmentación, lo que significa que pueden utilizarse para tareas de aprendizaje supervisado, donde los modelos aprenden a partir de pares de entrada-salida etiquetados, sin necesidad de etiquetado manual.

Durante el entrenamiento, el modelo procesa imágenes sintéticas para aprender a detectar características, reconocer patrones y clasificar objetos. Estos datos pueden utilizarse para crear una versión inicial del modelo desde cero o para enriquecer un conjunto de datos existente, ayudando a mejorar el rendimiento del modelo.

En muchos flujos de trabajo, los datos sintéticos también se utilizan para el preentrenamiento, proporcionando a los modelos una base amplia antes de ser ajustados con ejemplos del mundo real. Del mismo modo, se utilizan para aumentar los conjuntos de datos introduciendo variaciones controladas, como diferentes condiciones de iluminación, ángulos o clases de objetos raros, para mejorar la generalización y reducir el sobreajuste.

Al combinar datos sintéticos y reales, los equipos pueden entrenar modelos más robustos que funcionan bien en una amplia gama de condiciones, todo ello mientras reducen la dependencia de esfuerzos de recopilación de datos manuales, costosos y lentos.

Link to this sectionAplicaciones en el mundo real de los datos sintéticos en visión artificial#

A medida que los datos sintéticos se vuelven más prácticos y accesibles, estamos empezando a ver cómo se adoptan en una variedad de casos de uso de IA de visión en el mundo real. Exploremos algunas de las aplicaciones de visión artificial más impactantes donde se están utilizando.

Link to this sectionUso de datos sintéticos para la detección de objetos en vehículos autónomos#

Enseñar a los coches autónomos a conducir con seguridad requiere entrenar modelos en una amplia gama de escenarios, incluidas situaciones raras o peligrosas. Sin embargo, recopilar datos del mundo real para estos casos extremos puede ser difícil y, a veces, inseguro. Los datos sintéticos pueden ayudar a crear escenas donde los modelos puedan aprender a detectar objetos en situaciones difíciles. También pueden imitar diferentes configuraciones de sensores, lo cual ayuda porque no todos los coches autónomos utilizan el mismo hardware.

La plataforma NVIDIA’s DRIVE Sim es un gran ejemplo de esto. Crea datos sintéticos de alta calidad mediante modelos 3D fotorrealistas, entornos virtuales y simulaciones de sensores. También puede generar imágenes de múltiples ángulos de conducción a partir de una sola imagen. El uso de datos sintéticos como este ayuda a reducir la necesidad de costosas pruebas en el mundo real, al tiempo que proporciona al modelo la variedad que necesita para aprender eficazmente.

Creación de múltiples vistas de conducción a partir de una sola imagen

Fig 4. Creación de múltiples vistas de conducción a partir de una imagen (fuente).

Link to this sectionReducción del sesgo en la IA de imágenes médicas con datos sintéticos#

Los modelos de visión artificial como Ultralytics YOLO11, que admiten tareas como la detección de objetos y la segmentación de instancias, pueden entrenarse a medida para aplicaciones de imágenes médicas. Sin embargo, los datos de entrenamiento del mundo real a menudo contienen sesgos, ya que pueden no representar adecuadamente a pacientes de todos los grupos demográficos.

Por ejemplo, el cáncer de piel se diagnostica con menos frecuencia en personas con tonos de piel más oscuros, lo que lleva a datos limitados para esas poblaciones. Este desequilibrio puede contribuir a diagnósticos erróneos y a resultados sanitarios desiguales, especialmente en campos como la histopatología, las radiografías de tórax y la dermatología.

Las imágenes sintéticas pueden desempeñar un papel en dar un paso hacia cerrar esta brecha en los datos. Al generar ejemplos adicionales y diversos, como variadas anomalías tisulares, una amplia gama de afecciones pulmonares y tonos de piel con diferentes tipos de lesiones, los datos sintéticos pueden ayudar a mejorar el rendimiento del modelo en grupos subrepresentados.

Los investigadores están trabajando actualmente en el desarrollo y la validación de conjuntos de datos sintéticos para apoyar estos objetivos. También están explorando cómo pueden utilizarse los datos sintéticos para probar herramientas médicas y estrategias de tratamiento sin depender de registros reales de pacientes, ayudando a acelerar la investigación mientras se protege la privacidad del paciente. A través de este trabajo, los datos sintéticos están allanando el camino para sistemas de IA médica más inclusivos, precisos y éticos.

Link to this sectionPromoción de la IA agrícola con datos sintéticos para la agricultura de precisión#

La construcción de sistemas de IA de visión para aplicaciones agrícolas depende del acceso a grandes cantidades de datos etiquetados. Sin embargo, recopilar y etiquetar imágenes de cultivos, enfermedades y condiciones del campo es lento, costoso y a menudo limitado por factores como el clima, las temporadas de cultivo o la dificultad de acceso a determinadas zonas.

Estos desafíos dificultan el entrenamiento de modelos de visión artificial para gestionar tareas como la detección de enfermedades de las plantas, monitorización de cultivos o la predicción de rendimientos. Ahí es donde los datos sintéticos pueden ayudar, imitando diferentes entornos agrícolas para generar ejemplos de entrenamiento útiles.

Uso de imágenes sintéticas para mejorar la detección de enfermedades en plantas

Fig 5. Uso de imágenes sintéticas para mejorar la detección de enfermedades (fuente).

Link to this sectionConclusiones clave#

El uso de datos sintéticos representa un importante paso adelante en el entrenamiento de modelos de IA, especialmente para los sistemas de visión artificial en áreas donde los datos del mundo real son limitados o difíciles de obtener. En lugar de depender únicamente de fotos o vídeos reales, que pueden ser costosos, lentos o plantear problemas de privacidad, los datos sintéticos nos permiten generar imágenes realistas y etiquetadas bajo demanda.

Facilita el entrenamiento de modelos de IA de visión para tareas como la conducción autónoma, la detección de enfermedades o la monitorización de cultivos. A medida que la IA sigue evolucionando, los datos sintéticos están llamados a desempeñar un papel aún mayor en la aceleración de la innovación y la mejora de la accesibilidad en todas las industrias.

Aprende más sobre IA en nuestro repositorio de GitHub y únete a nuestra creciente comunidad. Descubre el impacto de aplicaciones como la IA en vehículos autónomos y la visión artificial en la agricultura. Explora nuestras opciones de licencia y haz realidad tus proyectos de IA de visión.

Explore solutions

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

¿Qué son los datos sintéticos en la visión artificial? Una visión general

Link to this section¿Qué son los datos sintéticos en visión artificial?#

Link to this sectionDatos sintéticos frente a reales en IA#

Link to this sectionUn vistazo a la generación de datos para modelos de visión artificial#

Link to this sectionEntrenamiento de modelos de IA de visión con datos sintéticos#

Link to this sectionAplicaciones en el mundo real de los datos sintéticos en visión artificial#

Link to this sectionUso de datos sintéticos para la detección de objetos en vehículos autónomos#

Link to this sectionReducción del sesgo en la IA de imágenes médicas con datos sintéticos#

Link to this sectionPromoción de la IA agrícola con datos sintéticos para la agricultura de precisión#

Link to this sectionConclusiones clave#

Explore solutions

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

IA en robótica

IA en logística

IA en el sector minorista

IA en la atención sanitaria

IA en la fabricación

IA en automoción

IA en agricultura

¡Construyamos juntos el futuro de la IA!