IA centrada en los datos
Descubra la IA centrada en los datos, el enfoque para mejorar la calidad del conjunto de datos con el fin de impulsar el rendimiento del modelo. Descubra por qué unos datos mejores, y no solo un modelo mejor, son clave para una IA robusta.
La IA centrada en los datos es una filosofía y metodología en el desarrollo del aprendizaje automático (ML) que hace hincapié en mejorar la
calidad de los datos de entrenamiento en lugar de centrarse únicamente en optimizar la arquitectura del modelo. En los enfoques tradicionales centrados en el modelo
, el conjunto de datos se suele tratar como una entrada estática, mientras que los ingenieros dedican semanas a ajustar los hiperparámetros o
diseñar estructuras complejas de redes neuronales.
Por el contrario, un enfoque centrado en los datos trata el código del modelo como una base de referencia fija y dirige los esfuerzos de ingeniería hacia la
limpieza sistemática de datos, la coherencia en el etiquetado y el
aumento para mejorar el rendimiento general del sistema. Este cambio reconoce que, para muchas aplicaciones prácticas, el
principio de «si entra basura, sale basura» es el principal obstáculo para lograr una alta precisión.
La filosofía central: Calidad sobre cantidad
La premisa fundamental de la IA centrada en los datos es que un conjunto de datos más pequeño y de alta calidad a menudo produce mejores resultados que uno
masivo y ruidoso. Figuras destacadas en este campo, como Andrew Ng,
han defendido este cambio, argumentando que la comunidad de IA se ha centrado históricamente en la innovación algorítmica. Para
construir sistemas robustos, los ingenieros deben participar en
procesos de aprendizaje activo en los que, de forma iterativa,
identifican los modos de fallo y los corrigen perfeccionando el conjunto de datos. Esto implica un etiquetado preciso de
los datos, la eliminación de duplicados y el manejo de casos extremos
que el modelo encuentra difíciles de classify.
Las actividades clave de este flujo de trabajo incluyen:
-
Análisis de errores sistemáticos: en lugar de basarse únicamente en métricas agregadas como la
precisión, los desarrolladores analizan casos concretos en los que
el modelo falla —como la detección de objetos pequeños en
imágenes aéreas— y recopilan datos específicos para
abordar esas deficiencias.
-
Coherencia en el etiquetado: Es fundamental garantizar que todos los anotadores sigan las mismas directrices. Herramientas como
Label Studio ayudan a los equipos a gestionar la calidad de las anotaciones para evitar señales contradictorias
que confundan el proceso de entrenamiento.
-
Aumento de datos: Los desarrolladores utilizan
técnicas de aumento de datos para
ampliar artificialmente la diversidad del conjunto de datos. Mediante la aplicación de transformaciones como la rotación, el escalado y el ajuste del color
, el modelo aprende a generalizar mejor en entornos desconocidos.
-
Generación de datos sintéticos: cuando los datos del mundo real son escasos, los equipos pueden generar
datos sintéticos utilizando motores de simulación como
NVIDIA para llenar los vacíos en el conjunto de datos, asegurando que
las clases raras estén adecuadamente representadas.
Aplicaciones en el mundo real
Adoptar un enfoque centrado en los datos es fundamental en sectores en los que
la precisión de la visión artificial no es negociable.
-
Agricultura de precisión: En
la IA aplicada a la agricultura, distinguir entre un
cultivo sano y uno con una enfermedad en fase inicial a menudo depende de sutiles indicios visuales. Un equipo centrado en los datos se centraría en
crear un
conjunto de datos de visión por ordenador de alta calidad
que incluya específicamente ejemplos de enfermedades en diversas condiciones de iluminación y etapas de crecimiento. Esto garantiza que
el modelo no aprenda a asociar características de fondo irrelevantes con la clase de enfermedad, un problema común conocido como
aprendizaje por atajos.
-
Inspección industrial: en el caso de la
IA aplicada a la fabricación, los defectos pueden producirse
solo una vez cada diez mil unidades. Un modelo de entrenamiento estándar podría ignorar estos eventos poco frecuentes debido al desequilibrio de clases
. Mediante el empleo de
estrategias de detección de anomalías y la obtención o síntesis manual
de más imágenes de estos defectos específicos, los ingenieros se aseguran de que el sistema alcance las altas
tasas de recuperación requeridas por las normas de control de calidad
definidas por organizaciones como la ISO.
Implementación de técnicas centradas en datos con Ultralytics
Puede aplicar técnicas centradas en los datos, como el aumento, directamente en su canal de formación. El siguiente código Python
muestra cómo cargar un modelo YOLO26 y entrenarlo
con parámetros de aumento agresivos para mejorar la robustez frente a las variaciones.
from ultralytics import YOLO
# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Distinguir conceptos relacionados
Para comprender la IA centrada en datos, es necesario diferenciarla de términos similares en el ecosistema del aprendizaje automático.
-
IA centrada en el modelo: Se trata del enfoque inverso, en el que el conjunto de datos se mantiene constante, y
se buscan mejoras mediante
ajuste de hiperparámetros o cambios
arquitectura. Aunque es necesario para superar los límites del estado del arte en los trabajos de investigación que se encuentran en
IEEE Xplore, a menudo produce rendimientos decrecientes en
en comparación con la limpieza de los datos.
-
Big Data: El término «Big Data» se refiere principalmente al
volumen, la velocidad y la variedad de la información. La IA centrada en los datos no requiere necesariamente datos «grandes»,
sino datos «inteligentes». Un conjunto de datos pequeño y perfectamente etiquetado suele superar a uno enorme y ruidoso
, tal y como destaca la comunidad de IA centrada en los datos.
-
Análisis exploratorio de datos (EDA):
La visualización de datos y el EDA son pasos
dentro del flujo de trabajo centrado en los datos. El EDA ayuda a identificar inconsistencias utilizando herramientas como
Pandas, pero la IA centrada en datos abarca todo el ciclo de vida de la ingeniería de
solucionar esos problemas para mejorar el
motor de inferencia.
-
MLOps:
Las operaciones de aprendizaje automático (MLOps)
proporcionan la infraestructura y los procesos necesarios para gestionar el ciclo de vida de la producción de IA. La IA centrada en datos es la
metodología aplicada en los procesos de MLOps para garantizar que los datos que fluyen a través de ellos crean modelos fiables.
Plataformas como Weights & Biases se
utilizan a menudo para track los cambios en los datos afectan a las métricas de los modelos.