IA centrada en los datos
Descubra la IA centrada en los datos, el enfoque para mejorar la calidad del conjunto de datos con el fin de impulsar el rendimiento del modelo. Descubra por qué unos datos mejores, y no solo un modelo mejor, son clave para una IA robusta.
La IA centrada en los datos es un enfoque estratégico para desarrollar
sistemas de inteligencia artificial (IA)
que se centra principalmente en mejorar la calidad de los datos de entrenamiento en lugar de iterar sobre la arquitectura del modelo.
En los flujos de trabajo tradicionales, los desarrolladores a menudo tratan el conjunto de datos como una entrada fija y dedican un esfuerzo considerable a ajustar los hiperparámetros o a diseñar complejos modelos.
hiperparámetros o diseñando complejas
estructuras complejas de redes neuronales (NN ). En cambio, una metodología
una metodología centrada en los datos trata el código del modelo, como la arquitectura de la red neuronal.
Ultralytics YOLO11-como una base relativamente estática,
dirigiendo los esfuerzos de ingeniería hacia la limpieza sistemática de los datos, la coherencia del etiquetado y el aumento para aumentar
el rendimiento.
La filosofía central: Calidad sobre cantidad
La eficacia de cualquier
sistema de aprendizaje automático
limitado por el principio de "basura dentro, basura fuera". Incluso los algoritmos más avanzados no pueden aprender
patrones eficaces a partir de entradas ruidosas o etiquetadas incorrectamente. La IA centrada en los datos postula que para muchas aplicaciones prácticas, los datos de entrenamiento son lo más importante.
aplicaciones prácticas, los datos de
variable más importante para el éxito. Este enfoque hace hincapié en que un conjunto de datos más pequeño y de alta calidad suele dar mejores resultados que uno masivo y ruidoso.
resultados que uno masivo y ruidoso.
Los defensores de esta filosofía, como Andrew Ng, sostienen que la
la comunidad de la IA se ha centrado desproporcionadamente en la innovación centrada en modelos. Para construir sistemas robustos,
los ingenieros deben participar en procesos de aprendizaje activo
en los que identifican de forma iterativa los modos de fallo y los corrigen refinando el conjunto de datos. Esto implica
de datos, la eliminación de duplicados y la gestión de casos
que el modelo tiene dificultades para classify.
Técnicas clave y aplicación
La aplicación de una estrategia centrada en los datos implica varios procesos técnicos diseñados para diseñar el conjunto de datos con el fin de obtener la máxima densidad y coherencia de la información.
densidad y coherencia de la información.
-
Limpieza sistemática de datos: Consiste en detectar y corregir errores en las anotaciones, tales como
identificar recuadros delimitadores que no
un objeto o corregir errores de correspondencia de clases.
-
Aumento de datos: Los desarrolladores utilizan
técnicas de aumento de datos para
artificialmente la diversidad del conjunto de datos. Mediante la aplicación de transformaciones como la rotación, la escala y el ajuste del color, el modelo aprende a generalizar mejor en entornos desconocidos.
modelo aprende a generalizar mejor en entornos desconocidos.
-
Generación de datos sintéticos: Cuando los datos del mundo real son escasos, los equipos pueden generar
datos sintéticos para llenar lagunas en el conjunto de datos,
asegurándose de que las clases poco comunes estén adecuadamente representadas.
-
Análisis de errores: En lugar de fijarse únicamente en métricas agregadas como
precisión, los ingenieros analizan los casos concretos en los que
modelo falla y recopilan datos específicos para solucionar esos puntos débiles concretos.
El siguiente código Python muestra cómo aplicar técnicas de aumento centradas en los datos durante el entrenamiento utilizando la función
ultralytics paquete.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Aplicaciones en el mundo real
Adoptar un enfoque centrado en los datos es fundamental en sectores en los que
en las que la precisión de la visión
no es negociable.
-
Agricultura de precisión: En
IA en la agricultura, distinguir entre un cultivo
un cultivo sano de uno con una enfermedad en fase inicial suele basarse en sutiles señales visuales. Un equipo centrado en los datos se centraría en
curar un
conjunto de datos de visión por ordenador de alta calidad
de datos de visión por ordenador de alta calidad que incluya ejemplos concretos de enfermedades en distintas condiciones de luz y etapas de crecimiento, garantizando que el modelo no aprenda a asociar las imágenes con las enfermedades.
que el modelo no aprenda a asociar características de fondo irrelevantes con la clase de enfermedad.
-
Inspección industrial: Para
AI en la fabricación, los defectos pueden producirse
una de cada diez mil unidades. Un modelo estándar de entrenamiento podría ignorar estos raros eventos. Mediante el empleo de
estrategias de detección de anomalías y
manualmente o sintetizando más imágenes de estos defectos específicos, los ingenieros se aseguran de que el sistema alcance las altas tasas de recuperación necesarias para los estándares de control de calidad.
que exigen las normas de control de calidad
definidos por organizaciones como ISO.
Distinguir conceptos relacionados
Para entender la IA centrada en los datos hay que distinguirla de términos similares en el ecosistema del aprendizaje automático.
-
IA centrada en el modelo: Se trata del enfoque inverso, en el que el conjunto de datos se mantiene constante, y
se buscan mejoras mediante
ajuste de hiperparámetros o cambios
arquitectura. Aunque es necesario para superar los límites del estado del arte en los trabajos de investigación que se encuentran en
IEEE Xplore, a menudo produce rendimientos decrecientes en
en comparación con la limpieza de los datos.
-
Big Data: Big Data se refiere principalmente a
el volumen, la velocidad y la variedad de la información. La IA centrada en los datos no requiere necesariamente "grandes" datos;
sino datos "inteligentes". Un conjunto de datos pequeño y perfectamente etiquetado suele superar a uno masivo y ruidoso.
ruidoso.
-
Análisis exploratorio de datos (AED):
La visualización de datos y el AED son pasos
dentro del flujo de trabajo centrado en los datos. EDA ayuda a identificar incoherencias, pero la IA centrada en datos abarca
todo el ciclo de vida de ingeniería para solucionar esos problemas y mejorar el motor de inferencia.
motor de inferencia.
-
MLOps:
Operaciones de aprendizaje automático (MLOps)
proporciona la infraestructura y los canales para gestionar el ciclo de vida de la producción de IA. La IA centrada en datos es la
es la metodología aplicada dentro de los conductos de MLOps para garantizar que los datos que fluyen a través de ellos crean modelos fiables.