Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

IA centrada en los datos

Descubra la IA centrada en los datos, el enfoque para mejorar la calidad del conjunto de datos con el fin de impulsar el rendimiento del modelo. Descubra por qué unos datos mejores, y no solo un modelo mejor, son clave para una IA robusta.

La IA centrada en los datos es una filosofía y metodología en el desarrollo del aprendizaje automático (ML) que hace hincapié en mejorar la calidad de los datos de entrenamiento en lugar de centrarse únicamente en optimizar la arquitectura del modelo. En los enfoques tradicionales centrados en el modelo , el conjunto de datos se suele tratar como una entrada estática, mientras que los ingenieros dedican semanas a ajustar los hiperparámetros o diseñar estructuras complejas de redes neuronales. Por el contrario, un enfoque centrado en los datos trata el código del modelo como una base de referencia fija y dirige los esfuerzos de ingeniería hacia la limpieza sistemática de datos, la coherencia en el etiquetado y el aumento para mejorar el rendimiento general del sistema. Este cambio reconoce que, para muchas aplicaciones prácticas, el principio de «si entra basura, sale basura» es el principal obstáculo para lograr una alta precisión.

La filosofía central: Calidad sobre cantidad

La premisa fundamental de la IA centrada en los datos es que un conjunto de datos más pequeño y de alta calidad a menudo produce mejores resultados que uno masivo y ruidoso. Figuras destacadas en este campo, como Andrew Ng, han defendido este cambio, argumentando que la comunidad de IA se ha centrado históricamente en la innovación algorítmica. Para construir sistemas robustos, los ingenieros deben participar en procesos de aprendizaje activo en los que, de forma iterativa, identifican los modos de fallo y los corrigen perfeccionando el conjunto de datos. Esto implica un etiquetado preciso de los datos, la eliminación de duplicados y el manejo de casos extremos que el modelo encuentra difíciles de classify.

Las actividades clave de este flujo de trabajo incluyen:

  • Análisis de errores sistemáticos: en lugar de basarse únicamente en métricas agregadas como la precisión, los desarrolladores analizan casos concretos en los que el modelo falla —como la detección de objetos pequeños en imágenes aéreas— y recopilan datos específicos para abordar esas deficiencias.
  • Coherencia en el etiquetado: Es fundamental garantizar que todos los anotadores sigan las mismas directrices. Herramientas como Label Studio ayudan a los equipos a gestionar la calidad de las anotaciones para evitar señales contradictorias que confundan el proceso de entrenamiento.
  • Aumento de datos: Los desarrolladores utilizan técnicas de aumento de datos para ampliar artificialmente la diversidad del conjunto de datos. Mediante la aplicación de transformaciones como la rotación, el escalado y el ajuste del color , el modelo aprende a generalizar mejor en entornos desconocidos.
  • Generación de datos sintéticos: cuando los datos del mundo real son escasos, los equipos pueden generar datos sintéticos utilizando motores de simulación como NVIDIA para llenar los vacíos en el conjunto de datos, asegurando que las clases raras estén adecuadamente representadas.

Aplicaciones en el mundo real

Adoptar un enfoque centrado en los datos es fundamental en sectores en los que la precisión de la visión artificial no es negociable.

  1. Agricultura de precisión: En la IA aplicada a la agricultura, distinguir entre un cultivo sano y uno con una enfermedad en fase inicial a menudo depende de sutiles indicios visuales. Un equipo centrado en los datos se centraría en crear un conjunto de datos de visión por ordenador de alta calidad que incluya específicamente ejemplos de enfermedades en diversas condiciones de iluminación y etapas de crecimiento. Esto garantiza que el modelo no aprenda a asociar características de fondo irrelevantes con la clase de enfermedad, un problema común conocido como aprendizaje por atajos.
  2. Inspección industrial: en el caso de la IA aplicada a la fabricación, los defectos pueden producirse solo una vez cada diez mil unidades. Un modelo de entrenamiento estándar podría ignorar estos eventos poco frecuentes debido al desequilibrio de clases . Mediante el empleo de estrategias de detección de anomalías y la obtención o síntesis manual de más imágenes de estos defectos específicos, los ingenieros se aseguran de que el sistema alcance las altas tasas de recuperación requeridas por las normas de control de calidad definidas por organizaciones como la ISO.

Implementación de técnicas centradas en datos con Ultralytics

Puede aplicar técnicas centradas en los datos, como el aumento, directamente en su canal de formación. El siguiente código Python muestra cómo cargar un modelo YOLO26 y entrenarlo con parámetros de aumento agresivos para mejorar la robustez frente a las variaciones.

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Distinguir conceptos relacionados

Para comprender la IA centrada en datos, es necesario diferenciarla de términos similares en el ecosistema del aprendizaje automático.

  • IA centrada en el modelo: Se trata del enfoque inverso, en el que el conjunto de datos se mantiene constante, y se buscan mejoras mediante ajuste de hiperparámetros o cambios arquitectura. Aunque es necesario para superar los límites del estado del arte en los trabajos de investigación que se encuentran en IEEE Xplore, a menudo produce rendimientos decrecientes en en comparación con la limpieza de los datos.
  • Big Data: El término «Big Data» se refiere principalmente al volumen, la velocidad y la variedad de la información. La IA centrada en los datos no requiere necesariamente datos «grandes», sino datos «inteligentes». Un conjunto de datos pequeño y perfectamente etiquetado suele superar a uno enorme y ruidoso , tal y como destaca la comunidad de IA centrada en los datos.
  • Análisis exploratorio de datos (EDA): La visualización de datos y el EDA son pasos dentro del flujo de trabajo centrado en los datos. El EDA ayuda a identificar inconsistencias utilizando herramientas como Pandas, pero la IA centrada en datos abarca todo el ciclo de vida de la ingeniería de solucionar esos problemas para mejorar el motor de inferencia.
  • MLOps: Las operaciones de aprendizaje automático (MLOps) proporcionan la infraestructura y los procesos necesarios para gestionar el ciclo de vida de la producción de IA. La IA centrada en datos es la metodología aplicada en los procesos de MLOps para garantizar que los datos que fluyen a través de ellos crean modelos fiables. Plataformas como Weights & Biases se utilizan a menudo para track los cambios en los datos afectan a las métricas de los modelos.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora