Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

IA centrada en los datos

Descubra la IA centrada en los datos, el enfoque para mejorar la calidad del conjunto de datos con el fin de impulsar el rendimiento del modelo. Descubra por qué unos datos mejores, y no solo un modelo mejor, son clave para una IA robusta.

La IA centrada en los datos es un enfoque estratégico para desarrollar sistemas de inteligencia artificial (IA) que se centra principalmente en mejorar la calidad de los datos de entrenamiento en lugar de iterar sobre la arquitectura del modelo. En los flujos de trabajo tradicionales, los desarrolladores a menudo tratan el conjunto de datos como una entrada fija y dedican un esfuerzo considerable a ajustar los hiperparámetros o a diseñar complejos modelos. hiperparámetros o diseñando complejas estructuras complejas de redes neuronales (NN ). En cambio, una metodología una metodología centrada en los datos trata el código del modelo, como la arquitectura de la red neuronal. Ultralytics YOLO11-como una base relativamente estática, dirigiendo los esfuerzos de ingeniería hacia la limpieza sistemática de los datos, la coherencia del etiquetado y el aumento para aumentar el rendimiento.

La filosofía central: Calidad sobre cantidad

La eficacia de cualquier sistema de aprendizaje automático limitado por el principio de "basura dentro, basura fuera". Incluso los algoritmos más avanzados no pueden aprender patrones eficaces a partir de entradas ruidosas o etiquetadas incorrectamente. La IA centrada en los datos postula que para muchas aplicaciones prácticas, los datos de entrenamiento son lo más importante. aplicaciones prácticas, los datos de variable más importante para el éxito. Este enfoque hace hincapié en que un conjunto de datos más pequeño y de alta calidad suele dar mejores resultados que uno masivo y ruidoso. resultados que uno masivo y ruidoso.

Los defensores de esta filosofía, como Andrew Ng, sostienen que la la comunidad de la IA se ha centrado desproporcionadamente en la innovación centrada en modelos. Para construir sistemas robustos, los ingenieros deben participar en procesos de aprendizaje activo en los que identifican de forma iterativa los modos de fallo y los corrigen refinando el conjunto de datos. Esto implica de datos, la eliminación de duplicados y la gestión de casos que el modelo tiene dificultades para classify.

Técnicas clave y aplicación

La aplicación de una estrategia centrada en los datos implica varios procesos técnicos diseñados para diseñar el conjunto de datos con el fin de obtener la máxima densidad y coherencia de la información. densidad y coherencia de la información.

  • Limpieza sistemática de datos: Consiste en detectar y corregir errores en las anotaciones, tales como identificar recuadros delimitadores que no un objeto o corregir errores de correspondencia de clases.
  • Aumento de datos: Los desarrolladores utilizan técnicas de aumento de datos para artificialmente la diversidad del conjunto de datos. Mediante la aplicación de transformaciones como la rotación, la escala y el ajuste del color, el modelo aprende a generalizar mejor en entornos desconocidos. modelo aprende a generalizar mejor en entornos desconocidos.
  • Generación de datos sintéticos: Cuando los datos del mundo real son escasos, los equipos pueden generar datos sintéticos para llenar lagunas en el conjunto de datos, asegurándose de que las clases poco comunes estén adecuadamente representadas.
  • Análisis de errores: En lugar de fijarse únicamente en métricas agregadas como precisión, los ingenieros analizan los casos concretos en los que modelo falla y recopilan datos específicos para solucionar esos puntos débiles concretos.

El siguiente código Python muestra cómo aplicar técnicas de aumento centradas en los datos durante el entrenamiento utilizando la función ultralytics paquete.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Aplicaciones en el mundo real

Adoptar un enfoque centrado en los datos es fundamental en sectores en los que en las que la precisión de la visión no es negociable.

  1. Agricultura de precisión: En IA en la agricultura, distinguir entre un cultivo un cultivo sano de uno con una enfermedad en fase inicial suele basarse en sutiles señales visuales. Un equipo centrado en los datos se centraría en curar un conjunto de datos de visión por ordenador de alta calidad de datos de visión por ordenador de alta calidad que incluya ejemplos concretos de enfermedades en distintas condiciones de luz y etapas de crecimiento, garantizando que el modelo no aprenda a asociar las imágenes con las enfermedades. que el modelo no aprenda a asociar características de fondo irrelevantes con la clase de enfermedad.
  2. Inspección industrial: Para AI en la fabricación, los defectos pueden producirse una de cada diez mil unidades. Un modelo estándar de entrenamiento podría ignorar estos raros eventos. Mediante el empleo de estrategias de detección de anomalías y manualmente o sintetizando más imágenes de estos defectos específicos, los ingenieros se aseguran de que el sistema alcance las altas tasas de recuperación necesarias para los estándares de control de calidad. que exigen las normas de control de calidad definidos por organizaciones como ISO.

Distinguir conceptos relacionados

Para entender la IA centrada en los datos hay que distinguirla de términos similares en el ecosistema del aprendizaje automático.

  • IA centrada en el modelo: Se trata del enfoque inverso, en el que el conjunto de datos se mantiene constante, y se buscan mejoras mediante ajuste de hiperparámetros o cambios arquitectura. Aunque es necesario para superar los límites del estado del arte en los trabajos de investigación que se encuentran en IEEE Xplore, a menudo produce rendimientos decrecientes en en comparación con la limpieza de los datos.
  • Big Data: Big Data se refiere principalmente a el volumen, la velocidad y la variedad de la información. La IA centrada en los datos no requiere necesariamente "grandes" datos; sino datos "inteligentes". Un conjunto de datos pequeño y perfectamente etiquetado suele superar a uno masivo y ruidoso. ruidoso.
  • Análisis exploratorio de datos (AED): La visualización de datos y el AED son pasos dentro del flujo de trabajo centrado en los datos. EDA ayuda a identificar incoherencias, pero la IA centrada en datos abarca todo el ciclo de vida de ingeniería para solucionar esos problemas y mejorar el motor de inferencia. motor de inferencia.
  • MLOps: Operaciones de aprendizaje automático (MLOps) proporciona la infraestructura y los canales para gestionar el ciclo de vida de la producción de IA. La IA centrada en datos es la es la metodología aplicada dentro de los conductos de MLOps para garantizar que los datos que fluyen a través de ellos crean modelos fiables.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora