Glosario

IA centrada en los datos

Descubra la IA centrada en los datos, que consiste en mejorar la calidad de los conjuntos de datos para aumentar el rendimiento de los modelos. Descubra por qué unos datos mejores, y no solo un modelo mejor, son la clave de una IA sólida.

La IA centrada en los datos es un enfoque de la creación de sistemas de inteligencia artificial que da prioridad a la mejora de la calidad y la coherencia del conjunto de datos frente a la iteración sobre la arquitectura del modelo. En este paradigma, el modelo, como una arquitectura avanzada de detección de objetos como Ultralytics YOLO, se considera un componente fijo, mientras que la atención se centra en la ingeniería sistemática de los datos para mejorar el rendimiento. La idea central, popularizada por el líder en IA Andrew Ng, es que para muchas aplicaciones prácticas, la calidad de los datos de entrenamiento es el factor más importante para el éxito de un modelo. Esto implica procesos como la limpieza de datos, el etiquetado preciso de los datos y el abastecimiento estratégico de datos para crear una IA sólida y fiable.

La importancia de los datos de alta calidad

En el aprendizaje automático (AM), el principio de "basura dentro, basura fuera" es válido. Una sofisticada red neuronal (NN ) entrenada con datos ruidosos, incoherentes o mal etiquetados producirá inevitablemente resultados poco fiables. Un enfoque centrado en los datos aborda esta cuestión centrándose en varios aspectos clave de la calidad de los datos. Esto incluye garantizar la coherencia de las etiquetas, corregir los ejemplos mal etiquetados, eliminar los datos ruidosos o irrelevantes y enriquecer el conjunto de datos para cubrir los casos extremos. Técnicas como el aumento de datos son herramientas esenciales en este proceso, ya que permiten a los desarrolladores ampliar artificialmente la diversidad del conjunto de datos. Al dar prioridad a los conjuntos de datos de visión por ordenador de alta calidad, los equipos pueden mejorar significativamente la precisión y la solidez de los modelos con menos esfuerzo que los complejos rediseños de modelos.

Aplicaciones reales

Una filosofía de IA centrada en los datos es muy eficaz en diversos escenarios prácticos en los que la calidad de los datos es primordial.

  1. La IA en la fabricación: Consideremos un sistema de inspección visual en una línea de producción diseñado para detectar defectos en componentes electrónicos. En lugar de probar constantemente nuevas arquitecturas de modelos, un equipo centrado en los datos se centraría en el conjunto de datos. Recogerían sistemáticamente más imágenes de defectos poco frecuentes, se asegurarían de que todos los defectos están etiquetados con cuadros delimitadores precisos y utilizarían el aumento para simular variaciones en la iluminación y los ángulos de la cámara. Plataformas como Ultralytics HUB pueden ayudar a gestionar estos conjuntos de datos y agilizar la formación de modelos personalizados. Este perfeccionamiento iterativo de los datos conduce a un sistema más fiable que puede detectar fallos sutiles, lo que repercute directamente en la calidad de la producción. Para más información, consulte cómo Google Cloud está aplicando la IA a los retos de fabricación.
  2. La IA en la sanidad: En el análisis de imágenes médicas, podría entrenarse un modelo para identificar tumores en escáneres cerebrales. Una estrategia centrada en los datos implicaría colaborar estrechamente con radiólogos para resolver etiquetas ambiguas en conjuntos de datos como el de tumores cerebrales. El equipo buscaría activamente y añadiría ejemplos de tipos de tumores infrarrepresentados y se aseguraría de que los datos reflejen la diversidad demográfica de los pacientes para evitar sesgos en el conjunto de datos. Esta atención a la conservación de un conjunto de datos representativo y de alta calidad es fundamental para crear herramientas de diagnóstico fiables en las que puedan confiar los médicos. Los Institutos Nacionales de Salud (NIH) ofrecen recursos sobre el papel de la IA en la investigación biomédica.

Distinción de términos afines

  • IA centrada en el modelo: se trata del enfoque tradicional, en el que el conjunto de datos se mantiene constante mientras los desarrolladores se centran en mejorar el modelo. Las actividades incluyen el diseño de nuevas arquitecturas de redes neuronales, el ajuste exhaustivo de hiperparámetros y la aplicación de distintos algoritmos de optimización. Aunque importante, un enfoque centrado en el modelo puede producir rendimientos decrecientes si los datos subyacentes son defectuosos. Un proyecto como el Concurso de Inteligencia Artificial Centrada en los Datos de la Universidad de Stanford muestra el poder de centrarse en los datos en lugar de en el modelo.
  • Big Data: Big Data se refiere a la gestión y el análisis de conjuntos de datos extremadamente grandes y complejos. Aunque la IA centrada en los datos puede aplicarse al Big Data, su principio básico es la calidad de los datos, no sólo su cantidad. Un conjunto de datos más pequeño y meticulosamente conservado suele dar mejores resultados que uno masivo y ruidoso. El objetivo es crear mejores datos, no necesariamente más.
  • Análisis Exploratorio de Datos (AED): EDA es el proceso de analizar conjuntos de datos para resumir sus características principales, a menudo con métodos visuales. Aunque el EDA es un paso crucial en el flujo de trabajo de la IA centrada en datos para identificar incoherencias y áreas de mejora, la IA centrada en datos es la filosofía más amplia de diseñar sistemáticamente todo el conjunto de datos para mejorar el rendimiento de la IA. Herramientas como Ultralytics Dataset Explorer pueden facilitar este proceso.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles