Glosario

Datos de entrenamiento

Descubre la importancia de los datos de entrenamiento en la IA. Aprende cómo los conjuntos de datos de calidad potencian modelos de aprendizaje automático precisos y robustos para tareas del mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

En los campos de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM), los datos de entrenamiento son el conjunto de datos fundamental utilizado para enseñar a los modelos a realizar tareas específicas, como la clasificación o la predicción. Comprenden una gran colección de ejemplos, donde cada ejemplo suele emparejar una entrada con una salida o etiqueta deseada correspondiente. Mediante procesos como el Aprendizaje Supervisado, el modelo analiza estos datos, identifica patrones y relaciones subyacentes, y ajusta sus parámetros internos(pesos del modelo) para aprender la correspondencia entre entradas y salidas. Este aprendizaje permite al modelo hacer predicciones o tomar decisiones precisas cuando se le presentan datos nuevos, no vistos anteriormente.

¿Qué son los datos de entrenamiento?

Piensa en los datos de entrenamiento como el libro de texto y los ejercicios prácticos de un modelo de IA. Se trata de un conjunto cuidadosamente seleccionado de información formateada específicamente para servir como ejemplos durante la fase de aprendizaje. Por ejemplo, en tareas de Visión por Computador (VC ) como la Detección de Objetos, los datos de entrenamiento consisten en imágenes o fotogramas de vídeo (las características de entrada) emparejados con anotaciones (etiquetas) que especifican la ubicación(cuadros delimitadores) y la clase de objetos dentro de esas imágenes. La creación de estas etiquetas es un paso crucial conocido como Etiquetado de Datos. El modelo procesa iterativamente estos datos, comparando sus predicciones con las etiquetas verdaderas y ajustando sus parámetros mediante técnicas como la retropropagación y el descenso gradiente para minimizar el error o la función de pérdida.

Importancia de los datos de entrenamiento

El rendimiento y la fiabilidad de un modelo de IA están directamente ligados a la calidad, cantidad y diversidad de sus datos de entrenamiento. Los datos representativos y de alta calidad son esenciales para construir modelos que alcancen una alta Precisión y generalicen bien a escenarios del mundo real(Generalización en ML). Por el contrario, unos datos de entrenamiento insuficientes, ruidosos o sesgados pueden provocar problemas importantes, como un rendimiento deficiente, sobreajuste (cuando el modelo funciona bien con los datos de entrenamiento pero mal con los nuevos datos), o resultados injustos y discriminatorios debido al sesgo inherente al conjunto de datos. Abordar el sesgo es un aspecto clave de la ética de la IA. Por lo tanto, la recopilación y anotación meticulosas de los datos y su preparación son etapas críticas en el desarrollo de sistemas de IA exitosos.

Ejemplos de datos de entrenamiento en aplicaciones reales

Los datos de entrenamiento son el combustible de innumerables aplicaciones de IA en diversos ámbitos. He aquí dos ejemplos:

  1. Vehículos autónomos: Los coches autónomos dependen en gran medida de los datos de entrenamiento para los sistemas de percepción. Estos datos incluyen grandes cantidades de imágenes de cámaras, LiDAR y sensores de radar, meticulosamente etiquetadas con objetos como otros vehículos, peatones, ciclistas, semáforos y marcas de carril. Los modelos como los utilizados en la tecnología de Waymo se entrenan con conjuntos de datos como Argoverse para aprender a navegar por entornos complejos de forma segura. Explora la IA en soluciones de automoción para más detalles.
  2. Análisis de Sentimiento: En el Procesamiento del Lenguaje Natural (PLN), los modelos de análisis de sentimientos determinan el tono emocional del texto. Los datos de entrenamiento consisten en muestras de texto (por ejemplo, opiniones de clientes, publicaciones en redes sociales) etiquetadas con sentimientos como "positivo", "negativo" o "neutro"(Análisis de Sentimientos - Wikipedia). Esto permite a las empresas calibrar automáticamente la opinión pública o la satisfacción del cliente.

Calidad y preparación de los datos

Garantizar la alta calidad de los datos de entrenamiento es primordial e implica varios pasos clave. La limpieza de datos (Wikipedia) aborda los errores, las incoherencias y los valores que faltan. El Preprocesamiento de Datos transforma los datos brutos en un formato adecuado para el modelo. Técnicas como el Aumento de Datos amplían artificialmente el conjunto de datos creando copias modificadas de los datos existentes (por ejemplo, girando o recortando imágenes), lo que ayuda a mejorar la solidez del modelo y a reducir el sobreajuste. Comprender tus datos mediante la exploración, facilitada por herramientas como el Explorador de Conjuntos de DatosUltralytics , también es crucial antes de iniciar el proceso de entrenamiento.

Datos de Entrenamiento vs. Datos de Validación y Prueba

En un proyecto típico de ML, los datos se dividen en tres conjuntos distintos:

Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables y evaluar con precisión sus capacidades. Plataformas como Ultralytics HUB ofrecen herramientas para gestionar eficazmente estos conjuntos de datos a lo largo del ciclo de vida de desarrollo del modelo. Modelos de última generación como Ultralytics YOLO suelen estar preentrenados en grandes conjuntos de datos de referencia como COCO o ImageNet, que sirven como amplios datos de entrenamiento.

Leer todo