Glosario

Datos de formación

Descubra la importancia de los datos de entrenamiento en la IA. Descubra cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y sólidos para tareas del mundo real.

Los datos de entrenamiento son el conjunto de datos fundamentales utilizados para enseñar a un modelo de aprendizaje automático (AM ) a realizar predicciones o tomar decisiones precisas. En el aprendizaje supervisado, estos datos consisten en muestras de entrada emparejadas con las correspondientes salidas correctas, a menudo denominadas etiquetas o anotaciones. El modelo aprende iterativamente a partir de estos ejemplos, ajustando los pesos internos del modelo para minimizar la diferencia entre sus predicciones y las etiquetas reales. La calidad, cantidad y diversidad de los datos de entrenamiento son los factores más importantes que influyen en el rendimiento de un modelo y en su capacidad de generalización a datos nuevos y desconocidos.

La importancia de unos datos de formación de alta calidad

El principio de "basura entrante, basura saliente" es especialmente cierto para el entrenamiento de modelos de ML. Los datos de alta calidad son esenciales para construir sistemas robustos y fiables. Entre las características clave se incluyen:

  • Pertinencia: Los datos deben reflejar con exactitud el problema que el modelo pretende resolver.
  • Diversidad: Debe cubrir una amplia gama de escenarios, casos límite y variaciones que el modelo encontrará en el mundo real para evitar el sobreajuste.
  • Etiquetado preciso: Las anotaciones deben ser correctas y coherentes. El proceso de etiquetado de datos suele ser la parte que más tiempo consume en un proyecto de visión por ordenador.
  • Volumen suficiente: Normalmente se necesita una gran cantidad de datos para que el modelo aprenda patrones significativos. Técnicas como el aumento de datos pueden ayudar a ampliar artificialmente el conjunto de datos.
  • Bajo sesgo: Los datos deben ser equilibrados y representativos para evitar el sesgo del conjunto de datos, que puede conducir a un comportamiento injusto o incorrecto del modelo. Comprender el sesgo algorítmico es un aspecto clave del desarrollo responsable de la IA.

Plataformas como Ultralytics HUB proporcionan herramientas para gestionar conjuntos de datos a lo largo del ciclo de vida de desarrollo del modelo, mientras que herramientas de código abierto como CVAT son populares para tareas de anotación.

Ejemplos reales

  1. Vehículos autónomos: Para entrenar un modelo de detección de objetos para vehículos autónomos, los desarrolladores utilizan grandes cantidades de datos de entrenamiento procedentes de cámaras y sensores. Estos datos consisten en imágenes y vídeos en los que cada fotograma está meticulosamente etiquetado. Peatones, ciclistas, otros coches y señales de tráfico aparecen en recuadros delimitadores. Al entrenarse con conjuntos de datos como Argoverse o nuScenes, la IA del vehículo aprende a percibir y navegar por su entorno con seguridad.
  2. Análisis de imágenes médicas: En el sector sanitario, los datos de formación para el análisis de imágenes médicas pueden consistir en miles de resonancias magnéticas o tomografías computarizadas. Los radiólogos anotan estas imágenes para resaltar tumores, fracturas u otras patologías. Un modelo ML, como el creado con Ultralytics YOLO, puede entrenarse en un conjunto de datos de tumores cerebrales para aprender a identificar estas anomalías, lo que supone una potente herramienta para ayudar a los médicos a realizar diagnósticos más rápidos y precisos. Recursos como The Cancer Imaging Archive (TCIA) proporcionan acceso público a estos datos para la investigación.

Datos de entrenamiento frente a datos de validación y prueba

En un proyecto típico de ML, los datos se dividen en tres conjuntos distintos:

Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables. Los modelos más avanzados suelen preentrenarse en grandes conjuntos de datos de referencia, como COCO o ImageNet, que sirven como amplios datos de entrenamiento. Puede encontrar más conjuntos de datos en plataformas como Google Dataset Search y Kaggle Datasets.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles