Descubra la importancia de los datos de entrenamiento en la IA. Descubra cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y sólidos para tareas del mundo real.
Los datos de entrenamiento son el conjunto de datos fundamentales utilizados para enseñar a un modelo de aprendizaje automático (AM ) a realizar predicciones o tomar decisiones precisas. En el aprendizaje supervisado, estos datos consisten en muestras de entrada emparejadas con las correspondientes salidas correctas, a menudo denominadas etiquetas o anotaciones. El modelo aprende iterativamente a partir de estos ejemplos, ajustando los pesos internos del modelo para minimizar la diferencia entre sus predicciones y las etiquetas reales. La calidad, cantidad y diversidad de los datos de entrenamiento son los factores más importantes que influyen en el rendimiento de un modelo y en su capacidad de generalización a datos nuevos y desconocidos.
El principio de "basura entrante, basura saliente" es especialmente cierto para el entrenamiento de modelos de ML. Los datos de alta calidad son esenciales para construir sistemas robustos y fiables. Entre las características clave se incluyen:
Plataformas como Ultralytics HUB proporcionan herramientas para gestionar conjuntos de datos a lo largo del ciclo de vida de desarrollo del modelo, mientras que herramientas de código abierto como CVAT son populares para tareas de anotación.
En un proyecto típico de ML, los datos se dividen en tres conjuntos distintos:
Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables. Los modelos más avanzados suelen preentrenarse en grandes conjuntos de datos de referencia, como COCO o ImageNet, que sirven como amplios datos de entrenamiento. Puede encontrar más conjuntos de datos en plataformas como Google Dataset Search y Kaggle Datasets.