Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos de entrenamiento

Descubra la importancia de los datos de entrenamiento en la IA. Aprenda cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y robustos para tareas del mundo real.

Los datos de entrenamiento son el conjunto de datos fundamental utilizado para enseñar a un modelo de aprendizaje automático (ML) cómo hacer predicciones o tomar decisiones precisas. En el aprendizaje supervisado, estos datos consisten en muestras de entrada emparejadas con salidas correctas correspondientes, a menudo llamadas etiquetas o anotaciones. El modelo aprende iterativamente de estos ejemplos, ajustando sus pesos del modelo internos para minimizar la diferencia entre sus predicciones y las etiquetas reales. La calidad, la cantidad y la diversidad de los datos de entrenamiento son los factores más críticos que influyen en el rendimiento de un modelo y su capacidad para generalizar a datos nuevos e invisibles.

La importancia de los datos de entrenamiento de alta calidad

El principio de "basura entra, basura sale" es especialmente cierto para el entrenamiento de modelos de ML. Los datos de alta calidad son esenciales para construir sistemas robustos y fiables. Las características clave incluyen:

  • Relevancia: Los datos deben reflejar con precisión el problema que el modelo está destinado a resolver.
  • Diversidad: Debe cubrir una amplia gama de escenarios, casos límite y variaciones que el modelo encontrará en el mundo real para evitar el sobreajuste.
  • Etiquetado preciso: Las anotaciones deben ser correctas y consistentes. El proceso de etiquetado de datos es a menudo la parte que más tiempo consume de un proyecto de visión artificial.
  • Volumen Suficiente: Normalmente se necesita una gran cantidad de datos para que el modelo aprenda patrones significativos. Técnicas como el aumento de datos pueden ayudar a expandir el conjunto de datos artificialmente.
  • Bajo sesgo: Los datos deben estar equilibrados y ser representativos para evitar el sesgo del conjunto de datos, lo que puede conducir a un comportamiento del modelo injusto o incorrecto. Comprender el sesgo algorítmico es un aspecto clave del desarrollo responsable de la IA.

Plataformas como Ultralytics HUB proporcionan herramientas para gestionar conjuntos de datos a lo largo del ciclo de vida del desarrollo de modelos, mientras que herramientas de código abierto como CVAT son populares para tareas de anotación.

Ejemplos del mundo real

  1. Vehículos autónomos: Para entrenar un modelo de detección de objetos para vehículos autónomos, los desarrolladores utilizan grandes cantidades de datos de entrenamiento procedentes de cámaras y sensores. Estos datos consisten en imágenes y vídeos en los que cada fotograma está meticulosamente etiquetado. Los peatones, los ciclistas, otros coches y las señales de tráfico están encerrados en cuadros delimitadores. Al entrenar con conjuntos de datos como Argoverse o nuScenes, la IA del vehículo aprende a percibir y navegar por su entorno de forma segura.
  2. Análisis de imágenes médicas: En la atención médica, los datos de entrenamiento para el análisis de imágenes médicas pueden consistir en miles de resonancias magnéticas o tomografías computarizadas. Los radiólogos anotan estas imágenes para resaltar tumores, fracturas u otras patologías. Un modelo ML, como uno construido con Ultralytics YOLO, puede ser entrenado en un conjunto de datos de tumores cerebrales para aprender a identificar estas anomalías, actuando como una herramienta poderosa para ayudar a los médicos a realizar diagnósticos más rápidos y precisos. Recursos como The Cancer Imaging Archive (TCIA) proporcionan acceso público a dichos datos para la investigación.

Datos de entrenamiento vs. Datos de validación y prueba

En un proyecto de ML típico, los datos se dividen en tres conjuntos distintos:

Mantener una separación estricta entre estos conjuntos de datos es esencial para desarrollar modelos fiables. Los modelos de última generación a menudo se pre-entrenan en grandes conjuntos de datos de referencia como COCO o ImageNet, que sirven como datos de entrenamiento extensos. Puede encontrar más conjuntos de datos en plataformas como Google Dataset Search y Kaggle Datasets.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles