Datos de entrenamiento
Descubra la importancia de los datos de entrenamiento en la IA. Aprenda cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y robustos para tareas del mundo real.
Los datos de entrenamiento son la base para enseñar a un modelo de
a un modelo de aprendizaje automático cómo procesar
procesar información, reconocer patrones y hacer predicciones. En el contexto del
aprendizaje supervisado, este conjunto de datos consiste en
ejemplos de entrada emparejados con sus correspondientes resultados deseados, comúnmente denominados etiquetas o anotaciones. A medida que el
procesa esta información, ajusta iterativamente los pesos internos de su modelo para minimizar el error y hacer predicciones.
para minimizar el error y mejorar la precisión.
La calidad, cantidad y diversidad de los datos de entrenamiento suelen ser los factores más determinantes del éxito de un sistema.
éxito de un sistema, ya que actúan como el combustible
inteligencia artificial (IA) moderna.
Características de los datos de entrenamiento de alta calidad
El adagio "basura dentro, basura fuera" es fundamental en la ciencia de datos; un modelo es tan bueno como los datos de los que aprende.
aprende de ellos. Para crear sistemas
sistemas de visión por ordenador (CV), los conjuntos de datos deben cumplir
normas rigurosas.
-
Relevancia y precisión: Los datos deben representar con precisión el problema del mundo real que el modelo resolverá.
resolver. Las etiquetas imprecisas o "ruidosas" pueden confundir el proceso de aprendizaje. Las herramientas de
etiquetado de datos ayudan a garantizar anotaciones, como
o máscaras de segmentación, sean precisas.
-
Diversidad y volumen: Un conjunto de datos limitado puede
sobreajuste, en el que el modelo memoriza ejemplos
de entrenamiento, pero no funciona con datos nuevos. Los conjuntos de datos amplios y diversos ayudan al modelo a generalizar mejor. Los desarrolladores
suelen emplear técnicas de aumento de datos, como
como voltear, rotar o ajustar el brillo de las imágenes, para ampliar artificialmente el conjunto de datos e introducir variedad.
-
Mitigación de sesgos: Los conjuntos de datos deben seleccionarse cuidadosamente para evitar
para evitar sesgos, que pueden dar lugar a predicciones
o sesgadas. Abordar este problema es un componente clave del
desarrollo responsable de la IA y garantizar resultados
en diferentes grupos demográficos.
Diferenciar los datos de entrenamiento, validación y prueba
Es crucial distinguir los datos de entrenamiento de otras divisiones de conjuntos de datos utilizadas durante el ciclo de vida de desarrollo del modelo.
durante el ciclo de desarrollo del modelo. Cada subconjunto tiene una finalidad única:
-
Datos de entrenamiento: El subconjunto más grande (normalmente el 70-80%), utilizado directamente para ajustar los parámetros del modelo.
-
Datos de validación: Un subconjunto
subconjunto utilizado durante el entrenamiento para proporcionar una evaluación imparcial del ajuste del modelo. Ayuda a los desarrolladores a ajustar
hiperparámetros, como la
de aprendizaje, y desencadena una parada temprana
si el rendimiento se estanca.
-
Datos de prueba: Un conjunto de datos completamente desconocido
que se utiliza una vez finalizado el entrenamiento. Proporciona una métrica final de la precisión del modelo y de su capacidad para generalizar en el mundo real.
del modelo y su capacidad de generalización a
del mundo real.
Aplicaciones en el mundo real
Los datos de formación sustentan las innovaciones en prácticamente todos los sectores.
-
Conducción autónoma: Los coches de conducción autónoma dependen de conjuntos de datos masivos como
nuScenes o Waymo Open Dataset para
navegar con seguridad. Estos conjuntos de datos contienen miles de horas de vídeo en las que se anotan todos los vehículos, peatones y señales de tráfico.
peatones y señales de tráfico. Al entrenarse con estos datos tan diversos
los vehículos autónomos aprenden a detect obstáculos
e interpretar situaciones de tráfico complejas en tiempo real.
-
Diagnóstico sanitario: En
análisis de imágenes médicas, los radiólogos
de radiografías, tomografías computarizadas o resonancias magnéticas etiquetadas con condiciones específicas. Por ejemplo, los modelos
entrenados en recursos como The Cancer Imaging Archive (TCIA) pueden
ayudar a los médicos a detectar posibles tumores con gran precisión. Esta aplicación de la
de la IA en la atención sanitaria acelera
el diagnóstico y mejora los resultados de los pacientes.
Formación con Ultralytics YOLO
En ultralytics simplifica el proceso de utilización de los datos de entrenamiento. El marco maneja los datos
y el bucle de entrenamiento. El siguiente ejemplo muestra cómo iniciar el entrenamiento
utilizando la YOLO11 con un archivo estándar de configuración
estándar.
from ultralytics import YOLO
# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
Para quienes buscan datos de formación de alta calidad, plataformas como
Google Dataset Search y
Kaggle Datasets ofrecen amplios repositorios que abarcan tareas como la
desde la segmentación de imágenes
lenguaje natural. Gestionar adecuadamente estos datos es el primer paso hacia la creación de soluciones de IA de alto rendimiento.