Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Datos de entrenamiento

Descubra la importancia de los datos de entrenamiento en la IA. Aprenda cómo los conjuntos de datos de calidad impulsan modelos de aprendizaje automático precisos y robustos para tareas del mundo real.

Los datos de entrenamiento son la base para enseñar a un modelo de a un modelo de aprendizaje automático cómo procesar procesar información, reconocer patrones y hacer predicciones. En el contexto del aprendizaje supervisado, este conjunto de datos consiste en ejemplos de entrada emparejados con sus correspondientes resultados deseados, comúnmente denominados etiquetas o anotaciones. A medida que el procesa esta información, ajusta iterativamente los pesos internos de su modelo para minimizar el error y hacer predicciones. para minimizar el error y mejorar la precisión. La calidad, cantidad y diversidad de los datos de entrenamiento suelen ser los factores más determinantes del éxito de un sistema. éxito de un sistema, ya que actúan como el combustible inteligencia artificial (IA) moderna.

Características de los datos de entrenamiento de alta calidad

El adagio "basura dentro, basura fuera" es fundamental en la ciencia de datos; un modelo es tan bueno como los datos de los que aprende. aprende de ellos. Para crear sistemas sistemas de visión por ordenador (CV), los conjuntos de datos deben cumplir normas rigurosas.

  • Relevancia y precisión: Los datos deben representar con precisión el problema del mundo real que el modelo resolverá. resolver. Las etiquetas imprecisas o "ruidosas" pueden confundir el proceso de aprendizaje. Las herramientas de etiquetado de datos ayudan a garantizar anotaciones, como o máscaras de segmentación, sean precisas.
  • Diversidad y volumen: Un conjunto de datos limitado puede sobreajuste, en el que el modelo memoriza ejemplos de entrenamiento, pero no funciona con datos nuevos. Los conjuntos de datos amplios y diversos ayudan al modelo a generalizar mejor. Los desarrolladores suelen emplear técnicas de aumento de datos, como como voltear, rotar o ajustar el brillo de las imágenes, para ampliar artificialmente el conjunto de datos e introducir variedad.
  • Mitigación de sesgos: Los conjuntos de datos deben seleccionarse cuidadosamente para evitar para evitar sesgos, que pueden dar lugar a predicciones o sesgadas. Abordar este problema es un componente clave del desarrollo responsable de la IA y garantizar resultados en diferentes grupos demográficos.

Diferenciar los datos de entrenamiento, validación y prueba

Es crucial distinguir los datos de entrenamiento de otras divisiones de conjuntos de datos utilizadas durante el ciclo de vida de desarrollo del modelo. durante el ciclo de desarrollo del modelo. Cada subconjunto tiene una finalidad única:

  • Datos de entrenamiento: El subconjunto más grande (normalmente el 70-80%), utilizado directamente para ajustar los parámetros del modelo.
  • Datos de validación: Un subconjunto subconjunto utilizado durante el entrenamiento para proporcionar una evaluación imparcial del ajuste del modelo. Ayuda a los desarrolladores a ajustar hiperparámetros, como la de aprendizaje, y desencadena una parada temprana si el rendimiento se estanca.
  • Datos de prueba: Un conjunto de datos completamente desconocido que se utiliza una vez finalizado el entrenamiento. Proporciona una métrica final de la precisión del modelo y de su capacidad para generalizar en el mundo real. del modelo y su capacidad de generalización a del mundo real.

Aplicaciones en el mundo real

Los datos de formación sustentan las innovaciones en prácticamente todos los sectores.

  1. Conducción autónoma: Los coches de conducción autónoma dependen de conjuntos de datos masivos como nuScenes o Waymo Open Dataset para navegar con seguridad. Estos conjuntos de datos contienen miles de horas de vídeo en las que se anotan todos los vehículos, peatones y señales de tráfico. peatones y señales de tráfico. Al entrenarse con estos datos tan diversos los vehículos autónomos aprenden a detect obstáculos e interpretar situaciones de tráfico complejas en tiempo real.
  2. Diagnóstico sanitario: En análisis de imágenes médicas, los radiólogos de radiografías, tomografías computarizadas o resonancias magnéticas etiquetadas con condiciones específicas. Por ejemplo, los modelos entrenados en recursos como The Cancer Imaging Archive (TCIA) pueden ayudar a los médicos a detectar posibles tumores con gran precisión. Esta aplicación de la de la IA en la atención sanitaria acelera el diagnóstico y mejora los resultados de los pacientes.

Formación con Ultralytics YOLO

En ultralytics simplifica el proceso de utilización de los datos de entrenamiento. El marco maneja los datos y el bucle de entrenamiento. El siguiente ejemplo muestra cómo iniciar el entrenamiento utilizando la YOLO11 con un archivo estándar de configuración estándar.

from ultralytics import YOLO

# Load the YOLO11 Nano model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The 'data' argument points to a YAML file defining the training data path
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Para quienes buscan datos de formación de alta calidad, plataformas como Google Dataset Search y Kaggle Datasets ofrecen amplios repositorios que abarcan tareas como la desde la segmentación de imágenes lenguaje natural. Gestionar adecuadamente estos datos es el primer paso hacia la creación de soluciones de IA de alto rendimiento.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora