Entrenamiento personalizado de Ultralytics YOLO11 con conjuntos de datos de visión por ordenador

Abirami Vina

4 min leer

7 de enero de 2025

Descubra cómo la integración de Roboflow puede simplificar la formación personalizada Ultralytics YOLO11 facilitando el acceso a conjuntos de datos de visión por ordenador de código abierto.

El entrenamiento de un modelo de visión por ordenador como Ultralytics YOLO11 suele implicar la recopilación de imágenes para su conjunto de datos, su anotación, la preparación de los datos y el ajuste fino del modelo para satisfacer sus requisitos específicos. Aunque el paquete Python de Ultralytics hace que estos pasos sean sencillos y fáciles de seguir, el desarrollo de la IA de visión puede llevar mucho tiempo.

Esto es especialmente cierto cuando se trabaja con plazos ajustados o se desarrolla un prototipo. En estas situaciones, contar con herramientas o integraciones que simplifiquen partes del proceso, como la agilización de la preparación de conjuntos de datos o la automatización de tareas repetitivas, puede suponer una gran diferencia. Al reducir el tiempo y el esfuerzo necesarios, estas soluciones le ayudan a centrarse en construir y perfeccionar su modelo. Eso es exactamente lo que ofrece la integración de Roboflow.

La integración de Roboflow le permite acceder fácilmente a los conjuntos de datos de Roboflow Universe, una gran biblioteca de conjuntos de datos de visión por ordenador de código abierto. En lugar de pasar horas recopilando y organizando datos, puede encontrar y utilizar rápidamente los conjuntos de datos existentes para poner en marcha el proceso de formación de YOLO11. Esta integración agiliza y simplifica la experimentación y la iteración en el desarrollo de modelos de visión por ordenador.

En este artículo, nos sumergiremos en cómo puede aprovechar la integración de Roboflow para un desarrollo más rápido del modelo. Pongámonos manos a la obra.

¿Qué es Roboflow Universe?

Roboflow Universe es una plataforma mantenida por Roboflow, una empresa centrada en simplificar el desarrollo de la visión por ordenador. Consta de más de 350 millones de imágenes, 500.000 conjuntos de datos y 100.000 modelos perfeccionados para tareas como la detección de objetos, la clasificación de imágenes y la segmentación. Con contribuciones de desarrolladores e investigadores de todo el mundo, Roboflow Universe es un centro de colaboración para cualquiera que desee poner en marcha o mejorar sus proyectos de visión por ordenador.

Fig. 1. Ejemplos de conjuntos de datos de detección de objetos en Roboflow Universe.

Roboflow Universe incluye las siguientes características clave:

  • Herramientas de exploración de conjuntos de datos: Explore, filtre y visualice conjuntos de datos para encontrar rápidamente los recursos que se ajustan a los requisitos de su proyecto.
  • Opciones de exportación: Exporta datos en formatos como COCO, YOLO, TFRecord, CSV, etc. para adaptarlos a tu flujo de trabajo.
  • Análisis de conjuntos de datos: Obtenga información sobre varios conjuntos de datos con herramientas de análisis que proporcionan visualizaciones de distribuciones de etiquetas, desequilibrios de clases y calidad de los conjuntos de datos.
  • Seguimiento de versiones: Visualice y acceda a las distintas versiones de los conjuntos de datos cargados por los colaboradores, lo que le permitirá realizar un seguimiento de las actualizaciones, comparar los cambios y elegir la versión que mejor se adapte a las necesidades de su proyecto. 

La integración de Roboflow le ayuda a encontrar los datos correctos

Encontrar el conjunto de datos adecuado suele ser uno de los mayores retos a la hora de crear un modelo de visión por ordenador. Crear un conjunto de datos suele implicar recopilar grandes cantidades de imágenes, asegurarse de que son relevantes para la tarea y etiquetarlas con precisión. 

Este proceso puede requerir mucho tiempo y recursos, sobre todo si se está experimentando con distintos enfoques en un breve periodo de tiempo. Incluso encontrar conjuntos de datos preexistentes puede ser complicado, ya que a menudo están dispersos entre plataformas, no están bien documentados o carecen de las anotaciones específicas que necesitas.

Por ejemplo, si está creando una aplicación de visión por ordenador para detectar malas hierbas en campos agrícolas, puede que desee probar diferentes enfoques de Vision AI, como la detección de objetos frente a la segmentación de instancias. Esto le permitirá experimentar y averiguar qué método funciona mejor antes de dedicar tiempo y esfuerzo a recopilar y etiquetar su propio conjunto de datos.

Fig. 2. Detección de piezas de automóviles con YOLO11.

Gracias a la integración de Roboflow, puede explorar diversos conjuntos de datos relacionados con la agricultura, incluidos los centrados en la detección de malas hierbas, la salud de los cultivos o la supervisión de los campos. Estos conjuntos de datos listos para usar le permiten probar diferentes técnicas y perfeccionar su modelo sin el esfuerzo inicial de crear sus propios datos. 

Cómo funciona la integración de Roboflow

Ahora que ya hemos hablado de cómo puede utilizar la integración Roboflow para encontrar los conjuntos de datos adecuados, veamos cómo encaja en su flujo de trabajo. Una vez que haya elegido un conjunto de datos de Roboflow Universe, puede exportarlo o descargarlo en el formato YOLO11. Una vez exportado el conjunto de datos, puede utilizarlo para entrenar YOLO11 de forma personalizada utilizando el paquete Ultralytics Python. 

Al descargar el conjunto de datos, es posible que observe que Roboflow Universe también admite otros formatos para el entrenamiento de diferentes modelos. Entonces, ¿por qué elegir el entrenamiento personalizado de Ultralytics YOLO11? 

YOLO11 es la última versión de los modelos YOLO de Ultralytics y está diseñada para ofrecer una detección de objetos más rápida y precisa. Utiliza un 22% menos de parámetros (los valores internos que un modelo ajusta durante el entrenamiento para realizar predicciones) que YOLOv8m, pero logra una precisión media (mAP) superior en el conjunto de datos COCO. Este equilibrio entre velocidad y precisión hace de YOLO11 una opción versátil para una amplia gama de aplicaciones de visión por ordenador, especialmente cuando se trata de modelos de entrenamiento personalizados para tareas específicas.

A continuación te explicamos cómo funciona el entrenamiento personalizado YOLO11:

  • Alimentación de datos: El modelo YOLO11 procesa tu conjunto de datos, aprendiendo a detectar y clasificar objetos a partir de las imágenes y sus anotaciones.
  • Predicción y retroalimentación: El modelo realiza predicciones sobre los objetos de las imágenes y las compara con las respuestas correctas proporcionadas en el conjunto de datos.
  • Seguimiento del rendimiento: Métricas como la precisión (detecciones correctas), la recuperación (detecciones fallidas) y la pérdida (errores de predicción) se controlan para medir el progreso.
  • Aprendizaje iterativo: El modelo ajusta sus parámetros a lo largo de varias rondas (épocas) para mejorar la precisión de la detección y minimizar los errores.
  • Resultado final del modelo: Tras el entrenamiento, el modelo optimizado se guarda y está listo para su despliegue.

Otras integraciones centradas en el desarrollo de la visión por ordenador

A medida que explore la integración Roboflow, observará otras integraciones mencionadas en la documentación de Ultralytics. Apoyamos una variedad de integraciones relacionadas con diversas etapas del desarrollo de la visión por ordenador. 

El objetivo es ofrecer a nuestra comunidad una amplia gama de opciones para que pueda elegir la que mejor se adapte a su flujo de trabajo específico.

Fig. 3. Visión general de las integraciones soportadas por Ultralytics.

Además de los conjuntos de datos, otras integraciones respaldadas por Ultralytics se centran en diversas partes del proceso de visión por ordenador, como la formación, el despliegue y la optimización. Estos son algunos ejemplos de otras integraciones que apoyamos:

  • Integraciones de formación: Las integraciones como Amazon SageMaker y Paperspace Gradient agilizan los flujos de trabajo de formación al ofrecer plataformas basadas en la nube para el desarrollo y la comprobación eficientes de modelos.
  • Integraciones de flujo de trabajo y seguimiento de experimentos: ClearML, MLFlow y Weights & Biases (W&B) ayudan a automatizar los flujos de trabajo, realizar un seguimiento de los experimentos y mejorar la colaboración, lo que facilita la gestión de los proyectos de aprendizaje automático.
  • Optimización e integraciones de despliegue: CoreML, ONNX y OpenVINO permiten un despliegue optimizado en diversos dispositivos y marcos de trabajo, garantizando un rendimiento eficiente en plataformas como el hardware de Apple y las CPU de Intel.
  • Integraciones de supervisión y visualización: TensorBoard y Weights & Biases proporcionan herramientas para visualizar el progreso del entrenamiento y supervisar el rendimiento, ofreciendo información detallada para perfeccionar los modelos.

Aplicaciones de YOLO11 y papel de las integraciones

Las integraciones que apoyan el desarrollo de la visión por ordenador, combinadas con las fiables capacidades de YOLO11, facilitan la resolución de retos del mundo real. Consideremos innovaciones como la visión por ordenador en la fabricación, donde la IA de visión se utiliza para detectar defectos en una línea de producción, como arañazos en piezas metálicas o componentes que faltan. Recopilar los datos adecuados para este tipo de tareas suele ser lento y complicado, y requiere acceder a entornos especializados. 

Suele consistir en instalar cámaras o sensores a lo largo de las líneas de producción para captar imágenes de los productos. Estas imágenes deben tomarse en grandes volúmenes, a menudo con iluminación y ángulos constantes, para garantizar la claridad y la uniformidad. 

Una vez capturadas, las imágenes deben anotarse meticulosamente con etiquetas precisas para cada tipo de defecto, como arañazos, abolladuras o componentes que faltan. Este proceso requiere mucho tiempo y recursos, así como conocimientos especializados, para garantizar que el conjunto de datos refleje con exactitud la variabilidad del mundo real. Factores como los diferentes tamaños, formas y materiales de los defectos deben tenerse en cuenta para crear un conjunto de datos sólido y fiable.

Las integraciones que proporcionan conjuntos de datos ya preparados facilitan tareas como el control de calidad industrial, y con las capacidades de detección en tiempo real de YOLO11, los fabricantes pueden supervisar las líneas de producción, detectar defectos al instante y mejorar la eficiencia.

Fig. 4. Ejemplo de utilización de Ultralytics YOLO11 para detectar y contar latas en fabricación.

Más allá de la fabricación, las integraciones relacionadas con conjuntos de datos pueden utilizarse en muchas otras industrias. Al combinar la velocidad y precisión de YOLO11 con conjuntos de datos de fácil acceso, las empresas pueden desarrollar e implantar rápidamente soluciones adaptadas a sus necesidades específicas. Por ejemplo, en el sector sanitario, la integración de conjuntos de datos puede ayudar a desarrollar soluciones para analizar imágenes médicas y detectar anomalías como tumores. Del mismo modo, en la conducción autónoma, estas integraciones pueden ayudar a identificar vehículos, peatones y señales de tráfico para mejorar la seguridad.

Principales conclusiones

Encontrar el conjunto de datos adecuado es a menudo una de las partes que más tiempo consume en la construcción de un modelo de visión por ordenador. Sin embargo, la integración de Roboflow hace que sea más fácil encontrar el mejor conjunto de datos para el entrenamiento personalizado de sus modelos Ultralytics YOLO, incluso si usted es nuevo en la visión por ordenador. 

Con acceso a una amplia colección de conjuntos de datos para tareas de visión por ordenador como la detección de objetos, la clasificación de imágenes o la segmentación de instancias, Roboflow Universe facilita el proceso de descubrimiento de datos. Le ayuda a empezar rápidamente y a centrarse en la creación de su modelo en lugar de perder tiempo recopilando y organizando datos. Este enfoque simplificado permite a los desarrolladores crear prototipos, iterar y desarrollar soluciones de visión por ordenador de forma más eficiente.

Para obtener más información, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explora las innovaciones en áreas como la IA en los coches autoconducidos y la visión por ordenador en la agricultura en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles