Comparación de Ultralytics YOLO11 con los modelos YOLO anteriores

Abirami Vina

4 min leer

2 de abril de 2025

Compare Ultralytics YOLOv8, YOLOv9, YOLOv10 y Ultralytics YOLO11 para comprender cómo han evolucionado y mejorado estos modelos de 2023 a 2025.

Desde la automatización de tareas cotidianas hasta la ayuda para tomar decisiones informadas en tiempo real, la inteligencia artificial (IA) está reconfigurando el futuro de diversas industrias. Un área especialmente fascinante de la IA es la visión por ordenador, también conocida como IA de visión. Se centra en capacitar a las máquinas para analizar e interpretar datos visuales como lo hacen los humanos. 

En concreto, los modelos de visión por ordenador están impulsando innovaciones que mejoran tanto la seguridad como la eficiencia. Por ejemplo, estos modelos se utilizan en coches autoconducidos para detectar peatones y en cámaras de seguridad para vigilar las instalaciones las 24 horas del día. 

Algunos de los modelos de visión por ordenador más conocidos son los modelos YOLO (You Only Look Once), conocidos por su capacidad de detección de objetos en tiempo real. Con el tiempo, los modelos YOLO han ido mejorando, y cada nueva versión ofrece mejores prestaciones y más flexibilidad.

Las versiones más recientes, como Ultralytics YOLO11, pueden realizar diversas tareas, como la segmentación de instancias, la clasificación de imágenes, la estimación de poses y el seguimiento de múltiples objetos, con mayor exactitud, velocidad y precisión que nunca.

En este artículo, compararemos Ultralytics YOLOv8, YOLOv9, YOLOv10 y Ultralytics YOLO11 para tener una mejor idea de cómo han evolucionado estos modelos. Analizaremos sus características principales, los resultados de las pruebas comparativas y las diferencias de rendimiento. Empecemos.

Visión general de Ultralytics YOLOv8

YOLOv8, lanzado por Ultralytics el 10 de enero de 2023, supuso un gran paso adelante en comparación con los modelos YOLO anteriores. Está optimizado para la detección precisa en tiempo real, combinando enfoques bien probados con actualizaciones innovadoras para obtener mejores resultados.

Yendo más allá de la detección de objetos, también es compatible con las siguientes tareas de visión por ordenador: segmentación de instancias, estimación de poses, detección de objetos en cajas delimitadoras orientadas (OBB) y clasificación de imágenes. Otra característica importante de YOLOv8 es que está disponible en cinco modelos diferentes -Nano, Small, Medium, Large y X- para que pueda elegir el equilibrio adecuado entre velocidad y precisión en función de sus necesidades.

Gracias a su versatilidad y gran rendimiento, YOLOv8 puede utilizarse en muchas aplicaciones del mundo real, como sistemas de seguridad, ciudades inteligentes, asistencia sanitaria y automatización industrial.

__wf_reserved_inherit
Fig. 1. Gestión del aparcamiento en ciudades inteligentes con YOLOv8.

Características principales de YOLOv8

A continuación te mostramos algunas de las principales características de YOLOv8:

  • Arquitectura de detección mejorada: YOLOv8 utiliza una red troncal CSPDarknet mejorada. Esta red está optimizada para la extracción de características, es decir, el proceso de identificar y capturar patrones o detalles importantes de las imágenes de entrada que ayudan al modelo a realizar predicciones precisas.

  • Cabezal de detección: Utiliza un diseño desacoplado y sin anclajes, lo que significa que no se basa en formas de cuadros delimitadores preestablecidos (anclajes) y, en su lugar, aprende a predecir directamente la ubicación de los objetos. Gracias a la configuración desacoplada, las tareas de clasificar qué es el objeto y predecir dónde está (regresión) se realizan por separado, lo que ayuda a mejorar la precisión y acelera el entrenamiento.

  • Equilibra la precisión y la velocidad: este modelo logra una precisión impresionante al tiempo que mantiene tiempos de inferencia rápidos, lo que lo hace adecuado tanto para entornos en la nube como en los bordes.

  • Fácil de usar: YOLOv8 se ha diseñado para que resulte sencillo empezar a utilizarlo: puede empezar a predecir y ver resultados en cuestión de minutos utilizando el paquete Ultralytics Python.

YOLOv9 se centra en la eficiencia computacional

YOLOv9 fue publicado el 21 de febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao, del Instituto de Ciencias de la Información de la Academia Sinica de Taiwán. Admite tareas como la detección de objetos y la segmentación de instancias

Este modelo se basa en Ultralytics YOLOv5 e introduce dos importantes innovaciones: Información de Gradiente Programable (PGI) y Red de Agregación de Capas Eficiente Generalizada (GELAN). 

PGI ayuda a YOLOv9 a retener información importante a medida que procesa los datos a través de sus capas, lo que conduce a resultados más precisos. Por su parte, GELAN mejora la forma en que el modelo utiliza sus capas, aumentando el rendimiento y la eficiencia computacional. Gracias a estas mejoras, YOLOv9 puede gestionar tareas en tiempo real en dispositivos periféricos y aplicaciones móviles, donde los recursos informáticos suelen ser limitados.

__wf_reserved_inherit
Fig. 2. Comprensión de cómo GELAN mejora la precisión de YOLOv9.

Características principales de YOLOv9

A continuación te mostramos algunas de las principales características de YOLOv8:

  • Alta precisión con eficiencia: YOLOv9 ofrece una gran precisión de detección sin consumir mucha potencia de cálculo, lo que lo convierte en una gran elección cuando los recursos son limitados.
  • Modelos ligeros: Las variantes de modelos ligeros de YOLOv9 están optimizadas para despliegues periféricos y móviles.
  • Fácil de utilizar: YOLOv9 es compatible con el paquete Python de Ultralytics, por lo que es sencillo de configurar y ejecutar en distintos entornos, tanto si se utiliza código como la línea de comandos.

YOLOv10 permite la detección de objetos sin NMS

YOLOv10 fue presentado el 23 de mayo de 2024 por investigadores de la Universidad de Tsinghua y se centra en la detección de objetos en tiempo real. Aborda las limitaciones de las versiones anteriores de YOLO eliminando la necesidad de la supresión no máxima (NMS), un paso de posprocesamiento utilizado para eliminar las detecciones duplicadas, y perfeccionando el diseño general del modelo. El resultado es una detección de objetos más rápida y eficaz, con una precisión de última generación.

Una parte vital de lo que hace esto posible es un enfoque de formación conocido como asignaciones coherentes de doble etiqueta. Combina dos estrategias: una que permite que varias predicciones aprendan del mismo objeto (uno a muchos) y otra que se centra en elegir la mejor predicción individual (uno a uno). Como ambas estrategias siguen las mismas reglas de emparejamiento, el modelo aprende a evitar duplicados por sí solo, por lo que no es necesario el NMS.

__wf_reserved_inherit
Fig. 3. YOLOv10 utiliza asignaciones de doble etiqueta coherentes para el entrenamiento sin NMS.

La arquitectura de YOLOv10 también utiliza una red troncal CSPNet mejorada para aprender características de forma más eficaz y un cuello PAN (Path Aggregation Network) que combina información de distintas capas, lo que le permite detectar mejor tanto objetos pequeños como grandes. Estas mejoras permiten utilizar YOLOv10 en aplicaciones reales de fabricación, comercio minorista y conducción autónoma.

Características principales de YOLOv10

Estas son algunas de las características más destacadas de YOLOv10:

  • Convoluciones de núcleo grande: El modelo utiliza convoluciones de núcleo grande para captar más contexto de zonas más amplias de la imagen, lo que le ayuda a comprender mejor la escena en su conjunto.
  • Módulos de autoatención parcial: El modelo incorpora módulos de autoatención parcial para centrarse en las partes más importantes de la imagen sin utilizar demasiada potencia de cálculo, lo que aumenta eficazmente el rendimiento.
  • Variante de modelo única: Además de los tamaños habituales de YOLOv10 (Nano, Small, Medium, Large y X), existe una versión especial llamada YOLOv10b (Balanced). Es un modelo más ancho, lo que significa que procesa más características en cada capa, lo que ayuda a mejorar la precisión sin dejar de equilibrar la velocidad y el tamaño.
  • Fácil de usar: YOLOv10 es compatible con el paquete Ultralytics Python, lo que facilita su uso.

Ultralytics YOLO11: mayor velocidad y precisión

Este año, el 30 de septiembre, Ultralytics presentó oficialmente YOLO11 -uno de los últimos modelos de la serie YOLO- en su evento híbrido anual, YOLO Vision 2024 (YV24).

Esta versión introduce mejoras significativas con respecto a las anteriores. YOLO11 es más rápido, preciso y eficiente. Es compatible con toda la gama de tareas de visión por ordenador con las que están familiarizados los usuarios de YOLOv8, incluida la detección de objetos, la segmentación de instancias y la clasificación de imágenes. Además, mantiene la compatibilidad con los flujos de trabajo de YOLOv8, lo que facilita a los usuarios la transición a la nueva versión.

Además, YOLO11 está diseñado para satisfacer una amplia gama de necesidades informáticas, desde ligeros dispositivos periféricos hasta potentes sistemas en la nube. El modelo está disponible tanto en versión de código abierto como para empresas, lo que lo hace adaptable a diferentes casos de uso.

Es una gran opción para tareas de precisión como la obtención de imágenes médicas y la detección de satélites, así como para aplicaciones más amplias en vehículos autónomos, agricultura y sanidad.

__wf_reserved_inherit
Fig. 4. Uso de Ultralytics YOLO11 para detectar, contar y rastrear el tráfico.

Características principales de YOLO11

Estas son algunas de las características exclusivas de YOLO11:

  • Detección rápida y eficaz: YOLO11 cuenta con un cabezal de detección diseñado para una latencia mínima, centrándose en la velocidad en las capas finales de predicción sin comprometer el rendimiento.
  • Extracción de características mejorada: Una arquitectura optimizada de la columna vertebral y el cuello mejora la extracción de características, lo que conduce a predicciones más precisas.
  • Implantación transparente en distintas plataformas: YOLO11 está optimizado para ejecutarse de forma eficiente en dispositivos edge, plataformas en la nube y GPU NVIDIA, lo que garantiza su adaptabilidad a distintos entornos.

Evaluación comparativa de los modelos YOLO en el conjunto de datos COCO

A la hora de explorar distintos modelos, no siempre es fácil compararlos sólo por sus características. Ahí es donde entra en juego la evaluación comparativa. Al ejecutar todos los modelos en el mismo conjunto de datos, podemos medir y comparar objetivamente su rendimiento. Veamos cómo funciona cada modelo en el conjunto de datos COCO.

Al comparar los modelos YOLO, cada nueva versión aporta mejoras notables en cuanto a precisión, velocidad y flexibilidad. En particular, YOLO11m da un salto en este sentido, ya que utiliza un 22% menos de parámetros que YOLOv8m, lo que significa que es más ligero y más rápido de ejecutar. Además, a pesar de su menor tamaño, consigue una mayor precisión media (mAP) en el conjunto de datos COCO. Esta métrica mide lo bien que el modelo detecta y localiza los objetos, por lo que una mAP más alta significa predicciones más precisas. 

__wf_reserved_inherit
Fig. 5. Comparación de YOLO11 y otros modelos YOLO en el conjunto de datos COCO.

Prueba y comparación de modelos YOLO en un vídeo

Veamos cómo funcionan estos modelos en una situación real.

Para comparar YOLOv8, YOLOv9, YOLOv10 y YOLO11, los cuatro se ejecutaron en el mismo vídeo de tráfico utilizando una puntuación de confianza de 0,3 (el modelo sólo muestra las detecciones cuando tiene al menos un 30% de confianza en que ha identificado correctamente un objeto) y un tamaño de imagen de 640 para una evaluación equitativa. Los resultados de la detección y el seguimiento de objetos pusieron de manifiesto diferencias clave en la exactitud, velocidad y precisión de la detección. 

Desde el primer fotograma, YOLO11 captó vehículos grandes, como camiones, que YOLOv10 no detectó. YOLOv8 y YOLOv9 mostraron un rendimiento decente, pero varió en función de las condiciones de iluminación y el tamaño del objeto. Los vehículos más pequeños y distantes siguieron siendo un reto en todos los modelos, aunque YOLO11 también mostró notables mejoras en esas detecciones.

__wf_reserved_inherit
Fig. 6. Comparación de YOLOv8, YOLOv9, YOLOv10 y YOLO11.

En cuanto a la velocidad, todos los modelos funcionaron entre 10 y 20 milisegundos por fotograma, lo suficientemente rápido como para manejar tareas en tiempo real a más de 50 FPS. Por un lado, YOLOv8 y YOLOv9 proporcionaron detecciones constantes y fiables durante todo el vídeo. Curiosamente, YOLOv10, diseñado para una latencia más baja, fue más rápido pero mostró algunas incoherencias en la detección de ciertos tipos de objetos. 

YOLO11, por su parte, destacó por su precisión, ofreciendo un gran equilibrio entre velocidad y exactitud. Aunque ninguno de los modelos funcionó a la perfección en todos los fotogramas, la comparación lado a lado demostró claramente que YOLO11 ofreció el mejor rendimiento general. 

¿Qué modelo YOLO es el mejor para tareas de visión por ordenador?

La selección de un modelo para un proyecto depende de sus requisitos específicos. Por ejemplo, algunas aplicaciones pueden dar prioridad a la velocidad, mientras que otras pueden requerir una mayor precisión o enfrentarse a limitaciones de despliegue que influyan en la decisión. 

Otro factor importante es el tipo de tareas de visión artificial que necesita abordar. Si buscas una mayor flexibilidad para distintas tareas, YOLOv8 y YOLO11 son buenas opciones.

La elección de YOLOv8 o YOLO11 depende realmente de sus necesidades. YOLOv8 es una opción sólida si eres nuevo en visión por computador y valoras una comunidad más grande, más tutoriales y amplias integraciones de terceros

Por otro lado, si buscas un rendimiento de vanguardia con mayor precisión y velocidad, YOLO11 es la mejor opción, aunque viene con una comunidad más pequeña y menos integraciones debido a ser una versión más reciente.

Principales conclusiones

Desde Ultralytics YOLOv8 hasta Ultralytics YOLO11, la evolución de la serie de modelos YOLO refleja un impulso constante hacia modelos de visión por ordenador más inteligentes. Cada versión de YOLO aporta mejoras significativas en términos de velocidad, precisión y exactitud. 

A medida que la visión por ordenador sigue avanzando, estos modelos ofrecen soluciones fiables a los retos del mundo real, desde la detección de objetos a los sistemas autónomos. El desarrollo continuo de los modelos YOLO demuestra hasta dónde ha llegado este campo y cuánto más podemos esperar en el futuro.

Para obtener más información sobre la IA, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Descubra los avances en todos los sectores, desde Vision AI en la fabricación hasta la visión por ordenador en la asistencia sanitaria. Consulte nuestras opciones de licencia para comenzar hoy mismo sus proyectos de Vision AI.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles