Comparación de Ultralytics YOLO11 frente a modelos YOLO anteriores
Compara Ultralytics YOLOv8, YOLOv9, YOLOv10 y Ultralytics YOLO11 para entender cómo han evolucionado y mejorado estos modelos desde 2023 hasta 2025.

Desde la automatización de tareas cotidianas hasta ayudar a tomar decisiones informadas en tiempo real, la inteligencia artificial (IA) está transformando el futuro de diversas industrias. Un área particularmente fascinante de la IA es la visión artificial, también conocida como visión por IA. Esta se centra en permitir que las máquinas analicen e interpreten datos visuales al igual que los humanos.
En concreto, los modelos de visión artificial están impulsando innovaciones que mejoran tanto la seguridad como la eficiencia. Por ejemplo, estos modelos se utilizan en coches autónomos para detectar peatones y en cámaras de seguridad para vigilar instalaciones durante las 24 horas.
Algunos de los modelos de visión artificial más conocidos son los modelos YOLO (You Only Look Once), famosos por sus capacidades de detección de objetos en tiempo real. Con el paso del tiempo, los modelos YOLO han mejorado, ofreciendo cada nueva versión un mejor rendimiento y mayor flexibilidad.
Versiones más recientes como Ultralytics YOLO11 pueden gestionar una variedad de tareas, como segmentación de instancias, clasificación de imágenes, estimación de poses y seguimiento de múltiples objetos, con mayor precisión, velocidad y rigor que nunca.
En este artículo, compararemos Ultralytics YOLOv8, YOLOv9, YOLOv10 y Ultralytics YOLO11 para entender mejor cómo han evolucionado estos modelos. Analizaremos sus características clave, resultados de benchmarks y diferencias de rendimiento. ¡Empecemos!
Link to this sectionUna visión general de Ultralytics YOLOv8#
YOLOv8, lanzado por Ultralytics el 10 de enero de 2023, supuso un gran avance en comparación con los modelos YOLO anteriores. Está optimizado para una detección precisa en tiempo real, combinando enfoques bien probados con actualizaciones innovadoras para obtener mejores resultados.
Yendo más allá de la detección de objetos, también admite las siguientes tareas de visión artificial: segmentación de instancias, estimación de poses, detección de objetos con cajas delimitadoras orientadas (OBB) y clasificación de imágenes. Otra característica importante de YOLOv8 es que está disponible en cinco variantes de modelo diferentes (Nano, Small, Medium, Large y X) para que puedas elegir el equilibrio adecuado entre velocidad y precisión según tus necesidades.
Debido a su versatilidad y gran rendimiento, YOLOv8 puede utilizarse en muchas aplicaciones del mundo real, como sistemas de seguridad, ciudades inteligentes, sanidad y automatización industrial.

Fig 1. Gestión de aparcamientos en ciudades inteligentes con YOLOv8.
Link to this sectionCaracterísticas clave de YOLOv8#
Aquí tienes un análisis más detallado de algunas de las otras características clave de YOLOv8:
- Arquitectura de detección mejorada: YOLOv8 utiliza una arquitectura backbone CSPDarknet mejorada. Este backbone está optimizado para la extracción de características: el proceso de identificar y capturar patrones o detalles importantes de las imágenes de entrada que ayudan al modelo a realizar predicciones precisas.
- Cabezal de detección: Utiliza un diseño desacoplado sin anclas (anchor-free), lo que significa que no depende de formas de cajas delimitadoras preestablecidas (anclas) y, en su lugar, aprende a predecir las ubicaciones de los objetos directamente. Gracias a la configuración desacoplada, las tareas de clasificar qué es el objeto y predecir dónde está (regresión) se gestionan por separado, lo que ayuda a mejorar la precisión y acelera el entrenamiento.
- Equilibra precisión y velocidad: Este modelo logra una precisión impresionante manteniendo tiempos de inferencia rápidos, lo que lo hace adecuado tanto para entornos en la nube como en el borde (edge).
- Fácil de usar: YOLOv8 está diseñado para que sea fácil empezar; puedes comenzar a realizar predicciones y ver resultados en pocos minutos utilizando el paquete de Python de Ultralytics.
Link to this sectionYOLOv9 se centra en la eficiencia computacional#
YOLOv9 fue lanzado el 21 de febrero de 2024 por Chien-Yao Wang y Hong-Yuan Mark Liao del Instituto de Ciencias de la Información, Academia Sinica, Taiwán. Admite tareas como la detección de objetos y la segmentación de instancias.
Este modelo se basa en Ultralytics YOLOv5 e introduce dos innovaciones importantes: Información de Gradiente Programable (PGI) y Red de Agregación de Capas Eficiente Generalizada (GELAN).
PGI ayuda a YOLOv9 a retener información importante a medida que procesa datos a través de sus capas, lo que conduce a resultados más precisos. Mientras tanto, GELAN mejora la forma en que el modelo utiliza sus capas, aumentando el rendimiento y la eficiencia computacional. Gracias a estas actualizaciones, YOLOv9 puede manejar tareas en tiempo real en dispositivos de borde y aplicaciones móviles, donde los recursos informáticos suelen ser limitados.

Fig 2. Entender cómo GELAN mejora la precisión de YOLOv9.
Link to this sectionCaracterísticas clave de YOLOv9#
Aquí tienes un vistazo a algunas de las otras características clave de YOLOv9:
- Alta precisión con eficiencia: YOLOv9 ofrece una gran precisión de detección sin consumir mucha potencia de cálculo, lo que lo convierte en una excelente opción cuando los recursos son limitados.
- Modelos ligeros: Las variantes de modelo ligero de YOLOv9 están optimizadas para despliegues en dispositivos de borde y móviles.
- Fácil de usar: YOLOv9 es compatible con el paquete de Python de Ultralytics, por lo que es sencillo de configurar y ejecutar en diferentes entornos, ya sea que utilices código o la línea de comandos.
Link to this sectionYOLOv10 permite la detección de objetos sin NMS#
YOLOv10 fue presentado el 23 de mayo de 2024 por investigadores de la Universidad de Tsinghua y se centra en la detección de objetos en tiempo real. Aborda las limitaciones de las versiones anteriores de YOLO eliminando la necesidad de supresión de no máximos (NMS), un paso de posprocesamiento utilizado para eliminar detecciones duplicadas, y refinando el diseño general del modelo. Esto resulta en una detección de objetos más rápida y eficiente, manteniendo al mismo tiempo una precisión de vanguardia.
Una parte vital de lo que hace esto posible es un enfoque de entrenamiento conocido como asignaciones consistentes de etiquetas duales. Combina dos estrategias: una que permite que múltiples predicciones aprendan del mismo objeto (uno a muchos) y otra que se centra en elegir la mejor predicción única (uno a uno). Dado que ambas estrategias siguen las mismas reglas de coincidencia, el modelo aprende a evitar duplicados por sí mismo, por lo que no se requiere NMS.

Fig 3. YOLOv10 utiliza asignaciones consistentes de etiquetas duales para el entrenamiento sin NMS.
La arquitectura de YOLOv10 también utiliza un backbone CSPNet mejorado para aprender características de manera más efectiva y un cuello PAN (Path Aggregation Network) que combina información de diferentes capas, lo que lo hace mejor para detectar tanto objetos pequeños como grandes. Estas mejoras permiten utilizar YOLOv10 para aplicaciones del mundo real en fabricación, comercio minorista y conducción autónoma.
Link to this sectionCaracterísticas clave de YOLOv10#
Aquí tienes algunas de las otras características destacadas de YOLOv10:
-
Convoluciones de gran núcleo: El modelo utiliza convoluciones de gran núcleo para capturar más contexto de áreas más amplias de la imagen, ayudándole a entender mejor la escena global.
-
Módulos de autoatención parcial: El modelo incorpora módulos de autoatención parcial para centrarse en las partes más importantes de la imagen sin utilizar demasiada potencia de cálculo, aumentando el rendimiento de manera eficiente.
-
Variante de modelo única: Junto con los tamaños habituales de YOLOv10 (Nano, Small, Medium, Large y X), existe una versión especial llamada YOLOv10b (Balanced). Es un modelo más ancho, lo que significa que procesa más características en cada capa, lo que ayuda a mejorar la precisión mientras equilibra la velocidad y el tamaño.
-
Fácil de usar: YOLOv10 es compatible con el paquete de Python de Ultralytics, lo que facilita su uso.
Link to this sectionUltralytics YOLO11: Velocidad y precisión mejoradas#
Este año, el 30 de septiembre, Ultralytics lanzó oficialmente YOLO11 (uno de los modelos más recientes de la serie YOLO) en su evento híbrido anual, YOLO Vision 2024 (YV24).
Este lanzamiento introdujo mejoras significativas con respecto a las versiones anteriores. YOLO11 es más rápido, más preciso y altamente eficiente. Admite toda la gama de tareas de visión artificial con las que los usuarios de YOLOv8 están familiarizados, incluyendo detección de objetos, segmentación de instancias y clasificación de imágenes. También mantiene la compatibilidad con los flujos de trabajo de YOLOv8, lo que facilita que los usuarios realicen una transición fluida a la nueva versión.
Además de esto, YOLO11 está diseñado para satisfacer una amplia gama de necesidades informáticas, desde dispositivos de borde ligeros hasta potentes sistemas en la nube. El modelo está disponible tanto en versiones de código abierto como empresariales, lo que lo hace adaptable para diferentes casos de uso.
Es una gran opción para tareas de precisión como imágenes médicas y detección por satélite, así como para aplicaciones más amplias en vehículos autónomos, agricultura y sanidad.

Fig 4. Uso de Ultralytics YOLO11 para detectar, contar y seguir tráfico.
Link to this sectionCaracterísticas clave de YOLO11#
Aquí tienes algunas de las otras características únicas de YOLO11:
- Detección rápida y eficiente: YOLO11 cuenta con un cabezal de detección diseñado para una latencia mínima, centrándose en la velocidad en las capas de predicción final sin comprometer el rendimiento.
- Extracción de características mejorada: Una arquitectura de backbone y cuello optimizada mejora la extracción de características, lo que conduce a predicciones más precisas.
- Despliegue fluido en plataformas: YOLO11 está optimizado para ejecutarse de manera eficiente en dispositivos de borde, plataformas en la nube y GPUs NVIDIA, asegurando la adaptabilidad en diferentes entornos.
Link to this sectionBenchmarking de modelos YOLO en el conjunto de datos COCO#
Al explorar diferentes modelos, no siempre es fácil compararlos solo mirando sus características. Ahí es donde entran en juego los benchmarks. Al ejecutar todos los modelos en el mismo conjunto de datos, podemos medir y comparar objetivamente su rendimiento. Echemos un vistazo a cómo funciona cada modelo en el conjunto de datos COCO.
Al comparar modelos YOLO, cada nueva versión aporta mejoras notables en cuanto a precisión, velocidad y flexibilidad. En particular, YOLO11m da un salto aquí, ya que utiliza un 22% menos de parámetros que YOLOv8m, lo que significa que es más ligero y rápido de ejecutar. Además, a pesar de su menor tamaño, alcanza una precisión media media (mAP) más alta en el conjunto de datos COCO. Esta métrica mide qué tan bien detecta y localiza los objetos el modelo, por lo que un mAP más alto significa predicciones más precisas.

Fig 5. Benchmarking de YOLO11 y otros modelos YOLO en el conjunto de datos COCO.
Link to this sectionPrueba y comparación de modelos YOLO en un vídeo#
Exploremos cómo funcionan estos modelos en una situación del mundo real.
Para comparar YOLOv8, YOLOv9, YOLOv10 y YOLO11, los cuatro se ejecutaron en el mismo vídeo de tráfico utilizando una puntuación de confianza de 0.3 (el modelo solo muestra detecciones cuando tiene al menos un 30% de confianza en haber identificado correctamente un objeto) y un tamaño de imagen de 640 para una evaluación justa. Los resultados de detección y seguimiento de objetos destacaron diferencias clave en precisión de detección, velocidad y rigor.
Desde el primer fotograma, YOLO11 detectó vehículos grandes como camiones que YOLOv10 pasó por alto. YOLOv8 y YOLOv9 mostraron un rendimiento decente, pero variaron dependiendo de las condiciones de iluminación y el tamaño del objeto. Los vehículos más pequeños y distantes siguieron siendo un reto para todos los modelos, aunque YOLO11 mostró mejoras notables en esas detecciones también.

Fig 6. Comparación de YOLOv8, YOLOv9, YOLOv10 y YOLO11.
En términos de velocidad, todos los modelos operaron entre 10 y 20 milisegundos por fotograma, lo suficientemente rápido como para manejar tareas en tiempo real a más de 50 FPS. Por un lado, YOLOv8 y YOLOv9 proporcionaron detecciones estables y fiables a lo largo del vídeo. Curiosamente, YOLOv10, diseñado para una menor latencia, fue más rápido pero mostró algunas inconsistencias al detectar ciertos tipos de objetos.
YOLO11, por otro lado, destacó por su precisión, ofreciendo un fuerte equilibrio entre velocidad y precisión. Aunque ninguno de los modelos funcionó perfectamente en cada fotograma, la comparación lado a lado demostró claramente que YOLO11 ofreció el mejor rendimiento general.
Link to this section¿Qué modelo YOLO es el mejor para tareas de visión artificial?#
Seleccionar un modelo para un proyecto depende de sus requisitos específicos. Por ejemplo, algunas aplicaciones pueden priorizar la velocidad, mientras que otras pueden requerir mayor precisión o enfrentar restricciones de despliegue que influyen en la decisión.
Otro factor importante es el tipo de tareas de visión artificial que necesitas abordar. Si buscas una mayor flexibilidad en diferentes tareas, YOLOv8 y YOLO11 son buenas opciones.
Elegir entre YOLOv8 y YOLO11 realmente depende de tus necesidades. YOLOv8 es una opción sólida si eres nuevo en la visión artificial y valoras una comunidad más grande, más tutoriales y amplias integraciones de terceros.
Por otro lado, si buscas un rendimiento de vanguardia con mejor precisión y velocidad, YOLO11 es la mejor elección, aunque cuenta con una comunidad más pequeña y menos integraciones debido a ser una versión más reciente.
Link to this sectionConclusiones clave#
Desde Ultralytics YOLOv8 hasta Ultralytics YOLO11, la evolución de la serie de modelos YOLO refleja un impulso constante hacia modelos de visión artificial más inteligentes. Cada versión de YOLO aporta mejoras significativas en términos de velocidad, precisión y rigor.
A medida que la visión artificial sigue avanzando, estos modelos ofrecen soluciones fiables a desafíos del mundo real, desde la detección de objetos hasta los sistemas autónomos. El desarrollo continuo de los modelos YOLO muestra lo lejos que ha llegado el campo y cuánto más podemos esperar en el futuro.
Para saber más sobre IA, visita nuestro repositorio de GitHub e interactúa con nuestra comunidad. Descubre avances en todas las industrias, desde visión por IA en la fabricación hasta visión artificial en la sanidad. Echa un vistazo a nuestras opciones de licencia para comenzar hoy mismo tus proyectos de visión por IA.






