Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Ultralytics YOLO

El impacto del diseño más rápido y centrado en el Edge de Ultralytics YOLO26

Descubre cómo Ultralytics YOLO26 es más rápido en el Edge y por qué eso es importante para las aplicaciones de visión artificial de próxima generación que exigen baja latencia y eficiencia.

ABAbirami Vina
6 min read
El diseño más rápido y centrado en el Edge de Ultralytics YOLO26 para visión artificial

A principios de esta semana, Ultralytics lanzó oficialmente Ultralytics YOLO26, un modelo YOLO más rápido, ligero y pequeño que busca redefinir el rendimiento de los sistemas de visión artificial en el Edge. YOLO26 es compatible con las mismas tareas principales de visión que los modelos YOLO anteriores, incluyendo la detección de objetos y la segmentación de instancias.

Un ejemplo del uso de YOLO26 para segmentar un objeto

Fig 1. Un ejemplo del uso de YOLO26 para segmentar un objeto.

La diferencia fundamental entre YOLO26 y los modelos anteriores es el entorno para el que se diseñó. En lugar de optimizar principalmente para unidades de procesamiento gráfico (GPUs) en la nube o para el rendimiento basado en benchmarks, YOLO26 se ha diseñado desde cero para su implementación en el mundo real en dispositivos Edge y hardware integrado.

A medida que la visión artificial pasa de la investigación a la producción, la realidad de las limitaciones de rendimiento se vuelve más clara. Los entornos Edge están marcados por presupuestos de latencia ajustados, memoria limitada, restricciones de potencia y térmicas, y la necesidad de un comportamiento predecible en diversas plataformas.

En estos entornos, el rendimiento general del sistema no depende solo de la velocidad de inferencia bruta, sino también de la eficiencia con la que opera todo el pipeline. La sobrecarga del post-procesamiento, la presión sobre la memoria y las rutas de ejecución específicas de la plataforma suelen ser cuellos de botella.

YOLO26 aborda estos desafíos adoptando un enfoque más rápido y centrado en el Edge, que analiza todo el pipeline de inferencia en lugar de las métricas individuales del modelo. Al centrarse en la optimización del Edge, simplificar el pipeline de inferencia y eliminar pasos de post-procesamiento innecesarios, YOLO26 ofrece mejoras de velocidad que se traducen en una menor latencia y un comportamiento más fiable en producción.

En este artículo, exploraremos cómo las decisiones arquitectónicas de YOLO26 se traducen en mejoras de rendimiento en el mundo real, y por qué ser más rápido en el Edge cambia fundamentalmente lo que es posible para las aplicaciones de visión artificial de próxima generación.

Link to this sectionLa realidad de la implementación en el Edge#

Ejecutar modelos de visión artificial en el Edge es muy diferente a ejecutarlos en la nube. En entornos de nube, los sistemas suelen tener acceso a potentes GPUs, grandes cantidades de memoria y hardware estable. En el Edge, no se aplican las mismas premisas.

La mayoría de las implementaciones en el Edge se ejecutan en arquitecturas de hardware diversas, no en GPUs. Los dispositivos suelen utilizar múltiples procesadores especializados para diferentes tareas, que están optimizados para la eficiencia y el bajo consumo de energía, en lugar de para la capacidad de cálculo bruto de las GPUs en la nube.

La latencia es otra limitación importante. Los sistemas Edge a menudo operan bajo límites estrictos en tiempo real, donde incluso pequeños retrasos pueden afectar la capacidad de respuesta o la seguridad. En estos casos, la latencia de extremo a extremo importa más que la velocidad de inferencia bruta. Un modelo puede ser rápido sobre el papel, pero quedarse corto una vez que se añaden el post-procesamiento y el movimiento de datos.

La memoria también desempeña un papel importante. Muchos dispositivos Edge tienen memoria limitada y cachés compartidas. Los tensores intermedios grandes y el uso ineficiente de la memoria pueden ralentizar los sistemas, incluso cuando el modelo en sí es eficiente.

Los límites de potencia y térmicos añaden más restricciones. Los dispositivos Edge a menudo funcionan sin refrigeración activa y dentro de presupuestos de energía fijos. El rendimiento debe ser eficiente y sostenible, no solo rápido en ráfagas cortas.

Además de todo esto, las implementaciones en el Edge requieren coherencia. Los modelos deben comportarse de la misma manera en todos los dispositivos y entornos de ejecución. El código específico de la plataforma o los pasos complejos de post-procesamiento pueden introducir diferencias sutiles que dificultan la implementación y el mantenimiento de los sistemas.

Un vistazo a las limitaciones del despliegue en el edge

Fig 2. Un vistazo a las limitaciones de la implementación en el Edge. Imagen del autor.

Estas limitaciones definen lo que realmente significa el rendimiento en el Edge. En otras palabras, el rendimiento está definido por todo el pipeline, no por una única métrica.

Link to this sectionPor qué la visión en el Edge exige un modelo de rendimiento diferente#

Entonces, ¿cómo se relacionan las limitaciones de la implementación en el Edge con los requisitos de un modelo de visión artificial creado para el Edge? La conexión queda clara una vez que los modelos pasan de entornos de investigación a sistemas del mundo real.

En entornos de nube, el rendimiento a menudo se mide mediante benchmarks como la velocidad de inferencia y la precisión. En el Edge, esas métricas solo cuentan una parte de la historia. Los sistemas de visión suelen ejecutarse en hardware heterogéneo, donde la inferencia de la red neuronal se descarga en aceleradores especializados mientras que otras partes del pipeline se ejecutan en procesadores de propósito general.

En este contexto, la velocidad del modelo no es suficiente. Es clave cómo funciona todo el sistema una vez que el modelo está implementado. Un modelo puede parecer rápido por sí solo, pero quedarse corto si el post-procesamiento, el movimiento de datos o los pasos específicos de la plataforma añaden sobrecarga.

Por eso la visión en el Edge requiere un modelo de rendimiento que se centre en la eficiencia a nivel de sistema en lugar de en benchmarks aislados. YOLO26 refleja este cambio al centrarse en la optimización centrada en el Edge, la inferencia simplificada y la ejecución de extremo a extremo diseñada para la implementación en el mundo real.

Link to this sectionLa base para la velocidad: un diseño centrado en el Edge#

En el Edge, el rendimiento se define por lo bien que un modelo se adapta a la arquitectura de hardware real del dispositivo. Diseñar primero para el Edge garantiza que los sistemas de visión funcionen de manera fiable en todas las plataformas del mundo real, independientemente de la combinación específica de unidades de procesamiento disponibles.

Un enfoque centrado en el Edge prioriza una ejecución predecible y eficiente en hardware heterogéneo, en lugar de adaptar modelos que fueron optimizados para GPUs de nube después del hecho. En pocas palabras, esto significa favorecer operaciones que se traduzcan bien a los aceleradores de redes neuronales, minimizar el trabajo no neuronal fuera del modelo y reducir la complejidad innecesaria que puede ralentizar la ejecución de extremo a extremo.

YOLO26 se diseñó teniendo en cuenta estas limitaciones. Su arquitectura se centra en un rendimiento coherente en lugar de un rendimiento máximo en condiciones ideales. Al simplificar las rutas de ejecución y eliminar cálculos innecesarios, YOLO26 reduce la sobrecarga en todo el pipeline de inferencia y aprovecha mejor la aceleración y la jerarquía de memoria disponibles en el dispositivo.

Este enfoque también mejora la fiabilidad. La optimización centrada en el Edge conduce a una sincronización más predecible y menos picos de rendimiento, lo cual es fundamental para los sistemas en tiempo real. En lugar de depender de hardware especializado o de un post-procesamiento pesado para lograr velocidad, YOLO26 enfatiza la eficiencia en todo el pipeline de inferencia.

Link to this sectionInferencia de extremo a extremo y el coste del post-procesamiento#

Quizás te preguntes qué significa eliminar pasos innecesarios de post-procesamiento. Para entenderlo, demos un paso atrás y veamos cómo funcionan los sistemas de detección de objetos tradicionales.

En muchos pipelines de detección de objetos, la inferencia no termina cuando el modelo produce sus predicciones. En su lugar, el modelo genera un gran número de cuadros delimitadores superpuestos, que luego deben ser filtrados y refinados antes de poder ser utilizados. Esta limpieza se realiza mediante pasos de post-procesamiento que se ejecutan fuera del propio modelo.

Uno de los pasos de post-procesamiento más comunes es la Supresión No Máxima, o NMS. NMS compara cuadros delimitadores superpuestos y mantiene solo las detecciones con mayor confianza, eliminando los duplicados que se refieren al mismo objeto. Aunque este enfoque es eficaz, introduce cálculos adicionales una vez completada la inferencia.

Entendiendo la supresión de no máximos en la detección de objetos

Fig 3. Entendiendo NMS. Imagen del autor.

En el Edge, este trabajo extra tiene un coste. Los pasos de post-procesamiento como NMS no se adaptan bien a los aceleradores especializados utilizados para la inferencia de redes neuronales, que están optimizados para el cálculo neuronal denso en lugar de para operaciones intensivas en control o memoria.

Como resultado, NMS introduce latencia y sobrecarga de memoria adicionales, y su coste aumenta a medida que aumenta el número de detecciones. Incluso cuando el modelo en sí es rápido, NMS puede consumir una parte significativa del tiempo total de ejecución.

El post-procesamiento también aumenta la complejidad del sistema. Debido a que reside fuera del modelo, debe implementarse por separado para diferentes entornos de ejecución y objetivos de hardware. Esto a menudo conduce a rutas de código específicas de la plataforma, un comportamiento inconsistente en los dispositivos y pipelines de implementación más frágiles.

Lo más importante es que el post-procesamiento rompe la idea de un rendimiento real de extremo a extremo. Medir la velocidad de inferencia del modelo no refleja cómo se comporta el sistema en producción. Lo que importa al final es el tiempo total desde la entrada hasta la salida final, incluyendo cada paso en el pipeline.

En estas situaciones, el post-procesamiento se convierte en un cuello de botella oculto en el Edge. Añade latencia, consume recursos de CPU y complica la implementación, todo mientras se mantiene fuera del modelo en sí.

Link to this sectionCómo YOLO26 elimina NMS y por qué eso lo hace más rápido#

YOLO26 elimina NMS abordando la causa raíz de las detecciones duplicadas en lugar de limpiarlas después de la inferencia. En lugar de producir muchas predicciones superpuestas que necesitan ser filtradas, el modelo está entrenado para generar directamente un conjunto más pequeño de detecciones finales con confianza.

Esto es posible cambiando cómo se aprenden las detecciones durante el entrenamiento. YOLO26 fomenta una relación uno a uno más clara entre objetos y predicciones, reduciendo la redundancia desde su origen. Como resultado, las detecciones duplicadas se resuelven dentro de la propia red en lugar de mediante un post-procesamiento externo.

Eliminar NMS tiene un impacto inmediato en el rendimiento en el Edge. Dado que NMS no se adapta bien a los aceleradores de redes neuronales, eliminarlo reduce el movimiento de memoria y evita costosos pasos de procesamiento no neuronal. Esto reduce la latencia de extremo a extremo y hace que el rendimiento sea más predecible, especialmente en dispositivos Edge donde el post-procesamiento podría consumir una parte considerable del tiempo total de ejecución.

También simplifica el pipeline de inferencia. Con menos pasos fuera del modelo, hay menos movimiento de datos y menos traspasos entre componentes. La salida del modelo es ya el resultado final, lo que hace que la ejecución sea más predecible.

Link to this sectionEliminar DFL para permitir un rendimiento real de extremo a extremo#

Otra innovación en YOLO26 es la eliminación de Distribution Focal Loss, o DFL, que se utilizaba en modelos YOLO anteriores para la regresión de cuadros delimitadores. En lugar de predecir una única coordenada directamente, los modelos que utilizaban DFL aprendían una distribución de valores posibles y luego derivaban un cuadro delimitador final a partir de esa distribución. Este enfoque ayudó a mejorar la precisión de la localización y fue un paso importante en generaciones anteriores.

Con el tiempo, sin embargo, DFL también introdujo contrapartidas. Predecir distribuciones aumenta el cálculo y añade complejidad a la arquitectura del modelo, lo que puede ralentizar la inferencia en CPUs y hacer que los modelos sean más difíciles de exportar a través de formatos de implementación. DFL también imponía rangos de regresión fijos, lo que podía limitar la flexibilidad al detectar objetos muy grandes.

YOLO26 elimina DFL como parte de su movimiento hacia un diseño más simple y de extremo a extremo. La regresión de cuadros delimitadores se rediseña para ser más directa, reduciendo cálculos innecesarios mientras se mantiene la precisión. Este cambio se alinea con el enfoque libre de NMS de YOLO26.

Link to this sectionDe dónde proviene la inferencia en CPU un 43% más rápida#

En benchmarks basados en CPU, YOLO26 muestra una clara mejora de rendimiento sobre modelos YOLO anteriores. En comparación con Ultralytics YOLO11, el modelo YOLO26 nano ofrece una inferencia en CPU hasta un 43% más rápida, una diferencia que tiene un impacto significativo en las implementaciones en el Edge en el mundo real.

Evaluación comparativa de la velocidad de inferencia de YOLO26 en CPU

Fig 4. Benchmarking de la velocidad en CPU de YOLO26.

Esta ganancia proviene de simplificar todo el pipeline de inferencia en lugar de optimizar un solo componente. La ejecución de extremo a extremo elimina la sobrecarga del post-procesamiento, un método de regresión de cuadros delimitadores más directo reduce los cálculos y las decisiones de diseño centradas en la CPU mejoran la eficiencia de ejecución en procesadores de propósito general.

Juntos, estos cambios reducen la latencia, disminuyen la carga de trabajo de la CPU y conducen a un rendimiento más rápido y coherente en hardware Edge del mundo real.

Link to this sectionEl impacto de YOLO26 en la implementación y las exportaciones en el Edge#

Las ganancias de rendimiento de YOLO26 se extienden más allá de una inferencia más rápida. Al simplificar el modelo y reducir la sobrecarga de memoria, se vuelve más fácil de implementar y más fiable de ejecutar en entornos Edge.

El diseño de extremo a extremo de YOLO26 también simplifica la exportación. Con menos componentes auxiliares y sin pasos externos de post-procesamiento, los modelos exportados son completamente autónomos. Esto reduce las dependencias específicas de la plataforma y ayuda a garantizar un comportamiento coherente en todos los entornos de ejecución y objetivos de hardware.

En la práctica, esto significa que YOLO26 puede implementarse más fácilmente en dispositivos Edge como cámaras, robots y sistemas integrados, utilizando varios formatos de exportación. Lo que exportas es lo que ejecutas, con menos pasos de integración y menos riesgo de desviación en la implementación.

Link to this sectionLa inferencia más rápida en el Edge permite la robótica y la visión artificial industrial#

Hasta ahora, hemos analizado cómo el diseño centrado en el Edge de YOLO26 mejora el rendimiento a nivel de sistema. El impacto real, sin embargo, radica en cómo hace que la visión artificial sea más fácil de integrar en aplicaciones del mundo real.

Por ejemplo, en robótica y entornos industriales, los sistemas de visión a menudo operan bajo estrictas restricciones en tiempo real. Las decisiones deben tomarse de forma rápida y coherente, utilizando recursos informáticos limitados y sin depender de la conectividad en la nube. Con Ultralytics YOLO26, cumplir estos requisitos se vuelve práctico.

Aplicaciones como la navegación de robots y la manipulación de objetos se benefician de una menor latencia y una inferencia más predecible, lo que permite a los robots responder con fluidez a los cambios en su entorno. Del mismo modo, en entornos industriales, los modelos de visión pueden ejecutarse directamente en las líneas de producción para detectar defectos, rastrear componentes y supervisar procesos sin introducir retrasos ni complejidad adicional.

Al permitir una inferencia rápida y fiable en hardware Edge, YOLO26 ayuda a convertir la visión artificial en una parte natural de los sistemas robóticos e industriales, en lugar de un desafío para implementar y mantener.

Link to this sectionConclusiones clave#

YOLO26 se construyó para el Edge, donde las limitaciones del mundo real como la latencia, la memoria y la fiabilidad definen lo que es posible. Al diseñar el modelo en torno a la ejecución centrada en la CPU, la inferencia de extremo a extremo y una implementación más sencilla, YOLO26 hace que la integración de la visión artificial en sistemas reales sea práctica. Este enfoque centrado en el Edge permite una amplia gama de aplicaciones, desde la robótica y la visión industrial hasta la IA integrada y en el dispositivo, donde el rendimiento y la previsibilidad son lo que más importa.

Únete a nuestra creciente comunidad y explora nuestro repositorio de GitHub para obtener recursos prácticos de IA. Para construir hoy con visión artificial, explora nuestras opciones de licencia. Aprende cómo la IA en la agricultura está transformando el sector agrícola y cómo la visión artificial en la sanidad está dando forma al futuro visitando nuestras páginas de soluciones.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático