Yolo Vision Shenzhen
Shenzhen
Únete ahora

El impacto del diseño más rápido y centrado en el borde Ultralytics

Descubra por qué Ultralytics es más rápido en el borde y por qué eso es importante para las aplicaciones de visión artificial de última generación que exigen baja latencia y eficiencia.

A principios de esta semana, Ultralytics lanzó Ultralytics Ultralytics , un YOLO más rápido, ligero y pequeño que pretende redefinir el rendimiento de los sistemas de visión artificial en el borde. YOLO26 admite las mismas tareas de visión básicas que YOLO anteriores, incluida la detección de objetos y la segmentación de instancias.

Fig. 1. Ejemplo del uso de YOLO26 para segment objeto.

La diferencia fundamental entre YOLO26 y los modelos anteriores es el entorno en el que se diseñó para funcionar. En lugar de optimizarse principalmente para unidades de procesamiento gráfico (GPU) en la nube o para un rendimiento basado en pruebas de rendimiento, YOLO26 se diseñó desde cero para su implementación en el mundo real en dispositivos periféricos y hardware integrado.

A medida que la visión artificial pasa de la investigación a la producción, la realidad de las limitaciones de rendimiento se hace más evidente. Los entornos periféricos se caracterizan por presupuestos de latencia ajustados, memoria limitada, restricciones térmicas y de potencia, y la necesidad de un comportamiento predecible en diversas plataformas.

En estos entornos, el rendimiento general del sistema no solo depende de la velocidad de inferencia bruta, sino también de la eficiencia con la que funciona todo el proceso. La sobrecarga del posprocesamiento, la presión de la memoria y las rutas de ejecución específicas de la plataforma suelen ser cuellos de botella.

YOLO26 aborda estos retos adoptando un enfoque más rápido y centrado en el borde que analiza todo el proceso de inferencia en lugar de las métricas de los modelos individuales. Al centrarse en la optimización del borde, simplificar el proceso de inferencia y eliminar pasos de posprocesamiento innecesarios, YOLO26 ofrece mejoras de velocidad que se traducen en una menor latencia y un comportamiento más fiable en la producción.

En este artículo, exploraremos cómo las decisiones arquitectónicas de YOLO26 se traducen en mejoras de rendimiento en el mundo real y por qué ser más rápido en el borde cambia fundamentalmente lo que es posible para las aplicaciones de visión artificial de próxima generación. 

La realidad de la implementación periférica

Ejecutar modelos de visión artificial en el borde es muy diferente a ejecutarlos en la nube. En entornos de nube, los sistemas suelen tener acceso a potentes GPU, grandes cantidades de memoria y hardware estable. En el borde, no se dan las mismas condiciones. 

La mayoría de las implementaciones periféricas se ejecutan en diversas arquitecturas de hardware, no en GPU. Los dispositivos suelen utilizar múltiples procesadores especializados para diferentes tareas, que están optimizados para ofrecer eficiencia y bajo consumo, en lugar de la capacidad de cálculo bruta de las GPU en la nube.

La latencia es otra limitación importante. Los sistemas periféricos suelen funcionar con estrictos límites de tiempo real, en los que incluso los pequeños retrasos pueden afectar a la capacidad de respuesta o la seguridad. En estos casos, la latencia de extremo a extremo es más importante que la velocidad de inferencia bruta. Un modelo puede ser rápido sobre el papel, pero seguir siendo insuficiente una vez que se añaden el posprocesamiento y el movimiento de datos.

La memoria también desempeña un papel importante. Muchos dispositivos periféricos tienen memoria limitada y cachés compartidas. Los tensores intermedios grandes y el uso ineficiente de la memoria pueden ralentizar los sistemas, incluso cuando el modelo en sí es eficiente.

Los límites térmicos y de potencia añaden restricciones adicionales. Los dispositivos periféricos suelen funcionar sin refrigeración activa y con presupuestos de potencia fijos. El rendimiento debe ser eficiente y sostenible, no solo rápido en ráfagas cortas.

Además de todo esto, las implementaciones periféricas requieren coherencia. Los modelos deben comportarse de la misma manera en todos los dispositivos y entornos de ejecución. El código específico de la plataforma o los complejos pasos de posprocesamiento pueden introducir sutiles diferencias que dificultan la implementación y el mantenimiento de los sistemas.

Fig. 2. Una mirada a las limitaciones del despliegue en el borde. Imagen del autor.

Estas limitaciones definen lo que realmente significa el rendimiento en el extremo. En otras palabras, el rendimiento viene definido por todo el proceso, no por una única métrica.

Por qué la visión periférica exige un modelo de rendimiento diferente

Entonces, ¿cómo se relacionan las limitaciones del despliegue en el borde con los requisitos de un modelo de visión artificial creado para el borde? La conexión se hace evidente una vez que los modelos pasan del ámbito de la investigación a los sistemas del mundo real.

En entornos en la nube, el rendimiento se mide a menudo utilizando parámetros de referencia como la velocidad y la precisión de la inferencia. En el borde, esas métricas solo muestran una parte de la realidad. Los sistemas de visión suelen ejecutarse en hardware heterogéneo, donde la inferencia de la red neuronal se descarga a aceleradores especializados, mientras que otras partes del proceso se ejecutan en procesadores de uso general.

En este contexto, la velocidad del modelo no es suficiente. El rendimiento de todo el sistema una vez implementado el modelo es fundamental. Un modelo puede parecer rápido por sí mismo, pero seguir siendo insuficiente si el posprocesamiento, el movimiento de datos o los pasos específicos de la plataforma añaden una sobrecarga.

Por eso, la visión periférica requiere un modelo de rendimiento que se centre en la eficiencia a nivel del sistema, en lugar de en pruebas de rendimiento aisladas. YOLO26 refleja este cambio al centrarse en la optimización periférica, la inferencia optimizada y la ejecución integral diseñada para su implementación en el mundo real.

La base de la velocidad: un diseño que prioriza los bordes

En el borde, el rendimiento viene definido por la capacidad de un modelo para adaptarse a la arquitectura hardware real del dispositivo. Diseñar primero para el borde garantiza que los sistemas de visión funcionen de forma fiable en plataformas del mundo real, independientemente de la combinación específica de unidades de procesamiento disponibles.

Un enfoque «edge-first» da prioridad a la ejecución predecible y eficiente en hardware heterogéneo, en lugar de adaptar modelos que se optimizaron para GPU en la nube a posteriori. En pocas palabras, esto significa favorecer las operaciones que se traducen bien a los aceleradores de redes neuronales, minimizar el trabajo no neuronal fuera del modelo y reducir la complejidad innecesaria que puede ralentizar la ejecución de extremo a extremo.

YOLO26 se diseñó teniendo en cuenta estas limitaciones. Su arquitectura se centra en un rendimiento constante en lugar de en un rendimiento máximo en condiciones ideales. Al simplificar las rutas de ejecución y eliminar los cálculos innecesarios, YOLO26 reduce la sobrecarga en todo el proceso de inferencia y aprovecha mejor la aceleración y la jerarquía de memoria disponibles del dispositivo.

Este enfoque también mejora la fiabilidad. La optimización «edge-first» (primero el borde) conduce a una sincronización más predecible y a menos picos de rendimiento, lo cual es fundamental para los sistemas en tiempo real. En lugar de depender de hardware especializado o de un pesado posprocesamiento para alcanzar velocidad, YOLO26 hace hincapié en la eficiencia a lo largo de todo el proceso de inferencia.

Inferencia de extremo a extremo y el coste del posprocesamiento

Quizás se pregunte qué significa eliminar pasos de posprocesamiento innecesarios. Para comprenderlo, demos un paso atrás y veamos cómo funcionan los sistemas tradicionales de detección de objetos.

En muchos procesos de detección de objetos, la inferencia no termina cuando el modelo genera sus predicciones. En cambio, el modelo genera una gran cantidad de cuadros delimitadores superpuestos, que luego deben filtrarse y refinarse antes de poder utilizarse. Esta limpieza se realiza mediante pasos de posprocesamiento que se ejecutan fuera del propio modelo.

Uno de los pasos de posprocesamiento más comunes es la supresión no máxima, o NMS. NMS los cuadros delimitadores superpuestos y solo conserva las detecciones más fiables, eliminando los duplicados que hacen referencia al mismo objeto. Aunque este enfoque es eficaz, introduce un cálculo adicional una vez completada la inferencia.

Fig. 3. Comprensión NMS. Imagen del autor.

En el extremo, este trabajo adicional tiene un coste. Los pasos de posprocesamiento como NMS no NMS adecuados para los aceleradores especializados que se utilizan para la inferencia de redes neuronales, que están optimizados para el cálculo neuronal denso en lugar de para operaciones que requieren un gran control o un uso intensivo de la memoria. 

Como resultado, NMS una latencia adicional y una sobrecarga de memoria, y su coste aumenta a medida que aumenta el número de detecciones. Incluso cuando el modelo en sí es rápido, NMS seguir consumiendo una parte significativa del tiempo de ejecución total.

El posprocesamiento también aumenta la complejidad del sistema. Al estar fuera del modelo, debe implementarse por separado para diferentes tiempos de ejecución y objetivos de hardware. Esto suele dar lugar a rutas de código específicas para cada plataforma, un comportamiento inconsistente entre dispositivos y procesos de implementación más frágiles.

Lo más importante es que el posprocesamiento rompe la idea del verdadero rendimiento de extremo a extremo. Medir la velocidad de inferencia del modelo no refleja cómo se comporta el sistema en producción. Lo que realmente importa es el tiempo total desde la entrada hasta la salida final, incluyendo cada paso del proceso.

En estas situaciones, el posprocesamiento se convierte en un cuello de botella oculto en el borde. Añade latencia, consume CPU y complica la implementación, todo ello sin formar parte del modelo en sí.

Cómo YOLO26 elimina NMS por qué eso lo hace más rápido

YOLO26 elimina NMS abordando la causa raíz de las detecciones duplicadas en lugar de limpiarlas después de la inferencia. En lugar de producir muchas predicciones superpuestas que deben filtrarse, el modelo está entrenado para generar directamente un conjunto más pequeño de detecciones finales fiables.

Esto es posible gracias a un cambio en la forma en que se aprenden las detecciones durante el entrenamiento. YOLO26 fomenta una relación uno a uno más clara entre los objetos y las predicciones, lo que reduce la redundancia en su origen. Como resultado, las detecciones duplicadas se resuelven dentro de la propia red, en lugar de mediante un posprocesamiento externo.

La eliminación NMS un impacto inmediato en el rendimiento del borde. Dado que NMS se adapta bien a los aceleradores de redes neuronales, su eliminación reduce el movimiento de la memoria y evita costosos pasos de procesamiento no neuronales. Esto reduce la latencia de extremo a extremo y hace que el rendimiento sea más predecible, especialmente en dispositivos de borde donde, de otro modo, el posprocesamiento puede consumir una parte notable del tiempo de ejecución total.

También simplifica el proceso de inferencia. Al haber menos pasos fuera del modelo, hay menos movimiento de datos y menos transferencias entre componentes. El resultado del modelo ya es el resultado final, lo que hace que la ejecución sea más predecible.

Eliminación de DFL para permitir un rendimiento verdadero de extremo a extremo

Otra innovación en YOLO26 es la eliminación de la pérdida focal de distribución (DFL), que se utilizaba en YOLO anteriores para la regresión de cuadros delimitadores. En lugar de predecir directamente una única coordenada, los modelos que utilizaban DFL aprendían una distribución de valores posibles y, a partir de ella, derivaban un cuadro delimitador final. Este enfoque ayudó a mejorar la precisión de la localización y supuso un importante avance con respecto a las generaciones anteriores.

Sin embargo, con el tiempo, DFL también introdujo algunas desventajas. La predicción de distribuciones aumenta la complejidad de los cálculos y añade complejidad a la arquitectura del modelo, lo que puede ralentizar la inferencia en las CPU y dificultar la exportación de los modelos entre distintos formatos de implementación. DFL también imponía rangos de regresión fijos, lo que podía limitar la flexibilidad a la hora de detectar objetos muy grandes.

YOLO26 elimina DFL como parte de su transición hacia un diseño más sencillo y completo. La regresión del cuadro delimitador se ha rediseñado para que sea más directa, lo que reduce los cálculos innecesarios y mantiene la precisión. Este cambio se ajusta al enfoque NMS de YOLO26.

De dónde proviene CPU un 43 % más rápida

En las pruebas de rendimiento CPU, YOLO26 muestra una clara mejora en el rendimiento con respecto a YOLO anteriores. En comparación con Ultralytics YOLO11, el modelo nano YOLO26 ofrece CPU hasta un 43 % más rápida, una diferencia que tiene un impacto significativo en las implementaciones de borde del mundo real.

Fig. 4. Comparativa CPU de YOLO26.

Esta mejora se consigue simplificando todo el proceso de inferencia, en lugar de optimizar un único componente. La ejecución de extremo a extremo elimina la sobrecarga del posprocesamiento, un método de regresión de cuadros delimitadores más directo reduce el cálculo y las opciones de diseño CPU mejoran la eficiencia de ejecución en procesadores de uso general.

En conjunto, estos cambios reducen la latencia, disminuyen CPU y dan lugar a un rendimiento más rápido y consistente en el hardware periférico del mundo real.

El impacto de YOLO26 en la implementación periférica y las exportaciones

Las mejoras en el rendimiento de YOLO26 van más allá de una inferencia más rápida. Al simplificar el modelo y reducir la sobrecarga de memoria, resulta más fácil de implementar y más fiable de ejecutar en entornos periféricos.

El diseño integral de YOLO26 también simplifica la exportación. Con menos componentes auxiliares y sin pasos de posprocesamiento externos, los modelos exportados son totalmente autónomos. Esto reduce las dependencias específicas de la plataforma y ayuda a garantizar un comportamiento coherente en todos los entornos de ejecución y objetivos de hardware.

En la práctica, esto significa que YOLO26 se puede implementar más fácilmente en dispositivos periféricos, como cámaras, robots y sistemas integrados, utilizando diversos formatos de exportación. Lo que se exporta es lo que se ejecuta, con menos pasos de integración y menos riesgo de desviación en la implementación.

La inferencia más rápida en el borde permite la robótica y la visión industrial con IA.

Hasta ahora, hemos visto cómo el diseño «edge-first» de YOLO26 mejora el rendimiento a nivel del sistema. Sin embargo, el verdadero impacto radica en cómo facilita la integración de la IA visual en aplicaciones del mundo real.

Por ejemplo, en entornos robóticos e industriales, los sistemas de visión suelen funcionar bajo estrictas restricciones en tiempo real. Las decisiones deben tomarse de forma rápida y coherente, utilizando recursos informáticos limitados y sin depender de la conectividad en la nube. Con Ultralytics , cumplir estos requisitos se convierte en algo práctico.

Las aplicaciones como la navegación robótica y la manipulación de objetos se benefician de una menor latencia y una inferencia más predecible, lo que permite a los robots responder con fluidez a los cambios en su entorno. Del mismo modo, en entornos industriales, los modelos de visión pueden ejecutarse directamente en las líneas de producción para detect , track y supervisar los procesos sin introducir retrasos ni complejidad adicional.

Al permitir una inferencia rápida y fiable en hardware periférico, YOLO26 contribuye a que la IA visual se convierta en una parte natural de la robótica y los sistemas industriales, en lugar de suponer un reto para su implementación y mantenimiento.

Conclusiones clave

YOLO26 se diseñó para el borde, donde las limitaciones del mundo real, como la latencia, la memoria y la fiabilidad, definen lo que es posible. Al diseñar el modelo en torno a la ejecución CPU, la inferencia de extremo a extremo y una implementación más sencilla, YOLO26 hace que la IA visual sea práctica para integrarla en sistemas reales. Este enfoque prioritario del borde permite una amplia gama de aplicaciones, desde la robótica y la visión industrial hasta la IA integrada y en dispositivos, donde el rendimiento y la previsibilidad son lo más importante.

Únase a nuestra creciente comunidad y explore nuestro repositorio GitHub para obtener recursos prácticos de IA. Para construir con Vision AI hoy mismo, explore nuestras opciones de licencia. Descubra cómo la IA en agricultura está transformando la agricultura y cómo Vision AI en sanidad está dando forma al futuro visitando nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis