Descubra por qué la poda y la cuantización son esenciales para optimizar los modelos de visión por ordenador y permitir un rendimiento más rápido en los dispositivos de vanguardia.

Descubra por qué la poda y la cuantización son esenciales para optimizar los modelos de visión por ordenador y permitir un rendimiento más rápido en los dispositivos de vanguardia.
Los dispositivos periféricos son cada vez más comunes gracias al avance de la tecnología. Desde relojes inteligentes que registran la frecuencia cardiaca hasta drones aéreos que vigilan las calles, los sistemas Edge pueden procesar datos en tiempo real de forma local dentro del propio dispositivo.
Este método suele ser más rápido y seguro que enviar los datos a la nube, sobre todo para aplicaciones que implican datos personales, como la detección de matrículas o el seguimiento de gestos. Son ejemplos de visión por ordenador, una rama de la inteligencia artificial (IA) que permite a las máquinas interpretar y comprender la información visual.
Sin embargo, una consideración importante es que tales aplicaciones requieren modelos de IA de visión capaces de manejar una computación pesada, utilizando un mínimo de recursos y operando de forma independiente. La mayoría de los modelos de visión por ordenador se desarrollan para sistemas de alto rendimiento, lo que los hace menos adecuados para su despliegue directo en dispositivos periféricos.
Para salvar esta distancia, los desarrolladores suelen aplicar optimizaciones específicas que adaptan el modelo para que funcione con eficacia en hardware más pequeño. Estos ajustes son fundamentales para las implantaciones en el mundo real, donde la memoria y la capacidad de procesamiento son limitadas.
Curiosamente, los modelos de visión por ordenador como Ultralytics YOLO11 ya están diseñados teniendo en cuenta la eficiencia de los bordes, lo que los hace ideales para tareas en tiempo real. Sin embargo, su rendimiento puede mejorarse aún más utilizando técnicas de optimización de modelos como la poda y la cuantización, lo que permite una inferencia aún más rápida y un menor uso de recursos en dispositivos con limitaciones.
En este artículo, analizaremos con más detalle qué son la poda y la cuantificación, cómo funcionan y cómo pueden ayudar a los modelos YOLO a rendir en las implantaciones edge del mundo real. Pongámonos manos a la obra.
Cuando se preparan modelos de Vision AI para su despliegue en dispositivos periféricos, uno de los objetivos clave es conseguir que el modelo sea ligero y fiable sin sacrificar el rendimiento. A menudo, esto implica reducir el tamaño del modelo y las demandas computacionales para que pueda funcionar eficazmente en hardware con memoria, potencia o capacidad de procesamiento limitadas. Dos formas habituales de hacerlo son la poda y la cuantización.
La poda es una técnica de optimización de modelos de inteligencia artificial que ayuda a reducir el tamaño de las redes neuronales y hacerlas más eficientes. En muchos casos, partes de un modelo, como determinadas conexiones o nodos, no contribuyen demasiado a sus predicciones finales. La poda funciona identificando y eliminando esas partes menos importantes, lo que reduce el tamaño del modelo y acelera su rendimiento.
Por otro lado, la cuantización es una técnica de optimización que reduce la precisión de los números que utiliza un modelo. En lugar de utilizar números de coma flotante de 32 bits de alta precisión, el modelo cambia a formatos más pequeños y eficientes, como los enteros de 8 bits. Este cambio ayuda a reducir el uso de memoria y acelera la inferencia, el proceso en el que el modelo hace predicciones.
Ahora que entendemos mejor qué son la poda y la cuantización, veamos cómo funcionan ambas.
La poda se realiza mediante un proceso conocido como análisis de sensibilidad. Identifica qué partes de los modelos de redes neuronales, como determinados pesos, neuronas o canales, contribuyen menos a la predicción de salida final. Estas partes pueden eliminarse con un efecto mínimo en la precisión. Tras la poda, el modelo suele volver a entrenarse para ajustar su rendimiento. Este ciclo puede repetirse hasta encontrar el equilibrio adecuado entre tamaño y precisión.
Por su parte, la cuantificación del modelo se centra en cómo maneja los datos. Comienza con la calibración, en la que el modelo se ejecuta con datos de muestra para conocer el rango de valores que debe procesar. A continuación, esos valores se convierten de coma flotante de 32 bits a formatos de menor precisión, como enteros de 8 bits.
Hay varias herramientas disponibles que facilitan el uso de la poda y la cuantización en proyectos de IA del mundo real. La mayoría de los marcos de IA, como PyTorch y TensorFlow, incluyen soporte integrado para estas técnicas de optimización, lo que permite a los desarrolladores integrarlas directamente en el proceso de despliegue del modelo.
Una vez optimizado un modelo, herramientas como ONNX Runtime pueden ayudar a ejecutarlo de forma eficiente en diversas plataformas de hardware, como servidores, ordenadores de sobremesa y dispositivos periféricos. Además, Ultralytics ofrece integraciones que permiten exportar modelos YOLO en formatos adecuados para la cuantización, lo que facilita la reducción del tamaño del modelo y aumenta el rendimiento.
Los modelos YOLO de Ultralytics, como YOLO11, son ampliamente reconocidos por su detección de objetos rápida y en un solo paso, lo que los hace ideales para tareas de IA de visión en tiempo real. Ya están diseñados para ser lo suficientemente ligeros y eficientes para su despliegue en los bordes. Sin embargo, las capas encargadas de procesar las características visuales, denominadas capas convolucionales, pueden seguir exigiendo una potencia de cálculo considerable durante la inferencia.
Puede que te preguntes: si YOLO11 ya está optimizado para su uso en bordes, ¿por qué necesita más optimización? Sencillamente, no todos los dispositivos periféricos son iguales. Algunos funcionan con un hardware mínimo, como pequeños procesadores integrados que consumen menos energía que una bombilla LED estándar.
En estos casos, incluso un modelo simplificado como YOLO11 necesita una optimización adicional para garantizar un rendimiento fluido y fiable. Técnicas como la poda y la cuantización ayudan a reducir el tamaño del modelo y a acelerar la inferencia sin afectar significativamente a la precisión, por lo que resultan ideales para estos entornos con restricciones.
Para facilitar la aplicación de estas técnicas de optimización, Ultralytics soporta varias integraciones que pueden utilizarse para exportar modelos YOLO a múltiples formatos como ONNX, TensorRT, OpenVINO, CoreML y PaddlePaddle. Cada formato está diseñado para funcionar bien con tipos específicos de hardware y entornos de despliegue.
Por ejemplo, ONNX se utiliza a menudo en flujos de trabajo de cuantificación debido a su compatibilidad con una amplia gama de herramientas y plataformas. TensorRT, por su parte, está muy optimizado para los dispositivos NVIDIA y admite la inferencia de baja precisión mediante INT8, lo que lo hace ideal para la implantación a alta velocidad en GPU de borde.
A medida que la visión por ordenador se expande hacia diversas aplicaciones del mundo real, los modelos YOLO optimizados permiten ejecutar tareas como la detección de objetos, la segmentación de instancias y el seguimiento de objetos en hardware más pequeño y rápido. A continuación, analizaremos un par de casos de uso en los que la poda y la cuantización hacen que estas tareas de visión por ordenador sean más eficientes y prácticas.
Muchos espacios industriales, así como zonas públicas, dependen de la vigilancia en tiempo real para mantenerse seguros. Lugares como estaciones de tránsito, plantas de fabricación y grandes instalaciones al aire libre necesitan sistemas Vision AI que puedan detectar personas o vehículos con rapidez y precisión. A menudo, estos lugares funcionan con una conectividad limitada y restricciones de hardware, lo que dificulta el despliegue de grandes modelos.
En estos casos, un modelo Vision AI optimizado como YOLO11 es una gran solución. Su tamaño compacto y su rápido rendimiento lo hacen perfecto para ejecutarse en dispositivos periféricos de bajo consumo, como cámaras integradas o sensores inteligentes. Estos modelos pueden procesar datos visuales directamente en el dispositivo, lo que permite detectar en tiempo real infracciones de seguridad, accesos no autorizados o actividades anómalas, sin depender de un acceso constante a la nube.
Las obras de construcción son entornos de ritmo rápido e impredecible, llenos de maquinaria pesada, trabajadores en movimiento y actividad constante. Las condiciones pueden cambiar rápidamente debido a los cambios de horario, al movimiento de los equipos o incluso a cambios repentinos del tiempo. En un entorno tan dinámico, la seguridad de los trabajadores puede parecer un reto continuo.
La supervisión en tiempo real desempeña un papel crucial, pero los sistemas tradicionales a menudo dependen del acceso a la nube o de hardware caro que puede no ser práctico in situ. Aquí es donde modelos como YOLO11 pueden ser impactantes. YOLO11 puede optimizarse para funcionar en dispositivos pequeños y eficientes que trabajan directamente in situ sin necesidad de conexión a Internet.
Por ejemplo, en una gran obra de construcción, como la ampliación de una autopista que abarca varias hectáreas. En este tipo de entorno, el seguimiento manual de cada vehículo o pieza de equipo puede ser difícil y llevar mucho tiempo. Un dron equipado con una cámara y un modelo YOLO11 optimizado puede ayudar detectando y siguiendo automáticamente a los vehículos, controlando el flujo de tráfico e identificando problemas de seguridad como accesos no autorizados o comportamientos de conducción inseguros.
He aquí algunas de las principales ventajas que ofrecen los métodos de optimización de modelos de visión por ordenador, como la poda y la cuantización:
Aunque la poda y la cuantificación ofrecen muchas ventajas, también conllevan ciertas contrapartidas que los desarrolladores deben tener en cuenta a la hora de optimizar los modelos. He aquí algunas limitaciones a tener en cuenta:
La poda y la cuantización son técnicas útiles que ayudan a los modelos YOLO a rendir mejor en los dispositivos periféricos. Reducen el tamaño del modelo, disminuyen sus necesidades informáticas y aceleran las predicciones, todo ello sin una pérdida notable de precisión.
Estos métodos de optimización también ofrecen a los desarrolladores la flexibilidad necesaria para ajustar los modelos a distintos tipos de hardware sin necesidad de reconstruirlos por completo. Con algunos ajustes y pruebas, resulta más fácil aplicar Vision AI en situaciones del mundo real.
Únase a nuestra creciente comunidad Explora nuestro repositorio GitHub para aprender más sobre IA. ¿Listo para empezar tus proyectos de visión por computador? Consulte nuestras opciones de licencia. Descubra la IA en la agricultura y la IA de visión en la sanidad visitando nuestras páginas de soluciones.