Poda y cuantificación en visión por ordenador: Guía rápida

Abirami Vina

5 minutos de lectura

11 de julio de 2025

Descubra por qué la poda y la cuantización son esenciales para optimizar los modelos de visión por ordenador y permitir un rendimiento más rápido en los dispositivos de vanguardia.

Los dispositivos periféricos son cada vez más comunes gracias al avance de la tecnología. Desde relojes inteligentes que registran la frecuencia cardiaca hasta drones aéreos que vigilan las calles, los sistemas Edge pueden procesar datos en tiempo real de forma local dentro del propio dispositivo. 

Este método suele ser más rápido y seguro que enviar los datos a la nube, sobre todo para aplicaciones que implican datos personales, como la detección de matrículas o el seguimiento de gestos. Son ejemplos de visión por ordenador, una rama de la inteligencia artificial (IA) que permite a las máquinas interpretar y comprender la información visual.

Fig. 1. Ejemplo de detección de matrículas.(Fuente)

Sin embargo, una consideración importante es que tales aplicaciones requieren modelos de IA de visión capaces de manejar una computación pesada, utilizando un mínimo de recursos y operando de forma independiente. La mayoría de los modelos de visión por ordenador se desarrollan para sistemas de alto rendimiento, lo que los hace menos adecuados para su despliegue directo en dispositivos periféricos. 

Para salvar esta distancia, los desarrolladores suelen aplicar optimizaciones específicas que adaptan el modelo para que funcione con eficacia en hardware más pequeño. Estos ajustes son fundamentales para las implantaciones en el mundo real, donde la memoria y la capacidad de procesamiento son limitadas. 

Curiosamente, los modelos de visión por ordenador como Ultralytics YOLO11 ya están diseñados teniendo en cuenta la eficiencia de los bordes, lo que los hace ideales para tareas en tiempo real. Sin embargo, su rendimiento puede mejorarse aún más utilizando técnicas de optimización de modelos como la poda y la cuantización, lo que permite una inferencia aún más rápida y un menor uso de recursos en dispositivos con limitaciones.

En este artículo, analizaremos con más detalle qué son la poda y la cuantificación, cómo funcionan y cómo pueden ayudar a los modelos YOLO a rendir en las implantaciones edge del mundo real. Pongámonos manos a la obra.

Poda y cuantificación: Técnicas básicas para la optimización de modelos

Cuando se preparan modelos de Vision AI para su despliegue en dispositivos periféricos, uno de los objetivos clave es conseguir que el modelo sea ligero y fiable sin sacrificar el rendimiento. A menudo, esto implica reducir el tamaño del modelo y las demandas computacionales para que pueda funcionar eficazmente en hardware con memoria, potencia o capacidad de procesamiento limitadas. Dos formas habituales de hacerlo son la poda y la cuantización.

La poda es una técnica de optimización de modelos de inteligencia artificial que ayuda a reducir el tamaño de las redes neuronales y hacerlas más eficientes. En muchos casos, partes de un modelo, como determinadas conexiones o nodos, no contribuyen demasiado a sus predicciones finales. La poda funciona identificando y eliminando esas partes menos importantes, lo que reduce el tamaño del modelo y acelera su rendimiento.

Por otro lado, la cuantización es una técnica de optimización que reduce la precisión de los números que utiliza un modelo. En lugar de utilizar números de coma flotante de 32 bits de alta precisión, el modelo cambia a formatos más pequeños y eficientes, como los enteros de 8 bits. Este cambio ayuda a reducir el uso de memoria y acelera la inferencia, el proceso en el que el modelo hace predicciones.

Fig. 2. Un vistazo a la poda y la cuantificación.(Fuente)

Cómo funcionan la poda y la cuantificación

Ahora que entendemos mejor qué son la poda y la cuantización, veamos cómo funcionan ambas. 

La poda se realiza mediante un proceso conocido como análisis de sensibilidad. Identifica qué partes de los modelos de redes neuronales, como determinados pesos, neuronas o canales, contribuyen menos a la predicción de salida final. Estas partes pueden eliminarse con un efecto mínimo en la precisión. Tras la poda, el modelo suele volver a entrenarse para ajustar su rendimiento. Este ciclo puede repetirse hasta encontrar el equilibrio adecuado entre tamaño y precisión.

Por su parte, la cuantificación del modelo se centra en cómo maneja los datos. Comienza con la calibración, en la que el modelo se ejecuta con datos de muestra para conocer el rango de valores que debe procesar. A continuación, esos valores se convierten de coma flotante de 32 bits a formatos de menor precisión, como enteros de 8 bits.

Fig. 3. La cuantización ayuda a reducir el tamaño y la complejidad del modelo.(Fuente.)

Hay varias herramientas disponibles que facilitan el uso de la poda y la cuantización en proyectos de IA del mundo real. La mayoría de los marcos de IA, como PyTorch y TensorFlow, incluyen soporte integrado para estas técnicas de optimización, lo que permite a los desarrolladores integrarlas directamente en el proceso de despliegue del modelo. 

Una vez optimizado un modelo, herramientas como ONNX Runtime pueden ayudar a ejecutarlo de forma eficiente en diversas plataformas de hardware, como servidores, ordenadores de sobremesa y dispositivos periféricos. Además, Ultralytics ofrece integraciones que permiten exportar modelos YOLO en formatos adecuados para la cuantización, lo que facilita la reducción del tamaño del modelo y aumenta el rendimiento.

Visión general de la optimización del modelo YOLO de Ultralytics

Los modelos YOLO de Ultralytics, como YOLO11, son ampliamente reconocidos por su detección de objetos rápida y en un solo paso, lo que los hace ideales para tareas de IA de visión en tiempo real. Ya están diseñados para ser lo suficientemente ligeros y eficientes para su despliegue en los bordes. Sin embargo, las capas encargadas de procesar las características visuales, denominadas capas convolucionales, pueden seguir exigiendo una potencia de cálculo considerable durante la inferencia.

Puede que te preguntes: si YOLO11 ya está optimizado para su uso en bordes, ¿por qué necesita más optimización? Sencillamente, no todos los dispositivos periféricos son iguales. Algunos funcionan con un hardware mínimo, como pequeños procesadores integrados que consumen menos energía que una bombilla LED estándar. 

En estos casos, incluso un modelo simplificado como YOLO11 necesita una optimización adicional para garantizar un rendimiento fluido y fiable. Técnicas como la poda y la cuantización ayudan a reducir el tamaño del modelo y a acelerar la inferencia sin afectar significativamente a la precisión, por lo que resultan ideales para estos entornos con restricciones.

Para facilitar la aplicación de estas técnicas de optimización, Ultralytics soporta varias integraciones que pueden utilizarse para exportar modelos YOLO a múltiples formatos como ONNX, TensorRT, OpenVINO, CoreML y PaddlePaddle. Cada formato está diseñado para funcionar bien con tipos específicos de hardware y entornos de despliegue. 

Por ejemplo, ONNX se utiliza a menudo en flujos de trabajo de cuantificación debido a su compatibilidad con una amplia gama de herramientas y plataformas. TensorRT, por su parte, está muy optimizado para los dispositivos NVIDIA y admite la inferencia de baja precisión mediante INT8, lo que lo hace ideal para la implantación a alta velocidad en GPU de borde.

Casos de uso impactantes de la optimización del modelo YOLO de Ultralytics

A medida que la visión por ordenador se expande hacia diversas aplicaciones del mundo real, los modelos YOLO optimizados permiten ejecutar tareas como la detección de objetos, la segmentación de instancias y el seguimiento de objetos en hardware más pequeño y rápido. A continuación, analizaremos un par de casos de uso en los que la poda y la cuantización hacen que estas tareas de visión por ordenador sean más eficientes y prácticas.

Vigilancia inteligente impulsada por YOLO11

Muchos espacios industriales, así como zonas públicas, dependen de la vigilancia en tiempo real para mantenerse seguros. Lugares como estaciones de tránsito, plantas de fabricación y grandes instalaciones al aire libre necesitan sistemas Vision AI que puedan detectar personas o vehículos con rapidez y precisión. A menudo, estos lugares funcionan con una conectividad limitada y restricciones de hardware, lo que dificulta el despliegue de grandes modelos.

En estos casos, un modelo Vision AI optimizado como YOLO11 es una gran solución. Su tamaño compacto y su rápido rendimiento lo hacen perfecto para ejecutarse en dispositivos periféricos de bajo consumo, como cámaras integradas o sensores inteligentes. Estos modelos pueden procesar datos visuales directamente en el dispositivo, lo que permite detectar en tiempo real infracciones de seguridad, accesos no autorizados o actividades anómalas, sin depender de un acceso constante a la nube.

Fig. 4. YOLO11 puede utilizarse para vigilar lugares públicos como estaciones de metro.

Aumentar la seguridad en las obras con YOLO11

Las obras de construcción son entornos de ritmo rápido e impredecible, llenos de maquinaria pesada, trabajadores en movimiento y actividad constante. Las condiciones pueden cambiar rápidamente debido a los cambios de horario, al movimiento de los equipos o incluso a cambios repentinos del tiempo. En un entorno tan dinámico, la seguridad de los trabajadores puede parecer un reto continuo.

La supervisión en tiempo real desempeña un papel crucial, pero los sistemas tradicionales a menudo dependen del acceso a la nube o de hardware caro que puede no ser práctico in situ. Aquí es donde modelos como YOLO11 pueden ser impactantes. YOLO11 puede optimizarse para funcionar en dispositivos pequeños y eficientes que trabajan directamente in situ sin necesidad de conexión a Internet.

Por ejemplo, en una gran obra de construcción, como la ampliación de una autopista que abarca varias hectáreas. En este tipo de entorno, el seguimiento manual de cada vehículo o pieza de equipo puede ser difícil y llevar mucho tiempo. Un dron equipado con una cámara y un modelo YOLO11 optimizado puede ayudar detectando y siguiendo automáticamente a los vehículos, controlando el flujo de tráfico e identificando problemas de seguridad como accesos no autorizados o comportamientos de conducción inseguros.

Fig. 5. Análisis de imágenes tomadas por drones en una obra.(Fuente.)

Pros y contras de la poda y la cuantización en visión por ordenador

He aquí algunas de las principales ventajas que ofrecen los métodos de optimización de modelos de visión por ordenador, como la poda y la cuantización:

  • Despliegue rentable: Los modelos más pequeños y eficientes pueden reducir la necesidad de hardware caro y de gama alta, lo que hace que la IA sea más accesible y escalable en diferentes casos de uso.

  • Menor latencia: Al simplificar la arquitectura del modelo y reducir la sobrecarga computacional, estas técnicas pueden ayudar a lograr tiempos de respuesta más rápidos en aplicaciones en tiempo real.

  • Eficiencia energética: La reducción de la carga computacional también disminuye el consumo de energía, lo que resulta especialmente útil en sistemas móviles o alimentados por baterías.

Aunque la poda y la cuantificación ofrecen muchas ventajas, también conllevan ciertas contrapartidas que los desarrolladores deben tener en cuenta a la hora de optimizar los modelos. He aquí algunas limitaciones a tener en cuenta:

  • Precisión compensaciones: Si la poda es demasiado agresiva o si se utiliza una cuantificación de bits muy baja, la precisión del modelo, medida por métricas como mAP, puede disminuir.

  • Limitaciones de hardware: No todos los dispositivos soportan igual de bien los formatos de menor precisión como INT8. Esto puede restringir dónde y cómo puede desplegarse un modelo optimizado.

  • Complejidad de la aplicación: Conseguir buenos resultados a menudo requiere un ajuste cuidadoso y específico del modelo. Los desarrolladores pueden tener que volver a entrenar el modelo y realizar pruebas exhaustivas para mantener el rendimiento al tiempo que se mejora la eficiencia.

Principales conclusiones

La poda y la cuantización son técnicas útiles que ayudan a los modelos YOLO a rendir mejor en los dispositivos periféricos. Reducen el tamaño del modelo, disminuyen sus necesidades informáticas y aceleran las predicciones, todo ello sin una pérdida notable de precisión.

Estos métodos de optimización también ofrecen a los desarrolladores la flexibilidad necesaria para ajustar los modelos a distintos tipos de hardware sin necesidad de reconstruirlos por completo. Con algunos ajustes y pruebas, resulta más fácil aplicar Vision AI en situaciones del mundo real.

Únase a nuestra creciente comunidad Explora nuestro repositorio GitHub para aprender más sobre IA. ¿Listo para empezar tus proyectos de visión por computador? Consulte nuestras opciones de licencia. Descubra la IA en la agricultura y la IA de visión en la sanidad visitando nuestras páginas de soluciones. 

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles