Poda y cuantización en visión artificial: Una guía rápida
Descubre por qué la poda y la cuantización son esenciales para optimizar los modelos de visión artificial y permitir un rendimiento más rápido en dispositivos de borde.

Los dispositivos de borde (edge) son cada vez más comunes gracias al avance de la tecnología. Desde relojes inteligentes que siguen tu frecuencia cardíaca hasta drones aéreos que vigilan las calles, los sistemas de borde pueden procesar datos en tiempo real localmente dentro del propio dispositivo.
Este método suele ser más rápido y seguro que enviar datos a la nube, especialmente en aplicaciones que involucran datos personales, como la detección de matrículas o el seguimiento de gestos. Estos son ejemplos de visión artificial, una rama de la inteligencia artificial (IA) que permite a las máquinas interpretar y comprender información visual.

Fig 1. Un ejemplo de detección de matrículas. (Fuente)
Sin embargo, una consideración importante es que dichas aplicaciones requieren modelos de IA de visión capaces de gestionar cálculos pesados, utilizando recursos mínimos y operando de forma independiente. La mayoría de los modelos de visión artificial están desarrollados para sistemas de alto rendimiento, lo que los hace menos adecuados para su despliegue directo en dispositivos de borde.
Para cerrar esta brecha, los desarrolladores suelen aplicar optimizaciones específicas que adaptan el modelo para que funcione de manera eficiente en hardware más pequeño. Estos ajustes son fundamentales para despliegues de borde en el mundo real, donde la memoria y la potencia de procesamiento son limitadas.
Curiosamente, modelos de visión artificial como Ultralytics YOLO11 ya están diseñados teniendo en cuenta la eficiencia en el borde, lo que los hace ideales para tareas en tiempo real. No obstante, su rendimiento puede mejorarse aún más mediante técnicas de optimización de modelos como la poda y la cuantización, permitiendo una inferencia aún más rápida y un menor uso de recursos en dispositivos restringidos.
En este artículo, analizaremos más de cerca qué son la poda y la cuantización, cómo funcionan y cómo pueden ayudar a que los modelos YOLO rindan en despliegues de borde reales. ¡Empecemos!
Link to this sectionPoda y cuantización: Técnicas fundamentales en la optimización de modelos#
Al preparar modelos de IA de visión para su despliegue en dispositivos de borde, uno de los objetivos clave es hacer que el modelo sea ligero y fiable sin sacrificar el rendimiento. Esto suele implicar reducir el tamaño y las demandas computacionales del modelo para que pueda operar de manera eficiente en hardware con memoria, energía o capacidad de procesamiento limitadas. Dos formas comunes de lograrlo son la poda y la cuantización.
La poda es una técnica de optimización de modelos de IA que ayuda a hacer que las redes neuronales sean más pequeñas y eficientes. En muchos casos, partes de un modelo, como ciertas conexiones o nodos, no contribuyen mucho a sus predicciones finales. La poda funciona identificando y eliminando estas partes menos importantes, lo que reduce el tamaño del modelo y acelera su rendimiento.
Por otro lado, la cuantización es una técnica de optimización que reduce la precisión de los números que utiliza un modelo. En lugar de depender de números de punto flotante de 32 bits de alta precisión, el modelo cambia a formatos más pequeños y eficientes, como enteros de 8 bits. Este cambio ayuda a reducir el uso de memoria y acelera la inferencia, el proceso en el que el modelo realiza predicciones.

Fig 2. Un vistazo a la poda y la cuantización. (Fuente)
Link to this sectionCómo funcionan la poda y la cuantización#
Ahora que tenemos una mejor comprensión de qué son la poda y la cuantización, veamos cómo funcionan ambas.
La poda se realiza mediante un proceso conocido como análisis de sensibilidad. Identifica qué partes de los modelos de redes neuronales, como ciertos pesos, neuronas o canales, contribuyen menos a la predicción de salida final. Estas partes pueden eliminarse con un efecto mínimo en la precisión. Tras la poda, el modelo suele reentrenarse para ajustar su rendimiento. Este ciclo puede repetirse para encontrar el equilibrio adecuado entre su tamaño y su precisión.
Mientras tanto, la cuantización de modelos se centra en cómo el modelo maneja los datos. Comienza con una calibración, donde el modelo se ejecuta con datos de muestra para aprender el rango de valores que necesita procesar. Esos valores se convierten entonces de punto flotante de 32 bits a formatos de menor precisión, como enteros de 8 bits.

Fig 3. La cuantización ayuda a reducir el tamaño y la complejidad del modelo. (Fuente)
Existen varias herramientas disponibles que facilitan el uso de la poda y la cuantización en proyectos de IA del mundo real. La mayoría de los marcos de trabajo de IA, como PyTorch y TensorFlow, incluyen soporte integrado para estas técnicas de optimización, permitiendo a los desarrolladores integrarlas directamente en el proceso de despliegue del modelo.
Una vez que un modelo está optimizado, herramientas como ONNX Runtime pueden ayudar a ejecutarlo de manera eficiente a través de varias plataformas de hardware como servidores, ordenadores de escritorio y dispositivos de borde. Además, Ultralytics ofrece integraciones que permiten exportar los modelos YOLO en formatos adecuados para la cuantización, facilitando la reducción del tamaño del modelo y el aumento del rendimiento.
Link to this sectionUna visión general de la optimización del modelo Ultralytics YOLO#
Los modelos Ultralytics YOLO como YOLO11 son ampliamente reconocidos por su detección de objetos rápida y de un solo paso, lo que los hace ideales para tareas de IA de visión en tiempo real. Ya están diseñados para ser ligeros y lo suficientemente eficientes para el despliegue en el borde. Sin embargo, las capas responsables de procesar las características visuales, llamadas capas convolucionales, aún pueden exigir una potencia de cálculo considerable durante la inferencia.
Podrías preguntarte: si YOLO11 ya está optimizado para su uso en el borde, ¿por qué necesita una optimización adicional? En pocas palabras, no todos los dispositivos de borde son iguales. Algunos funcionan con hardware muy minimalista, como procesadores integrados diminutos que consumen menos energía que una bombilla LED estándar.
En estos casos, incluso un modelo optimizado como YOLO11 necesita una optimización adicional para garantizar un rendimiento fluido y fiable. Técnicas como la poda y la cuantización ayudan a reducir el tamaño del modelo y a acelerar la inferencia sin afectar significativamente la precisión, lo que las hace ideales para entornos tan restringidos.
Para facilitar la aplicación de estas técnicas de optimización, Ultralytics admite varias integraciones que se pueden usar para exportar modelos YOLO a múltiples formatos como ONNX, TensorRT, OpenVINO, CoreML y PaddlePaddle. Cada formato está diseñado para funcionar bien con tipos específicos de hardware y entornos de despliegue.
Por ejemplo, ONNX se utiliza a menudo en flujos de trabajo de cuantización debido a su compatibilidad con una amplia gama de herramientas y plataformas. TensorRT, por otro lado, está altamente optimizado para dispositivos NVIDIA y admite inferencia de baja precisión utilizando INT8, lo que lo hace ideal para el despliegue de alta velocidad en GPUs de borde.
Link to this sectionCasos de uso impactantes de la optimización del modelo Ultralytics YOLO#
A medida que la visión artificial continúa expandiéndose a diversas aplicaciones del mundo real, los modelos YOLO optimizados hacen posible ejecutar tareas como la detección de objetos, la segmentación de instancias y el seguimiento de objetos en hardware más pequeño y rápido. A continuación, analicemos un par de casos de uso donde la poda y la cuantización hacen que estas tareas de visión artificial sean más eficientes y prácticas.
Link to this sectionVigilancia inteligente impulsada por YOLO11#
Muchos espacios industriales, así como áreas públicas, dependen de la monitorización en tiempo real para mantenerse seguros. Lugares como estaciones de tránsito, sitios de fabricación e instalaciones exteriores grandes necesitan sistemas de IA de visión que puedan detectar personas o vehículos de forma rápida y precisa. A menudo, estas ubicaciones operan con conectividad limitada y restricciones de hardware, lo que dificulta el despliegue de modelos grandes.
En tales casos, un modelo de IA de visión optimizado como YOLO11 es una gran solución. Su tamaño compacto y su rápido rendimiento lo hacen perfecto para ejecutarse en dispositivos de borde de bajo consumo, como cámaras integradas o sensores inteligentes. Estos modelos pueden procesar datos visuales directamente en el dispositivo, lo que permite la detección en tiempo real de violaciones de seguridad, acceso no autorizado o actividad anormal, sin depender de un acceso constante a la nube.

Fig 4. YOLO11 puede utilizarse para monitorizar lugares públicos como estaciones de metro.
Link to this sectionImpulsando la seguridad en obras de construcción con YOLO11#
Las obras de construcción son entornos dinámicos e impredecibles, llenos de maquinaria pesada, trabajadores en movimiento y actividad constante. Las condiciones pueden cambiar rápidamente debido a cambios en los horarios, el movimiento de equipos o incluso cambios repentinos en el clima. En un entorno tan dinámico, la seguridad de los trabajadores puede sentirse como un desafío continuo.
La monitorización en tiempo real desempeña un papel crucial, pero los sistemas tradicionales a menudo dependen del acceso a la nube o de hardware costoso que puede no ser práctico en el sitio. Aquí es donde modelos como YOLO11 pueden ser impactantes. YOLO11 puede optimizarse para ejecutarse en dispositivos de borde pequeños y eficientes que funcionan directamente en la obra sin necesidad de una conexión a Internet.
Por ejemplo, considera una gran obra de construcción como una expansión de carretera que abarca varios acres. En este tipo de entorno, el seguimiento manual de cada vehículo o equipo puede ser difícil y lento. Un dron equipado con una cámara y un modelo YOLO11 optimizado puede ayudar detectando y siguiendo automáticamente los vehículos, monitorizando el flujo de tráfico e identificando problemas de seguridad como el acceso no autorizado o el comportamiento de conducción inseguro.

Fig 5. Analizando imágenes de drones desde una obra de construcción. (Fuente)
Link to this sectionPros y contras de la poda y la cuantización en visión artificial#
Aquí tienes algunas ventajas clave que ofrecen los métodos de optimización de modelos de visión artificial como la poda y la cuantización:
- Despliegue rentable: Los modelos más pequeños y eficientes pueden reducir la necesidad de hardware costoso y de alta gama, haciendo que la IA sea más accesible y escalable en diferentes casos de uso.
- Menor latencia: Al simplificar la arquitectura del modelo y reducir la carga computacional, estas técnicas pueden ayudar a lograr tiempos de respuesta más rápidos en aplicaciones en tiempo real.
- Eficiencia energética: La reducción de la carga computacional también disminuye el consumo de energía, lo cual es especialmente útil para sistemas que funcionan con batería o móviles.
Aunque la poda y la cuantización ofrecen muchas ventajas, también conllevan ciertos compromisos que los desarrolladores deben considerar al optimizar los modelos. Aquí hay algunas limitaciones a tener en cuenta:
- Compromisos de precisión: Si la poda es demasiado agresiva o si se utiliza una cuantización de muy pocos bits, la precisión del modelo, medida por métricas como mAP, puede disminuir.
- Restricciones de hardware: No todos los dispositivos admiten formatos de menor precisión como INT8 por igual. Esto puede restringir dónde y cómo se puede desplegar un modelo optimizado.
- Complejidad de implementación: Lograr buenos resultados a menudo requiere un ajuste cuidadoso y específico para el modelo. Es posible que los desarrolladores necesiten reentrenar el modelo y realizar pruebas exhaustivas para mantener el rendimiento mientras se mejora la eficiencia.
Link to this sectionConclusiones clave#
La poda y la cuantización son técnicas útiles que ayudan a que los modelos YOLO rindan mejor en dispositivos de borde. Reducen el tamaño del modelo, disminuyen sus necesidades de cálculo y aceleran las predicciones, todo ello sin una pérdida notable en la precisión.
Estos métodos de optimización también dan a los desarrolladores la flexibilidad de ajustar los modelos para diferentes tipos de hardware sin necesidad de reconstruirlos por completo. Con algo de ajuste y pruebas, resulta más fácil aplicar la IA de visión en situaciones del mundo real.
¡Únete a nuestra creciente comunidad! Explora nuestro repositorio en GitHub para aprender más sobre IA. ¿Estás listo para comenzar tus proyectos de visión artificial? Consulta nuestras opciones de licencia. ¡Descubre la IA en agricultura y la IA de visión en el cuidado de la salud visitando nuestras páginas de soluciones!






