Poda e quantização em visão computacional: Um guia rápido
Descobre porque a poda e a quantização são essenciais para otimizar modelos de visão computacional e permitir um desempenho mais rápido em dispositivos de borda.

Dispositivos de borda (edge) estão se tornando cada vez mais comuns com o avanço da tecnologia. Desde smartwatches que monitoram sua frequência cardíaca até drones que monitoram ruas, os sistemas de borda podem processar dados em tempo real localmente dentro do próprio dispositivo.
Esse método é frequentemente mais rápido e seguro do que enviar dados para a nuvem, especialmente para aplicações que envolvem dados pessoais, como detecção de placas de veículos ou rastreamento de gestos. Esses são exemplos de visão computacional, um ramo da inteligência artificial (IA) que permite que máquinas interpretem e entendam informações visuais.

Fig 1. Um exemplo de detecção de placa de veículo. (Fonte)
No entanto, uma consideração importante é que tais aplicações exigem modelos de visão de IA capazes de lidar com computação pesada, usando recursos mínimos e operando de forma independente. A maioria dos modelos de visão computacional é desenvolvida para sistemas de alto desempenho, tornando-os menos adequados para implantação direta em dispositivos de borda.
Para superar essa lacuna, desenvolvedores frequentemente aplicam otimizações direcionadas que adaptam o modelo para rodar eficientemente em hardware menor. Esses ajustes são críticos para implantações de borda no mundo real, onde a memória e o poder de processamento são limitados.
Curiosamente, modelos de visão computacional como o Ultralytics YOLO11 já são projetados pensando na eficiência de borda, tornando-os ótimos para tarefas em tempo real. No entanto, seu desempenho pode ser ainda mais aprimorado usando técnicas de otimização de modelo, como poda e quantização, permitindo inferência ainda mais rápida e menor uso de recursos em dispositivos restritos.
Neste artigo, veremos mais de perto o que são poda e quantização, como funcionam e como podem ajudar os modelos YOLO a performar em implantações de borda do mundo real. Vamos começar!
Link to this sectionPoda e quantização: Técnicas essenciais na otimização de modelos#
Ao preparar modelos de Visão de IA para implantação em dispositivos de borda, um dos objetivos principais é tornar o modelo leve e confiável sem sacrificar o desempenho. Isso geralmente envolve reduzir o tamanho e as demandas computacionais do modelo para que ele possa operar eficientemente em hardware com memória, energia ou capacidade de processamento limitadas. Duas formas comuns de fazer isso são a poda e a quantização.
A poda é uma técnica de otimização de modelo de IA que ajuda a tornar redes neurais menores e mais eficientes. Em muitos casos, partes de um modelo, como certas conexões ou nós, não contribuem muito para suas previsões finais. A poda funciona identificando e removendo essas partes menos importantes, o que reduz o tamanho do modelo e acelera seu desempenho.
Por outro lado, a quantização é uma técnica de otimização que reduz a precisão dos números que um modelo usa. Em vez de depender de números de ponto flutuante de 32 bits de alta precisão, o modelo muda para formatos menores e mais eficientes, como números inteiros de 8 bits. Essa mudança ajuda a reduzir o uso de memória e acelera a inferência, o processo em que o modelo faz previsões.

Fig 2. Um olhar sobre a poda e quantização. (Fonte)
Link to this sectionComo funcionam a poda e a quantização#
Agora que temos uma melhor compreensão do que são poda e quantização, vamos ver como ambas funcionam.
A poda é feita usando um processo conhecido como análise de sensibilidade. Ela identifica quais partes dos modelos de redes neurais, como certos pesos, neurônios ou canais, contribuem menos para a previsão final. Essas partes podem ser removidas com efeito mínimo na precisão. Após a poda, o modelo geralmente é retreinado para ajustar seu desempenho. Esse ciclo pode ser repetido para encontrar o equilíbrio certo entre tamanho e precisão.
Enquanto isso, a quantização de modelo foca em como o modelo lida com os dados. Ela começa com a calibração, onde o modelo roda em dados de amostra para aprender o intervalo de valores que precisa processar. Esses valores são então convertidos de ponto flutuante de 32 bits para formatos de menor precisão, como inteiros de 8 bits.

Fig 3. A quantização ajuda a reduzir o tamanho e a complexidade do modelo. (Fonte)
Existem várias ferramentas disponíveis que facilitam o uso de poda e quantização em projetos de IA no mundo real. A maioria das estruturas de IA, como PyTorch e TensorFlow, inclui suporte nativo para essas técnicas de otimização, permitindo que desenvolvedores as integrem diretamente no processo de implantação do modelo.
Uma vez que um modelo é otimizado, ferramentas como o ONNX Runtime podem ajudar a executá-lo de forma eficiente em várias plataformas de hardware, como servidores, desktops e dispositivos de borda. Além disso, a Ultralytics oferece integrações que permitem que modelos YOLO sejam exportados em formatos adequados para quantização, facilitando a redução do tamanho do modelo e o aumento do desempenho.
Link to this sectionUma visão geral da otimização de modelos YOLO da Ultralytics#
Modelos Ultralytics YOLO, como o YOLO11, são amplamente reconhecidos por sua detecção de objetos rápida e de etapa única, tornando-os ideais para tarefas de visão de IA em tempo real. Eles já são projetados para serem leves e eficientes o suficiente para implantação na borda. No entanto, as camadas responsáveis por processar características visuais, chamadas camadas convolucionais, ainda podem exigir um poder computacional considerável durante a inferência.
Você pode se perguntar: se o YOLO11 já é otimizado para uso na borda, por que ele precisa de mais otimização? Simplificando, nem todos os dispositivos de borda são iguais. Alguns rodam em hardware muito minimalista, como pequenos processadores embarcados que consomem menos energia do que uma lâmpada LED padrão.
Nesses casos, até mesmo um modelo otimizado como o YOLO11 precisa de otimização adicional para garantir um desempenho suave e confiável. Técnicas como poda e quantização ajudam a reduzir o tamanho do modelo e acelerar a inferência sem impactar significativamente a precisão, tornando-as ideais para ambientes tão restritos.
Para facilitar a aplicação dessas técnicas de otimização, a Ultralytics suporta várias integrações que podem ser usadas para exportar modelos YOLO para múltiplos formatos, como ONNX, TensorRT, OpenVINO, CoreML e PaddlePaddle. Cada formato é projetado para funcionar bem com tipos específicos de hardware e ambientes de implantação.
Por exemplo, o ONNX é frequentemente usado em fluxos de trabalho de quantização devido à sua compatibilidade com uma ampla gama de ferramentas e plataformas. O TensorRT, por outro lado, é altamente otimizado para dispositivos NVIDIA e suporta inferência de baixa precisão usando INT8, tornando-o ideal para implantação de alta velocidade em GPUs de borda.
Link to this sectionCasos de uso impactantes da otimização de modelos YOLO da Ultralytics#
À medida que a visão computacional continua a se expandir para várias aplicações no mundo real, modelos YOLO otimizados tornam possível executar tarefas como detecção de objetos, segmentação de instâncias e rastreamento de objetos em hardware menor e mais rápido. A seguir, vamos discutir alguns casos de uso onde a poda e a quantização tornam essas tarefas de visão computacional mais eficientes e práticas.
Link to this sectionMonitoramento inteligente impulsionado pelo YOLO11#
Muitos espaços industriais, bem como áreas públicas, dependem de monitoramento em tempo real para permanecerem seguros. Lugares como estações de trânsito, locais de fabricação e grandes instalações ao ar livre precisam de sistemas de visão de IA que possam detectar pessoas ou veículos de forma rápida e precisa. Frequentemente, esses locais operam com conectividade limitada e restrições de hardware, o que dificulta a implantação de modelos grandes.
Nesses casos, um modelo de visão de IA otimizado como o YOLO11 é uma ótima solução. Seu tamanho compacto e desempenho rápido o tornam perfeito para rodar em dispositivos de borda de baixo consumo, como câmeras embarcadas ou sensores inteligentes. Esses modelos podem processar dados visuais diretamente no dispositivo, permitindo a detecção em tempo real de violações de segurança, acesso não autorizado ou atividade anormal, sem depender de acesso constante à nuvem.

Fig 4. O YOLO11 pode ser usado para monitorar locais públicos como estações de metrô.
Link to this sectionAumentando a segurança em canteiros de obras com o YOLO11#
Canteiros de obras são ambientes dinâmicos e imprevisíveis, cheios de maquinário pesado, trabalhadores em movimento e atividade constante. As condições podem mudar rapidamente devido a cronogramas alteráveis, movimentação de equipamentos ou até mesmo mudanças repentinas no clima. Em um cenário tão dinâmico, a segurança do trabalhador pode parecer um desafio contínuo.
O monitoramento em tempo real desempenha um papel crucial, mas os sistemas tradicionais muitas vezes dependem de acesso à nuvem ou hardware caro que pode não ser prático no local. É aqui que modelos como o YOLO11 podem ser impactantes. O YOLO11 pode ser otimizado para rodar em dispositivos de borda pequenos e eficientes que funcionam diretamente no local, sem a necessidade de uma conexão com a internet.
Por exemplo, considere um grande canteiro de obras, como uma expansão de rodovia que abrange vários hectares. Nesse tipo de configuração, rastrear manualmente cada veículo ou equipamento pode ser difícil e demorado. Um drone equipado com uma câmera e um modelo YOLO11 otimizado pode ajudar ao detectar e seguir automaticamente veículos, monitorar o fluxo de tráfego e identificar problemas de segurança como acesso não autorizado ou comportamento de direção inseguro.

Fig 5. Analisando imagens de drones de um canteiro de obras. (Fonte)
Link to this sectionPrós e contras da poda e quantização na visão computacional#
Aqui estão algumas vantagens principais que métodos de otimização de modelos de visão computacional, como poda e quantização, oferecem:
- Implantação econômica: Modelos menores e mais eficientes podem reduzir a necessidade de hardware caro e de ponta, tornando a IA mais acessível e escalável em diferentes casos de uso.
- Menor latência: Ao simplificar a arquitetura do modelo e reduzir a carga computacional, essas técnicas podem ajudar a obter tempos de resposta mais rápidos em aplicações em tempo real.
- Eficiência energética: Reduzir a carga computacional também diminui o consumo de energia, o que é especialmente útil para sistemas portáteis ou movidos a bateria.
Embora a poda e a quantização ofereçam muitas vantagens, elas também trazem certas compensações que os desenvolvedores devem considerar ao otimizar modelos. Aqui estão algumas limitações a ter em mente:
- Compensações de precisão: Se a poda for muito agressiva ou se for usada quantização de bits muito baixos, a precisão do modelo, medida por métricas como mAP, pode cair.
- Restrições de hardware: Nem todos os dispositivos suportam formatos de menor precisão como o INT8 da mesma forma. Isso pode restringir onde e como um modelo otimizado pode ser implantado.
- Complexidade de implementação: Obter bons resultados geralmente requer ajustes cuidadosos e específicos para o modelo. Os desenvolvedores podem precisar retreinar o modelo e realizar testes extensivos para manter o desempenho enquanto melhoram a eficiência.
Link to this sectionPrincipais pontos#
A poda e a quantização são técnicas úteis que ajudam os modelos YOLO a terem um melhor desempenho em dispositivos de borda. Elas reduzem o tamanho do modelo, diminuem suas necessidades computacionais e aceleram as previsões, tudo sem uma perda perceptível de precisão.
Esses métodos de otimização também dão aos desenvolvedores a flexibilidade de ajustar modelos para diferentes tipos de hardware sem precisar reconstruí-los completamente. Com algum ajuste e teste, torna-se mais fácil aplicar a visão de IA em situações do mundo real.
Junte-se à nossa comunidade em crescimento! Explore nosso repositório no GitHub para saber mais sobre IA. Pronto para começar seus projetos de visão computacional? Confira nossas opções de licenciamento. Descubra IA na agricultura e visão de IA na saúde visitando nossas páginas de soluções!






