Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Quantização de Modelo

Otimize o desempenho da IA com a quantização de modelo. Reduza o tamanho, aumente a velocidade e melhore a eficiência energética para implementações no mundo real.

A quantização de modelos é uma técnica poderosa de otimização de modelos que reduz a ocupação de memória e o custo computacional de uma rede neural (NN) convertendo seus pesos e ativações de números de ponto flutuante de alta precisão (como float de 32 bits ou FP32) para tipos de dados de menor precisão, como inteiros de 8 bits (INT8). Esse processo torna os modelos significativamente menores e mais rápidos, permitindo sua implantação em hardware com recursos limitados, como telefones celulares e sistemas embarcados. O principal objetivo é melhorar o desempenho, principalmente a latência de inferência, com impacto mínimo na precisão preditiva do modelo.

Como a Quantização de Modelos Funciona

O processo de quantização envolve o mapeamento do intervalo contínuo de valores de ponto flutuante em um modelo treinado para um conjunto menor e discreto de valores inteiros. Essa conversão reduz o número de bits necessários para armazenar cada parâmetro, diminuindo o tamanho geral do modelo. Além disso, os cálculos que usam inteiros de menor precisão são muito mais rápidos em muitas CPUs modernas e aceleradores de IA especializados, como GPUs e TPUs, que possuem instruções dedicadas para aritmética inteira.

Existem dois métodos principais para aplicar a quantização:

  1. Quantização Pós-Treinamento (QPT): Esta é a abordagem mais simples, onde um modelo já treinado é convertido para um formato de menor precisão. É um processo rápido que envolve a análise da distribuição de pesos e ativações em um pequeno conjunto de dados de calibração para determinar o mapeamento ideal de float para inteiro.
  2. Treinamento com Percepção de Quantização (QAT): Neste método, o modelo é treinado ou ajustado finamente enquanto simula os efeitos da quantização. O passo forward do processo de treinamento imita a inferência quantizada, permitindo que o modelo se adapte à precisão reduzida. O QAT geralmente produz maior precisão do que o PTQ porque o modelo aprende a compensar a potencial perda de informação durante a fase de treinamento. Frameworks como PyTorch e TensorFlow fornecem ferramentas robustas para implementar o QAT.

Aplicações no Mundo Real

A quantização é fundamental para executar modelos sofisticados de visão computacional em cenários do mundo real, especialmente em dispositivos de Edge AI.

  • Análise de Imagem no Dispositivo: Muitas aplicações de smartphones usam modelos quantizados para recursos em tempo real. Por exemplo, um aplicativo que fornece detecção de objetos ao vivo através da câmera, como identificar produtos ou pontos de referência, depende de um modelo quantizado como o Ultralytics YOLO11 para ser executado de forma eficiente no hardware do telefone, sem descarregar a bateria ou exigir uma conexão com a nuvem.
  • Automotivo e Robótica: Em veículos autônomos, os modelos para detecção de pedestres e manutenção de faixa devem operar com latência extremamente baixa. A quantização desses modelos permite que eles sejam executados em hardware especializado, como NVIDIA Jetson ou Google Coral Edge TPUs, garantindo que as decisões sejam tomadas em frações de segundo, o que é crucial para a segurança.

Quantização vs. Outras Técnicas de Otimização

A quantização de modelos é frequentemente usada em conjunto com outros métodos de otimização, mas é distinta em sua abordagem.

  • Poda de Modelo: Esta técnica remove conexões (pesos) redundantes ou não importantes dentro da rede neural para reduzir seu tamanho e complexidade. Enquanto a poda torna a rede menor removendo partes dela, a quantização torna as partes restantes mais eficientes, reduzindo sua precisão numérica. Os dois são frequentemente combinados para otimização máxima.
  • Destilação de Conhecimento: Isso envolve treinar um modelo "estudante" menor para imitar um modelo "professor" maior, pré-treinado. O objetivo é transferir o conhecimento do professor para uma arquitetura mais compacta. Isso difere da quantização, que modifica a representação numérica de um modelo existente, em vez de treinar um novo.
  • Precisão Mista: Esta técnica usa uma combinação de diferentes precisões numéricas (por exemplo, FP16 e FP32) durante o treinamento do modelo para acelerar o processo e reduzir o uso de memória. Embora relacionada, é principalmente uma otimização de treinamento, enquanto a quantização é normalmente focada na otimização do modelo para inferência.

Considerações e Suporte

Embora altamente benéfica, a quantização pode potencialmente impactar a precisão do modelo. É essencial realizar uma avaliação completa usando métricas de desempenho relevantes após a quantização para garantir que a compensação de desempenho seja aceitável.

A Ultralytics facilita a implantação de modelos quantizados ao suportar a exportação para formatos que são amigáveis à quantização. Estes incluem ONNX para ampla compatibilidade, OpenVINO para otimização em hardware Intel e TensorRT para alto desempenho em GPUs NVIDIA. Plataformas como o Ultralytics HUB podem ajudar a gerenciar todo o ciclo de vida, desde o treinamento até a implantação de modelos otimizados. Integrações com ferramentas como Neural Magic também aproveitam a quantização e a poda para alcançar o desempenho de classe GPU em CPUs.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência