Otimize os modelos de IA para dispositivos de borda com o treinamento com reconhecimento de quantização (QAT), garantindo alta precisão e eficiência em ambientes com recursos limitados.
O treinamento com reconhecimento de quantização (QAT) é uma técnica avançada de otimização de modelos que prepara uma rede neural (NN) para implantação com menor precisão numérica. Ao contrário do treinamento padrão que usa números de ponto flutuante de 32 bits (FP32), o QAT simula os efeitos dos cálculos de números inteiros de 8 bits (INT8) durante o processo de treinamento ou ajuste fino. Ao tornar o modelo "consciente" dos erros de quantização que irá encontrar durante a inferência, o QAT permite que o modelo ajuste os seus pesos para minimizar a potencial perda de precisão. Isso resulta em um modelo compacto e eficiente que mantém alto desempenho, tornando-o ideal para implantação em hardware com recursos limitados.
O processo QAT começa normalmente com um modelo FP32 pré-treinado. São inseridos nós de quantização "falsos" na arquitetura do modelo, que imitam o efeito da conversão de valores de vírgula flutuante em inteiros de menor precisão e vice-versa. O modelo é então treinado novamente num conjunto de dados de treino. Durante esta fase de reciclagem, o modelo aprende a adaptar-se à perda de informação associada à quantização através da retropropagação padrão. Isto permite ao modelo encontrar um conjunto mais robusto de pesos que são menos sensíveis à precisão reduzida. As principais estruturas de aprendizagem profunda, como PyTorch e TensorFlow, oferecem ferramentas e APIs robustas para implementar fluxos de trabalho QAT.
A QAT é frequentemente comparada com a Quantização pós-treino (PTQ), outro método comum de quantização de modelos. A principal diferença reside no momento em que a quantização é aplicada.
O treinamento com reconhecimento de quantização é vital para a implantação de modelos sofisticados de IA em ambientes com recursos limitados, onde a eficiência é fundamental.
O QAT é uma das várias técnicas de otimização da implementação de modelos e é frequentemente utilizado em conjunto com outras técnicas para obter a máxima eficiência.
O Ultralytics suporta a exportação de modelos para vários formatos, como ONNX, TensorRT e TFLite, que são compatíveis com fluxos de trabalho QAT, permitindo uma implementação eficiente em diversos hardwares de empresas como Intel e NVIDIA. É possível gerenciar e implantar seus modelos otimizados para QAT usando plataformas como o Ultralytics HUB. Avaliar o desempenho do modelo usando métricas relevantes após o QAT é essencial para garantir que os requisitos de precisão sejam atendidos.