Otimize modelos de IA para dispositivos edge com o Treinamento Sensível à Quantização (QAT), garantindo alta precisão e eficiência em ambientes com recursos limitados.
O Treino Sensível à Quantização (QAT) é uma técnica avançada de otimização de modelos que prepara uma rede neural (NN) para implantação com menor precisão numérica. Ao contrário do treino padrão que usa números de ponto flutuante de 32 bits (FP32), o QAT simula os efeitos de cálculos de inteiros de 8 bits (INT8) durante o processo de treino ou ajuste fino. Ao tornar o modelo "consciente" dos erros de quantização que encontrará durante a inferência, o QAT permite que o modelo ajuste os seus pesos para minimizar a potencial perda de precisão. Isto resulta num modelo compacto e eficiente que mantém um alto desempenho, tornando-o ideal para implantação em hardware com recursos limitados.
O processo QAT normalmente começa com um modelo FP32 pré-treinado. Nós de quantização "falsos" são inseridos na arquitetura do modelo, que imitam o efeito de converter valores de ponto flutuante em inteiros de precisão inferior e vice-versa. O modelo é então retreinado em um conjunto de dados de treinamento. Durante esta fase de retreinamento, o modelo aprende a se adaptar à perda de informação associada à quantização através da retropropagação padrão. Isso permite que o modelo encontre um conjunto de pesos mais robusto e menos sensível à precisão reduzida. Frameworks líderes de aprendizado profundo, como PyTorch e TensorFlow, oferecem ferramentas e APIs robustas para implementar fluxos de trabalho QAT.
O QAT é frequentemente comparado com a Quantização Pós-Treino (PTQ), outro método comum de quantização de modelos. A principal diferença reside em quando a quantização é aplicada.
O Treinamento Sensível à Quantização (QAT) é vital para implementar modelos de IA sofisticados em ambientes com recursos limitados, onde a eficiência é fundamental.
O QAT é uma das várias técnicas para otimização de implantação de modelos e é frequentemente usado em conjunto com outras para máxima eficiência.
A Ultralytics oferece suporte à exportação de modelos para vários formatos, como ONNX, TensorRT e TFLite, que são compatíveis com fluxos de trabalho QAT, permitindo a implantação eficiente em diversos hardwares de empresas como Intel e NVIDIA. Você pode gerenciar e implantar seus modelos otimizados para QAT usando plataformas como o Ultralytics HUB. Avaliar o desempenho do modelo usando métricas relevantes após o QAT é essencial para garantir que os requisitos de precisão sejam atendidos.