Glossário

Treinamento Sensível à Quantização (QAT)

Otimize modelos de IA para dispositivos edge com o Treinamento Sensível à Quantização (QAT), garantindo alta precisão e eficiência em ambientes com recursos limitados.

O Treino Sensível à Quantização (QAT) é uma técnica avançada de otimização de modelos que prepara uma rede neural (NN) para implantação com menor precisão numérica. Ao contrário do treino padrão que usa números de ponto flutuante de 32 bits (FP32), o QAT simula os efeitos de cálculos de inteiros de 8 bits (INT8) durante o processo de treino ou ajuste fino. Ao tornar o modelo "consciente" dos erros de quantização que encontrará durante a inferência, o QAT permite que o modelo ajuste os seus pesos para minimizar a potencial perda de precisão. Isto resulta num modelo compacto e eficiente que mantém um alto desempenho, tornando-o ideal para implantação em hardware com recursos limitados.

Como funciona o Treinamento Sensível à Quantização

O processo QAT normalmente começa com um modelo FP32 pré-treinado. Nós de quantização "falsos" são inseridos na arquitetura do modelo, que imitam o efeito de converter valores de ponto flutuante em inteiros de precisão inferior e vice-versa. O modelo é então retreinado em um conjunto de dados de treinamento. Durante esta fase de retreinamento, o modelo aprende a se adaptar à perda de informação associada à quantização através da retropropagação padrão. Isso permite que o modelo encontre um conjunto de pesos mais robusto e menos sensível à precisão reduzida. Frameworks líderes de aprendizado profundo, como PyTorch e TensorFlow, oferecem ferramentas e APIs robustas para implementar fluxos de trabalho QAT.

QAT vs. Quantização Pós-Treino

O QAT é frequentemente comparado com a Quantização Pós-Treino (PTQ), outro método comum de quantização de modelos. A principal diferença reside em quando a quantização é aplicada.

Quantização Pós-Treinamento (QPT): Este método é aplicado após o modelo ter sido totalmente treinado. É um processo mais simples e rápido que não requer retreinamento ou acesso aos dados de treinamento originais. No entanto, às vezes pode levar a uma queda significativa na precisão do modelo, especialmente para modelos sensíveis.
Treinamento com reconhecimento de quantização (QAT): Este método integra a quantização no loop de treinamento. Embora seja mais intensivo em termos computacionais e exija acesso aos dados de treinamento, o QAT quase sempre resulta em maior precisão para o modelo quantizado final em comparação com o PTQ. É o método preferido quando maximizar o desempenho é fundamental.

Aplicações Reais do QAT

O Treinamento Sensível à Quantização (QAT) é vital para implementar modelos de IA sofisticados em ambientes com recursos limitados, onde a eficiência é fundamental.

Visão Computacional On-Device: Executar modelos complexos de visão computacional, como o Ultralytics YOLOv8, diretamente em smartphones para aplicações como detecção de objetos em tempo real em aplicativos de realidade aumentada ou classificação de imagens em ferramentas de gerenciamento de fotos. O QAT permite que esses modelos sejam executados de forma eficiente, sem consumo significativo de bateria ou latência.
Edge AI em Automotivo e Robótica: Implementar modelos para tarefas como detecção de pedestres ou assistência de manutenção de faixa em veículos autônomos ou para manipulação de objetos em robótica. O QAT permite que esses modelos sejam executados em hardware especializado, como Google Edge TPUs ou NVIDIA Jetson, garantindo baixa latência de inferência para decisões críticas em tempo real. Isso é crucial para aplicações como sistemas de alarme de segurança ou gestão de estacionamento.

Relação com Outras Técnicas de Otimização

O QAT é uma das várias técnicas para otimização de implantação de modelos e é frequentemente usado em conjunto com outras para máxima eficiência.

Poda de Modelo: Envolve a remoção de conexões redundantes ou não importantes da rede. Um modelo pode ser podado primeiro e, em seguida, passar por QAT para obter uma compressão ainda maior.
Destilação de Conhecimento: Treina um modelo "estudante" menor para imitar um modelo "professor" maior. O modelo estudante resultante pode então ser otimizado ainda mais usando QAT.

A Ultralytics oferece suporte à exportação de modelos para vários formatos, como ONNX, TensorRT e TFLite, que são compatíveis com fluxos de trabalho QAT, permitindo a implantação eficiente em diversos hardwares de empresas como Intel e NVIDIA. Você pode gerenciar e implantar seus modelos otimizados para QAT usando plataformas como o Ultralytics HUB. Avaliar o desempenho do modelo usando métricas relevantes após o QAT é essencial para garantir que os requisitos de precisão sejam atendidos.

Treinamento Sensível à Quantização (QAT)

Treine modelos Ultralytics YOLO para otimizar fluxos de trabalho em todos os setores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Como funciona o Treinamento Sensível à Quantização

QAT vs. Quantização Pós-Treino

Aplicações Reais do QAT

Relação com Outras Técnicas de Otimização

Leia mais nesta categoria

Implantar modelos YOLO do Ultralytics usando a integração do ExecuTorch

Principais destaques da Ultralytics na Conferência PyTorch 2025

Utilizar a aprendizagem auto-supervisionada para eliminar o ruído das imagens

Junte-se à comunidade Ultralytics