Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Treinamento Sensível à Quantização (QAT)

Otimize modelos de IA para dispositivos edge com o Treinamento Sensível à Quantização (QAT), garantindo alta precisão e eficiência em ambientes com recursos limitados.

O treino sensível à quantização (QAT) é uma técnica sofisticada técnica de otimização de modelos de otimização de modelos concebida para preparar redes neuronais para redes neurais para implantação em hardware com recursos computacionais limitados. Enquanto os modelos padrão de modelos de aprendizagem profunda padrão normalmente processam dados usando números de ponto flutuante de 32 bits de alta precisão (FP32), muitos dispositivos de IA de ponta requerem uma precisão inferior, como números inteiros de 8 bits de 8 bits (INT8), para poupar memória e energia. O QAT aborda a queda de precisão frequentemente causada por esta conversão simulando os efeitos da quantização durante a durante a própria fase de treino. Esta abordagem proactiva permite que o modelo que o modelo ajuste os seus pesos para acomodar a perda de de precisão, resultando em modelos altamente eficientes que mantêm o seu desempenho preditivo.

Como funciona o QAT

O mecanismo central do treino sensível à quantização envolve a inserção de nós de quantização "falsos" na na arquitetura do modelo durante o treino. Estes nós modelam os erros de arredondamento e de fixação que ocorrem aquando da conversão de valores valores FP32 para INT8. Durante a passagem para a frente, o modelo funciona como se estivesse quantizado, enquanto a passagem para trás retrocesso - usando retropropagação - actualizaos pesos em alta precisão para compensar os erros simulados.

Este processo afina essencialmente o modelo para que seja robusto contra o ruído introduzido pela precisão reduzida. Os principais como o PyTorch e TensorFlow fornecem APIs APIs especializadas para facilitar este fluxo de trabalho. Ao integrar essas restrições antecipadamente, o modelo final exportado é muito melhor alinhado com os recursos de hardware de destino, como os encontrados em sistemas incorporados.

Diferença da quantização pós-formação

É importante distinguir a QAT da Quantização pós-formação (PTQ), uma vez que têm objectivos objectivos semelhantes, mas diferem na execução:

  • Quantização pós-treinamento (PTQ): Aplicada após o modelo ter sido totalmente treinado. Analisa um pequeno conjunto de dados de calibração para mapear valores de vírgula flutuante para inteiros. Embora rápida e fácil de implementar, a PTQ pode pode, por vezes, levar a uma degradação significativa da precisão em modelos modelos sensíveis.
  • Formação com consciência da quantização (QAT): Incorpora a quantização no processo de formação ou processo de afinação. É mais computacionalmente computacionalmente mais intensivo do que o PTQ, mas normalmente produz uma precisão superior, tornando-o a escolha preferida para modelos de última geração como o Ultralytics YOLO11 em em cenários de missão crítica.

Aplicações no Mundo Real

O QAT é essencial para os sectores em que a latência da inferência e o consumo de energia são factores factores críticos.

  1. Condução autónoma: Os veículos dependem da visão computacional para tarefas como a deteção de peões deteção de peões e seguimento de faixas de rodagem. Esses sistemas geralmente são executados em hardware especializado, como os módulos módulos NVIDIA Jetson. O QAT garante que os modelos permaneçam suficientemente precisos para a segurança e, ao mesmo tempo, sejam suficientemente rápidos para a tomada de decisões em tempo real.
  2. Cuidados de saúde móveis: Os dispositivos de diagnóstico portáteis utilizam frequentemente classificação de imagens para analisar exames exames médicos. Usando o QAT, os desenvolvedores podem implantar modelos robustos de IA em processadores móveis, como chips Qualcomm Snapdragon, permitindo diagnósticos diagnósticos avançados sem esgotar a bateria do dispositivo.

Implementar a quantização com Ultralytics

Embora os pipelines QAT completos envolvam frequentemente configurações de formação específicas, o ultralytics biblioteca simplifica o processo de exportação para produzir modelos quantizados prontos para implantação. O exemplo a seguir demonstra como exportar um modelo YOLO11 para TFLite com quantização INT8, preparando-o para uma execução eficiente na borda.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")

# Export to TFLite with INT8 quantization
# This creates a compact model optimized for edge devices
model.export(format="tflite", int8=True)

Integração com outros métodos de otimização

Para uma eficiência máxima, o QAT é frequentemente combinado com outras técnicas de implantação de modelos. A poda de modelos remove as ligações redundantes antes da antes da quantização, reduzindo ainda mais o tamanho. Além disso, destilação do conhecimento pode ser utilizada para treinar um modelo de aluno compacto, que é depois refinado utilizando o QAT. Os modelos finais quantizados são compatíveis com tempos de execução de alto desempenho, como o ONNX Runtime e o OpenVINOgarantindo uma ampla compatibilidade entre diversas plataformas de hardware de Intel ao Google Coral.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora