Descobre como a Destilação de Conhecimento comprime os modelos de IA para uma inferência mais rápida, maior precisão e eficiência de implementação de dispositivos periféricos.
A destilação de conhecimento é uma técnica de aprendizagem automática (ML) em que um modelo mais pequeno e compacto (o "aluno") é treinado para imitar o comportamento de um modelo maior e mais complexo (o "professor"). O objetivo principal é transferir o "conhecimento" aprendido pelo modelo do professor para o modelo do aluno, permitindo que o aluno atinja um desempenho comparável, mas com requisitos computacionais significativamente mais baixos, como tamanho reduzido e latência de inferência mais rápida. Isto torna os modelos complexos de aprendizagem profunda (DL) práticos para implantação em ambientes com recursos limitados, como dispositivos móveis ou plataformas de computação de ponta. O conceito foi popularizado por Geoffrey Hinton e colegas no seu artigo"Distilling the Knowledge in a Neural Network".
O processo envolve normalmente um modelo de professor pré-treinado, que pode ser um único modelo poderoso ou um conjunto de modelos conhecidos pela sua elevada precisão. O modelo do aluno, normalmente com menos parâmetros ou uma arquitetura menos profunda (por exemplo, uma rede neural convolucional (CNN) mais pequena), é então treinado utilizando os resultados do modelo do professor como orientação. Em vez de utilizar apenas os rótulos rígidos (a verdade fundamental) dos dados de treino, o aluno aprende frequentemente com os "alvos suaves" do professor - as distribuições de probabilidade completas previstas pelo professor em todas as classes. Estes alvos suaves contêm informações mais ricas sobre como o modelo do professor generaliza e representa as semelhanças entre as classes. Uma função de perda especial, muitas vezes chamada de perda de destilação, é usada para minimizar a diferença entre as previsões do aluno e os alvos suaves do professor, às vezes combinada com uma perda padrão calculada usando os rótulos reais.
A destilação do conhecimento oferece várias vantagens importantes:
A destilação de conhecimentos é amplamente utilizada em vários domínios:
A destilação de conhecimentos está relacionada com outras técnicas de otimização de modelos, mas é distinta destas:
A destilação do conhecimento é uma ferramenta poderosa para tornar os modelos de IA de última geração mais acessíveis e eficientes, colmatando a lacuna entre os modelos de investigação em grande escala e a implementação prática de modelos no mundo real. Plataformas como o Ultralytics HUB facilitam o treinamento e a implantação de modelos potencialmente destilados, como o YOLOv8 ou YOLO11.