Afinação eficiente dos parâmetros (PEFT)
Descubra o Parameter-Efficient Fine-Tuning (PEFT) para adaptar grandes modelos de IA com recursos mínimos. Poupe custos, evite o sobreajuste e optimize a implementação!
A afinação eficiente de parâmetros (Parameter-Efficient Fine-Tuning - PEFT) é um conjunto de técnicas utilizadas na aprendizagem automática para adaptar grandes modelos pré-treinados a tarefas novas e específicas, sem necessidade de voltar a treinar todo o modelo. À medida que os modelos de base em domínios como o Processamento de Linguagem Natural (PNL) e a Visão por Computador (CV) aumentam para milhares de milhões de parâmetros, o ajuste fino completo torna-se computacionalmente dispendioso e requer um armazenamento de dados significativo para cada nova tarefa. O PEFT resolve este problema congelando a grande maioria dos pesos do modelo pré-treinado e treinando apenas um pequeno número de parâmetros adicionais ou existentes. Esta abordagem reduz drasticamente os custos computacionais e de armazenamento, diminui o risco de esquecimento catastrófico (em que um modelo esquece as suas capacidades originais) e torna viável a personalização de um único modelo grande para muitas aplicações diferentes.
Como é que o PEFT funciona?
O princípio fundamental do PEFT consiste em efetuar alterações mínimas e específicas a um modelo pré-treinado. Em vez de atualizar todos os parâmetros, os métodos PEFT introduzem um pequeno conjunto de parâmetros treináveis ou selecionam um pequeno subconjunto dos existentes para atualizar durante o treino. Esta é uma forma de aprendizagem por transferência que optimiza a eficiência. Existem vários métodos PEFT populares, cada um com uma estratégia diferente:
- LoRA (Low-Rank Adaptation): Esta técnica injecta pequenas matrizes treináveis de baixa classificação nas camadas do modelo pré-treinado, frequentemente no mecanismo de atenção. Estas matrizes "adaptadoras" são significativamente mais pequenas do que as matrizes de peso originais, tornando o treino rápido e eficiente. O artigo de investigação original do LoRA fornece mais pormenores técnicos.
- Ajuste de prompts: Em vez de modificar a arquitetura do modelo, este método mantém o modelo totalmente congelado e aprende um conjunto de "soft prompts" ou vectores de incorporação treináveis. Estes vectores são adicionados à sequência de entrada para guiar a saída do modelo para uma tarefa específica, tal como detalhado no seu documento de base.
- Ajuste do adaptador: Este método envolve a inserção de pequenos módulos de rede neural totalmente conectados, conhecidos como "adaptadores", entre as camadas do modelo pré-treinado. Apenas os parâmetros desses novos adaptadores são treinados.
Estes e outros métodos estão amplamente acessíveis através de estruturas como a biblioteca Hugging Face PEFT, o que simplifica a sua implementação.
PEFT vs. Conceitos relacionados
É importante distinguir o PEFT de outras estratégias de adaptação de modelos:
- Ajuste fino completo: Em contraste com o PEFT, o ajuste fino completo actualiza todos os pesos de um modelo pré-treinado. Este processo consome muitos recursos, exigindo uma GPU potente e um grande espaço de armazenamento para cada versão do modelo afinado.
- Engenharia de prompts: Esta técnica envolve a conceção manual de avisos eficazes baseados em texto para orientar o comportamento de um modelo. Não envolve qualquer formação ou atualização de parâmetros; trata-se puramente de criar a entrada para obter a saída desejada de um modelo congelado.
- Destilação do conhecimento: Isto envolve o treino de um modelo "aluno" mais pequeno para imitar o comportamento de um modelo "professor" maior e pré-treinado. Embora crie um modelo mais pequeno, o processo em si pode ser computacionalmente intensivo.
Aplicações no mundo real
O PEFT permite a aplicação prática de grandes modelos em vários domínios:
- Processamento de linguagem natural (NLP): Uma empresa pode usar o PEFT para adaptar um modelo de uso geral como o GPT-4 ou o BERT para criar um chatbot especializado para a sua base de conhecimento interna. Em vez de uma formação completa e dispendiosa, pode utilizar um método como o LoRA para ensinar ao modelo a terminologia e os procedimentos específicos da empresa, o que resulta em respostas mais exactas para o serviço de apoio ao cliente ou para o apoio interno. Grupos de investigação como o Stanford NLP Group exploram este tipo de aplicações.
- Visão computacional (CV): O PEFT pode personalizar grandes modelos de visão, como os modelos Vision Transformers (ViT) ou Ultralytics YOLO, para tarefas específicas de reconhecimento visual. Por exemplo, um modelo pré-treinado no vasto conjunto de dados COCO pode ser adaptado utilizando o PEFT para a deteção precisa de objectos com defeitos únicos no controlo de qualidade de fabrico, para a segmentação especializada de imagens para análise de imagens médicas ou para a identificação de determinadas espécies animais em armadilhas fotográficas de conservação da vida selvagem. Plataformas como o Ultralytics HUB podem ajudar a gerir estes modelos e experiências adaptados.
Essencialmente, a afinação eficiente de parâmetros torna os modelos de IA de última geração mais versáteis e rentáveis de adaptar, democratizando o acesso a poderosas capacidades de IA para uma vasta gama de aplicações específicas.