Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Ajuste de Prompts (Prompt Tuning)

Explore o ajuste rápido para adaptar com eficiência os modelos básicos sem necessidade de retreinamento completo. Saiba como os prompts suaves reduzem a latência e o armazenamento para tarefas de IA como o YOLO26.

O ajuste rápido é uma técnica eficiente em termos de recursos, utilizada para adaptar modelos básicos pré-treinados a tarefas específicas a jusante, sem a despesa computacional de retreinar toda a rede. Ao contrário do ajuste fino tradicional, que atualiza todos ou a maioria dos parâmetros de um modelo, o ajuste rápido congela os pesos do modelo pré-treinado e otimiza apenas um pequeno conjunto de vetores aprendíveis — chamados de "soft prompts" — que são anexados aos dados de entrada. Essa abordagem permite que uma única estrutura robusta atenda a várias aplicações especializadas simultaneamente, reduzindo significativamente os requisitos de armazenamento e os custos de comutação de latência de inferência.

A mecânica do ajuste rápido

Nos fluxos de trabalho padrão de aprendizagem automática (ML), entradas como texto ou imagens são convertidas em representações numéricas conhecidas como embeddings. O ajuste de prompts insere vetores de embedding adicionais e treináveis nessa sequência de entrada. Durante a fase de treinamento, o sistema usa retropropagação para calcular gradientes, mas o algoritmo de otimização atualiza apenas os valores dos prompts suaves, deixando a estrutura massiva do modelo inalterada.

Este método é uma forma de Ajuste Fino Eficiente de Parâmetros (PEFT). Ao aprender esses vetores contínuos, o modelo é "direcionado" para o resultado desejado. Embora esse conceito tenha se originado no Processamento de Linguagem Natural (NLP), ele foi adaptado com sucesso para tarefas de Visão Computacional (CV), frequentemente referidas como Ajuste Visual Prompt (VPT).

Distinguir conceitos relacionados

Para compreender a utilidade do ajuste rápido, é essencial diferenciá-lo de termos semelhantes no panorama da IA :

  • Engenharia de prompts: isso envolve a criação manual de instruções de texto legíveis por humanos (prompts rígidos) para orientar um modelo de IA generativa. Não requer codificação ou treinamento. O ajuste de prompts, por outro lado, usa aprendizado supervisionado automatizado para encontrar incorporações numéricas ideais que podem não corresponder a palavras da linguagem natural.
  • Ajuste fino completo: os métodos tradicionais atualizam toda a rede neural, o que muitas vezes leva ao "esquecimento catastrófico" do treinamento original. O ajuste rápido preserva as capacidades originais do modelo, facilitando o aproveitamento da aprendizagem por transferência entre tarefas distintas.
  • Aprendizagem com poucos exemplos: isso geralmente se refere ao fornecimento de alguns exemplos na janela de contexto de um LLM. O ajuste de prompt é distinto porque aprende permanentemente parâmetros que são salvos e reutilizados, em vez de apenas fornecer um contexto temporário.

Aplicações no Mundo Real

O ajuste rápido permite a implementação escalável de IA em ambientes com recursos limitados, uma filosofia central partilhada pela Ultralytics para gestão de modelos.

  1. Suporte ao cliente multilíngue: uma empresa global pode usar um modelo de linguagem central e fixo. Ao treinar prompts leves para espanhol, japonês e alemão, o sistema pode alternar entre idiomas instantaneamente. Isso evita o custo enorme de hospedar três modelos separados com tamanho de gigabytes, dependendo, em vez disso, de arquivos de prompt com tamanho de kilobytes .
  2. IA na área da saúde: A imagem médica muitas vezes sofre com a escassez de dados. Os investigadores podem usar uma estrutura de visão de uso geral (como um Vision Transformer) e usar o ajuste rápido para adaptá-la à detecção de anomalias específicas, como doenças da retina ou tumores. Isso mantém a privacidade dos dados dos pacientes e permite uma rápida adaptação a novos equipamentos médicos sem a necessidade de um novo treino completo do modelo.

Exemplo de implementação

O seguinte PyTorch demonstra o conceito mecânico principal : congelar as camadas principais de um modelo e criar um parâmetro separado e treinável (o "soft prompt") que é otimizado para influenciar a saída.

import torch
import torch.nn as nn

# 1. Define a dummy backbone (e.g., a pre-trained layer)
backbone = nn.Linear(10, 5)

# 2. Freeze the backbone weights (crucial for prompt tuning)
for param in backbone.parameters():
    param.requires_grad = False

# 3. Create a 'soft prompt' vector that IS trainable
# This represents the learnable embeddings prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 10), requires_grad=True)

# 4. Initialize an optimizer that targets ONLY the soft prompt
optimizer = torch.optim.SGD([soft_prompt], lr=0.1)

# Verify that only the prompt is being trained
trainable_params = sum(p.numel() for p in [soft_prompt] if p.requires_grad)
print(f"Optimizing {trainable_params} parameters (Soft Prompt only)")

Relevância para a IA de ponta moderna

À medida que os modelos ficam maiores, a capacidade de adaptá-los de forma económica torna-se crítica. Embora arquiteturas como YOLO26 já sejam altamente otimizadas para eficiência, os princípios de congelamento de backbones e adaptação eficiente são fundamentais para o futuro da IA de ponta. Técnicas semelhantes ao ajuste rápido permitem que dispositivos com memória limitada realizem diversas tarefas — desde detecção de objetos até segmentação — simplesmente trocando pequenos ficheiros de configuração, em vez de recarregar redes neurais massivas.

Para os programadores que procuram treinar e implementar com eficiência, a utilização de ferramentas como a Ultralytics garante que os modelos sejam otimizados para os seus alvos de hardware específicos, aproveitando as melhores práticas do moderno MLOps.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora