Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réglage d'invite

Optimisez efficacement les grands modèles linguistiques grâce au réglage d'invite : réduisez les coûts, économisez les ressources et obtenez une adaptabilité spécifique aux tâches sans effort.

Le réglage rapide est une stratégie qui permet d'adapter les modèles de base pré-entraînés à des tâches spécifiques en aval. à des tâches spécifiques en aval, sans frais de calcul sans les coûts de calcul liés au réentraînement de l'ensemble du réseau. En tant que forme de d 'ajustement fin efficace des paramètres (PEFT), cette technique fige les paramètres massifs du modèle original et n'optimise qu'un petit ensemble de vecteurs pouvant être appris, connus sous le nom de "soft prompts" (invites douces ). d'apprentissage connus sous le nom de "soft prompts". Contrairement au texte lisible par l'homme utilisé dans l'ingénierie des messages-guides, les messages-guides souples sont des numériques qui sont ajoutés aux données d'entrée. Ces vecteurs Ces vecteurs appris guident le modèle figé pour générer la sortie souhaitée, ce qui réduit considérablement les exigences en matière de stockage et de mémoire par rapport à l'apprentissage d'un modèle complet. de stockage et de mémoire par rapport à l'apprentissage d'un modèle complet. Cette approche permet de réaliser de nombreuses tâches spécialisées différentes à l'aide d'un modèle central unique et partagé.

Fonctionnement du Prompt Tuning

Le mécanisme qui sous-tend le réglage rapide repose sur le concept de modification de l'entrée plutôt que de l'architecture du modèle. Dans un flux de travail typique d'apprentissage machine (ML) impliquant de grands modèles de langage (LLM ) ou des Vision Language Models, le texte ou l'image d'entrée est converti en une séquence de vecteurs numériques. Dans l'ajustement de l'invite, des vecteurs (l'invite douce) sont insérés au début de cette séquence.

Pendant la phase de formation par rétropropagation, l'algorithme de descente de gradient ne met à jour que ces nouvelles données. l'algorithme de descente de gradient ne met à jour que ces nouveaux vecteurs, laissant intacts les milliards de poids du modèle dans le l'épine dorsale. Cette méthode a été mise en évidence dans des recherches menées par Google AI, qui a démontré que lorsque les modèles deviennent plus volumineux, un réglage rapide peut égaler les performances d'un réglage fin complet.

Applications concrètes

La mise au point rapide transforme les industries en rendant l'intelligence artificielle (IA) plus efficace. l'Intelligence Artificielle (IA) avancée accessible et évolutive.

  • Support client personnalisé: Les grandes entreprises ont souvent besoin de déployer des chatbots pour différents services (par exemple, facturation, facturation, support technique, ventes). Au lieu d'héberger de grands modèles distincts pour chaque fonction, elles peuvent utiliser un seul modèle congelé de style GPT-4 et passer d'un logiciel léger à un autre. modèle figé de type GPT-4 et basculer entre des invites légères et souples formées sur des modèles spécifiques à chaque service. légers formés sur des bases de connaissances de connaissances spécifiques à chaque service. Cela permet de réduire la latence d'inférence et les coûts d'infrastructure. la latence de l'inférence et les coûts d'infrastructure.
  • Analyse médicale spécialisée: En l 'IA dans les soins de santé, la protection de la vie privée et la rareté des données sont des défis à relever. des données. Les hôpitaux peuvent prendre un modèle d'analyse d'images modèle d'analyse d'images médicales à usage général et de petites invites douces pour des conditions spécifiques telles que des tumeurs rares. Cela permet de préserver les capacités de diagnostic général du modèle de base tout en s'adaptant à des tâches spécifiques, en utilisant les données de l'IA. de diagnostic générales du modèle de base tout en s'adaptant à des tâches de niche, en utilisant efficacement les principes de l'apprentissage par transfert. les principes de l'apprentissage par transfert.

Différencier le Prompt Tuning des termes apparentés

Il est essentiel de distinguer le prompt tuning des techniques d'adaptation similaires :

  • Prompt Engineering: Il s'agit d'élaborer manuellement des entrées textuelles (hard prompts) pour guider un modèle. Elle ne nécessite pas de formation ni de mise à jour des paramètres. de paramètres. En revanche, l'ajustement des invites est un processus automatisé qui apprend à intégrer des données numériques optimales par le biais de l'apprentissage supervisé. l 'apprentissage supervisé.
  • Mise au point: Le réglage fin traditionnel met à jour tous les paramètres du modèle ou la plupart d'entre eux, ce qui nécessite une copie du modèle pour chaque tâche. tâche. La mise au point rapide maintient l'épine dorsale gelée, ce qui économise de l'espace de stockage. stockage.
  • LoRA (Low-Rank Adaptation): Bien qu'il s'agisse dans les deux cas de méthodes PEFT, LoRA injecte des matrices de faible rang entraînables dans les couches internes du modèle (souvent le mécanisme d'attention). (souvent le mécanisme d'attention), alors que l'adaptation se concentre exclusivement sur la couche d'intégration d'entrée.

Concept de mise en œuvre

Le prompt tuning est surtout connu dans le domaine du traitement du langage naturel (NLP). traitement du langage naturel (NLP), le concept mécanique sous-jacent - geler une grande colonne vertébrale et optimiser un petit tensoruniversel dans l'apprentissage profond (DL). apprentissage profond (DL). Les éléments suivants PyTorch suivant démontre la logique fondamentale du gel des paramètres du modèle et de la création d'un paramètre d'invite pouvant être appris. gel des paramètres du modèle et de la création d'un paramètre d'apprentissage rapide.

import torch
import torch.nn as nn

# Initialize a hypothetical pre-trained layer (the frozen backbone)
backbone = nn.Linear(768, 10)

# Freeze the backbone parameters so they don't update during training
for param in backbone.parameters():
    param.requires_grad = False

# Create a 'soft prompt' embedding that IS trainable
# This represents the learnable vectors prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 768), requires_grad=True)

# Setup an optimizer that only targets the soft prompt
optimizer = torch.optim.Adam([soft_prompt], lr=0.001)

Ce code illustre la manière dont les développeurs peuvent contrôler les parties d'un système qui apprennent, un aspect clé de l'optimisation des réseaux neuronaux. réseaux neuronaux. Pour les tâches standard de vision des modèles efficaces comme Ultralytics YOLO11 sont généralement formés à l'aide d'un réglage fin standard sur des ensembles de données personnalisés, mais les principes d'efficacité guident le développement d'architectures futures telles que YOLO26.

Pertinence pour la vision par ordinateur

Le réglage rapide devient de plus en plus pertinent dans le domaine de la vision par ordinateur (VPI) avec l'essor des modèles multimodaux tels que CLIP. Les chercheurs Les chercheurs explorent le "Visual Prompt Tuning" où des patchs de pixels ou des jetons apprenables sont ajoutés aux images d'entrée afin d'adapter les transformateurs de vision à de nouvelles tâches de détection d'objets. transformateurs de vision à de nouvelles tâches de détection d'objets sans avoir à réapprendre les lourds extracteurs de caractéristiques. Cela reflète les gains d'efficacité observés dans les modèles de langage et s'aligne sur la tendance de l'industrie en faveur de l'utilisation de la technologie de l'information. de l'industrie en faveur de l'IA verte. l'IA verte en en minimisant la consommation d'énergie pendant la formation.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant