Améliorez l'efficacité de l'IA grâce à la mise en cache rapide ! Apprenez à réduire la latence, à diminuer les coûts et à faire évoluer les applications d'IA grâce à cette technique puissante.
La mise en cache des invites est une technique d'optimisation utilisée principalement avec les grands modèles de langage (LLM) pour accélérer le processus d'inférence. Elle consiste à stocker les résultats de calcul intermédiaires, en particulier les états clé-valeur (KV) dans le mécanisme d'attention, d'une partie initiale d'une invite. Lorsqu'une nouvelle invite partage le même début (préfixe), le modèle peut réutiliser ces états mis en cache au lieu de les recalculer, ce qui réduit considérablement la latence et la charge de calcul nécessaire pour générer une réponse. Ceci est particulièrement efficace dans les applications impliquant l'IA conversationnelle ou les requêtes répétitives.
Lorsqu'un LLM traite une séquence de texte, telle qu'une phrase ou un paragraphe, il calcule les scores d'attention pour chaque token dans sa fenêtre contextuelle. Il s'agit d'une partie du processus coûteuse en termes de calcul, en particulier pour les messages-guides longs. L'idée centrale de la mise en cache de l'invite, souvent appelée mise en cache KV, est d'éviter le travail redondant. Si le modèle a déjà traité la phrase "Traduisez le texte anglais suivant en français :", il stocke l'état interne résultant. Lorsqu'il reçoit ultérieurement l'invite "Traduisez le texte anglais suivant en français : 'Hello, world!'", il peut charger l'état mis en cache pour la phrase initiale et commencer son calcul uniquement pour la nouvelle partie, "'Hello, world!'". Le processus de génération de texte est ainsi beaucoup plus rapide pour les demandes similaires ultérieures. Les systèmes tels que vLLM sont conçus pour gérer efficacement ce processus, améliorant ainsi le débit global.
La mise en cache des invites est une optimisation cruciale pour de nombreux systèmes d'intelligence artificielle dans le monde réel, car elle améliore l'expérience de l'utilisateur en fournissant des réponses plus rapides.
Il est utile de distinguer la mise en cache rapide d'autres techniques apparentées :
Bien que la mise en cache des messages soit principalement associée aux LLM, le principe sous-jacent de la mise en cache des calculs pourrait potentiellement s'appliquer à des modèles multimodaux complexes dans lesquels les messages textuels interagissent avec d'autres modalités. Cependant, il est moins courant dans les tâches standard de vision par ordinateur (VA) telles que la détection d'objets à l'aide de modèles tels que Ultralytics YOLO. Des plateformes comme Ultralytics HUB rationalisent le déploiement et la gestion des modèles d'IA, où des optimisations comme la mise en cache peuvent être cruciales pour les performances dans les environnements de production.