Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

GGUF

Découvrez GGUF, le format performant pour l'inférence LLM en locale. Découvrez comment il permet l'utilisation de l'IA sur du matériel grand public et s'intègre à la nouvelle Ultralytics .

Le GPT-Generated Unified Format (GGUF) est un format de fichier binaire hautement efficace, spécialement conçu pour le stockage et l'exécution de grands modèles linguistiques (LLM) et d'autres architectures d'intelligence artificielle. Initialement introduit par le framework open source llama.cpp, le GGUF permet une inférence rapide en temps réel sur du matériel grand public standard, y compris les processeurs standard et Apple Silicon. En réduisant considérablement les besoins en mémoire grâce à la quantification des modèles, ce format rend l'IA générative complexe accessible sans nécessiter de coûteux GPU de niveau professionnel.

GGUF contre GGML

Lorsqu’ils cherchent à comprendre ce qu’est un fichier GGUF, les professionnels le comparent souvent à son prédécesseur, le GGML. Si le GGML a joué un rôle fondamental dans la mise en œuvre des modèles linguistiques en périphérie, il présentait toutefois des difficultés en matière de rétrocompatibilité. La principale différence réside dans le fait que le GGUF résout ce problème en utilisant une structure clé-valeur pour les métadonnées, garantissant ainsi que, à mesure que de nouvelles fonctionnalités de modèle sont ajoutées, les anciennes applications continuent de fonctionner. Cet avantage structurel permet un déploiement fluide des modèles dans divers environnements, un peu comme lorsque les ingénieurs évaluent différentes options de déploiement de modèles pour garantir la stabilité des systèmes de production.

Applications concrètes

Le GGUF s'est rapidement imposé comme une référence en matière de développement local de l'IA. Voici deux exemples concrets de son utilisation actuelle :

  • Exécution locale de modèles de langage grand format (LLM) avec Ollama: Un cas d'utilisation très répandu consiste à exploiter GGUF avec Ollama, une application légère qui simplifie l'exécution de modèles à poids ouvert en local. En chargeant un modèle GGUF, les développeurs peuvent créer des agents conversationnels axés sur la confidentialité qui fonctionnent entièrement hors ligne, ce qui est très avantageux pour les applications d' edge computing sécurisées.
  • Génération d'images via ComfyUI: Dans le domaine de l'IA visuelle, la communauté a largement adopté le chargeur ComfyUI UNet pour GGUF afin d'exécuter de grands modèles de diffusion . Cette innovation permet aux créateurs de générer des images de haute qualité sur du matériel grand public doté d'une mémoire VRAM réduite, comblant ainsi de manière transparente le fossé entre les modèles d'apprentissage automatique basés sur le texte et les pipelines de génération visuelle bâtis sur des bibliothèques structurelles telles que PyTorch et TensorFlow.

Mise en œuvre technique et exemple de code

Le chargement et l'interaction avec un fichier GGUF par programmation sont très simples grâce à la python . Tout comme on initialiserait un modèle de vision par ordinateur de pointe tel que Ultralytics à l'aide d'un moteur d'inférence dédié, les modèles GGUF peuvent être chargés directement en mémoire pour une exécution immédiate des tâches.

from llama_cpp import Llama

# Load a quantized GGUF model for local CPU or GPU inference
llm = Llama(model_path="./model-q4_k_m.gguf", n_ctx=2048)

# Generate a response based on a prompt
output = llm("What is edge AI?", max_tokens=32)

# Print the generated text
print(output["choices"][0]["text"])

Perspectives d'avenir et optimisation

Le secteur de l'IA dans son ensemble, depuis la recherche de pointe menée chez OpenAI jusqu'à Anthropic aux communautés de développeurs open source, continue de repousser les limites de l'efficacité de l'inférence. Pour ceux qui travaillent à la fois sur les modalités textuelles et visuelles, il est primordial de gérer efficacement ces modèles fortement optimisés. L'utilisation de systèmes MLops de bout en bout comme la Ultralytics permet aux développeurs de tout gérer, de l' annotation automatisée des ensembles de données et de l'entraînement dans le cloud jusqu'à la phase finale de déploiement, optimisant ainsi les performances des applications modernes d'IA en périphérie.

Pour approfondir vos connaissances techniques sur le fonctionnement de ces architectures linguistiques à grande échelle, nous vous invitons à consulter la page Wikipédia consacrée aux grands modèles linguistiques ou à découvrir les mécanismes de mise en service avancés décrits dans la documentation officielle de vLLM.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique