اكتشف GGUF، التنسيق الفعال لاستدلال نماذج اللغة الكبيرة (LLM) محليًا. تعرف على كيفية تمكينه لتقنية الذكاء الاصطناعي على الأجهزة الاستهلاكية وتكامله مع Ultralytics الجديدة.
يُعد «التنسيق الموحد المُولَّد بواسطة GPT» (GGUF) تنسيق ملفات ثنائي عالي الكفاءة تم تطويره خصيصًا لتخزين وتشغيل نماذج اللغة الكبيرة (LLMs) و غيرها من بنى الذكاء الاصطناعي. تم تقديم GGUF في الأصل بواسطة إطار العمل مفتوح المصدر llama.cpp، وهو يتيح الاستدلال السريع في الوقت الفعلي على أجهزة المستهلكين القياسية، بما في ذلك وحدات المعالجة المركزية القياسية وApple Silicon. من خلال التقليل بشكل كبير من متطلبات الذاكرة عن طريق تكمية النماذج، يجعل هذا التنسيق الذكاء الاصطناعي التوليدي المعقد متاحًا دون الحاجة إلى وحدات معالجة الرسومات (GPU) باهظة الثمن المخصصة للمؤسسات.
عند البحث عن ماهية ملف GGUF، غالبًا ما يقارنه المتخصصون بسابقه، GGML. ورغم أن GGML كان أساسيًا في نقل نماذج اللغة إلى الحافة، إلا أنه واجه صعوبات في التوافق مع الإصدارات السابقة. والفرق الأساسي هو أن GGUF يحل هذه المشكلة من خلال استخدام بنية القيمة-المفتاح للبيانات الوصفية، مما يضمن عدم تعطل التطبيقات القديمة عند إضافة ميزات جديدة للنموذج. تتيح هذه الميزة الهيكلية نشر النموذج بسلاسة عبر بيئات متنوعة، تمامًا كما يقيّم المهندسون خيارات نشر النماذج المختلفة لضمان الاستقرار في أنظمة الإنتاج.
أصبحت مبادرة GGUF بسرعة معيارًا لتطوير الذكاء الاصطناعي على المستوى المحلي. وفيما يلي طريقتان ملموستان لاستخدامها حاليًا:
يعد تحميل ملف GGUF والتفاعل معه برمجياً أمراً سهلاً باستخدام python . وعلى غرار الطريقة التي يتم بها تهيئة نموذج رؤية حاسوبية متطور مثل Ultralytics باستخدام محرك استدلال مخصص، يمكن تحميل نماذج GGUF مباشرةً إلى الذاكرة لتنفيذ المهام على الفور.
from llama_cpp import Llama
# Load a quantized GGUF model for local CPU or GPU inference
llm = Llama(model_path="./model-q4_k_m.gguf", n_ctx=2048)
# Generate a response based on a prompt
output = llm("What is edge AI?", max_tokens=32)
# Print the generated text
print(output["choices"][0]["text"])
صناعة الذكاء الاصطناعي برمتها، بدءًا من الأبحاث الرائدة في OpenAI و Anthropic إلى مجتمعات المطورين مفتوحة المصدر، تواصل توسيع حدود كفاءة الاستدلال. بالنسبة لأولئك الذين يعملون في كل من الأنماط النصية والمرئية، فإن إدارة هذه النماذج المُحسّنة بشكل مكثف بكفاءة أمر بالغ الأهمية. يضمن استخدام أنظمة MLops الشاملة مثل Ultralytics قدرة المطورين على التعامل مع كل شيء بدءًا من التعليق التلقائي على مجموعات البيانات والتدريب السحابي وصولاً إلى مرحلة النشر النهائية، مما يزيد من أداء تطبيقات الذكاء الاصطناعي المتطورة إلى أقصى حد.
للحصول على مزيد من المعلومات التقنية الأساسية حول كيفية عمل بنى اللغات هذه على نطاق واسع، يُنصح بقراءة صفحة ويكيبيديا الخاصة بنماذج اللغات الكبيرة أو الاطلاع على آليات التقديم المتقدمة الموضحة في الوثائق الرسمية لـ vLLM.
ابدأ رحلتك مع مستقبل تعلم الآلة