Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

GGUF

اكتشف GGUF، التنسيق الفعال لاستدلال نماذج اللغة الكبيرة (LLM) محليًا. تعرف على كيفية تمكينه لتقنية الذكاء الاصطناعي على الأجهزة الاستهلاكية وتكامله مع Ultralytics الجديدة.

يُعد «التنسيق الموحد المُولَّد بواسطة GPT» (GGUF) تنسيق ملفات ثنائي عالي الكفاءة تم تطويره خصيصًا لتخزين وتشغيل نماذج اللغة الكبيرة (LLMs) و غيرها من بنى الذكاء الاصطناعي. تم تقديم GGUF في الأصل بواسطة إطار العمل مفتوح المصدر llama.cpp، وهو يتيح الاستدلال السريع في الوقت الفعلي على أجهزة المستهلكين القياسية، بما في ذلك وحدات المعالجة المركزية القياسية وApple Silicon. من خلال التقليل بشكل كبير من متطلبات الذاكرة عن طريق تكمية النماذج، يجعل هذا التنسيق الذكاء الاصطناعي التوليدي المعقد متاحًا دون الحاجة إلى وحدات معالجة الرسومات (GPU) باهظة الثمن المخصصة للمؤسسات.

GGUF مقابل GGML

عند البحث عن ماهية ملف GGUF، غالبًا ما يقارنه المتخصصون بسابقه، GGML. ورغم أن GGML كان أساسيًا في نقل نماذج اللغة إلى الحافة، إلا أنه واجه صعوبات في التوافق مع الإصدارات السابقة. والفرق الأساسي هو أن GGUF يحل هذه المشكلة من خلال استخدام بنية القيمة-المفتاح للبيانات الوصفية، مما يضمن عدم تعطل التطبيقات القديمة عند إضافة ميزات جديدة للنموذج. تتيح هذه الميزة الهيكلية نشر النموذج بسلاسة عبر بيئات متنوعة، تمامًا كما يقيّم المهندسون خيارات نشر النماذج المختلفة لضمان الاستقرار في أنظمة الإنتاج.

تطبيقات واقعية

أصبحت مبادرة GGUF بسرعة معيارًا لتطوير الذكاء الاصطناعي على المستوى المحلي. وفيما يلي طريقتان ملموستان لاستخدامها حاليًا:

  • تنفيذ نماذج اللغة الكبيرة (LLM) محليًّا باستخدام Ollama: من حالات الاستخدام الشائعة الاستفادة من GGUF مع Ollama، وهو تطبيق خفيف الوزن يبسط تشغيل النماذج ذات الحجم المفتوح محليًا. من خلال تحميل نموذج GGUF، يمكن للمطورين إنشاء وكلاء محادثة يضعون الخصوصية في المقام الأول ويعملون بشكل كامل دون اتصال بالإنترنت، وهو أمر مفيد للغاية لتطبيقات الحوسبة الطرفية الآمنة.
  • إنشاء الصور عبر ComfyUI: في مجال الذكاء الاصطناعي البصري، اعتمد المجتمع بشكل كبير محمل ComfyUI UNet لـ GGUF لتشغيل نماذج الانتشار الكبيرة . تتيح هذه الابتكار للمبدعين إنشاء صور عالية الجودة على أجهزة المستهلكين ذات ذاكرة VRAM المنخفضة، مما يسد بسلاسة الفجوة بين نماذج التعلم الآلي القائمة على النص وخطوط إنتاج الصور المبنية على مكتبات هيكلية مثل PyTorch و TensorFlow.

التنفيذ التقني ومثال على الكود

يعد تحميل ملف GGUF والتفاعل معه برمجياً أمراً سهلاً باستخدام python . وعلى غرار الطريقة التي يتم بها تهيئة نموذج رؤية حاسوبية متطور مثل Ultralytics باستخدام محرك استدلال مخصص، يمكن تحميل نماذج GGUF مباشرةً إلى الذاكرة لتنفيذ المهام على الفور.

from llama_cpp import Llama

# Load a quantized GGUF model for local CPU or GPU inference
llm = Llama(model_path="./model-q4_k_m.gguf", n_ctx=2048)

# Generate a response based on a prompt
output = llm("What is edge AI?", max_tokens=32)

# Print the generated text
print(output["choices"][0]["text"])

التوقعات المستقبلية والتحسين

صناعة الذكاء الاصطناعي برمتها، بدءًا من الأبحاث الرائدة في OpenAI و Anthropic إلى مجتمعات المطورين مفتوحة المصدر، تواصل توسيع حدود كفاءة الاستدلال. بالنسبة لأولئك الذين يعملون في كل من الأنماط النصية والمرئية، فإن إدارة هذه النماذج المُحسّنة بشكل مكثف بكفاءة أمر بالغ الأهمية. يضمن استخدام أنظمة MLops الشاملة مثل Ultralytics قدرة المطورين على التعامل مع كل شيء بدءًا من التعليق التلقائي على مجموعات البيانات والتدريب السحابي وصولاً إلى مرحلة النشر النهائية، مما يزيد من أداء تطبيقات الذكاء الاصطناعي المتطورة إلى أقصى حد.

للحصول على مزيد من المعلومات التقنية الأساسية حول كيفية عمل بنى اللغات هذه على نطاق واسع، يُنصح بقراءة صفحة ويكيبيديا الخاصة بنماذج اللغات الكبيرة أو الاطلاع على آليات التقديم المتقدمة الموضحة في الوثائق الرسمية لـ vLLM.

لنبني مستقبل الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة