تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
الذكاء الاصطناعي المرئي

Google PaliGemma 2: رؤى حول نماذج VLM المتقدمة

انضم إلينا بينما نلقي نظرة فاحصة على نماذج لغة الرؤية الجديدة من Google: PaliGemma 2. يمكن أن تساعد هذه النماذج في فهم وتحليل كل من الصور والنصوص.

أبأبيرامي فينا
4 min read
نموذج لغة الرؤية PaliGemma 2 من Google

في 5 ديسمبر 2024، قدمت Google نموذج PaliGemma 2، وهو أحدث إصدار من نموذج الرؤية واللغة (VLM) المتطور الخاص بها. صُمم PaliGemma 2 للتعامل مع المهام التي تجمع بين الصور والنصوص، مثل إنشاء التسميات التوضيحية، والإجابة على الأسئلة المرئية، واكتشاف الكائنات في العناصر المرئية.

بناءً على نموذج PaliGemma الأصلي، الذي كان بالفعل أداة قوية لإنشاء التسميات التوضيحية متعددة اللغات والتعرف على الكائنات، يقدم PaliGemma 2 العديد من التحسينات الرئيسية. وتشمل هذه التحسينات أحجام نماذج أكبر، ودعماً للصور ذات الدقة الأعلى، وأداءً أفضل في المهام المرئية المعقدة. تجعل هذه الترقيات النموذج أكثر مرونة وفعالية لمجموعة واسعة من الاستخدامات.

في هذه المقالة، سنلقي نظرة فاحصة على PaliGemma 2، بما في ذلك كيفية عمله، وميزاته الرئيسية، والتطبيقات التي يتفوق فيها. لنبدأ!

Link to this sectionمن Gemma 2 إلى PaliGemma 2#

تم بناء PaliGemma 2 على تقنيتين رئيسيتين: مشفر الرؤية SigLIP ونموذج اللغة Gemma 2. يقوم مشفر SigLIP بمعالجة البيانات المرئية، مثل الصور أو مقاطع الفيديو، وتقسيمها إلى ميزات يمكن للنموذج تحليلها. وفي الوقت نفسه، يتعامل Gemma 2 مع النصوص، مما يمكن النموذج من فهم اللغة متعددة اللغات وتوليدها. معاً، يشكلان نموذج VLM مصمماً لتفسير وربط المعلومات المرئية والنصية بسلاسة.

ما يجعل PaliGemma 2 خطوة كبيرة إلى الأمام هو قابليته للتوسع وتعدد استخداماته. على عكس الإصدار الأصلي، يأتي PaliGemma 2 بثلاثة أحجام - 3 مليار (3B)، و10 مليار (10B)، و28 مليار (28B) من المعلمات. هذه المعلمات تشبه الإعدادات الداخلية للنموذج، مما يساعده على التعلم ومعالجة البيانات بفعالية. كما أنه يدعم دقات صور مختلفة (على سبيل المثال، 224 × 224 بكسل للمهام السريعة و896 × 896 للتحليل التفصيلي)، مما يجعله قابلاً للتكيف مع تطبيقات متنوعة.

نظرة عامة على PaliGemma 2

الشكل 1. نظرة عامة على PaliGemma 2.

إن دمج قدرات اللغة المتقدمة في Gemma 2 مع معالجة الصور في SigLIP يجعل PaliGemma 2 أكثر ذكاءً بشكل ملحوظ. يمكنه التعامل مع مهام مثل:

  • كتابة التسميات التوضيحية للصور أو مقاطع الفيديو: يمكن للنموذج إنشاء أوصاف نصية تفصيلية للعناصر المرئية، مما يجعله مفيداً لإنشاء التسميات التوضيحية تلقائياً.
  • الإجابة على الأسئلة المرئية: يمكن لـ PaliGemma 2 الإجابة على الأسئلة بناءً على الصور، مثل تحديد الكائنات، أو الأشخاص، أو الإجراءات في المشهد.
  • التعرف على الكائنات: يقوم بتحديد وتصنيف الكائنات داخل الصورة، مثل التمييز بين قطة، أو طاولة، أو سيارة في صورة.

يتجاوز PaliGemma 2 معالجة الصور والنصوص بشكل منفصل - فهو يجمعهما معاً بطرق ذات مغزى. على سبيل المثال، يمكنه فهم العلاقات في المشهد، مثل التعرف على أن "القطة تجلس على الطاولة"، أو تحديد الكائنات مع إضافة سياق، مثل التعرف على معلم شهير.

Link to this sectionكيف تعمل نماذج VLM من نوع PaliGemma 2 من Google#

بعد ذلك، سنستعرض مثالاً باستخدام الرسم البياني الموضح في الصورة أدناه للحصول على فهم أفضل لكيفية معالجة PaliGemma 2 للبيانات المرئية والنصية. لنفترض أنك قمت بتحميل هذا الرسم البياني وسألت النموذج، "ما الذي يمثله هذا الرسم البياني؟"

مثال على قدرات PaliGemma 2

الشكل 2. مثال على قدرات PaliGemma 2.

تبدأ العملية باستخدام مشفر الرؤية SigLIP الخاص بـ PaliGemma 2 لتحليل الصور واستخراج الميزات الرئيسية. بالنسبة للرسم البياني، يتضمن ذلك تحديد عناصر مثل المحاور، ونقاط البيانات، والتسميات. تم تدريب المشفر لالتقاط كل من الأنماط الواسعة والتفاصيل الدقيقة. كما يستخدم التعرف الضوئي على الحروف (OCR) لاكتشاف ومعالجة أي نص مضمن في الصورة. يتم تحويل هذه الميزات المرئية إلى رموز (tokens)، وهي تمثيلات رقمية يمكن للنموذج معالجتها. يتم بعد ذلك ضبط هذه الرموز باستخدام طبقة إسقاط خطي، وهي تقنية تضمن إمكانية دمجها بسلاسة مع البيانات النصية.

في الوقت نفسه، يقوم نموذج اللغة Gemma 2 بمعالجة الاستعلام المرافق لتحديد معناه وقصده. يتم تحويل النص من الاستعلام إلى رموز، ويتم دمجها مع الرموز المرئية من SigLIP لإنشاء تمثيل متعدد الوسائط، وهو تنسيق موحد يربط البيانات المرئية والنصية.

باستخدام هذا التمثيل المتكامل، يقوم PaliGemma 2 بتوليد استجابة خطوة بخطوة من خلال فك التشفير التلقائي (autoregressive decoding)، وهي طريقة يتنبأ فيها النموذج بجزء واحد من الإجابة في كل مرة بناءً على السياق الذي عالجه بالفعل.

Link to this sectionالقدرات الرئيسية لـ PaliGemma 2#

الآن بعد أن فهمنا كيفية عمله، دعنا نستكشف الميزات الرئيسية التي تجعل من PaliGemma 2 نموذج رؤية ولغة موثوقاً:

  • مرونة الضبط الدقيق: يتكيف بسهولة مع مجموعات البيانات والمهام المحددة، ويحقق أداءً جيداً في تطبيقات مثل كتابة التسميات التوضيحية للصور، والاستدلال المكاني، والتصوير الطبي.
  • بيانات تدريب متنوعة: تم تدريبه على مجموعات بيانات مثل WebLI وOpenImages، مما يمنحه قدرات قوية في التعرف على الكائنات وقدرات مخرجات متعددة اللغات.
  • تكامل OCR: يتضمن التعرف الضوئي على الحروف لاستخراج النص وتفسيره من الصور، مما يجعله مثالياً لتحليل المستندات والمهام الأخرى القائمة على النصوص.
  • مخرجات متعددة اللغات: ينشئ تسميات توضيحية واستجابات بلغات متعددة، وهو مثالي للتطبيقات العالمية.
  • التكامل مع الأدوات: يتوافق مع أطر العمل مثل Hugging Face Transformers وPyTorch وKeras، مما يتيح سهولة النشر والتجريب.

Link to this sectionمقارنة بين PaliGemma 2 وPaliGemma: ما الذي تم تحسينه؟#

إلقاء نظرة على بنية الإصدار الأول من PaliGemma هو طريقة جيدة لرؤية تحسينات PaliGemma 2. أحد أكثر التغييرات وضوحاً هو استبدال نموذج اللغة Gemma الأصلي بـ Gemma 2، والذي يجلب تحسينات كبيرة في كل من الأداء والكفاءة.

تم تصميم Gemma 2، المتوفر بأحجام 9B و27B من المعلمات، لتقديم دقة وسرعة رائدتين في فئته مع تقليل تكاليف النشر. يحقق ذلك من خلال بنية معاد تصميمها ومحسّنة لكفاءة الاستدلال عبر إعدادات أجهزة متنوعة، من GPUs القوية إلى التكوينات الأكثر سهولة.

نظرة على الإصدار الأول من PaliGemma

الشكل 3. نظرة على الإصدار الأول من PaliGemma 2.

ونتيجة لذلك، فإن PaliGemma 2 هو نموذج دقيق للغاية. يحقق إصدار 10B من PaliGemma 2 درجة NES (Non-Entailment Sentence) أقل تبلغ 20.3، مقارنة بـ 34.3 للنموذج الأصلي، مما يعني أخطاء واقعية أقل في مخرجاته. تجعل هذه التطورات PaliGemma 2 أكثر قابلية للتوسع والدقة والتكيف مع مجموعة واسعة من التطبيقات، بدءاً من التسميات التوضيحية التفصيلية إلى الإجابة على الأسئلة المرئية.

Link to this sectionتطبيقات PaliGemma 2: استخدامات واقعية لنماذج VLM#

لدى PaliGemma 2 القدرة على إعادة تعريف الصناعات من خلال الجمع بين الفهم المرئي واللغوي بسلاسة. على سبيل المثال، فيما يتعلق بـ إمكانية الوصول، يمكنه إنشاء أوصاف تفصيلية للكائنات والمشاهد والعلاقات المكانية، مما يوفر مساعدة حاسمة للأفراد الذين يعانون من ضعف البصر. تساعد هذه القدرة المستخدمين على فهم بيئاتهم بشكل أفضل، مما يوفر استقلالية أكبر عندما يتعلق الأمر بالمهام اليومية.

يمكن لـ PaliGemma 2 جعل العالم مكاناً أكثر سهولة في الوصول

الشكل 4. PaliGemma 2 يمكن أن يجعل العالم مكاناً أكثر سهولة في الوصول إليه.

بالإضافة إلى إمكانية الوصول، يُحدث PaliGemma 2 تأثيراً عبر العديد من الصناعات، بما في ذلك:

  • التجارة الإلكترونية: يعمل النموذج على تحسين تصنيف المنتجات من خلال تحليل ووصف العناصر الموجودة في الصور، مما يبسط إدارة المخزون ويحسن تجربة البحث للمستخدمين.
  • الرعاية الصحية: يدعم المهنيين الطبيين من خلال تفسير التصوير الطبي، مثل الأشعة السينية والرنين المغناطيسي، جنباً إلى جنب مع الملاحظات السريرية لتوفير تشخيصات أكثر دقة واستنارة.
  • التعليم: يساعد PaliGemma 2 المعلمين على إنشاء مواد تعليمية وصفية ويمكن الوصول إليها عن طريق إنشاء تسميات توضيحية وتوفير معلومات سياقية للصور.
  • إنشاء المحتوى: يقوم النموذج بأتمتة عملية إنشاء تسميات توضيحية وأوصاف مرئية لمحتوى الوسائط المتعددة، مما يوفر الوقت للمبدعين.

Link to this sectionجربه بنفسك: PaliGemma 2#

لتجربة PaliGemma 2، يمكنك البدء بالعرض التفاعلي لـ Hugging Face. فهو يتيح لك استكشاف قدراته في مهام مثل كتابة التسميات التوضيحية للصور والإجابة على الأسئلة المرئية. ببساطة قم بتحميل صورة واسأل النموذج أسئلة حولها أو اطلب وصفاً للمشهد.

عرض توضيحي لـ PaliGemma 2

الشكل 5. عرض تجريبي لـ PaliGemma 2 (المصدر: Hugging Face).

إذا كنت ترغب في التعمق أكثر، فإليك كيفية الحصول على تجربة عملية:

  • نماذج مدربة مسبقاً: يمكنك الوصول إلى نماذج ورموز مدربة مسبقاً من منصات مثل Hugging Face وKaggle. توفر هذه الموارد كل ما تحتاجه للبدء في العمل مع النموذج.
  • دفاتر الملاحظات (Notebooks): توجد وثائق شاملة ودفاتر ملاحظات أمثلة للتعرف على PaliGemma 2. يمكنك البدء بأمثلة الاستدلال وتجربة ضبط النموذج على مجموعة البيانات الخاصة بك لمهام محددة.
  • عمليات التكامل: يتوافق PaliGemma 2 مع أطر العمل المستخدمة على نطاق واسع مثل Hugging Face Transformers وKeras وPyTorch وJAX وGemma.cpp، مما يسمح لك بدمجه في سير عملك الحالي دون عناء.

Link to this sectionإيجابيات وسلبيات PaliGemma 2 من Google#

بعد أن فهمنا كيفية البدء بـ PaliGemma 2، دعنا نلقي نظرة فاحصة على نقاط قوته وعيوبه الرئيسية التي يجب وضعها في الاعتبار عند استخدام هذه النماذج.

إليك ما يجعل PaliGemma 2 متميزاً كنموذج رؤية ولغة:

  • مكاسب الكفاءة: من خلال الاستفادة من البنية المحسنة لـ Gemma 2، يقدم PaliGemma 2 أداءً عالياً مع تقليل تكاليف النشر.
  • ميزات أمان محسنة: يتضمن PaliGemma 2 تحسينات أمنية كبيرة في عملية التدريب الخاصة به، مثل التصفية القوية لبيانات التدريب المسبق لتقليل التحيزات والتقييم الصارم مقابل معايير الأمان.
  • زمن انتقال منخفض للتكوينات الأصغر: يوفر نموذج 3B أوقات استدلال أسرع، مما يجعله مناسباً لحالات الاستخدام التي تكون فيها السرعة أمراً بالغ الأهمية، مثل توصيات منتجات التجارة الإلكترونية أو أنظمة الدعم المباشر.

في غضون ذلك، إليك بعض المجالات التي قد يواجه فيها PaliGemma 2 قيوداً:

  • زمن الانتقال (Latency): على الرغم من قوتها، قد تواجه النماذج الأكبر حجماً مشكلات في زمن الانتقال، خاصة عند نشرها لمهام تتطلب استجابات فورية، مثل أنظمة الذكاء الاصطناعي التفاعلية في الوقت الفعلي.
  • الاعتماد على مجموعات بيانات كبيرة: يرتبط أداء PaliGemma 2 ارتباطاً وثيقاً بجودة وتنوع مجموعات بيانات التدريب الخاصة به، مما قد يحد من فعاليته في المجالات الممثلة تمثيلاً ناقصاً أو اللغات غير المضمنة في بيانات التدريب.
  • متطلبات موارد عالية: على الرغم من التحسينات، تتطلب إصدارات 10B و28B من المعلمات قوة حوسبة كبيرة، مما يجعلها أقل سهولة في الوصول إليها للمؤسسات الصغيرة ذات الموارد المحدودة.

Link to this sectionأبرز النقاط#

يعد PaliGemma 2 تقدماً رائعاً في نمذجة الرؤية واللغة، حيث يوفر قابلية توسع محسنة ومرونة في الضبط الدقيق ودقة عالية. يمكن أن يكون بمثابة أداة قيمة للتطبيقات التي تتراوح من حلول إمكانية الوصول والتجارة الإلكترونية إلى تشخيصات الرعاية الصحية والتعليم.

على الرغم من وجود قيود، مثل المتطلبات الحسابية والاعتماد على بيانات عالية الجودة، فإن نقاط قوته تجعله خياراً عملياً لمعالجة المهام المعقدة التي تدمج البيانات المرئية والنصية. يمكن لـ PaliGemma 2 توفير أساس قوي للباحثين والمطورين لاستكشاف وتوسيع إمكانات الذكاء الاصطناعي في التطبيقات متعددة الوسائط.

كن جزءاً من محادثة الذكاء الاصطناعي من خلال الاطلاع على مستودع GitHub الخاص بنا ومجتمعنا. اقرأ عن كيفية تحقيق الذكاء الاصطناعي خطوات كبيرة في الزراعة والرعاية الصحية! 🚀

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة