Yolo فيجن شنتشن
شنتشن
انضم الآن

استمتع بالتدريب العملي على Google Gemini 2.5 لمهام الرؤية الحاسوبية

أبيرامي فينا

5 دقائق قراءة

31 مارس، 2025

تعرّف على كيفية الاستفادة من Google Gemini 2.5 في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، والتعليق على الصور، والتعرف الضوئي على الحروف لحلول الذكاء الاصطناعي المرئي.

تتقدم تطورات الذكاء الاصطناعي بسرعة، حيث تتصدر الابتكارات الجديدة عناوين الأخبار كل يوم تقريباً. أحد هذه الابتكارات الحديثة هو Gemini 2.5، وهو أحدث نموذج متعدد الوسائط من Google DeepMind، والذي تم إطلاقه في 26 مارس. بينما يمكن لنماذج اللغات الكبيرة التقليدية (LLMs) أن تتعلم من كميات هائلة من البيانات لتوليد نصوص شبيهة بالنصوص البشرية، فإن Gemini 2.5 يتجاوز ذلك. 

إنه مصمم كـ “نموذج تفكير” يمكنه معالجة الصور والصوت والفيديو. يتمتع بمهارات محسنة في الاستدلال والبرمجة. ومن المثير للاهتمام أنه يعمل أيضًا بشكل جيد للغاية فيما يتعلق بـ مهام الرؤية الحاسوبية، حيث تقوم الآلات بتفسير وتحليل البيانات المرئية، مثل الكشف عن الكائنات، والتعليق على الصور، والتعرف الضوئي على الحروف (OCR).

__wf_reserved_inherit
الشكل 1. مثال على استخدام Gemini 2.5 لفهم محتويات الصورة.

في هذه المقالة، سنستعرض في هذه المقالة أحد دفاتر ملاحظات Ultralyticsالتي يمكن أن تساعدك في الحصول على التدريب العملي على إمكانات رؤية الكمبيوتر في Gemini 2.5. سنلقي أيضًا نظرة فاحصة على الميزات الرئيسية ل Gemini 2.5 ونعرض كيف يمكن استخدامه لبناء حلول رؤية الكمبيوتر لتطبيقات العالم الحقيقي. لنبدأ!

نظرة عامة على Gemini 2.5: الميزات والقدرات

الإصدار الأول في سلسلة نماذج Gemini 2.5 الذي تم إصداره للتو هو إصدار تجريبي من Gemini 2.5 Pro. إنه مصمم للتعامل مع المشكلات المعقدة من خلال التفكير في ردوده قبل تقديم إجابة. يستخدم طرقًا مثل التعلم المعزز (حيث يتعلم النموذج من التعليقات) ومطالبة سلسلة التفكير (نهج خطوة بخطوة لحل المشكلات).

إحدى ميزاته الرئيسية هي نافذة السياق الضخمة الخاصة به، والتي يمكن أن تحتوي على مليون رمز (ما يقرب من مليون كلمة أو أجزاء من الكلمات) ومن المتوقع أن تنمو إلى 2 مليون. هذا يعني أن النموذج يمكنه استقبال الكثير من المعلومات في وقت واحد، مما يؤدي إلى نتائج أكثر تفصيلاً ودقة.

بالإضافة إلى معالجة اللغة، يمكن استخدام Gemini 2.5 في مهام الرؤية الحاسوبية التالية:

  • اكتشاف الكائنات (Object detection): هي عملية تحديد وتعيين أماكن الكائنات داخل الصورة. يمكن استخدامها في تطبيقات مثل المراقبة أو السيارات ذاتية القيادة.
  • وصف الصور (Image captioning): تتضمن هذه المهمة إنشاء نص وصفي للصورة، ممّا يجعل المحتوى المرئي أكثر سهولة وفهمًا.

المقارنة المعيارية ومقارنة Google Gemini 2.5 بالنماذج الأخرى

هناك العديد من النماذج متعددة الوسائط المتاحة في مجال الذكاء الاصطناعي اليوم، لذا من المهم فهم كيفية مقارنة Gemini 2.5 Pro بها. استنادًا إلى نتائج القياس التي شاركتها شركة DeepMind التابعة لشركة Google يُظهر Gemini 2.5 Pro أداءً مذهلاً عبر مجموعة من المهام. 

على سبيل المثال، في اختبار يسمى Humanity’s Last Exam، والذي يحاكي اختبارًا صعبًا يغطي العديد من الموضوعات ويختبر الاستدلال المتقدم والمعرفة العامة، يسجل Gemini 2.5 Pro حوالي 18.8٪، متفوقًا على نماذج مثل o3-mini من OpenAI، والذي يسجل حوالي 14٪. 

__wf_reserved_inherit
الشكل 2. نظرة عامة على أداء Gemini 2.5 Pro وفقًا لمعايير قياس الأداء.

كما أنه يحقق أداءً جيدًا جدًا في تحديات الرياضيات والبرمجة، وغالبًا ما يطابق أو يتجاوز أداء نماذج مثل OpenAI GPT-4.5 و Claude 3.7 Sonnet و Grok 3 Beta و DeepSeek R1، مما يدل على قدرته على التعامل مع المهام المعقدة ومعالجة كميات كبيرة من البيانات.

التدريب العملي على استخدام Gemini 2.5: كيفية استخدام واجهة برمجة تطبيقات Google Gemini

يتوفر Gemini 2.5 Pro على منصات متعددة. يمكنك تجربته في Google AI Studio والوصول إليه من خلال تطبيق Gemini لمستخدمي Gemini Advanced. في إعلان إطلاقه، ذكر Google DeepMind أيضًا في إعلان إطلاقه أنه سيتم دعم النموذج على Vertex AI قريبًا. تجعل نقاط الوصول هذه من السهل على المطورين استخدام Gemini 2.5 Pro لتطبيقات الذكاء الاصطناعي في العالم الحقيقي. 

ومع ذلك، إذا كنت ترغب في استخدام واجهة برمجة تطبيقات Google Gemini API والبدء في بضع دقائق فقط دون إعداد معقد وتتطلع إلى فهم أفضل لقدرات الرؤية الحاسوبية الخاصة به، يمكنك الاطلاع على دفتر ملاحظاتUltralytics الذي يعرض مهام مثل اكتشاف الكائنات والتعليق على الصور باستخدام Gemini 2.5 Pro. دعنا نستعرض ما يمكنك توقعه في دفتر الملاحظات بالتفصيل.

إعداد الاستدلال باستخدام دفتر ملاحظات Google Gemini 2.5

للبدء في استخدام دفتر ملاحظات Ultralytics واستخدام Google Gemini 2.5، ستحتاج أولاً إلى إنشاء مفتاح واجهة برمجة التطبيقات من خلال Google AI Studio. يمنحك هذا المفتاح إمكانية الوصول إلى واجهة برمجة تطبيقات Gemini حتى تتمكن من استخدام النموذج.

بمجرد حصولك على مفتاح واجهة برمجة التطبيقات، تأكد من أن بيئتك تحتوي على المكتبات الضرورية المثبتة - وتشمل هذه الحزم من Ultralytics ومجموعة أدوات الذكاء الاصطناعي من Google. هذه الخطوة موضحة بوضوح في دفتر الملاحظات، بحيث يمكنك بسهولة اتباع التعليمات لإعداد مساحة العمل الخاصة بك.

مع تهيئة كل شيء، يمكنك الاتصال بـ Gemini API عن طريق إدخال مفتاح API الخاص بك (كما هو موضح أدناه)، والذي ينشئ رابطًا بين مساحة العمل الخاصة بك والنموذج. بعد ذلك، ستكون جاهزًا لإرسال الصور والمطالبات النصية إلى Gemini 2.5.

بشكل أساسي، يمكنك تقديم صورة وتعليمات بسيطة (مثل "detect الأجسام في هذه الصورة" أو "وصف ما تراه") إلى النموذج، وسيقوم بإرجاع النتائج التي تحتاجها. هذه العملية المباشرة تجعل من السهل البدء في استكشاف قدرات الرؤية الحاسوبية في Gemini 2.5.

اكتشاف الكائنات باستخدام Google Gemini 2.5

أحد الأمثلة الرئيسية في الدفتر هو اكتشاف الأجسام باستخدام Gemini 2.5 Pro. في هذا المثال، تزود النموذج بصورة ومطالبة بسيطة detect الأجسام. 

يقوم النموذج بمعالجة الصورة وإرجاع مجموعة من الإحداثيات والتسميات لكل كائن يعثر عليه؛ يتم إعطاء هذه الإحداثيات في شكل طبيعي. ثم تُستخدم الدوال من حزمةUltralytics Python لتحويل هذه القيم المعيارية لتطابق الأبعاد الفعلية للصورة ورسم مربعات محددة واضحة حول كل كائن كما هو موضح أدناه.

__wf_reserved_inherit
الشكل 3. استخدام Google Gemini 2.5 للكشف عن الأجسام.

وصف الصور باستخدام Gemini 2.5

مثال آخر مثير للاهتمام في الـ notebook هو وصف الصور باستخدام Gemini 2.5 Pro. في هذا المثال، يمكنك تزويد النموذج بصورة ومطالبة تطلب منه إنشاء وصف تفصيلي يصف ما هو موجود في الصورة. 

ثم يحلل النموذج المحتوى المرئي ويعيد سردًا، غالبًا ما يتم تنسيقه كجمل متعددة، يلتقط كلاً من محتوى الصورة وسياقها. هذه الميزة مفيدة لتحسين إمكانية الوصول وتلخيص المعلومات المرئية وحتى تحسين سرد القصص الإبداعي.

تحسين دقة التعرف الضوئي على الحروف باستخدام نماذج Google Gemini

إحدى مهام رؤية الكمبيوتر التي تستخدم قدرة Gemini 2.5 Pro على قراءة النص في الصور هي OCR. في الـ notebook، يمكنك تزويد النموذج بصورة تحتوي على نص مع مطالبة لاستخراج هذا النص. يعالج النموذج الصورة ويعيد كلاً من النص المكتشف والإحداثيات التي يقع فيها النص، كما هو موضح أدناه.

تُستخدم بعد ذلك وظائف من حزمة Ultralytics Python لتحويل هذه الإحداثيات المُعدَّلة إلى الأبعاد الفعلية للصورة ورسم مربعات محددة حول مناطق النص. يوضح هذا الإخراج المشروح مكان وجود النص، وهو أمر مفيد لرقمنة المستندات، وأتمتة إدخال البيانات، وتحسين إمكانية الوصول.

__wf_reserved_inherit
الشكل 4. استخراج البيانات النصية في صورة باستخدام Google Gemini 2.5.

التطبيقات الواقعية ل Google Gemini 2.5 من Google Gemini 2.5

والآن بعد أن استعرضنا كيف يمكن استخدام Google Gemini 2.5 Pro في مهام الرؤية الحاسوبية المختلفة، دعونا نستكشف بعض التطبيقات الواقعية التي يمكن استخدام هذه الإمكانيات فيها.

على سبيل المثال، يمكن لقدرة Gemini 2.5 Pro على اكتشاف الكائنات أن تساعد في تصنيف وتنظيم مجموعات كبيرة من الصور تلقائيًا، مما يجعل مهام مثل إنشاء مجموعات البيانات أو إدارة المحتوى أسرع بكثير. يمكن استخدامه أيضًا لتحليل الصور في مجالات مثل البيع بالتجزئة والزراعة - على سبيل المثال، اكتشاف المنتجات على الرفوف أو تحديد علامات إجهاد المحاصيل في صور المزرعة.

__wf_reserved_inherit
الشكل 5. Gemini 2.5 Pro يحلل صحة النبات.

وفي الوقت نفسه، يمكن لميزة التعليق على الصور في النموذج أن تساعد المستخدمين ضعاف البصر على فهم محتوى الصورة. على سبيل المثال، إذا كانت لديك صورة لشارع مزدحم، فقد ينتج النموذج تعليقًا يصف المشهد بالتفصيل، ويذكر أنواع المركبات ونشاط المشاة وحتى وقت النهار بناءً على إشارات الإضاءة. 

بالإضافة إلى ذلك، يمكن استخدام وظيفة التعرف الضوئي على الحروف (OCR) في Gemini 2.5 في مجموعة متنوعة من التطبيقات. على سبيل المثال، يمكنك رقمنة المستندات المطبوعة عن طريق مسح الصفحات أو الإيصالات ضوئيًا. هذه الإمكانية مثالية لأتمتة مهام إدخال البيانات أو معالجة النماذج أو حتى قراءة النصوص من بطاقات العمل واللافتات. 

بشكل عام، يفتح Google Gemini 2.5 Pro الأبواب أمام مجموعة واسعة من تطبيقات الذكاء الاصطناعي العملية.

النقاط الرئيسية

بالإضافة إلى توليد النصوص وتحليلها، يمكن استخدام Google Gemini 2.5 Pro في مهام الرؤية الحاسوبية مثل اكتشاف الأجسام، والتعليق على الصور، والتعرف الضوئي على الحروف. وبفضل نافذة السياق الضخمة وقدرات الاستدلال المحسّنة التي يوفرها البرنامج، فإنه ينتج نتائج مفصّلة ومراعية للسياق تعمل بشكل جيد في سيناريوهات العالم الحقيقي. 

مع استمرار تطور نماذج الذكاء الاصطناعي، فإن الأدوات مثل Gemini 2.5 Pro تجعل من السهل حل المشكلات المعقدة في مختلف الصناعات. من المحتمل أن نشهد اعتمادًا أوسع للذكاء الاصطناعي حيث تبحث المزيد من المؤسسات عن حلول مرنة ومتعددة الوسائط يمكنها التعامل مع مجموعة واسعة من المهام، من الفهم المرئي إلى معالجة اللغة.

كن جزءًا من مجتمعنا وتعرّف على مشاريع الذكاء الاصطناعي المتطورة في مستودع GitHub الخاص بنا. شاهد تطبيقات الذكاء الاصطناعي البصري في الزراعة ودور الذكاء الاصطناعي في التصنيع في صفحات الحلول الخاصة بنا. استكشف خطط الترخيص الخاصة بنا وابني حلول رؤية الكمبيوتر اليوم!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا