يولو فيجن شنتشن
شنتشن
انضم الآن

احصل على تجربة عملية مع Google Gemini 2.5 لمهام الرؤية الحاسوبية

أبيرامي فينا

5 دقائق قراءة

31 مارس، 2025

اكتشف كيف يمكنك الحصول على تجربة عملية مع Google Gemini 2.5 لمهام الرؤية الحاسوبية مثل الكشف عن الكائنات، والتعليق على الصور، والتعرف الضوئي على الحروف (OCR) لحلول الرؤية الاصطناعية.

تتطور تطورات الذكاء الاصطناعي بسرعة، مع ظهور ابتكارات جديدة تتصدر عناوين الأخبار كل يوم تقريبًا. أحد هذه الاختراقات الحديثة هو Gemini 2.5، أحدث نموذج متعدد الوسائط من Google DeepMind، الذي تم إطلاقه في 26 مارس. في حين أن نماذج اللغة الكبيرة (LLMs) التقليدية يمكنها التعلم من كميات هائلة من البيانات لإنشاء نص شبيه بالنص البشري، فإن Gemini 2.5 يتجاوز ذلك. 

إنه مصمم كـ “نموذج تفكير” يمكنه معالجة الصور والصوت والفيديو. يتمتع بمهارات محسنة في الاستدلال والبرمجة. ومن المثير للاهتمام أنه يعمل أيضًا بشكل جيد للغاية فيما يتعلق بـ مهام الرؤية الحاسوبية، حيث تقوم الآلات بتفسير وتحليل البيانات المرئية، مثل الكشف عن الكائنات، والتعليق على الصور، والتعرف الضوئي على الحروف (OCR).

__wf_reserved_inherit
الشكل 1. مثال على استخدام Gemini 2.5 لفهم محتويات الصورة.

في هذه المقالة، سنستعرض أحد دفاتر Ultralytics التي يمكن أن تساعدك في الحصول على تجربة عملية مع قدرات الرؤية الحاسوبية في Gemini 2.5. سنلقي أيضًا نظرة فاحصة على الميزات الرئيسية في Gemini 2.5 ونعرض كيف يمكن استخدامه لبناء حلول الرؤية الحاسوبية للتطبيقات الواقعية. هيا بنا نبدأ!

نظرة عامة على Gemini 2.5: الميزات والقدرات

الإصدار الأول في سلسلة نماذج Gemini 2.5 الذي تم إصداره للتو هو إصدار تجريبي من Gemini 2.5 Pro. إنه مصمم للتعامل مع المشكلات المعقدة من خلال التفكير في ردوده قبل تقديم إجابة. يستخدم طرقًا مثل التعلم المعزز (حيث يتعلم النموذج من التعليقات) ومطالبة سلسلة التفكير (نهج خطوة بخطوة لحل المشكلات).

إحدى ميزاته الرئيسية هي نافذة السياق الضخمة الخاصة به، والتي يمكن أن تحتوي على مليون رمز (ما يقرب من مليون كلمة أو أجزاء من الكلمات) ومن المتوقع أن تنمو إلى 2 مليون. هذا يعني أن النموذج يمكنه استقبال الكثير من المعلومات في وقت واحد، مما يؤدي إلى نتائج أكثر تفصيلاً ودقة.

بالإضافة إلى معالجة اللغة، يمكن استخدام Gemini 2.5 في مهام الرؤية الحاسوبية التالية:

  • اكتشاف الكائنات (Object detection): هي عملية تحديد وتعيين أماكن الكائنات داخل الصورة. يمكن استخدامها في تطبيقات مثل المراقبة أو السيارات ذاتية القيادة.
  • وصف الصور (Image captioning): تتضمن هذه المهمة إنشاء نص وصفي للصورة، ممّا يجعل المحتوى المرئي أكثر سهولة وفهمًا.

قياس الأداء ومقارنة Google Gemini 2.5 مع النماذج الأخرى

تتوفر العديد من النماذج متعددة الوسائط في مجال الذكاء الاصطناعي اليوم، لذلك من المهم فهم كيفية مقارنة Gemini 2.5 Pro بها. بناءً على نتائج قياس الأداء التي شاركتها Google DeepMind، يُظهر Gemini 2.5 Pro أداءً مثيرًا للإعجاب عبر مجموعة من المهام. 

على سبيل المثال، في اختبار يسمى Humanity’s Last Exam، والذي يحاكي اختبارًا صعبًا يغطي العديد من الموضوعات ويختبر الاستدلال المتقدم والمعرفة العامة، يسجل Gemini 2.5 Pro حوالي 18.8٪، متفوقًا على نماذج مثل o3-mini من OpenAI، والذي يسجل حوالي 14٪. 

__wf_reserved_inherit
الشكل 2. نظرة عامة على أداء Gemini 2.5 Pro وفقًا لمعايير قياس الأداء.

كما أنه يحقق أداءً جيدًا جدًا في تحديات الرياضيات والبرمجة، وغالبًا ما يطابق أو يتجاوز أداء نماذج مثل OpenAI GPT-4.5 و Claude 3.7 Sonnet و Grok 3 Beta و DeepSeek R1، مما يدل على قدرته على التعامل مع المهام المعقدة ومعالجة كميات كبيرة من البيانات.

تجربة عملية مع Gemini 2.5: كيفية استخدام Google Gemini API

يتوفر Gemini 2.5 Pro على العديد من المنصات. يمكنك تجربته في Google AI Studio والوصول إليه من خلال تطبيق Gemini لمستخدمي Gemini Advanced. في إعلان الإطلاق، ذكرت Google DeepMind أيضًا أن النموذج سيتم دعمه على Vertex AI قريبًا. تسهل نقاط الوصول هذه على المطورين استخدام Gemini 2.5 Pro لتطبيقات الذكاء الاصطناعي الواقعية. 

ومع ذلك، إذا كنت ترغب في استخدام Google Gemini API والبدء في غضون دقائق قليلة دون إعداد معقد وتتطلع إلى اكتساب فهم أفضل لقدرات رؤية الكمبيوتر الخاصة به، فيمكنك إلقاء نظرة على Ultralytics notebook الذي يعرض مهام مثل اكتشاف الكائنات ووصف الصور باستخدام Gemini 2.5 Pro. دعنا نتناول بالتفصيل ما يمكنك توقعه في هذا الـ notebook.

إعداد الاستدلال باستخدام Google Gemini 2.5 notebook

للبدء في استخدام Ultralytics notebook واستخدام Google Gemini 2.5، ستحتاج أولاً إلى إنشاء مفتاح API من خلال Google AI Studio. يمنحك هذا المفتاح حق الوصول إلى Gemini API حتى تتمكن من استخدام النموذج.

بمجرد حصولك على مفتاح API الخاص بك، تأكد من أن بيئتك مثبت عليها المكتبات الضرورية - والتي تتضمن حزمًا من Ultralytics ومجموعة أدوات الذكاء الاصطناعي من Google. تم تحديد هذه الخطوة بوضوح في الـ notebook، بحيث يمكنك بسهولة اتباع الإرشادات لإعداد مساحة العمل الخاصة بك.

مع تهيئة كل شيء، يمكنك الاتصال بـ Gemini API عن طريق إدخال مفتاح API الخاص بك (كما هو موضح أدناه)، والذي ينشئ رابطًا بين مساحة العمل الخاصة بك والنموذج. بعد ذلك، ستكون جاهزًا لإرسال الصور والمطالبات النصية إلى Gemini 2.5.

بشكل أساسي، يمكنك تقديم صورة وتعليمات بسيطة (مثل "اكتشف الكائنات في هذه الصورة" أو "صف ما تراه") إلى النموذج، وسيقوم بإرجاع النتائج التي تحتاجها. هذه العملية المباشرة تجعل من السهل البدء في استكشاف قدرات رؤية الكمبيوتر في Gemini 2.5.

اكتشاف الكائنات باستخدام Google Gemini 2.5

أحد الأمثلة الرئيسية في الـ notebook هو اكتشاف الكائنات باستخدام Gemini 2.5 Pro. في هذا المثال، يمكنك تزويد النموذج بصورة ومطالبة بسيطة لاكتشاف الكائنات. 

يقوم النموذج بمعالجة الصورة وإرجاع مجموعة من الإحداثيات والتسميات لكل كائن يجده؛ يتم إعطاء هذه الإحداثيات في شكل طبيعي. ثم يتم استخدام الدوال من حزمة Ultralytics Python لتحويل هذه القيم الطبيعية لتتناسب مع الأبعاد الفعلية للصورة ورسم مربعات إحاطة واضحة حول كل كائن، كما هو موضح أدناه.

__wf_reserved_inherit
الشكل 3. استخدام Google Gemini 2.5 لاكتشاف الكائنات.

وصف الصور باستخدام Gemini 2.5

مثال آخر مثير للاهتمام في الـ notebook هو وصف الصور باستخدام Gemini 2.5 Pro. في هذا المثال، يمكنك تزويد النموذج بصورة ومطالبة تطلب منه إنشاء وصف تفصيلي يصف ما هو موجود في الصورة. 

ثم يحلل النموذج المحتوى المرئي ويعيد سردًا، غالبًا ما يتم تنسيقه كجمل متعددة، يلتقط كلاً من محتوى الصورة وسياقها. هذه الميزة مفيدة لتحسين إمكانية الوصول وتلخيص المعلومات المرئية وحتى تحسين سرد القصص الإبداعي.

تحسين دقة التعرف الضوئي على الحروف (OCR) باستخدام نماذج Google Gemini

إحدى مهام رؤية الكمبيوتر التي تستخدم قدرة Gemini 2.5 Pro على قراءة النص في الصور هي OCR. في الـ notebook، يمكنك تزويد النموذج بصورة تحتوي على نص مع مطالبة لاستخراج هذا النص. يعالج النموذج الصورة ويعيد كلاً من النص المكتشف والإحداثيات التي يقع فيها النص، كما هو موضح أدناه.

بعد ذلك، تُستخدم الدوال من حزمة Ultralytics Python لتحويل هذه الإحداثيات المعيارية إلى الأبعاد الفعلية للصورة ورسم مربعات محيطة حول مناطق النص. يوضح هذا الناتج المشروح بوضوح مكان وجود النص، وهو أمر مفيد لرقمنة المستندات وأتمتة إدخال البيانات وتحسين إمكانية الوصول.

__wf_reserved_inherit
الشكل 4. استخراج البيانات النصية في صورة باستخدام Google Gemini 2.5.

تطبيقات Google Gemini 2.5 الواقعية

بعد أن استعرضنا كيفية استخدام Google Gemini 2.5 Pro في مهام رؤية الكمبيوتر المختلفة، دعنا نستكشف بعض التطبيقات الواقعية التي يمكن استخدام هذه الإمكانات فيها.

على سبيل المثال، يمكن لقدرة Gemini 2.5 Pro على اكتشاف الكائنات أن تساعد في تصنيف وتنظيم مجموعات كبيرة من الصور تلقائيًا، مما يجعل مهام مثل إنشاء مجموعات البيانات أو إدارة المحتوى أسرع بكثير. يمكن استخدامه أيضًا لتحليل الصور في مجالات مثل البيع بالتجزئة والزراعة - على سبيل المثال، اكتشاف المنتجات على الرفوف أو تحديد علامات إجهاد المحاصيل في صور المزرعة.

__wf_reserved_inherit
الشكل 5. Gemini 2.5 Pro يحلل صحة النبات.

وفي الوقت نفسه، يمكن لميزة التعليق على الصور في النموذج أن تساعد المستخدمين ضعاف البصر على فهم محتوى الصورة. على سبيل المثال، إذا كانت لديك صورة لشارع مزدحم، فقد ينتج النموذج تعليقًا يصف المشهد بالتفصيل، ويذكر أنواع المركبات ونشاط المشاة وحتى وقت النهار بناءً على إشارات الإضاءة. 

بالإضافة إلى ذلك، يمكن استخدام وظيفة التعرف الضوئي على الحروف (OCR) في Gemini 2.5 في مجموعة متنوعة من التطبيقات. على سبيل المثال، يمكنك رقمنة المستندات المطبوعة عن طريق مسح الصفحات أو الإيصالات ضوئيًا. هذه الإمكانية مثالية لأتمتة مهام إدخال البيانات أو معالجة النماذج أو حتى قراءة النصوص من بطاقات العمل واللافتات. 

بشكل عام، يفتح Google Gemini 2.5 Pro الأبواب أمام مجموعة واسعة من تطبيقات الذكاء الاصطناعي العملية.

النقاط الرئيسية

بالإضافة إلى إنشاء النصوص وتحليلها، يمكن استخدام Google Gemini 2.5 Pro في مهام رؤية الكمبيوتر مثل اكتشاف الكائنات والتعليق على الصور والتعرف الضوئي على الحروف (OCR). بفضل نافذة السياق الضخمة وقدرات الاستدلال المحسنة، فإنه ينتج نتائج مفصلة وواعية بالسياق تعمل بشكل جيد في سيناريوهات العالم الحقيقي. 

مع استمرار تطور نماذج الذكاء الاصطناعي، فإن الأدوات مثل Gemini 2.5 Pro تجعل من السهل حل المشكلات المعقدة في مختلف الصناعات. من المحتمل أن نشهد اعتمادًا أوسع للذكاء الاصطناعي حيث تبحث المزيد من المؤسسات عن حلول مرنة ومتعددة الوسائط يمكنها التعامل مع مجموعة واسعة من المهام، من الفهم المرئي إلى معالجة اللغة.

كن جزءًا من مجتمعنا وتعرّف على مشاريع الذكاء الاصطناعي المتطورة في مستودع GitHub الخاص بنا. شاهد تطبيقات الذكاء الاصطناعي البصري في الزراعة ودور الذكاء الاصطناعي في التصنيع في صفحات الحلول الخاصة بنا. استكشف خطط الترخيص الخاصة بنا وابني حلول رؤية الكمبيوتر اليوم!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة