ابدأ تجربة عملية مع Google Gemini 2.5 لمهام الرؤية الحاسوبية
تعرف على كيفية البدء العملي مع Google Gemini 2.5 لمهام الرؤية الحاسوبية مثل اكتشاف الأشياء، والتعليق على الصور، والتعرف الضوئي على الحروف (OCR) لحلول الرؤية الحاسوبية القائمة على الذكاء الاصطناعي.

تتسارع وتيرة تطورات الذكاء الاصطناعي، حيث تتصدر الابتكارات الجديدة عناوين الأخبار كل يوم تقريبًا. أحد هذه الاختراقات الأخيرة هو Gemini 2.5، وهو أحدث نموذج متعدد الوسائط من Google DeepMind، الذي تم إطلاقه في 26 مارس. وفي حين أن نماذج اللغة الكبيرة (LLMs) التقليدية يمكنها التعلم من كميات هائلة من البيانات لإنشاء نصوص تشبه النصوص البشرية، فإن Gemini 2.5 يتجاوز ذلك.
لقد صُمم كـ "نموذج تفكير" يمكنه معالجة الصور والصوت والفيديو. وهو يتمتع بمهارات محسنة في الاستدلال والبرمجة. ومن المثير للاهتمام أنه يعمل بشكل استثنائي أيضًا فيما يتعلق بـ مهام رؤية الحاسوب، حيث تقوم الآلات بتفسير وتحليل البيانات المرئية، مثل اكتشاف الأشياء، ووصف الصور، والتعرف الضوئي على الحروف (OCR).

الشكل 1. مثال على استخدام Gemini 2.5 لفهم محتويات صورة.
في هذه المقالة، سنستعرض أحد دفاتر ملاحظات (Notebooks) Ultralytics التي يمكن أن تساعدك في البدء عمليًا مع قدرات رؤية الحاسوب في Gemini 2.5. كما سنلقي نظرة فاحصة على الميزات الرئيسية لـ Gemini 2.5 ونعرض كيفية استخدامه لبناء حلول رؤية الحاسوب للتطبيقات الواقعية. لنبدأ!
Link to this sectionنظرة عامة على Gemini 2.5: الميزات والقدرات#
الإصدار الأول في سلسلة نماذج Gemini 2.5 الذي تم إصداره للتو هو إصدار تجريبي من Gemini 2.5 Pro. وهو مصمم للتعامل مع المشكلات المعقدة من خلال التفكير في استجاباته قبل تقديم الإجابة. وهو يستخدم طرقًا مثل التعلم التعزيزي (حيث يتعلم النموذج من التغذية الراجعة) وسلسلة الأفكار (نهج خطوة بخطوة لحل المشكلات).
إحدى ميزاته الرئيسية هي نافذة السياق الضخمة الخاصة به، والتي يمكنها استيعاب مليون رمز (حوالي مليون كلمة أو أجزاء من كلمات) ومن المتوقع أن تنمو لتصل إلى مليوني رمز. وهذا يعني أن النموذج يمكنه استيعاب الكثير من المعلومات في وقت واحد، مما يؤدي إلى نتائج أكثر تفصيلاً ودقة.
بالإضافة إلى معالجة اللغة، يمكن استخدام Gemini 2.5 لمهام رؤية الحاسوب التالية:
-
اكتشاف الأشياء: هي عملية تحديد وتحديد مواقع الأشياء داخل الصورة. ويمكن استخدامه في تطبيقات مثل المراقبة أو السيارات ذاتية القيادة.
-
وصف الصور: تتضمن هذه المهمة إنشاء نص وصفي لصورة. وهي تجعل المحتوى المرئي أكثر سهولة في الوصول إليه وأسهل في الفهم.
-
التعرف الضوئي على الحروف: تقوم هذه التقنية بتحويل النص الموجود في الصور إلى نص قابل للتعديل ومقروء آليًا. وهي مفيدة لرقمنة المستندات وأتمتة إدخال البيانات.
Link to this sectionقياس أداء ومقارنة Google Gemini 2.5 مع النماذج الأخرى#
هناك العديد من النماذج متعددة الوسائط المتاحة في مجال الذكاء الاصطناعي اليوم، لذا من المهم فهم كيفية مقارنة Gemini 2.5 Pro بها. بناءً على نتائج قياس الأداء التي شاركتها Google DeepMind، يُظهر Gemini 2.5 Pro أداءً مذهلاً عبر مجموعة من المهام.
على سبيل المثال، في اختبار يسمى "امتحان الإنسانية الأخير" (Humanity’s Last Exam)، الذي يحاكي اختبارًا صعبًا يغطي العديد من الموضوعات ويختبر الاستدلال المتقدم والمعرفة العامة، حصل Gemini 2.5 Pro على حوالي 18.8%، متفوقًا على نماذج مثل o3-mini من OpenAI، والتي حصلت على حوالي 14%.

الشكل 2. نظرة عامة على أداء قياس أداء Gemini 2.5 Pro.
كما أنه يعمل بشكل جيد جدًا في تحديات الرياضيات والبرمجة، وغالبًا ما يطابق أو يتجاوز أداء نماذج مثل OpenAI GPT-4.5، وClaude 3.7 Sonnet، وGrok 3 Beta، وDeepSeek R1، مما يدل على قدرته على التعامل مع المهام المعقدة ومعالجة كميات كبيرة من البيانات.
Link to this sectionالبدء العملي مع Gemini 2.5: كيفية استخدام Google Gemini API#
يتوفر Gemini 2.5 Pro على منصات متعددة. يمكنك تجربته في Google AI Studio والوصول إليه عبر تطبيق Gemini لمستخدمي Gemini Advanced. في إعلان إطلاقه، ذكرت Google DeepMind أيضًا أن النموذج سيتم دعمه على Vertex AI قريبًا. تجعل نقاط الوصول هذه من السهل على المطورين استخدام Gemini 2.5 Pro لتطبيقات الذكاء الاصطناعي الواقعية.
ومع ذلك، إذا كنت ترغب في استخدام Google Gemini API والبدء في غضون بضع دقائق فقط دون إعداد معقد، وتبحث عن فهم أفضل لقدراته في رؤية الحاسوب، يمكنك الاطلاع على دفتر ملاحظات Ultralytics الذي يعرض مهامًا مثل اكتشاف الأشياء ووصف الصور باستخدام Gemini 2.5 Pro. دعنا نستعرض ما يمكنك توقعه في دفتر الملاحظات بالتفصيل.
Link to this sectionإعداد الاستدلال (Inferencing) باستخدام دفتر ملاحظات Google Gemini 2.5#
للبدء مع دفتر ملاحظات Ultralytics واستخدام Google Gemini 2.5، ستحتاج أولاً إلى إنشاء مفتاح API من خلال Google AI Studio. يمنحك هذا المفتاح الوصول إلى Gemini API حتى تتمكن من استخدام النموذج.
بمجرد الحصول على مفتاح API الخاص بك، تأكد من أن بيئتك تحتوي على المكتبات الضرورية المثبتة - وتشمل هذه حزمًا من Ultralytics ومجموعة أدوات الذكاء الاصطناعي من Google. تم توضيح هذه الخطوة بوضوح في دفتر الملاحظات، لذا يمكنك اتباع التعليمات بسهولة لإعداد مساحة العمل الخاصة بك.
مع تهيئة كل شيء، يمكنك الاتصال بـ Gemini API عن طريق إدخال مفتاح API الخاص بك (كما هو موضح أدناه)، مما ينشئ رابطًا بين مساحة العمل الخاصة بك والنموذج. بعد ذلك، ستكون جاهزًا لإرسال الصور والمطالبات النصية إلى Gemini 2.5.
بشكل أساسي، يمكنك تقديم صورة وتعليمات بسيطة (مثل "اكتشف الأشياء في هذه الصورة" أو "صف ما تراه") للنموذج، وسيعيد النتائج التي تحتاجها. تجعل هذه العملية المباشرة من السهل البدء في استكشاف قدرات رؤية الحاسوب في Gemini 2.5.
Link to this sectionاكتشاف الأشياء باستخدام Google Gemini 2.5#
أحد الأمثلة الرئيسية في دفتر الملاحظات هو اكتشاف الأشياء باستخدام Gemini 2.5 Pro. في هذا المثال، تقدم للنموذج صورة ومطالبة بسيطة لاكتشاف الأشياء.
يعالج النموذج الصورة ويعيد مجموعة من الإحداثيات والتسميات لكل شيء يجده؛ يتم إعطاء هذه الإحداثيات في شكل مُطَبَّع (normalized). ثم تُستخدم وظائف من حزمة Ultralytics Python لتحويل هذه القيم المُطَبَّعة لتتطابق مع الأبعاد الفعلية للصورة ورسم مربعات إحاطة (bounding boxes) واضحة حول كل شيء، كما هو موضح أدناه.

الشكل 3. استخدام Google Gemini 2.5 لاكتشاف الأشياء.
Link to this sectionوصف الصور باستخدام Gemini 2.5#
مثال آخر مثير للاهتمام في دفتر الملاحظات هو وصف الصور باستخدام Gemini 2.5 Pro. في هذا المثال، تقدم للنموذج صورة ومطالبة تطلب منه إنشاء وصف تفصيلي يصف ما هو موجود في الصورة.
ثم يقوم النموذج بتحليل المحتوى المرئي وإرجاع سرد، غالبًا ما يتم تنسيقه كجمل متعددة، يلتقط كلاً من المحتوى وسياق الصورة. هذه الميزة مفيدة لتحسين الوصول، وتلخيص المعلومات المرئية، وحتى تعزيز السرد القصصي الإبداعي.
Link to this sectionتعزيز دقة OCR باستخدام نماذج Google Gemini#
مهمة رؤية الحاسوب التي تستخدم قدرة Gemini 2.5 Pro على قراءة النص في الصور هي OCR. في دفتر الملاحظات، يمكنك تزويد النموذج بصورة تحتوي على نص مع مطالبة لاستخراج ذلك النص. يعالج النموذج الصورة ويعيد كلاً من النص المكتشف والإحداثيات التي يقع فيها النص، كما هو موضح أدناه.
تُستخدم وظائف من حزمة Ultralytics Python بعد ذلك لتحويل هذه الإحداثيات المُطَبَّعة إلى الأبعاد الفعلية للصورة ورسم مربعات إحاطة حول مناطق النص. تجعل هذه المخرجات المشروحة من الواضح أين يقع النص، وهو أمر مفيد لرقمنة المستندات، وأتمتة إدخال البيانات، وتحسين الوصول.

الشكل 4. استخراج البيانات النصية في صورة باستخدام Google Gemini 2.5.
Link to this sectionالتطبيقات الواقعية لـ Google Gemini 2.5#
الآن بعد أن استعرضنا كيفية استخدام Google Gemini 2.5 Pro لمهام رؤية الحاسوب المختلفة، دعنا نستكشف بعض التطبيقات الواقعية حيث يمكن استخدام هذه القدرات.
على سبيل المثال، يمكن لقدرة Gemini 2.5 Pro على اكتشاف الأشياء أن تساعد في تصنيف وتنظيم مجموعات كبيرة من الصور تلقائيًا، مما يجعل مهام مثل إنشاء مجموعة البيانات أو إدارة المحتوى أسرع بكثير. يمكن استخدامه أيضًا لتحليل الصور في مجالات مثل البيع بالتجزئة والزراعة - على سبيل المثال، اكتشاف المنتجات على الرفوف أو تحديد علامات إجهاد المحاصيل في صور المزارع.

الشكل 5. Gemini 2.5 Pro يحلل صحة نبات.
في الوقت نفسه، يمكن لميزة وصف الصور في النموذج أن تساعد المستخدمين ضعاف البصر على فهم ما هو موجود في الصورة. على سبيل المثال، إذا كان لديك صورة لشارع مزدحم، فقد ينتج النموذج وصفًا يصف المشهد بالتفصيل، مع ذكر أنواع المركبات، ونشاط المشاة، وحتى وقت اليوم بناءً على إشارات الإضاءة.
بالإضافة إلى ذلك، يمكن استخدام وظيفة OCR في Gemini 2.5 في مجموعة متنوعة من التطبيقات. على سبيل المثال، يمكنك رقمنة المستندات المطبوعة عن طريق مسح الصفحات أو الإيصالات ضوئيًا. هذه القدرة مثالية لأتمتة مهام إدخال البيانات، أو معالجة النماذج، أو حتى قراءة النصوص من بطاقات العمل واللافتات.
بشكل عام، يفتح Google Gemini 2.5 Pro الأبواب أمام مجموعة واسعة من تطبيقات الذكاء الاصطناعي العملية.
Link to this sectionأبرز النقاط#
بالتجاوز عن مجرد إنشاء وتحليل النصوص، يمكن استخدام Google Gemini 2.5 Pro لمهام رؤية الحاسوب مثل اكتشاف الأشياء، ووصف الصور، وOCR. بفضل نافذة السياق الهائلة وقدرات الاستدلال المحسنة، فإنه ينتج نتائج مفصلة وواعية بالسياق تعمل بشكل جيد في سيناريوهات العالم الحقيقي.
مع استمرار تطور نماذج الذكاء الاصطناعي، تجعل أدوات مثل Gemini 2.5 Pro من الأسهل حل المشكلات المعقدة عبر الصناعات. من المحتمل أن نرى اعتمادًا أوسع للذكاء الاصطناعي مع بحث المزيد من المؤسسات عن حلول مرنة ومتعددة الوسائط يمكنها التعامل مع مجموعة واسعة من المهام، من الفهم المرئي إلى معالجة اللغة.
كن جزءًا من مجتمعنا وتعرف على مشاريع الذكاء الاصطناعي المتطورة على مستودع GitHub الخاص بنا. شاهد تطبيقات الذكاء الاصطناعي للرؤية في الزراعة ودور الذكاء الاصطناعي في التصنيع على صفحات حلولنا. استكشف خطط الترخيص الخاصة بنا وابنِ حلول رؤية الحاسوب اليوم!






