يولو فيجن شنتشن
شنتشن
انضم الآن

تعمل نماذج Google Gemini Robotics على تشغيل روبوتات أكثر ذكاءً

أبيرامي فينا

4 دقائق قراءة

4 أبريل، 2025

استكشف كيف يعزز Google Gemini Robotics الروبوتات التي تعمل بالذكاء الاصطناعي بذكاء متعدد الوسائط، مما يعزز القدرة على التكيف والبراعة والتفاعل السلس مع الإنسان.

لعقود من الزمان، كانت الروبوتات ترمز إلى المستقبل، حيث ظهرت في مختبرات الأبحاث وأفلام الخيال العلمي وعروض النماذج الصناعية المتطورة. الآن، بفضل التقدم الأخير في الذكاء الاصطناعي (AI)، تنتقل هذه النماذج الأولية إلى ما هو أبعد من البيئات الخاضعة للرقابة إلى تطبيقات العالم الحقيقي. 

على وجه التحديد، مع Gemini Robotics، تخطو Google خطوة أقرب نحو التكنولوجيا اللازمة لبناء روبوتات أكثر ذكاءً. تم إطلاق نموذج Gemini Robotics ونموذجه المصاحب، Gemini Robotics-ER (الاستدلال المجسد)، في 12 مارس 2025، وهما أحدث ابتكارات Google DeepMind. 

وهي مبنية على Gemini 2.0، وهو نموذج لغوي كبير متعدد الوسائط (LLM) يمكنه معالجة وإنشاء أنواع مختلفة من البيانات، بما في ذلك النصوص والصور والصوت والفيديو، مما يسهل تفاعلات أكثر تنوعًا وطبيعية. تجلب هذه النماذج إمكانات Gemini 2.0 متعددة الوسائط إلى العالم المادي، مما يتيح روبوتات أكثر مهارة وتفاعلية وذكاءً.

على سبيل المثال، على عكس الروبوتات التقليدية التي تتبع تعليمات ثابتة، يمكن للروبوتات المدمجة مع نماذج Gemini Robotics معالجة الرؤية واللغة. وهذا يجعل من الممكن لها اتخاذ قرارات في الوقت الفعلي والتكيف مع البيئات المتغيرة.

في هذه المقالة، سنستكشف Gemini Robotics و Gemini Robotics-ER، وكيف تعمل هذه النماذج، وميزاتها وتطبيقاتها الرئيسية. هيا بنا نبدأ!

__wf_reserved_inherit
الشكل 1. Gemini Robotics تساعد الروبوتات على أداء مهام متعددة بكفاءة.

تقديم روبوتات Google Gemini

إن Google’s Gemini Robotics هو نموذج ذكاء اصطناعي متقدم مصمم لمنح الروبوتات القدرة على الإدراك والاستدلال والتفاعل في العالم المادي. كنموذج رؤية ولغة وحركة (VLA)، فإنه يسمح للروبوتات بمعالجة التعليمات وتفسير بيئتها وتنفيذ المهام المعقدة بدقة عالية.

وفي الوقت نفسه، يحسن نموذج Gemini Robotics-ER قدرة الروبوت على فهم العلاقات المكانية لكيفية وضع الكائنات وكيف تتحرك وكيف تتفاعل. يساعد هذا الروبوتات على توقع الإجراءات وتعديل حركاتها وفقًا لذلك. 

على سبيل المثال، ضع في اعتبارك مهمة يحتاج فيها الروبوت إلى لف سلك حول سماعة رأس. يساعده Gemini Robotics-ER على فهم المشهد، والتعرف على شكل ومرونة السلك، وتحديد هيكل سماعة الرأس، والتنبؤ بكيفية انحناء السلك أثناء تحركه. بعد ذلك، يترجم Gemini Robotics هذا الفهم إلى عمل، وتنسيق كلتا اليدين لمعالجة السلك بسلاسة، وتعديل قبضته لتجنب التشابك، وضمان لف آمن.

من خلال الجمع بين الإدراك والفعل، تخلق Gemini Robotics و Gemini Robotics-ER نظامًا ذكيًا يسمح للروبوتات بأداء مهام بارعة بكفاءة في بيئات ديناميكية.

__wf_reserved_inherit
الشكل 2. نظرة عامة على عائلة نماذج Gemini Robotics.

الذكاء الاصطناعي في الروبوتات: استكشاف كيفية عمل Gemini Robotics

بعد ذلك، لنلقِ نظرة فاحصة على كل نموذج لفهم أفضل لكيفية عمل Gemini Robotics و Gemini Robotics-ER معًا لتحقيق التوازن بين المرونة والإجراءات السريعة. 

من ناحية، تعتمد Gemini Robotics-ER على آليتين رئيسيتين: توليد التعليمات البرمجية بدون تلقين (zero-shot) والتعلم السياقي مع عدد قليل من اللقطات (few-shot in-context learning (ICL)). باستخدام توليد التعليمات البرمجية بدون تلقين، يمكن للنموذج إنشاء تعليمات برمجية للتحكم في الروبوت بناءً على تعليمات المهام والصور والبيانات في الوقت الفعلي دون الحاجة إلى تدريب إضافي. 

وبالمثل، مع التعلم بعدد قليل من اللقطات، يتكيف النموذج مع المهام الجديدة من خلال التعلم من عدد قليل فقط من الأمثلة، مما يقلل الحاجة إلى تدريب مكثف. تسمح هذه الطرق مجتمعة للروبوت بأداء مهام معقدة بسرعة والتكيف مع التحديات الجديدة بأقل جهد.

من ناحية أخرى، تم تصميم Gemini Robotics لتحقيق السرعة والكفاءة. وهي تستخدم نظامًا هجينًا يتكون من عمود فقري قائم على السحابة ووحدة فك ترميز للحركة على متن الروبوت. يعالج العمود الفقري القائم على السحابة المعلومات بسرعة، مع زمن انتقال من الاستعلام إلى الاستجابة أقل من 160 مللي ثانية. 

بعد ذلك، يساعد جهاز فك التشفير الموجود على متن الطائرة في ترجمة هذه البيانات إلى إجراءات في الوقت الفعلي. يحقق هذا النظام المدمج وقت استجابة إجمالي يبلغ حوالي 250 مللي ثانية، مع سرعة تحكم تبلغ 50 إجراءً في الثانية.

__wf_reserved_inherit
الشكل 3. فهم كيف تدعم Gemini Robotics التحكم في الروبوت في الوقت الفعلي.

القدرات الرئيسية لروبوتات Gemini 

إليك لمحة سريعة عن الميزات الرئيسية لـ Gemini Robotics:

  • العمومية: يمكنه التكيف مع التغيرات في الإضاءة والخلفيات والأشياء مع الحفاظ على الدقة. كما أنه يفهم الأوامر المعاد صياغتها أو متعددة اللغات ويمكنه تعديل الحركات لظروف مختلفة.

  • التفاعلية: يمكن لهذا النموذج معالجة مجموعة واسعة من أوامر اللغة الطبيعية والاستجابة بشكل حدسي. كما أنه يضبط إجراءاته بناءً على التغييرات في الوقت الفعلي في البيئة، مما يجعله مثاليًا لـ التعاون بين الإنسان والروبوت.

  • البراعة: يمكن للروبوت الذي يعمل بهذا النموذج أداء مهام معقدة ودقيقة، مثل طي الأوريجامي أو التعامل مع الأشياء الهشة. سواء كانت عملية خطوة بخطوة أو إجراءات سريعة، يمكن للنموذج المساعدة في تنفيذها بكفاءة.
  • تجسيدات متعددة: إنه يعمل عبر منصات روبوتية مختلفة، مثل الأنظمة ثنائية الذراع والروبوتات الشبيهة بالبشر، مع القليل من الضبط الدقيق. يتكيف بسرعة مع المهام الجديدة مع الحفاظ على الأداء العالي.
__wf_reserved_inherit
الشكل 4. يعمل Google Gemini Robotics عبر منصات روبوتية متنوعة.

القدرات الرئيسية لروبوتات Gemini - ER

إليك نظرة على بعض الميزات الرئيسية في Gemini Robotics-ER التي تساعد الروبوتات على فهم العالم والتفاعل معه:

  • اكتشاف الكائنات (Object detection) وتتبعها: يمكن استخدامه لتحديد وتتبع الكائنات في المساحات ثنائية وثلاثية الأبعاد. باستخدام استعلامات اللغة الطبيعية، فإنه يساعد الروبوتات في العثور على الكائنات والتنبؤ بمواقعها، سواء بناءً على النوع أو الموقع أو الوظيفة.

  • التأشير: تتيح هذه الميزة للنموذج تحديد كائنات أو أجزاء معينة داخل صورة باستخدام إحداثيات دقيقة. يمكن استخدامه لمساعدة الروبوتات في تحديد مواقع الكائنات بأكملها أو أجزاء من الكائنات أو حتى المساحات الفارغة.
  • توقع الإمساك: يمكن استخدام Gemini Robotics-ER لتحديد أفضل طريقة للإمساك بالأشياء بناءً على شكلها ووظيفتها. يتوقع مكان الإمساك، سواء كان موزة أو مقبض كوب، مما يمكّن الروبوتات من التعامل مع العناصر بعناية.

  • الاستدلال المنطقي للمسار: يمكن استخدام النموذج لتخطيط مسارات الحركة عن طريق التنبؤ بتسلسل الإجراءات. على سبيل المثال، يمكنه توجيه يد روبوت نحو أداة أو تحديد نقاط الطريق لمهمة معينة، مما يساعد الروبوت على إكمال المهام بكفاءة.

  • تطابق متعدد المناظر: تساعد هذه الميزة النموذج على فهم الهياكل ثلاثية الأبعاد من خلال مقارنة كيفية ظهور الكائنات من زوايا مختلفة. يمكن استخدامه لتحسين التفكير المكاني، مما يسمح للروبوتات بالتفاعل بشكل أفضل مع الكائنات في البيئات الديناميكية.
__wf_reserved_inherit
الشكل 5. يمكن لـ Gemini Robotics-ER التعامل مع مجموعة متنوعة من المهام.

تطبيقات نماذج Google Gemini للروبوتات

الآن بعد أن ناقشنا القدرات الرئيسية لـ Gemini Robotics و Gemini Robotics-ER، دعنا نتعمق في تطبيقاتها الواقعية عبر مختلف الصناعات.

يمكن استخدام Google Gemini Robotics في التصنيع

عندما يتعلق الأمر بالتصنيع (manufacturing)، فإن الدقة والسرعة مهمتان، ولكن القدرة على التكيف هي ما يجعل كل شيء يسير بسلاسة حقًا. على سبيل المثال، يمكن لروبوت صناعي مدعوم من Gemini تجميع نظام بكرة عن طريق تحديد المكونات الصحيحة ووضعها بشكل صحيح والتعامل مع شريط مطاطي مرن بقوة دقيقة. 

يمكنه تمديد الشريط ولفه حول البكرات وتأمينه دون كسر أو اختلال. إذا تغير الإعداد أو اختلف المهمة، يمكن للروبوت التكيف دون الحاجة إلى إعادة برمجة مكثفة. هذا الأتمتة الذكية تقلل الأخطاء وتحسن الكفاءة وتحافظ على سير عمليات التصنيع بسلاسة.

__wf_reserved_inherit
الشكل 6. روبوت صناعي ثنائي الذراع يقوم بتركيب شريط مطاطي بدقة على نظام بكرة.

المنازل الذكية التي تم تمكينها بواسطة Gemini Robotics

يمكن أن تجعل الجداول المزدحمة مواكبة الأعمال المنزلية أمرًا صعبًا. يمكن للروبوتات الذكية التدخل للتعامل مع مهام مثل التنظيف وفرز البقالة وحتى المساعدة في إعداد الوجبات، مما يجعل الحياة اليومية أسهل. 

قد يبدو هذا وكأنه روبوت يقوم بتعبئة حقيبة غداء، ويختار بعناية ويضع المواد الغذائية بالداخل مع تعديل قبضته لحماية العناصر الهشة مثل الفاكهة أو العلب. حتى إذا تغير الترتيب، يمكن للروبوت التكيف من تلقاء نفسه، مما يخفف من الأعمال اليومية بأقل قدر من الإشراف.

__wf_reserved_inherit
الشكل 7. روبوت شبيه بالبشر يقوم بتعبئة حقيبة غداء بعناية.

إيجابيات وسلبيات الاستفادة من Gemini Robotics 

تعمل Gemini Robotics على توسيع نطاق ما يمكن أن تفعله الروبوتات، من التصنيع الدقيق إلى المساعدة المنزلية الذكية. فيما يلي بعض المزايا الرئيسية لاستخدام Gemini Robotics عبر مختلف التطبيقات: 

  • الحد الأدنى من متطلبات التدريب: على عكس الروبوتات التقليدية، يمكن للروبوتات التي تعمل بنظام Gemini Robotics التعلم من عدد قليل من العروض التوضيحية، مما يقلل من تكاليف التدريب ويسهل نشرها.

  • السلامة المحسنة: في البيئات الخطرة، يمكن للروبوتات المدمجة مع Gemini Robotics أداء مهام خطيرة، مما يقلل من خطر إصابة العمال البشريين.
  • ميزات قابلة للتخصيص: تعني مرونة Gemini Robotics أنه يمكن تصميمه لتلبية الاحتياجات المحددة لمختلف الصناعات أو الشركات الفردية، مما يسمح بالتطبيقات المتخصصة والحلول الفريدة.

في حين أن Gemini Robotics تقدم العديد من المزايا، من المهم أيضًا معالجة القيود التالية:

  • تحديات العلاقة المكانية: قد تواجه هذه النماذج صعوبة في تتبع العلاقات المكانية عبر تسلسلات الفيديو الطويلة، مما يؤثر على قدرتها على تتبع وفهم الكائنات بمرور الوقت.
  • نقص في الدقة العددية: قد لا تكون تنبؤات النموذج، مثل النقاط والمربعات المحيطة، دقيقة بما يكفي للمهام التي تتطلب تحكمًا دقيقًا، مثل مهام الروبوتات الدقيقة.
  • مهام معقدة: قد تواجه Gemini Robotics صعوبة في التعامل مع المهام المعقدة التي تحتاج إلى استدلال متعدد الخطوات وحركات دقيقة، خاصة في المواقف الجديدة أو غير المألوفة. 

مستقبل الذكاء الاصطناعي في مجال الروبوتات

مع استمرار الذكاء الاصطناعي في التقدم، تقود نماذج مثل Gemini Robotics و Gemini Robotics-ER مستقبل الروبوتات. من المحتمل أن تركز التحسينات المستقبلية على تعزيز التفكير متعدد الخطوات، وتمكين الروبوتات من تقسيم المهام إلى خطوات منطقية لزيادة الدقة.

هناك مجال رئيسي آخر للتطوير تخطط Google DeepMind للعمل عليه وهو التدريب القائم على المحاكاة. من خلال التعلم في البيئات الافتراضية قبل النشر في العالم الحقيقي، يمكن للروبوتات تحسين عملية اتخاذ القرار والحركات، مما يقلل الأخطاء في التطبيقات العملية.

مع تطور هذه التقنيات، فإنها يمكن أن تمهد الطريق لمستقبل تكون فيه الروبوتات أكثر استقلالية وقدرة على التكيف وقادرة على العمل بسلاسة جنبًا إلى جنب مع البشر في الحياة اليومية.

النقاط الرئيسية

تعد Gemini Robotics خطوة كبيرة إلى الأمام في الأتمتة المدفوعة بالذكاء الاصطناعي، حيث تربط الذكاء الرقمي بالمهام المادية في العالم الحقيقي. من خلال الجمع بين الرؤية واللغة والتعلم القائم على الحركة، يمكن لهذه الروبوتات التعامل مع المهام المعقدة بدقة وقابلية للتكيف. 

مع استمرار تطور الروبوتات لتصبح أكثر ذكاءً، فمن المحتمل أن تلعب دورًا أكبر في الحياة اليومية، مما يغير الطريقة التي يعمل بها البشر والآلات معًا. يقربنا هذا التقدم من عالم ذكي وأكثر اتصالاً حيث يعزز الأتمتة القائمة على الذكاء الاصطناعي كلاً من الصناعات والمهام اليومية.

كن جزءًا من مجتمعنا المتنامي! قم بزيارة مستودع GitHub الخاص بنا للتعمق أكثر في الذكاء الاصطناعي. هل تتطلع إلى بدء مشاريع رؤية الكمبيوتر الخاصة بك؟ ألق نظرة على خيارات الترخيص الخاصة بنا. تعرف على المزيد حول الذكاء الاصطناعي في التصنيع و رؤية الذكاء الاصطناعي في صناعة السيارات في صفحات الحلول الخاصة بنا!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة