استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024

تحديثات أبحاث الذكاء الاصطناعي من Meta FAIR: SAM 2.1 و CoTracker3

أبيرامي فينا

5 دقائق قراءة

4 نوفمبر 2024

اكتشف أحدث نماذج الذكاء الاصطناعي من Meta FAIR، SAM 2.1 و CoTracker3، التي توفر إمكانات تجزئة وتتبع متقدمة لتطبيقات متنوعة في العالم الحقيقي.

الذكاء الاصطناعي (AI) هو مجال بحثي يضج بالإثارة والطاقة مؤخرًا، مع ظهور ابتكارات واختراقات جديدة بوتيرة أسرع من أي وقت مضى. في الأسابيع القليلة الماضية، كشف فريق Meta's Fundamental AI Research (FAIR) عن مجموعة من الأدوات و النماذج التي تهدف إلى معالجة التحديات في مجالات مختلفة من الذكاء الاصطناعي. تتضمن هذه الإصدارات تحديثات يمكن أن تؤثر على مجالات متنوعة مثل الرعاية الصحية و الروبوتات و الواقع المعزز.

على سبيل المثال، يعمل نموذج SAM 2.1 المحدث على تحسين تجزئة الكائنات، مما يسهل تحديد الكائنات وفصلها بدقة في الصور ومقاطع الفيديو. وفي الوقت نفسه، يركز CoTracker3 على تتبع النقاط، مما يساعد على تتبع النقاط في إطارات الفيديو حتى عندما تتحرك الكائنات أو يتم حظرها جزئيًا. 

قدمت Meta أيضًا إصدارات أخف وأسرع من نموذج لغة Llama الخاص بها من أجل الاستخدام الفعال على الجهاز، جنبًا إلى جنب مع تقنية استشعار اللمس الجديدة لـ الروبوتات. في هذه المقالة، سنقوم بتحليل أحدث الإصدارات من Meta FAIR، مع إلقاء نظرة على ما تقدمه كل أداة. هيا بنا نبدأ!

نموذج Meta المحسن لتقسيم أي شيء: SAM 2.1

تجزئة الأجسام، وهي مهمة رئيسية في الرؤية الحاسوبية، تجعل من الممكن تحديد وفصل الأجسام المتميزة داخل صورة أو مقطع فيديو، مما يسهل تحليل مناطق معينة ذات أهمية. منذ إطلاقه، تم استخدام نموذج تجزئة أي شيء 2 (SAM 2) من Meta لتجزئة الأجسام في مختلف المجالات مثل التصوير الطبي و الأرصاد الجوية. بناءً على التعليقات الواردة من المجتمع، قدمت Meta الآن SAM 2.1، وهي نسخة محسنة مصممة لمعالجة بعض التحديات التي واجهت النموذج الأصلي وتقديم أداء أقوى بشكل عام.

__wf_reserved_inherit
الشكل 1. قياس أداء نموذج SAM 2.1.

يتضمن SAM 2.1 تحديثات للتعامل بشكل أفضل مع الكائنات المتشابهة بصريًا والأصغر حجمًا، وذلك بفضل تقنيات زيادة البيانات الجديدة. كما أنه يحسن كيفية تعامل النموذج مع الانسداد (عندما تكون أجزاء من الكائن مخفية عن الأنظار) من خلال تدريبه على تسلسلات فيديو أطول، مما يسمح له "بتذكر" الكائنات والتعرف عليها بمرور الوقت، حتى لو كانت مسدودة مؤقتًا. على سبيل المثال، إذا كان شخص ما يصور مقطع فيديو لشخص يمشي خلف شجرة، فيمكن لـ SAM 2.1 تتبع الشخص أثناء ظهوره على الجانب الآخر، باستخدام ذاكرته لموضع الكائن و حركته لملء الفجوات عندما تنقطع الرؤية لفترة وجيزة.

بالإضافة إلى هذه التحديثات، أصدرت Meta مجموعة SAM 2 Developer Suite، التي توفر رمز تدريب مفتوح المصدر وبنية تحتية تجريبية كاملة حتى يتمكن المطورون من ضبط SAM 2.1 باستخدام البيانات الخاصة بهم ودمجها في مجموعة من التطبيقات.

CoTracker3: نموذج التتبع الخاص بـ Meta وميزاته وتحديثاته

مهمة أخرى مثيرة للاهتمام في رؤية الكمبيوتر هي تتبع النقاط. وهو ينطوي على تتبع نقاط أو ميزات معينة عبر إطارات متعددة في الفيديو. ضع في اعتبارك مقطع فيديو لدراج هوائية يسير على طول مسار - يتيح تتبع النقاط للنموذج تتبع النقاط الموجودة على الدراج، مثل الخوذة أو العجلات، حتى لو كانت مخفية بواسطة عوائق للحظة.

يعد تتبع النقاط أمرًا ضروريًا لتطبيقات مثل إعادة البناء ثلاثية الأبعاد والروبوتات وتحرير الفيديو. غالبًا ما تعتمد النماذج التقليدية على إعدادات معقدة ومجموعات بيانات تركيبية كبيرة، مما يحد من فعاليتها عند تطبيقها على سيناريوهات العالم الحقيقي. 

يعالج نموذج التتبع CoTracker3 من Meta هذه القيود عن طريق تبسيط بنية النموذج. كما يقدم تقنية التسمية الزائفة التي تتيح للنموذج التعلم من مقاطع الفيديو الحقيقية غير المشروحة، مما يجعل CoTracker3 أكثر كفاءة وقابلية للتطوير للاستخدام العملي.

__wf_reserved_inherit
الشكل 2. مقارنة CoTracker3 بنماذج التتبع الأخرى.

إحدى الميزات التي تجعل CoTracker3 متميزًا هي قدرته على التعامل مع الانسدادات بشكل جيد. باستخدام تقنية الانتباه المتبادل عبر المسارات، وهي تقنية تسمح للنموذج بتبادل المعلومات عبر نقاط متعددة يتم تتبعها، يمكن لـ CoTracker3 استنتاج مواضع النقاط المخفية عن طريق الرجوع إلى النقاط المرئية. وبذلك، تم تصميم CoTracker3 ليكون فعالاً للغاية في البيئات الديناميكية، مثل تتبع شخص ما عبر مشهد مزدحم. 

يوفر CoTracker3 أيضًا وضعي الاتصال المباشر وغير المباشر. يوفر وضع الاتصال المباشر تتبعًا في الوقت الفعلي. بينما يمكن استخدام الوضع غير المباشر لتتبع أكثر شمولاً عبر تسلسلات الفيديو بأكملها، وهو مثالي لمهام مثل تحرير الفيديو أو الرسوم المتحركة

تحديثات وأبحاث أخرى من Meta FAIR

في حين أن SAM 2.1 و CoTracker3 يعرضان أحدث التطورات التي حققتها Meta في رؤية الكمبيوتر، إلا أن هناك أيضاً تحديثات مثيرة في مجالات أخرى من الذكاء الاصطناعي، مثل معالجة اللغات الطبيعية (NLP) و الروبوتات. لنلقِ نظرة على بعض التطورات الحديثة الأخرى من Meta FAIR.

Meta's Spirit LM: ابتكارات الذكاء الاصطناعي في اللغة والنماذج متعددة الوسائط

Meta's Spirit LM هو نموذج لغوي متعدد الوسائط جديد يجمع بين إمكانيات النصوص والكلام، مما يجعل التفاعلات مع الذكاء الاصطناعي تبدو أكثر طبيعية. على عكس النماذج التقليدية التي تتعامل مع النصوص فقط أو الكلام فقط، يمكن لـ Spirit LM التبديل بسلاسة بين الاثنين. 

يمكن لـ Spirit LM فهم اللغة وتوليدها بطرق تبدو أقرب إلى الطريقة البشرية. على سبيل المثال، يمكنه تحسين المساعدين الافتراضيين الذين يمكنهم الاستماع والاستجابة باللغة المنطوقة أو المكتوبة، أو دعم أدوات الوصول التي تحول بين الكلام والنص. 

__wf_reserved_inherit
الشكل 3. مثال على تحويل النص إلى كلام باستخدام Meta Spirit LM.

علاوة على ذلك، طورت Meta تقنيات لجعل نماذج اللغة الكبيرة أكثر كفاءة. إحدى هذه التقنيات، تسمى Layer Skip، تساعد في تقليل الاحتياجات الحسابية و تكاليف الطاقة عن طريق تنشيط الطبقات الضرورية فقط لمهمة معينة. وهذا مفيد بشكل خاص للتطبيقات على الأجهزة ذات الذاكرة والطاقة المحدودة. 

بالنظر إلى الحاجة إلى نشر تطبيقات الذكاء الاصطناعي على هذه الأجهزة، فقد طرحت Meta أيضًا إصدارات كمية من نماذج Llama الخاصة بها. يتم ضغط هذه النماذج لتشغيلها بشكل أسرع على الأجهزة المحمولة دون التضحية بالدقة

نظرة على مستقبل التحسين مع Meta Lingua

مع ازدياد حجم نماذج الذكاء الاصطناعي وتعقيدها، أصبحت عملية تحسين تدريبها أمرًا بالغ الأهمية. وفيما يتعلق بالتحسين، قدمت Meta برنامج Meta Lingua، وهو قاعدة بيانات مرنة وفعالة تسهل تدريب نماذج اللغة الكبيرة. يتيح تصميم Meta Lingua المعياري للباحثين تخصيص وتوسيع نطاق تجاربهم بسرعة. 

يمكن للباحثين قضاء وقت أقل في الإعداد التقني والمزيد من الوقت في البحث الفعلي. كما أن قاعدة التعليمات البرمجية خفيفة الوزن وسهلة التكامل، مما يجعلها مناسبة لكل من التجارب الصغيرة والمشاريع واسعة النطاق. من خلال إزالة هذه العقبات التقنية، تساعد Meta Lingua الباحثين على إحراز تقدم أسرع واختبار أفكار جديدة بسهولة أكبر.

__wf_reserved_inherit
الشكل 4. نظرة عامة على Meta Lingua.

تحسينات Meta في أمان الذكاء الاصطناعي

مع تقدم تكنولوجيا الحوسبة الكمومية، فإنها تجلب تحديات جديدة لـ أمن البيانات. على عكس أجهزة الكمبيوتر اليوم، من المحتمل أن تكون أجهزة الكمبيوتر الكمومية قادرة على حل العمليات الحسابية المعقدة بشكل أسرع بكثير. هذا يعني أنها يمكن أن تخترق طرق التشفير المستخدمة حاليًا لحماية المعلومات الحساسة. لهذا السبب أصبح البحث في هذا المجال مهمًا بشكل متزايد - فوضع طرق جديدة لحماية البيانات أمر ضروري بينما نستعد لمستقبل الحوسبة الكمومية.

لمعالجة ذلك، طورت Meta أداة Salsa، وهي أداة تهدف إلى تعزيز أمن التشفير ما بعد الكم. تساعد Salsa الباحثين على اختبار الهجمات المدفوعة بالذكاء الاصطناعي وتحديد نقاط الضعف المحتملة، مما يمكنهم من فهم ومعالجة الثغرات الأمنية في أنظمة التشفير بشكل أفضل. من خلال محاكاة سيناريوهات الهجوم المتقدمة، توفر Salsa رؤى قيمة يمكن أن توجه تطوير تدابير أمنية أقوى وأكثر مرونة للعصر الكمي.

الذكاء الاصطناعي في Meta: أحدث الابتكارات في مجال الروبوتات

يركز أحدث أعمال Meta في مجال الروبوتات على مساعدة الذكاء الاصطناعي على التفاعل بشكل طبيعي أكثر مع العالم المادي من خلال تحسين إدراك اللمس والبراعة والتعاون مع البشر. على وجه الخصوص، Meta Digit 360 هو مستشعر لمسي متقدم يمنح الروبوتات إحساسًا دقيقًا باللمس. تساعد المستشعرات الروبوتات على اكتشاف تفاصيل مثل الملمس والضغط وحتى أشكال الأشياء. من خلال هذه الرؤى، يمكن للروبوتات التعامل مع الأشياء بمزيد من الدقة؛ وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية و التصنيع.

فيما يلي بعض الميزات الرئيسية التي يشتمل عليها Meta Digit 360:

  • وهو مجهز بـ 18 ميزة استشعار متميزة لتتمكن من التقاط مجموعة واسعة من التفاصيل اللمسية.
  • يمكن للمستشعر اكتشاف تغيرات الضغط الصغيرة التي تصل إلى 1 مللي نيوتن، مما يمكّن الروبوتات من الاستجابة للملمس الدقيق والحركات الطفيفة.
  • يتضمن أكثر من 8 ملايين تاكسل (نقاط استشعار صغيرة) عبر سطح طرف الإصبع، مما يوفر خريطة عالية الدقة لمعلومات اللمس.

يعد Meta Digit Plexus امتدادًا لـ Meta Digit 360، وهو عبارة عن منصة تدمج العديد من مستشعرات اللمس على يد روبوتية واحدة. يسمح هذا الإعداد للروبوتات بمعالجة معلومات اللمس من نقاط متعددة في وقت واحد، على غرار الطريقة التي تجمع بها الأيدي البشرية البيانات الحسية.

__wf_reserved_inherit
الشكل 5. ميتا ديجيت بليكسس.

تهيئة المشهد للفصل التالي من الذكاء الاصطناعي

تُظهر آخر تحديثات Meta للذكاء الاصطناعي، والتي تتراوح من التطورات في رؤية الكمبيوتر مع SAM 2.1 و CoTracker3 إلى التطورات الجديدة في نماذج اللغة والروبوتات، كيف ينتقل الذكاء الاصطناعي بثبات من النظرية إلى الحلول العملية المؤثرة. 

تم تصميم هذه الأدوات لجعل الذكاء الاصطناعي أكثر قابلية للتكيف وفائدة في مختلف المجالات، مما يساعد في كل شيء بدءًا من تقسيم الصور المعقدة وحتى فهم اللغة البشرية وحتى العمل جنبًا إلى جنب معنا في المساحات المادية. 

من خلال إعطاء الأولوية لإمكانية الوصول والتطبيق في العالم الحقيقي، تقربنا Meta FAIR من مستقبل يمكن فيه للذكاء الاصطناعي معالجة تحديات العالم الحقيقي وتحسين حياتنا اليومية بطرق ذات مغزى. 

هل أنت مهتم بالذكاء الاصطناعي؟ انضم إلى مجتمعنا للحصول على آخر التحديثات والرؤى، وتحقق من مستودع GitHub الخاص بنا. يمكنك أيضًا استكشاف كيف يمكن استخدام الرؤية الحاسوبية في صناعات مثل السيارات ذاتية القيادة و الزراعة!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا
تم نسخ الرابط إلى الحافظة