Yolo فيجن شنتشن
شنتشن
انضم الآن

تحديثات أبحاث الذكاء الاصطناعي من Meta FAIR: SAM 2.1 و CoTracker3

أبيرامي فينا

5 دقائق قراءة

4 نوفمبر 2024

استكشف أحدث نماذج الذكاء الاصطناعي من Meta FAIR، SAM 2.1 و CoTracker3، التي توفر إمكانات متقدمة للتجزئة والتتبع لتطبيقات متنوعة وواقعية.

الذكاء الاصطناعي (AI) هو مجال بحثي يضج بالإثارة والطاقة مؤخرًا، مع ظهور ابتكارات واختراقات جديدة بوتيرة أسرع من أي وقت مضى. في الأسابيع القليلة الماضية، كشف فريق Meta's Fundamental AI Research (FAIR) عن مجموعة من الأدوات و النماذج التي تهدف إلى معالجة التحديات في مجالات مختلفة من الذكاء الاصطناعي. تتضمن هذه الإصدارات تحديثات يمكن أن تؤثر على مجالات متنوعة مثل الرعاية الصحية و الروبوتات و الواقع المعزز.

على سبيل المثال، يعمل نموذج SAM 2.1 المحدّث على تحسين تجزئة الأجسام، مما يسهّل تحديد الأجسام بدقة وفصلها في الصور ومقاطع الفيديو. وفي الوقت نفسه، يركز CoTracker3 على تتبع النقاط، مما يساعد على track النقاط في إطارات الفيديو حتى عندما تتحرك الأجسام أو يتم حظرها جزئيًا. 

قدمت Meta أيضًا إصدارات أخف وأسرع من نموذج لغة Llama الخاص بها من أجل الاستخدام الفعال على الجهاز، جنبًا إلى جنب مع تقنية استشعار اللمس الجديدة لـ الروبوتات. في هذه المقالة، سنقوم بتحليل أحدث الإصدارات من Meta FAIR، مع إلقاء نظرة على ما تقدمه كل أداة. هيا بنا نبدأ!

نموذج Meta المحسّن لـ "أي شيء" الخاص بـ "ميتا SAM 2.1

يُمكِّن تجزئة الكائنات، وهي مهمة رئيسية للرؤية الحاسوبية، من تحديد وفصل الكائنات المميزة داخل صورة أو مقطع فيديو، مما يسهل تحليل مناطق معينة من الاهتمام. منذ إصداره، تم استخدام نموذج تجزئة أي شيء من Meta's Segment Anything Model 2 (SAM 2) لتجزئة الكائنات في مجالات مختلفة مثل التصوير الطبي والأرصاد الجوية. واستنادًا إلى التعليقات الواردة من المجتمع، قدمت Meta الآن نموذج SAM 2.1، وهو إصدار محسّن مصمم لمعالجة بعض التحديات التي واجهت النموذج الأصلي وتقديم أداء أقوى بشكل عام.

__wf_reserved_inherit
الشكل 1. SAM 2.1 قياس أداء النموذج SAM 2.1.

يتضمن SAM 2.1 تحديثات للتعامل مع الأجسام المتشابهة بصرياً والأصغر حجماً بشكل أفضل، وذلك بفضل تقنيات زيادة البيانات الجديدة. كما أنه يحسّن أيضًا كيفية تعامل النموذج مع الانسداد (عندما تكون أجزاء من الجسم مخفية عن الأنظار) من خلال تدريبه على تسلسلات فيديو أطول، مما يسمح له "بتذكر" الأشياء والتعرف عليها بمرور الوقت، حتى لو كانت محجوبة مؤقتًا. على سبيل المثال، إذا قام شخص ما بتصوير مقطع فيديو لشخص يمشي خلف شجرة، يمكن SAM 2.1 track الشخص أثناء ظهوره على الجانب الآخر، مستخدماً ذاكرته عن موقع الجسم وحركته لملء الفراغات عند انقطاع العرض لفترة وجيزة.

وبالإضافة إلى هذه التحديثات، أصدرت Meta مجموعة مطوري SAM 2 Developer Suite، التي توفر كود تدريب مفتوح المصدر وبنية تحتية تجريبية كاملة حتى يتمكن المطورون من ضبط SAM 2.1 ببياناتهم الخاصة ودمجها في مجموعة من التطبيقات.

CoTracker3: نموذج التتبع الخاص بـ Meta وميزاته وتحديثاته

من مهام الرؤية الحاسوبية الأخرى المثيرة للاهتمام تتبع النقاط. وتتضمن تتبع نقاط أو ميزات محددة عبر إطارات متعددة في الفيديو. لننظر إلى مقطع فيديو لراكب دراجة يركب الدراجة على طول track - يتيح تتبع النقاط للنموذج track النقاط الموجودة على الدراج، مثل الخوذة أو العجلات، حتى لو كانت مخفية بسبب العوائق للحظة.

يعد تتبع النقاط أمرًا ضروريًا لتطبيقات مثل إعادة البناء ثلاثية الأبعاد والروبوتات وتحرير الفيديو. غالبًا ما تعتمد النماذج التقليدية على إعدادات معقدة ومجموعات بيانات تركيبية كبيرة، مما يحد من فعاليتها عند تطبيقها على سيناريوهات العالم الحقيقي. 

يعالج نموذج التتبع CoTracker3 من Meta هذه القيود عن طريق تبسيط بنية النموذج. كما يقدم تقنية التسمية الزائفة التي تتيح للنموذج التعلم من مقاطع الفيديو الحقيقية غير المشروحة، مما يجعل CoTracker3 أكثر كفاءة وقابلية للتطوير للاستخدام العملي.

__wf_reserved_inherit
الشكل 2. مقارنة CoTracker3 بنماذج التتبع الأخرى.

تتمثل إحدى الميزات التي تجعل CoTracker3 متميزًا في قدرته على التعامل مع حالات الانسداد بشكل جيد. باستخدام تقنية الانتباه track المسار، وهي تقنية تسمح للنموذج بمشاركة المعلومات عبر نقاط تعقب متعددة، يمكن ل CoTracker3 استنتاج مواقع النقاط المخفية من خلال الإشارة إلى النقاط المرئية. من خلال القيام بذلك، تم تصميم CoTracker3 ليكون فعالاً للغاية في البيئات الديناميكية، مثل تتبع شخص ما في مشهد مزدحم. 

يوفر CoTracker3 أيضًا وضعي الاتصال المباشر وغير المباشر. يوفر وضع الاتصال المباشر تتبعًا في الوقت الفعلي. بينما يمكن استخدام الوضع غير المباشر لتتبع أكثر شمولاً عبر تسلسلات الفيديو بأكملها، وهو مثالي لمهام مثل تحرير الفيديو أو الرسوم المتحركة

تحديثات وأبحاث أخرى من Meta FAIR

في حين أن SAM 2.1 و CoTracker3 يعرضان أحدث تطورات Meta في مجال الرؤية الحاسوبية، هناك أيضًا تحديثات مثيرة في مجالات أخرى من الذكاء الاصطناعي، مثل معالجة اللغة الطبيعية (NLP) والروبوتات. دعونا نلقي نظرة على بعض هذه التطورات الحديثة الأخرى من Meta FAIR.

Meta's Spirit LM: ابتكارات الذكاء الاصطناعي في اللغة والنماذج متعددة الوسائط

Meta's Spirit LM هو نموذج لغوي متعدد الوسائط جديد يجمع بين إمكانيات النصوص والكلام، مما يجعل التفاعلات مع الذكاء الاصطناعي تبدو أكثر طبيعية. على عكس النماذج التقليدية التي تتعامل مع النصوص فقط أو الكلام فقط، يمكن لـ Spirit LM التبديل بسلاسة بين الاثنين. 

يمكن لـ Spirit LM فهم اللغة وتوليدها بطرق تبدو أقرب إلى الطريقة البشرية. على سبيل المثال، يمكنه تحسين المساعدين الافتراضيين الذين يمكنهم الاستماع والاستجابة باللغة المنطوقة أو المكتوبة، أو دعم أدوات الوصول التي تحول بين الكلام والنص. 

__wf_reserved_inherit
الشكل 3. مثال على تحويل النص إلى كلام باستخدام Meta Spirit LM.

علاوة على ذلك، طورت Meta تقنيات لجعل نماذج اللغة الكبيرة أكثر كفاءة. إحدى هذه التقنيات، تسمى Layer Skip، تساعد في تقليل الاحتياجات الحسابية و تكاليف الطاقة عن طريق تنشيط الطبقات الضرورية فقط لمهمة معينة. وهذا مفيد بشكل خاص للتطبيقات على الأجهزة ذات الذاكرة والطاقة المحدودة. 

بالنظر إلى الحاجة إلى نشر تطبيقات الذكاء الاصطناعي على هذه الأجهزة، فقد طرحت Meta أيضًا إصدارات كمية من نماذج Llama الخاصة بها. يتم ضغط هذه النماذج لتشغيلها بشكل أسرع على الأجهزة المحمولة دون التضحية بالدقة

نظرة على مستقبل التحسين مع Meta Lingua

مع ازدياد حجم نماذج الذكاء الاصطناعي وتعقيدها، أصبحت عملية تحسين تدريبها أمرًا بالغ الأهمية. وفيما يتعلق بالتحسين، قدمت Meta برنامج Meta Lingua، وهو قاعدة بيانات مرنة وفعالة تسهل تدريب نماذج اللغة الكبيرة. يتيح تصميم Meta Lingua المعياري للباحثين تخصيص وتوسيع نطاق تجاربهم بسرعة. 

يمكن للباحثين قضاء وقت أقل في الإعداد التقني والمزيد من الوقت في البحث الفعلي. كما أن قاعدة التعليمات البرمجية خفيفة الوزن وسهلة التكامل، مما يجعلها مناسبة لكل من التجارب الصغيرة والمشاريع واسعة النطاق. من خلال إزالة هذه العقبات التقنية، تساعد Meta Lingua الباحثين على إحراز تقدم أسرع واختبار أفكار جديدة بسهولة أكبر.

__wf_reserved_inherit
الشكل 4. نظرة عامة على Meta Lingua.

تحسينات Meta في أمان الذكاء الاصطناعي

مع تقدم تكنولوجيا الحوسبة الكمومية، فإنها تجلب تحديات جديدة لـ أمن البيانات. على عكس أجهزة الكمبيوتر اليوم، من المحتمل أن تكون أجهزة الكمبيوتر الكمومية قادرة على حل العمليات الحسابية المعقدة بشكل أسرع بكثير. هذا يعني أنها يمكن أن تخترق طرق التشفير المستخدمة حاليًا لحماية المعلومات الحساسة. لهذا السبب أصبح البحث في هذا المجال مهمًا بشكل متزايد - فوضع طرق جديدة لحماية البيانات أمر ضروري بينما نستعد لمستقبل الحوسبة الكمومية.

لمعالجة ذلك، طورت Meta أداة Salsa، وهي أداة تهدف إلى تعزيز أمن التشفير ما بعد الكم. تساعد Salsa الباحثين على اختبار الهجمات المدفوعة بالذكاء الاصطناعي وتحديد نقاط الضعف المحتملة، مما يمكنهم من فهم ومعالجة الثغرات الأمنية في أنظمة التشفير بشكل أفضل. من خلال محاكاة سيناريوهات الهجوم المتقدمة، توفر Salsa رؤى قيمة يمكن أن توجه تطوير تدابير أمنية أقوى وأكثر مرونة للعصر الكمي.

الذكاء الاصطناعي في Meta: أحدث الابتكارات في مجال الروبوتات

يركز أحدث أعمال ميتا في مجال الروبوتات على مساعدة الذكاء الاصطناعي على التفاعل بشكل طبيعي أكثر مع العالم المادي من خلال تعزيز الإدراك باللمس والبراعة والتعاون مع البشر. على وجه الخصوص، جهاز Meta Digit 360 هو مستشعر لمسي متقدم يمنح الروبوتات حاسة لمس دقيقة. تساعد المستشعرات الروبوتات على detect تفاصيل مثل الملمس والضغط وحتى أشكال الأشياء. ومن خلال هذه الرؤى، يمكن للروبوتات التعامل مع الأجسام بدقة أكبر؛ وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية والتصنيع.

فيما يلي بعض الميزات الرئيسية التي يشتمل عليها Meta Digit 360:

  • وهو مجهز بـ 18 ميزة استشعار متميزة لتتمكن من التقاط مجموعة واسعة من التفاصيل اللمسية.
  • يمكن لجهاز الاستشعار detect تغيرات الضغط الصغيرة التي تصل إلى 1 مللي نيوتن، مما يتيح للروبوتات الاستجابة للتركيبات الدقيقة والحركات الدقيقة.
  • يتضمن أكثر من 8 ملايين تاكسل (نقاط استشعار صغيرة) عبر سطح طرف الإصبع، مما يوفر خريطة عالية الدقة لمعلومات اللمس.

يعد Meta Digit Plexus امتدادًا لـ Meta Digit 360، وهو عبارة عن منصة تدمج العديد من مستشعرات اللمس على يد روبوتية واحدة. يسمح هذا الإعداد للروبوتات بمعالجة معلومات اللمس من نقاط متعددة في وقت واحد، على غرار الطريقة التي تجمع بها الأيدي البشرية البيانات الحسية.

__wf_reserved_inherit
الشكل 5. ميتا ديجيت بليكسس.

تهيئة المشهد للفصل التالي من الذكاء الاصطناعي

تُظهر آخر تحديثات Meta للذكاء الاصطناعي، بدءاً من التطورات في مجال الرؤية الحاسوبية مع SAM 2.1 و CoTracker3 إلى التطورات الجديدة في النماذج اللغوية والروبوتات، كيف ينتقل الذكاء الاصطناعي بثبات من النظرية إلى حلول عملية مؤثرة. 

تم تصميم هذه الأدوات لجعل الذكاء الاصطناعي أكثر قابلية للتكيف وفائدة في مختلف المجالات، مما يساعد في كل شيء بدءًا من تقسيم الصور المعقدة وحتى فهم اللغة البشرية وحتى العمل جنبًا إلى جنب معنا في المساحات المادية. 

من خلال إعطاء الأولوية لإمكانية الوصول والتطبيق في العالم الحقيقي، تقربنا Meta FAIR من مستقبل يمكن فيه للذكاء الاصطناعي معالجة تحديات العالم الحقيقي وتحسين حياتنا اليومية بطرق ذات مغزى. 

هل أنت مهتم بالذكاء الاصطناعي؟ انضم إلى مجتمعنا للحصول على آخر التحديثات والرؤى، وتحقق من مستودع GitHub الخاص بنا. يمكنك أيضًا استكشاف كيف يمكن استخدام الرؤية الحاسوبية في صناعات مثل السيارات ذاتية القيادة و الزراعة!

لنبنِ مستقبل
الذكاء الاصطناعي معًا!

ابدأ رحلتك مع مستقبل تعلم الآلة

ابدأ مجانًا