الذكاء الاصطناعي المرئي

تحديثات أبحاث الذكاء الاصطناعي من Meta FAIR: SAM 2.1 وCoTracker3

استكشف أحدث نماذج الذكاء الاصطناعي من Meta FAIR، وهي SAM 2.1 وCoTracker3، التي توفر قدرات متقدمة للتجزئة والتتبع لتطبيقات متنوعة وواقعية.

أبأبيرامي فينا

5 min readNovember 4, 2024

أبحاث Meta FAIR للذكاء الاصطناعي: SAM 2.1 وCoTracker3

يعد الذكاء الاصطناعي (AI) مجالاً بحثياً يشهد مؤخراً الكثير من الحماس والطاقة، مع ظهور ابتكارات جديدة واختراقات بشكل أسرع من أي وقت مضى. في الأسابيع القليلة الماضية، كشف فريق أبحاث الذكاء الاصطناعي الأساسي (FAIR) في Meta عن مجموعة من الأدوات والنماذج التي تهدف إلى معالجة التحديات في مجالات مختلفة من الذكاء الاصطناعي. تتضمن هذه الإصدارات تحديثات قد تؤثر على مجالات متنوعة مثل الرعاية الصحية والروبوتات والواقع المعزز.

على سبيل المثال، يعمل نموذج SAM 2.1 المحدّث على تحسين تجزئة الكائنات، مما يسهل تحديد الكائنات وفصلها بدقة في الصور ومقاطع الفيديو. وفي الوقت نفسه، يركز CoTracker3 على تتبع النقاط، مما يساعد في متابعة النقاط في إطارات الفيديو حتى عندما تتحرك الكائنات أو تُحجب جزئياً.

قدمت Meta أيضاً إصدارات أخف وأسرع من نموذج اللغة Llama الخاص بها من أجل الاستخدام الفعال على الجهاز، إلى جانب تقنية استشعار لمسي جديدة لـالروبوتات. في هذه المقالة، سنستعرض أحدث هذه الإصدارات من Meta FAIR، ونلقي نظرة على ما تقدمه كل أداة. لنبدأ!

Link to this sectionنموذج Segment Anything Model المحسّن من Meta: SAM 2.1#

تجزئة الكائنات، وهي مهمة رؤية حاسوبية رئيسية، تجعل من الممكن تحديد وفصل كائنات متميزة داخل صورة أو مقطع فيديو، مما يسهل تحليل مناطق محددة ذات أهمية. منذ إصداره، تم استخدام Segment Anything Model 2 (SAM 2) من Meta لتجزئة الكائنات عبر مجالات مختلفة مثل التصوير الطبي والأرصاد الجوية. وبناءً على ملاحظات المجتمع، قدمت Meta الآن SAM 2.1، وهو إصدار محسّن مصمم لمعالجة بعض التحديات التي واجهت النموذج الأصلي وتقديم أداء أقوى بشكل عام.

قياس أداء نموذج SAM 2.1

شكل 1. قياس أداء نموذج SAM 2.1.

يتضمن SAM 2.1 تحديثات للتعامل بشكل أفضل مع الكائنات المتشابهة بصرياً والأصغر حجماً، وذلك بفضل تقنيات جديدة لـتعزيز البيانات. كما أنه يحسّن كيفية تعامل النموذج مع الإطباق (عندما تكون أجزاء من كائن مخفية عن الرؤية) من خلال تدريبه على تسلسلات فيديو أطول، مما يسمح له "بتذكر" الكائنات والتعرف عليها بمرور الوقت، حتى لو كانت محجوبة مؤقتاً. على سبيل المثال، إذا كان شخص ما يصور مقطع فيديو لشخص يسير خلف شجرة، يمكن لـ SAM 2.1 تتبع الشخص أثناء ظهوره على الجانب الآخر، باستخدام ذاكرته لـموقع الكائن وحركته لسد الثغرات عندما يتم مقاطعة الرؤية لفترة وجيزة.

إلى جانب هذه التحديثات، أصدرت Meta مجموعة أدوات المطورين SAM 2، والتي توفر كود تدريب مفتوح المصدر وبنية تحتية تجريبية كاملة حتى يتمكن المطورون من ضبط SAM 2.1 بدقة باستخدام بياناتهم الخاصة ودمجه في مجموعة من التطبيقات.

Link to this sectionCoTracker3: نموذج التتبع من Meta ومميزاته وتحديثاته#

مهمة رؤية حاسوبية أخرى مثيرة للاهتمام هي تتبع النقاط. وهي تتضمن متابعة نقاط أو ميزات محددة عبر إطارات متعددة في مقطع فيديو. لنأخذ فيديو لـدراج يسير على مضمار كمثال - يسمح تتبع النقاط للنموذج بالاحتفاظ بـتتبع للنقاط على الدراج، مثل الخوذة أو العجلات، حتى لو كانت مخفية بواسطة عوائق للحظة.

يعد تتبع النقاط أمراً ضرورياً لتطبيقات مثل إعادة البناء ثلاثي الأبعاد والروبوتات وتحرير الفيديو. غالباً ما تعتمد النماذج التقليدية على إعدادات معقدة ومجموعات بيانات اصطناعية كبيرة، مما يحد من فعاليتها عند تطبيقها على سيناريوهات العالم الحقيقي.

يعالج نموذج التتبع CoTracker3 من Meta هذه القيود من خلال تبسيط بنية النموذج. كما أنه يقدم تقنية توسيم زائف تسمح للنموذج بالتعلم من مقاطع فيديو حقيقية غير مشروحة، مما يجعل CoTracker3 أكثر كفاءة وقابلية للتوسع للاستخدام العملي.

مقارنة CoTracker3 بنماذج التتبع الأخرى

شكل 2. مقارنة CoTracker3 بنماذج التتبع الأخرى.

إحدى الميزات التي تجعل CoTracker3 متميزاً هي قدرته على التعامل مع الإطباقات بشكل جيد. باستخدام "انتباه التتبع المتقاطع" (cross-track attention)، وهي تقنية تسمح للنموذج بمشاركة المعلومات عبر نقاط تتبع متعددة، يمكن لـ CoTracker3 استنتاج مواقع النقاط المخفية من خلال الرجوع إلى النقاط المرئية. وبذلك، تم تصميم CoTracker3 ليكون فعالاً للغاية في البيئات الديناميكية، مثل متابعة شخص عبر مشهد مزدحم.

يوفر CoTracker3 أيضاً وضعي التشغيل عبر الإنترنت وغير المتصل. يوفر وضع التشغيل عبر الإنترنت تتبعاً في الوقت الفعلي، بينما يمكن استخدام وضع عدم الاتصال لتتبع أكثر شمولاً عبر تسلسلات الفيديو الكاملة، وهو مثالي لمهام مثل تحرير الفيديو أو الرسوم المتحركة.

Link to this sectionتحديثات وأبحاث أخرى من Meta FAIR#

بينما يعرض SAM 2.1 و CoTracker3 أحدث تطورات Meta في الرؤية الحاسوبية، هناك أيضاً تحديثات مثيرة في مجالات أخرى من الذكاء الاصطناعي، مثل معالجة اللغات الطبيعية (NLP) والروبوتات. لنلقِ نظرة على بعض هذه التطورات الحديثة الأخرى من Meta FAIR.

Link to this sectionنموذج Spirit LM من Meta: ابتكارات الذكاء الاصطناعي في اللغات والنماذج متعددة الوسائط#

Spirit LM من Meta هو نموذج لغوي متعدد الوسائط جديد يجمع بين قدرات النص والكلام، مما يجعل التفاعلات مع الذكاء الاصطناعي تبدو أكثر طبيعية. على عكس النماذج التقليدية التي تتعامل مع النص فقط أو الكلام فقط، يمكن لـ Spirit LM التبديل بسلاسة بين الاثنين.

يمكن لـ Spirit LM فهم وتوليد اللغة بطرق تبدو أكثر شبهاً بالبشر. على سبيل المثال، يمكنه تعزيز المساعدين الافتراضيين الذين يمكنهم الاستماع والاستجابة باللغة المنطوقة أو المكتوبة، أو دعم أدوات إمكانية الوصول التي تحول بين الكلام والنص.

مثال على تحويل النص إلى كلام باستخدام Meta Spirit LM

شكل 3. مثال على تحويل النص إلى كلام باستخدام Meta Spirit LM.

علاوة على ذلك، طورت Meta تقنيات لجعل نماذج اللغات الكبيرة أكثر كفاءة. إحدى هذه التقنيات، تسمى "تخطي الطبقات" (Layer Skip)، تساعد في تقليل الاحتياجات الحسابية وتكاليف الطاقة من خلال تفعيل الطبقات الضرورية فقط لمهمة معينة. وهذا مفيد بشكل خاص للتطبيقات على الأجهزة ذات الذاكرة والطاقة المحدودتين.

ولتطوير الحاجة إلى نشر تطبيقات الذكاء الاصطناعي على مثل هذه الأجهزة خطوة أخرى، طرحت Meta أيضاً إصدارات مكممة من نماذج Llama الخاصة بها. يتم ضغط هذه النماذج لتعمل بشكل أسرع على الأجهزة المحمولة دون التضحية بـالدقة.

Link to this sectionنظرة على مستقبل التحسين مع Meta Lingua#

مع نمو نماذج الذكاء الاصطناعي في الحجم والتعقيد، أصبح تحسين عملية تدريبها أمراً حاسماً. وفيما يتعلق بـالتحسين، قدمت Meta لغة Meta Lingua، وهي قاعدة برمجية مرنة وفعالة تجعل تدريب نماذج اللغات الكبيرة أسهل. يسمح التصميم النموذجي لـ Meta Lingua لـالباحثين بتخصيص تجاربهم وتوسيع نطاقها بسرعة.

يمكن للباحثين قضاء وقت أقل في الإعداد الفني ووقت أكثر في البحث الفعلي. كما أن قاعدة البيانات خفيفة الوزن وسهلة الدمج، مما يجعلها مناسبة للتجارب الصغيرة والمشاريع واسعة النطاق. من خلال إزالة هذه العقبات التقنية، تساعد Meta Lingua الباحثين على تحقيق تقدم أسرع واختبار أفكار جديدة بسهولة أكبر.

نظرة عامة على Meta Lingua

شكل 4. نظرة عامة على Meta Lingua.

Link to this sectionتحسينات Meta في أمن الذكاء الاصطناعي#

مع تقدم تكنولوجيا الحوسبة الكمومية، فإنها تجلب تحديات جديدة لـأمن البيانات. على عكس أجهزة الكمبيوتر الحالية، من المرجح أن تكون أجهزة الكمبيوتر الكمومية قادرة على حل الحسابات المعقدة بشكل أسرع بكثير. هذا يعني أنها قد تكون قادرة على كسر طرق التشفير المستخدمة حالياً لـحماية المعلومات الحساسة. ولهذا السبب أصبح البحث في هذا المجال مهماً بشكل متزايد - إذ يعد تطوير طرق جديدة لحماية البيانات أمراً ضرورياً بينما نستعد لمستقبل الحوسبة الكمومية.

ولمعالجة ذلك، طورت Meta أداة Salsa، التي تهدف إلى تعزيز الأمن التشفيري لما بعد الكم. تساعد Salsa الباحثين على اختبار الهجمات المدعومة بالذكاء الاصطناعي وتحديد نقاط الضعف المحتملة، مما يمكنهم من فهم ومعالجة نقاط الضعف في أنظمة التشفير بشكل أفضل. من خلال محاكاة سيناريوهات هجوم متقدمة، توفر Salsa رؤى قيمة يمكن أن توجه تطوير تدابير أمنية أقوى وأكثر مرونة لعصر الكم.

Link to this sectionالذكاء الاصطناعي في Meta: أحدث الابتكارات في الروبوتات#

يركز أحدث عمل لـ Meta في الروبوتات على مساعدة الذكاء الاصطناعي على التفاعل بشكل أكثر طبيعية مع العالم المادي من خلال تعزيز إدراك اللمس، والبراعة، والتعاون مع البشر. وبشكل خاص، Meta Digit 360 هو مستشعر لمسي متقدم يمنح الروبوتات حاسة لمس دقيقة. تساعد المستشعرات الروبوتات على اكتشاف تفاصيل مثل الملمس والضغط وحتى أشكال الكائنات. ومن خلال هذه الرؤى، يمكن للروبوتات التعامل مع الكائنات بمزيد من الدقة؛ وهو أمر بالغ الأهمية في مجالات مثل الرعاية الصحية والتصنيع.

فيما يلي بعض الميزات الرئيسية التي يتضمنها Meta Digit 360:

وهو مجهز بـ 18 ميزة استشعار متميزة ليكون قادراً على التقاط مجموعة واسعة من التفاصيل اللمسية.
يمكن للمستشعر اكتشاف تغيرات الضغط الصغيرة التي تصل إلى 1 ميلي نيوتن، مما يمكن الروبوتات من الاستجابة للقوام الدقيق والحركات الطفيفة.
وهو يتضمن أكثر من 8 ملايين "تاكسيل" (نقاط استشعار دقيقة) عبر سطح طرف الإصبع، مما يوفر خريطة عالية الدقة لمعلومات اللمس.

امتداد لـ Meta Digit 360 هو منصة Meta Digit Plexus، وهي منصة تدمج مستشعرات لمس مختلفة على يد روبوتية واحدة. يسمح هذا الإعداد للروبوتات بمعالجة معلومات اللمس من نقاط متعددة في وقت واحد، على غرار كيفية جمع اليد البشرية للبيانات الحسية.

منصة الاستشعار اللمسي Meta Digit Plexus

شكل 5. منصة Meta Digit Plexus.

Link to this sectionتمهيد الطريق للفصل القادم من الذكاء الاصطناعي#

تُظهر تحديثات الذكاء الاصطناعي الأخيرة من Meta، التي تتراوح من التقدم في الرؤية الحاسوبية مع SAM 2.1 و CoTracker3 إلى التطورات الجديدة في نماذج اللغة والروبوتات، كيف ينتقل الذكاء الاصطناعي بثبات من النظرية إلى حلول عملية ومؤثرة.

تم تصميم هذه الأدوات لجعل الذكاء الاصطناعي أكثر قابلية للتكيف وفائدة عبر مجالات مختلفة، مما يساعد في كل شيء بدءاً من تجزئة الصور المعقدة إلى فهم اللغة البشرية وحتى العمل بجانبنا في المساحات المادية.

من خلال إعطاء الأولوية لإمكانية الوصول والتطبيق الواقعي، تقربنا Meta FAIR من مستقبل يمكن فيه للذكاء الاصطناعي معالجة تحديات العالم الحقيقي وتعزيز حياتنا اليومية بطرق ذات مغزى.

هل أنت مهتم بالذكاء الاصطناعي؟ انضم إلى مجتمعنا للحصول على أحدث التحديثات والرؤى، واطلع على مستودع GitHub الخاص بنا. يمكنك أيضاً استكشاف كيف يمكن استخدام الرؤية الحاسوبية في صناعات مثل السيارات ذاتية القيادة والزراعة!

Explore solutions

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.

تحديثات أبحاث الذكاء الاصطناعي من Meta FAIR: SAM 2.1 وCoTracker3

Link to this sectionنموذج Segment Anything Model المحسّن من Meta: SAM 2.1#

Link to this sectionCoTracker3: نموذج التتبع من Meta ومميزاته وتحديثاته#

Link to this sectionتحديثات وأبحاث أخرى من Meta FAIR#

Link to this sectionنموذج Spirit LM من Meta: ابتكارات الذكاء الاصطناعي في اللغات والنماذج متعددة الوسائط#

Link to this sectionنظرة على مستقبل التحسين مع Meta Lingua#

Link to this sectionتحسينات Meta في أمن الذكاء الاصطناعي#

Link to this sectionالذكاء الاصطناعي في Meta: أحدث الابتكارات في الروبوتات#

Link to this sectionتمهيد الطريق للفصل القادم من الذكاء الاصطناعي#

Explore solutions

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

الذكاء الاصطناعي في الروبوتات

الذكاء الاصطناعي في الخدمات اللوجستية

الذكاء الاصطناعي في التجزئة

الذكاء الاصطناعي في الرعاية الصحية

الذكاء الاصطناعي في التصنيع

الذكاء الاصطناعي في مجال السيارات

الذكاء الاصطناعي في الزراعة

لنبنِ مستقبل الذكاء الاصطناعي معاً!