استكشاف SAM 3: نموذج Segment Anything الجديد من Meta AI
اكتشف كيف يسهل SAM 3، نموذج Segment Anything الجديد من Meta AI، اكتشاف الكائنات وتقسيمها وتتبعها عبر الصور ومقاطع الفيديو الواقعية.

في 19 نوفمبر 2025، أطلقت Meta AI نموذج Segment Anything Model 3، المعروف أيضاً باسم SAM 3. يقدم هذا الإصدار الأحدث من نموذج Segment Anything طرقاً جديدة لاكتشاف الكائنات وتقسيمها وتتبعها في الصور ومقاطع الفيديو الواقعية باستخدام مطالبات نصية ومطالبات مرئية وأمثلة مصورة.
يعتمد نموذج SAM 3 على SAM و SAM 2، ويقدم تطورات وميزات جديدة مثل تقسيم المفاهيم، والاكتشاف ذو المفردات المفتوحة، وتتبع الفيديو في الوقت الفعلي. يمكنه فهم العبارات الاسمية القصيرة، وتتبع الكائنات عبر الإطارات، وتحديد المفاهيم الدقيقة أو النادرة التي لم تستطع النماذج السابقة التعامل معها بنفس القدر من الاتساق.
كجزء من إصدار SAM 3، قدمت Meta أيضاً SAM 3D. تعمل هذه المجموعة من نماذج الجيل التالي على إعادة بناء الكائنات والمشاهد وأجسام البشر بالكامل من صورة واحدة، وتوسع نظام Segment Anything ليشمل الفهم ثلاثي الأبعاد (3D). تفتح هذه الإضافات تطبيقات جديدة عبر مجالات الرؤية الحاسوبية، والروبوتات، وتحرير الوسائط، وسير العمل الإبداعي.
في هذه المقالة، سنستكشف ماهية SAM 3، وما الذي يميزه عن SAM 2، وكيف يعمل النموذج، وتطبيقاته الواقعية. لنبدأ!
Link to this sectionما هو SAM 3؟ نظرة على نموذج Segment Anything Model 3 من Meta#
SAM 3 هو نموذج رؤية حاسوبية متطور يمكنه تحديد الكائنات وفصلها وتتبعها في الصور ومقاطع الفيديو بناءً على تعليمات بسيطة. بدلاً من الاعتماد على قائمة ثابتة من التصنيفات، يفهم SAM 3 اللغة الطبيعية والإشارات المرئية، مما يسهل إخبار النموذج بما تريد العثور عليه.
على سبيل المثال، باستخدام SAM 3، يمكنك كتابة عبارة قصيرة مثل "حافلة مدرسية صفراء" أو "قطة مخططة"، أو النقر على كائن ما، أو تمييز مثال في صورة. سيقوم النموذج بعد ذلك باكتشاف كل كائن مطابق وإنشاء أقنعة تقسيم نظيفة (مخطط مرئي يوضح بالضبط أي وحدات بكسل تنتمي إلى كائن ما). يمكن لـ SAM 3 أيضاً متابعة تلك الكائنات عبر إطارات الفيديو، والحفاظ على اتساقها أثناء تحركها.
Link to this sectionيُمكّن SAM 3D إعادة البناء ثلاثي الأبعاد من صورة واحدة#
جزء آخر مثير من إعلان Meta AI هو SAM 3D، الذي يوسع مشروع Segment Anything ليشمل الفهم ثلاثي الأبعاد. يمكن لـ SAM 3D أخذ صورة ثنائية الأبعاد (2D) وإعادة بناء شكل أو وضعية أو هيكل كائن أو جسم بشري في ثلاثة أبعاد. بمعنى آخر، يمكن للنموذج تقدير كيفية شغل شيء ما للمساحة حتى عندما تتوفر وجهة نظر واحدة فقط.
تم إصدار SAM 3D كنموذجين مختلفين: SAM 3D Objects، الذي يعيد بناء العناصر اليومية بالهندسة والقوام، وSAM 3D Body، الذي يقدر شكل الجسم البشري ووضعيته من صورة واحدة. يستخدم كلا النموذجين مخرجات التقسيم من SAM 3 ثم ينشئان تمثيلاً ثلاثي الأبعاد يتوافق مع مظهر الكائن وموقعه في الصورة الأصلية.

الشكل 1. مثال على استخدام SAM 3D. (المصدر: تم إنشاؤه باستخدام ملعب segment anything الخاص بـ Meta AI)
Link to this sectionSAM 3: ميزات جديدة لتوحيد الاكتشاف والتقسيم والتتبع#
إليك بعض التحديثات الرئيسية التي يقدمها SAM 3 لجمع الاكتشاف والتقسيم والتتبع في نموذج موحد واحد:
- مهام تقسيم المفاهيم: في SAM و SAM 2، كان تقسيم الكائنات يعتمد على مطالبات مرئية مثل النقرات أو المربعات. يضيف SAM 3 القدرة على تقسيم الكائنات بناءً على عبارة نصية قصيرة أو اقتصاص مثال من الصورة. هذا يعني أن النموذج يمكنه تحديد جميع الحالات المطابقة دون الحاجة إلى نقرة لكل منها.
- مطالبات نصية ذات مفردات مفتوحة: على عكس الإصدارات السابقة، يمكن لـ SAM 3 تفسير عبارات اللغة الطبيعية القصيرة. هذا يزيل الحاجة إلى قائمة تصنيف ثابتة ويجعل من الممكن للنموذج العمل مع مفاهيم أكثر تحديداً أو أقل شيوعاً.
- نموذج واحد للاكتشاف والتقسيم والتتبع: يوحد SAM 3 الاكتشاف والتقسيم والتتبع في نموذج واحد، مما يلغي الحاجة إلى أنظمة منفصلة للعثور على الكائنات، وإنشاء أقنعة التقسيم، ومتابعتها عبر إطارات الفيديو. هذا يخلق سير عمل أكثر اتساقاً وانسيابية لكل من الصور والفيديو، وعلى الرغم من أن SAM 2 قدم أيضاً بعض قدرات التتبع، فإن SAM 3 يقدم أداءً أقوى وأكثر موثوقية بشكل ملحوظ.
- نتائج أكثر استقراراً في المشاهد المعقدة: نظراً لأن SAM 3 يمكنه الجمع بين النص، والصور المثال، والمطالبات المرئية، فيمكنه التعامل مع المشاهد المزدحمة أو المتكررة بشكل أكثر موثوقية من الإصدارات السابقة التي كانت تعتمد فقط على النقرات المرئية.

الشكل 2. يقدم SAM 3 تقسيم المفاهيم باستخدام نصوص أو أمثلة صور. (المصدر)
Link to this sectionمقارنة SAM 3 مقابل SAM 2 مقابل SAM 1#
لنقل أنك تشاهد مقطع فيديو لرحلة سفاري يحتوي على العديد من الحيوانات المختلفة، وتريد اكتشاف وتقسيم الأفيال فقط. كيف ستبدو هذه المهمة عبر إصدارات SAM المختلفة؟
مع SAM، ستحتاج إلى النقر يدوياً على كل فيل في كل إطار لإنشاء قناع تقسيم. لا يوجد تتبع، لذا يتطلب كل إطار جديد نقرات جديدة.
مع SAM 2، يمكنك النقر مرة واحدة على فيل، والحصول على قناعه، وسيقوم النموذج بتتبع نفس الفيل عبر الفيديو. ومع ذلك، سيظل يتعين عليك تقديم نقرات منفصلة إذا كنت تريد تقسيم أفيال متعددة (كائنات محددة)، لأن SAM 2 لا يفهم فئات مثل "فيل" بمفرده.
مع SAM 3، يصبح سير العمل أبسط بكثير. يمكنك كتابة "فيل" أو رسم مربع إحاطة حول فيل واحد لتقديم مثال، وسيقوم النموذج تلقائياً بالعثور على كل فيل في الفيديو، وتقسيمهم، وتتبعهم باستمرار عبر الإطارات. لا يزال يدعم مطالبات النقر والمربع المستخدمة في الإصدارات السابقة، ولكن الآن يمكنه أيضاً الاستجابة للمطالبات النصية وصور الأمثلة، وهو أمر لم تستطع SAM و SAM 2 القيام به.
Link to this sectionكيف يعمل نموذج SAM 3#
بعد ذلك، لنلقِ نظرة فاحصة على كيفية عمل نموذج SAM 3 وكيف تم تدريبه.
Link to this sectionنظرة عامة على بنية نموذج SAM 3#
يجمع SAM 3 العديد من المكونات معاً لدعم مطالبات المفاهيم والمطالبات المرئية في نظام واحد. في جوهره، يستخدم النموذج Meta Perception Encoder، وهو مشفر الصور والنصوص مفتوح المصدر الموحد الخاص بـ Meta.
يمكن لهذا المشفر معالجة كل من الصور والعبارات الاسمية القصيرة. ببساطة، يسمح هذا لـ SAM 3 بربط اللغة والميزات المرئية بشكل أكثر فعالية من الإصدارات السابقة من نموذج Segment Anything.
بالإضافة إلى هذا المشفر، يتضمن SAM 3 كاشفاً يعتمد على عائلة DETR من نماذج Transformer. يحدد هذا الكاشف الكائنات في الصورة ويساعد النظام في تحديد الكائنات التي تتوافق مع مطالبة المستخدم.
تحديداً، لتقسيم الفيديو، يستخدم SAM 3 مكون تتبع يعتمد على بنك الذاكرة ومشفر الذاكرة من SAM 2. هذا يسمح للنموذج بالاحتفاظ بمعلومات حول الكائنات عبر الإطارات حتى يتمكن من إعادة التعرف عليها وتتبعها بمرور الوقت.

الشكل 3. كيف يعمل تقسيم أي شيء باستخدام المفاهيم (المصدر: scontent)
Link to this sectionمحرك البيانات القابل للتوسع وراء Segment Anything Model 3#
لتدريب SAM 3، احتاجت Meta إلى بيانات مشروحة أكثر بكثير مما هو موجود حالياً على الإنترنت. من الصعب إنشاء أقنعة تقسيم وتصنيفات نصية عالية الجودة على نطاق واسع، كما أن تحديد كل حالة لمفهوم في الصور ومقاطع الفيديو يدوياً يعد أمراً بطيئاً ومكلفاً.
لحل هذه المشكلة، قامت Meta ببناء محرك بيانات جديد يجمع بين SAM 3 نفسه، ونماذج ذكاء اصطناعي إضافية، ومصنفي بيانات بشريين يعملون معاً. يبدأ سير العمل بخط أنابيب من أنظمة الذكاء الاصطناعي، بما في ذلك SAM 3 ونموذج وصف الصور القائم على Llama.
تقوم هذه الأنظمة بمسح مجموعات كبيرة من الصور ومقاطع الفيديو، وإنشاء أوصاف، وتحويل تلك الأوصاف إلى تصنيفات نصية، وإنتاج مرشحات أولية لأقنعة التقسيم. ثم يقوم المصنفون البشريون والذكاء الاصطناعي بمراجعة هذه المرشحات.
تقوم مصنفات الذكاء الاصطناعي، المدربة على مطابقة أو حتى تجاوز دقة البشر في مهام مثل التحقق من جودة القناع والتحقق من تغطية المفهوم، بتصفية الحالات المباشرة. يتدخل البشر فقط في الأمثلة الأكثر تحدياً التي قد لا يزال النموذج يواجه صعوبة فيها.

الشكل 4. محرك بيانات SAM 3 (المصدر)
يمنح هذا النهج Meta دفعة كبيرة في سرعة التعليق التوضيحي. من خلال السماح لمصنفي الذكاء الاصطناعي بالتعامل مع الحالات السهلة، يصبح خط الأنابيب أسرع بخمس مرات تقريباً في المطالبات السلبية و36% أسرع في المطالبات الإيجابية في المجالات الدقيقة.
جعلت هذه الكفاءة من الممكن توسيع مجموعة البيانات لتشمل أكثر من أربعة ملايين مفهوم فريد. كما أن الحلقة المستمرة من مقترحات الذكاء الاصطناعي، والتصحيحات البشرية، وتنبؤات النموذج المحدثة تعمل على تحسين جودة التصنيف بمرور الوقت وتساعد SAM 3 على تعلم مجموعة أوسع بكثير من المفاهيم المرئية والنصية.
Link to this sectionتحسينات أداء SAM 3#
فيما يتعلق بالأداء، يقدم SAM 3 تحسناً واضحاً مقارنة بالنماذج السابقة. في معيار SA-Co الجديد الخاص بـ Meta، الذي يقيم اكتشاف وتقسيم المفاهيم ذات المفردات المفتوحة، يحقق SAM 3 ضعف أداء الأنظمة السابقة تقريباً في كل من الصور والفيديو.
كما أنه يطابق أو يتفوق على SAM 2 في المهام المرئية التفاعلية مثل التحويل من نقطة إلى قناع ومن قناع إلى قناع. تبلغ Meta عن مكاسب إضافية في تقييمات أصعب مثل LVIS الذي يتم بدون تدريب مسبق (حيث يجب على النماذج التعرف على فئات نادرة دون أمثلة تدريبية) وعد الكائنات (قياس ما إذا تم اكتشاف جميع حالات كائن ما)، مما يسلط الضوء على تعميم أقوى عبر المجالات.
بالإضافة إلى تحسينات الدقة هذه، يتميز SAM 3 بالكفاءة، حيث يعالج صورة بها أكثر من 100 كائن مكتشف في حوالي 30 مللي ثانية على GPU من نوع H200 ويحافظ على سرعات قريبة من الوقت الفعلي عند تتبع كائنات متعددة في الفيديو.
Link to this sectionتطبيقات Segment Anything Model 3#
الآن بعد أن أصبح لدينا فهم أفضل لـ SAM 3، دعنا نتناول كيفية استخدامه في تطبيقات واقعية، بدءاً من التفكير المتقدم الموجه بالنص إلى البحث العلمي ومنتجات Meta الخاصة.
Link to this sectionالتعامل مع استعلامات النص المعقدة باستخدام وكيل SAM 3#
يمكن أيضاً استخدام SAM 3 كأداة داخل نموذج لغوي متعدد الوسائط أكبر، والذي تسميه Meta وكيل SAM 3. بدلاً من إعطاء SAM 3 عبارة قصيرة مثل "فيل"، يمكن للوكيل تقسيم سؤال أكثر تعقيداً إلى مطالبات أصغر يفهمها SAM 3.
على سبيل المثال، إذا سأل المستخدم: "ما هو الكائن الموجود في الصورة المستخدم للتحكم في حصان وتوجيهه؟"، يحاول الوكيل عبارات اسمية مختلفة، ويرسلها إلى SAM 3، ويتحقق من الأقنعة التي تبدو منطقية. يستمر في التحسين حتى يعثر على الكائن الصحيح.
حتى بدون التدريب على مجموعات بيانات التفكير الخاصة، يعمل وكيل SAM 3 بشكل جيد على المعايير المصممة لاستعلامات النص المعقدة، مثل ReasonSeg و OmniLabel. يظهر هذا أن SAM 3 يمكنه دعم الأنظمة التي تحتاج إلى فهم اللغة وتقسيم بصري دقيق.
Link to this sectionالتطبيقات العلمية والمحافظة على البيئة لـ SAM 3#
من المثير للاهتمام أن SAM 3 يُستخدم بالفعل في بيئات البحث حيث تكون التصنيفات المرئية التفصيلية مهمة. عملت Meta مع Conservation X Labs و Osa Conservation لبناء SA-FARI، وهي مجموعة بيانات عامة لمراقبة الحياة البرية تحتوي على أكثر من 10,000 مقطع فيديو من كاميرات المراقبة.
يتم تصنيف كل حيوان في كل إطار بمربعات وأقنعة تقسيم، وهو أمر سيستغرق وقتاً طويلاً جداً للقيام به يدوياً. وبالمثل، في أبحاث المحيطات، يُستخدم SAM 3 جنباً إلى جنب مع FathomNet و MBARI لإنشاء أقنعة تقسيم مثيل لـ الصور تحت الماء ودعم معايير تقييم جديدة.
تساعد هذه المجموعات من البيانات العلماء على تحليل لقطات الفيديو بشكل أكثر كفاءة ودراسة الحيوانات والموائل التي يصعب عادة تتبعها على نطاق واسع. يمكن للباحثين أيضاً استخدام هذه الموارد لبناء نماذجهم الخاصة لتحديد الأنواع، وتحليل السلوك، والمراقبة البيئية المؤتمتة.
Link to this sectionكيف تنشر Meta نموذج SAM 3 عبر منتجاتها#
بالإضافة إلى استخداماته البحثية، يعمل SAM 3 أيضاً على تشغيل ميزات وحالات استخدام جديدة عبر منتجات المستهلكين من Meta. إليك لمحة عن بعض الطرق التي يتم دمجه بها بالفعل:
- تعديلات Instagram: يمكن للمبدعين تطبيق تأثيرات على شخص أو كائن معين في مقطع فيديو دون القيام بعمل يدوي إطاراً بإطار.
- تطبيق Meta AI و meta.ai على الويب: يدعم SAM 3 أدوات جديدة لتعديل وتحسين وإعادة مزج الصور ومقاطع الفيديو.
- ميزة "العرض في الغرفة" (View in Room) في Facebook Marketplace: يعمل SAM 3 مع SAM 3D للسماح للأشخاص بمعاينة الأثاث أو الديكور في منازلهم باستخدام صورة واحدة.
- نظارات الأبحاث Aria Gen 2 research glasses: يساعد نموذج Segment Anything Model 3 في تقسيم وتتبع اليدين والكائنات من منظور الشخص الأول، مما يدعم أبحاث الواقع المعزز (AR)، والروبوتات، والذكاء الاصطناعي السياقي.
Link to this sectionأبرز النقاط#
SAM 3 هو خطوة مثيرة للأمام في التقسيم. فهو يقدم تقسيم المفاهيم، والمطالبات النصية ذات المفردات المفتوحة، وتتبعاً محسناً. مع أداء أقوى بشكل ملحوظ عبر كل من الصور والفيديو، وإضافة SAM 3D، تفتح مجموعة النماذج إمكانيات جديدة للرؤية بالذكاء الاصطناعي، والأدوات الإبداعية، والبحث العلمي، والمنتجات الواقعية.
انضم إلى مجتمعنا واستكشف مستودع GitHub الخاص بنا لاكتشاف المزيد حول الذكاء الاصطناعي. إذا كنت تتطلع إلى بناء مشروع الرؤية بالذكاء الاصطناعي الخاص بك، فاطلع على خيارات الترخيص لدينا. استكشف المزيد حول تطبيقات مثل الذكاء الاصطناعي في الرعاية الصحية و الرؤية بالذكاء الاصطناعي في التجزئة من خلال زيارة صفحات الحلول الخاصة بنا.






