استكشف تقسيم المفاهيم القابلة للتنبيه، وكيف يختلف عن الطرق التقليدية، وكيف تتيح النماذج ذات الصلة مثل YOLOE-26 إمكانيات المفردات المفتوحة.
استكشف تقسيم المفاهيم القابلة للتنبيه، وكيف يختلف عن الطرق التقليدية، وكيف تتيح النماذج ذات الصلة مثل YOLOE-26 إمكانيات المفردات المفتوحة.
تتقدم تقنية الرؤية الاصطناعية بسرعة كبيرة وتستخدم على نطاق واسع لتحليل الصور ومقاطع الفيديو في بيئات واقعية. على سبيل المثال، يتم دمج تطبيقات تتراوح من أنظمة إدارة حركة المرور إلى تحليلات البيع بالتجزئة مع نماذج الرؤية الحاسوبية.
في العديد من هذه التطبيقات، يتم تدريب نماذج الرؤية، مثل نماذج الكشف عن الأشياء، على التعرف على مجموعة محددة مسبقًا من الأشياء، بما في ذلك المركبات والأشخاص والمعدات. أثناء التدريب، يتم عرض العديد من الأمثلة المصنفة على هذه النماذج حتى تتمكن من تعلم كيفية ظهور كل شيء وكيفية تمييزه عن غيره في المشهد.
بالنسبة لمهام التجزئة، تخطو النماذج خطوة إلى الأمام من خلال إنتاج مخططات دقيقة على مستوى البكسل حول هذه الكائنات. وهذا يمكّن الأنظمة من فهم الموقع الدقيق لكل كائن في الصورة.
هذا يعمل بشكل جيد طالما أن النظام يحتاج فقط إلى التعرف على ما تم تدريبه عليه. ومع ذلك، في بيئات العالم الحقيقي، نادراً ما يكون هذا هو الحال.
عادةً ما تكون المشاهد المرئية ديناميكية. تظهر كائنات ومفاهيم مرئية جديدة، وتتغير الظروف، وغالبًا ما يرغب المستخدمون في segment التي لم تكن جزءًا من إعداد التدريب الأصلي.
تتجلى هذه القيود بشكل خاص في مجال التجزئة. مع استمرار تطور الذكاء الاصطناعي البصري، تزداد الحاجة إلى نماذج تجزئة أكثر مرونة يمكنها التكيف مع المفاهيم الجديدة دون الحاجة إلى إعادة التدريب المتكرر. ولهذا السبب، تكتسب تجزئة المفاهيم القابلة للتنفيذ (PCS) اهتمامًا متزايدًا.
بدلاً من الاعتماد على قائمة ثابتة من فئات الكائنات، يمكن للمستخدمين وصف ما يريدون segment النص أو المطالبات المرئية أو الصور النموذجية. يمكن لهذه النماذج بعد ذلك تحديد segment المناطق التي تتطابق مع المفهوم الموصوف، حتى لو لم يتم تضمين هذا المفهوم بشكل صريح أثناء التدريب.
في هذه المقالة، سوف نستكشف كيفية عمل تقسيم المفاهيم القابلة للتنفيذ، وكيف يختلف عن الأساليب التقليدية، وأين يتم استخدامه اليوم.
في معظم الحالات، يتم تدريب نماذج التجزئة على التعرف على قائمة قصيرة من أنواع الكائنات. يعمل هذا بشكل جيد عندما يحتاج نظام الذكاء الاصطناعي البصري فقط إلى detect segment محددة من الكائنات.
ومع ذلك، في التطبيقات الواقعية، تكون المشاهد المرئية ديناميكية. تظهر كائنات جديدة، وتتغير متطلبات المهام، وغالبًا ما يحتاج المستخدمون إلى segment التي لم تكن مدرجة في مجموعة التسميات الأصلية. عادةً ما يعني دعم هذه المواقف جمع بيانات وتعليقات توضيحية جديدة عالية الجودة وإعادة تدريب النموذج، مما يزيد التكلفة ويبطئ النشر.
تحل تقنية تقسيم المفاهيم القابلة للتنفيذ هذه المشكلة من خلال السماح للمستخدمين بإخبار النموذج بما يبحثون عنه بدلاً من الاختيار من قائمة ثابتة من العلامات. يصف المستخدمون الكائن أو الفكرة التي يبحثون عنها، ويقوم النموذج بتمييز جميع المناطق المطابقة في الصورة. وهذا يجعل من السهل ربط نية المستخدم بالبكسلات الفعلية في الصورة.

تتميز النماذج التي تدعم تقسيم المفاهيم القابلة للتنبيه بالمرونة لأنها يمكن أن تستقبل أنواعًا مختلفة من المدخلات. بمعنى آخر، هناك أكثر من طريقة لإخبار النموذج بما يجب البحث عنه، مثل الأوصاف النصية أو التلميحات المرئية أو من خلال صور أمثلة.
فيما يلي نظرة فاحصة على كل نهج:
قبل أن نتعمق في كيفية عمل تقسيم المفاهيم القابلة للتنفيذ، دعونا أولاً نقارنه بمختلف طرق تقسيم الكائنات التقليدية.
يتيح PCS استخدام نماذج ذات مفردات مفتوحة وموجهة بالمطالبات. يمكنه العمل مع الأفكار الجديدة الموصوفة من خلال المطالبات، ولكن التقسيم التقليدي لا يستطيع ذلك. هناك عدة أنواع مختلفة من مناهج التقسيم التقليدية، لكل منها افتراضاتها وقيودها الخاصة.
فيما يلي لمحة عن بعض أنواع التقسيم التقليدية الرئيسية:
تعتمد جميع هذه الأساليب على قائمة محددة مسبقًا من فئات الكائنات. وهي تعمل بشكل جيد ضمن هذا النطاق، ولكنها لا تتعامل جيدًا مع المفاهيم خارج هذا النطاق. عندما يلزم تقسيم كائن جديد محدد، عادةً ما يتطلب الأمر بيانات تدريب إضافية وضبطًا دقيقًا للنموذج.
يهدف PCS إلى تغيير ذلك. بدلاً من أن تكون مقيدًا بفئات محددة مسبقًا، يتيح لك وصف ما تريد segment الصورة في وقت الاستدلال.
بعد ذلك، دعونا نستعرض كيف تطورت نماذج التجزئة نحو التجزئة المفاهيمية القابلة للتنفيذ.
كان نموذج الأساس الشائع الذي ميز تحولاً في التجزئة هو SAM، أو نموذج تقسيم أي شيء. تم تقديمه في عام 2023. بدلاً من الاعتماد على فئات الكائنات المحددة مسبقًا، SAM للمستخدمين بتوجيه التقسيم باستخدام مطالبات بصرية بسيطة مثل النقاط أو المربعات المحيطة.
مع SAM لم يعد المستخدمون بحاجة إلى تحديد علامة. كان بإمكانهم ببساطة تحديد مكان الكائن، وكان النموذج يقوم بإنشاء قناع له. أدى ذلك إلى زيادة مرونة عملية التقسيم، ولكن كان لا يزال يتعين على المستخدمين إظهار المكان الذي يجب أن يبحث فيه النموذج.
SAM الذي تم إصداره في عام 2024، استند إلى هذه الفكرة من خلال معالجة مشاهد أكثر تعقيدًا وتوسيع نطاق التجزئة القابلة للتنبيه لتشمل الفيديو. وقد حسّن من المتانة في مختلف ظروف الإضاءة وأشكال الكائنات والحركة، مع الاستمرار في الاعتماد بشكل أساسي على التنبيهات المرئية لتوجيه التجزئة.
نموذج SAM هو أحدث خطوة في هذا التطور. تم إصداره العام الماضي وهو نموذج موحد يجمع بين الفهم البصري والتوجيه اللغوي، مما يتيح سلوكًا متسقًا عبر مهام تقسيم الصور والفيديو.
مع SAM ، لا يقتصر المستخدمون على الإشارة أو الرسم. بل يمكنهم وصف ما يريدون segment النص، ويقوم النموذج بالبحث في الصور أو إطارات الفيديو عن المناطق التي تطابق هذا الوصف.
يتم توجيه التجزئة بواسطة المفاهيم بدلاً من فئات الكائنات الثابتة، مما يدعم استخدام المفردات المفتوحة عبر مشاهد مختلفة وعلى مدار الوقت. في الواقع، يعمل SAM على مساحة مفاهيمية كبيرة ومكتسبة تستند إلى علم الوجود المستمد من مصادر مثل Wikidata ويتم توسيعه من خلال بيانات تدريب واسعة النطاق.

مقارنة بالإصدارات السابقة التي كانت تعتمد في الغالب على المطالبات الهندسية، يمثل SAM خطوة نحو تقسيم أكثر مرونة وقائم على المفاهيم. وهذا يجعله أكثر ملاءمة للتطبيقات الواقعية حيث قد تتغير الأشياء أو الأفكار محل الاهتمام ولا يمكن دائمًا تحديدها مسبقًا.
إذن، كيف تعمل تقنية تقسيم المفاهيم القابلة للتنبيه؟ إنها تعتمد على نماذج رؤية ولغة رؤية كبيرة مسبقة التدريب، وهي نماذج تم تدريبها على مجموعات ضخمة من الصور، وفي كثير من الحالات، على نصوص مقترنة. يتيح هذا التدريب لها تعلم الأنماط البصرية العامة والمعاني الدلالية.
تستخدم معظم نماذج PCS بنى قائمة على المحولات، والتي تعالج الصورة بأكملها دفعة واحدة لفهم كيفية ارتباط المناطق المختلفة ببعضها البعض. يستخرج محول الرؤية السمات البصرية من الصورة، بينما يقوم مشفر النص بتحويل الكلمات إلى تمثيلات رقمية يمكن للنموذج العمل بها.
أثناء التدريب، يمكن لهذه النماذج أن تتعلم من أنواع مختلفة من الإشراف، بما في ذلك أقنعة على مستوى البكسل تحدد حدود الكائنات بدقة، ومربعات تحيط بالكائنات وتحدد موقعها تقريبًا، وتسميات على مستوى الصورة تصف ما يظهر في الصورة. يساعد التدريب باستخدام أنواع مختلفة من البيانات المصنفة النموذج على التقاط التفاصيل الدقيقة والمفاهيم البصرية الأوسع نطاقًا.
في وقت الاستدلال، أي عندما يتم استخدام النموذج فعليًا لإجراء التنبؤات، يتبع PCS عملية مدفوعة بالمطالبات. يقدم المستخدم إرشادات من خلال أوصاف نصية أو تلميحات بصرية مثل النقاط أو المربعات أو الصور النموذجية. يقوم النموذج بترميز كل من المطالبة والصورة في تمثيل داخلي مشترك أو تضمينات ويحدد المناطق التي تتوافق مع المفهوم الموصوف.
ثم يقوم جهاز فك تشفير القناع بتحويل هذا التمثيل المشترك إلى أقنعة تقسيم دقيقة على مستوى البكسل. ونظرًا لأن النموذج يربط السمات البصرية بالمعنى الدلالي، فإنه يمكنه segment المفاهيم segment حتى لو لم يتم تضمينها بشكل صريح أثناء التدريب.
كما يمكن في كثير من الأحيان تحسين النتائج عن طريق تعديل الموجه أو إضافة إرشادات إضافية، مما يساعد النموذج على التعامل مع المشاهد المعقدة أو الغامضة. تدعم هذه العملية التكرارية التحسين العملي أثناء النشر.
عادةً ما يتم تقييم نماذج تقسيم المفاهيم القابلة للتنفيذ على أساس مدى كفاءتها segment المفاهيم غير المرئية segment ومدى قوة أدائها عبر مشاهد مختلفة. غالبًا ما تركز المعايير على جودة القناع والتعميم والكفاءة الحسابية، مما يعكس متطلبات النشر في العالم الحقيقي.
بعد ذلك، دعونا نلقي نظرة على المجالات التي يتم فيها استخدام تقنية تقسيم المفاهيم القابلة للتنفيذ بالفعل والتي بدأت في إحداث تأثير حقيقي.
يتضمن التصوير الطبي العديد من الهياكل البيولوجية والأمراض وأنواع الفحوصات، وتظهر حالات جديدة كل يوم. وتواجه نماذج التقسيم التقليدية صعوبة في مواكبة هذا التنوع.
يتناسب نظام PCS بشكل طبيعي مع هذا المجال لأنه يتيح للأطباء وصف ما يريدون العثور عليه بدلاً من الاختيار من قائمة قصيرة وجامدة. باستخدام العبارات النصية أو المطالبات المرئية، يمكن استخدام نظام PCS segment أو المناطق المهمة مباشرةً، دون الحاجة إلى إعادة تدريب النموذج لكل مهمة جديدة. وهذا يسهل التعامل مع الاحتياجات السريرية المتنوعة، ويقلل من الحاجة إلى رسم القناع يدويًا، ويعمل مع العديد من أنواع التصوير.
أحد الأمثلة الرائعة على ذلك هو MedSAM-3، الذي يكيّف بنية SAM مع نظام PCS القابل للتنبيه النصي في التصوير الطبي. يمكن تنبيه هذا النموذج بمصطلحات تشريحية وباثولوجية واضحة، مثل أسماء الأعضاء مثل الكبد أو الكلى والمفاهيم المتعلقة بالآفات مثل الورم أو الآفة. عند تلقي تنبيه، يقوم النموذج مباشرة بتقسيم المنطقة المقابلة في الصورة الطبية.
كما يدمج MedSAM-3 نماذج لغوية كبيرة متعددة الوسائط (MLLMs أو multimodal LLMs)، والتي يمكنها التحليل لكل من النصوص والصور. تعمل هذه النماذج في إعداد وكيل في الحلقة، حيث يتم تحسين النتائج بشكل متكرر لتحسين الدقة في الحالات الأكثر صعوبة.

يقدم MedSAM-3 أداءً جيدًا في جميع أنواع الأشعة السينية والتصوير بالرنين المغناطيسي والتصوير المقطعي المحوسب والموجات فوق الصوتية وبيانات الفيديو، مما يسلط الضوء على كيفية تمكين PCS من تحقيق سير عمل أكثر مرونة وكفاءة في مجال التصوير الطبي في البيئات السريرية الحقيقية.
تعتمد الجراحة الروبوتية على أنظمة الرؤية track وفهم المشاهد الجراحية سريعة التغير. تتحرك الأدوات بسرعة، وتختلف الإضاءة، ويمكن أن تظهر أدوات جديدة في أي وقت، مما يجعل من الصعب الحفاظ على أنظمة التسمية المحددة مسبقًا.
باستخدام PCS، يمكن للروبوتات track وتوجيه الكاميرات ومتابعة خطوات الجراحة في الوقت الفعلي. وهذا يقلل من الحاجة إلى وضع العلامات يدويًا ويجعل الأنظمة أسهل في التكيف مع الإجراءات المختلفة. يمكن للجراحين أو الأنظمة الآلية استخدام مطالبات نصية مثل "الملقط" أو "المشرط" أو "أداة الكاميرا" للإشارة إلى ما يجب تقسيمه في الصورة.

نموذج آخر مثير للاهتمام ومتطور يتعلق بتقسيم المفاهيم القابلة للتنبيه هو Ultralytics . يضيف نموذجنا تقسيمًا مفتوحًا للمفردات وقابلًا للتنبيه إلى عائلةYOLO Ultralytics YOLO .
تم تصميم YOLOE-26 على أساس بنية Ultralytics ويدعم تقسيم المثيلات ذات المفردات المفتوحة. يتيح YOLOE-26 للمستخدمين توجيه التقسيم بعدة طرق.
وهو يدعم المطالبات النصية، حيث يمكن لعبارات قصيرة ومبينة بصريًا تحديد الكائن المستهدف، بالإضافة إلى المطالبات المرئية، التي توفر إرشادات إضافية بناءً على إشارات الصور. بالإضافة إلى ذلك، يتضمن YOLOE-26 وضعًا خاليًا من المطالبات للاستدلال بدون تدريب، حيث يكتشف النموذج الكائنات ويقسمها من مفردات مدمجة دون الحاجة إلى مطالبات من المستخدم.
يعد YOLOE-26 رائعًا لتطبيقات مثل تحليلات الفيديو وإدراك الروبوتات والأنظمة القائمة على الحافة، حيث قد تتغير فئات الكائنات ولكن يظل من الضروري الحفاظ على زمن انتقال منخفض وإنتاجية موثوقة. كما أنه مفيد بشكل خاص لتصنيف البيانات وتنظيم مجموعات البيانات، حيث إنه يبسط سير العمل من خلال أتمتة أجزاء من عملية التعليق التوضيحي.
فيما يلي بعض الفوائد الرئيسية لاستخدام تقسيم المفاهيم القابلة للتنبيه:
على الرغم من أن PCS تتمتع بمزايا واضحة، إلا أن هناك بعض القيود التي يجب أخذها في الاعتبار:
أثناء استكشافك للتقسيم القابل للتنبيه، قد تتساءل عن التطبيقات الأكثر ملاءمة له وعن الحالات التي يكون فيها نموذج الرؤية الحاسوبية التقليدي مثل YOLO26 أكثر ملاءمة للمشكلة التي تحاول حلها. يعمل التقسيم القابل للتنبيه بشكل جيد مع الكائنات العامة، ولكنه لا يناسب حالات الاستخدام التي تتطلب نتائج دقيقة ومتسقة للغاية.
يعد اكتشاف العيوب مثالاً جيدًا على ذلك. في مجال التصنيع، غالبًا ما تكون العيوب صغيرة ودقيقة، مثل الخدوش الصغيرة والانبعاجات والانحرافات أو عدم انتظام السطح. كما يمكن أن تختلف بشكل كبير اعتمادًا على المواد والإضاءة وظروف الإنتاج.
يصعب وصف هذه المشكلات باستخدام موجه بسيط، ويصعب أكثر على نموذج عام الغرض detect . بشكل عام، تميل النماذج القائمة على الموجهات إلى إغفال العيوب أو إنتاج نتائج غير مستقرة، في حين أن النماذج المدربة خصيصًا على بيانات العيوب تكون أكثر موثوقية بالنسبة لأنظمة الفحص في العالم الحقيقي.
تجعل تقنية تقسيم المفاهيم القابلة للتنفيذ أنظمة الرؤية أسهل في التكيف مع العالم الحقيقي، حيث تظهر أشياء وأفكار جديدة طوال الوقت. بدلاً من التقيد بعلامات ثابتة، يمكن للمستخدمين ببساطة وصف ما يريدون segment ترك النموذج يقوم بالباقي، مما يوفر الوقت ويقلل من العمل اليدوي. على الرغم من أن تقنية PCS لا تزال تعاني من بعض القيود، إلا أنها بدأت بالفعل في تغيير طريقة استخدام التقسيم في الممارسة العملية ومن المرجح أن تصبح جزءًا أساسيًا من أنظمة الرؤية المستقبلية.
اكتشف المزيد عن الذكاء الاصطناعي من خلال زيارة مستودع GitHub الخاص بنا والانضمام إلى مجتمعنا. تحقق من صفحات الحلول الخاصة بنا للتعرف على الذكاء الاصطناعي في مجال الروبوتات والرؤية الحاسوبية في التصنيع. اكتشف خيارات الترخيص المتاحة لدينا لبدء استخدام Vision AI اليوم!