استعدوا لـ YOLO Vision 2025!
25 سبتمبر، 2025
10:00 — 18:00 بتوقيت بريطانيا الصيفي
حدث هجين
مؤتمر Yolo Vision 2024
مسرد المصطلحات

التأصيل (Grounding)

اكتشف كيف يربط التأصيل في الذكاء الاصطناعي المفاهيم المجردة ببيانات العالم الحقيقي، مما يعزز السياق والدقة والثقة في التطبيقات الديناميكية.

التأريض هو مهمة في الذكاء الاصطناعي تتضمن ربط أو "تأريض" المفاهيم المعبر عنها باللغة الطبيعية بالبيانات المقابلة في طرق أخرى، والأكثر شيوعًا البيانات المرئية مثل الصور أو مقاطع الفيديو. بعبارات بسيطة، يتعلق الأمر بتعليم الآلة فهم ما تشير إليه عبارة مثل "الكلب الذي يمسك الفريسبي" داخل صورة معينة. يتجاوز هذا مجرد التعرف البسيط من خلال ربط الأوصاف اللغوية بكائنات وسمات وعلاقات محددة في العالم الإدراكي. يعد التأريض قدرة حاسمة لإنشاء أنظمة ذكاء اصطناعي يمكنها التفاعل مع العالم بطريقة أشبه بالإنسان، مما يسد الفجوة بين اللغة المجردة والمدخلات الحسية الملموسة. إنه عنصر أساسي في النماذج متعددة الوسائط المتقدمة التي تدمج كلاً من معالجة اللغة الطبيعية (NLP) و رؤية الكمبيوتر (CV).

كيف يعمل التأريض

يتم تدريب نماذج التأصيل على مجموعات بيانات كبيرة تربط الصور بأوصاف نصية. غالبًا ما تحتوي هذه الأوصاف على عبارات تفصيلية مرتبطة بمناطق أو كائنات معينة داخل الصور، والتي يتم تحديدها أحيانًا بواسطة مربعات إحاطة. يتعلم النموذج، الذي يستخدم عادةً بنية تعتمد على Transformer، إنشاء تمثيلات رقمية غنية، أو تضمينات، لكل من النص والصورة. ثم يتعلم محاذاة هذه التضمينات، بحيث يتطابق تمثيل العبارة "المبنى الشاهق على اليمين" بشكل وثيق مع تمثيل منطقة البكسل المقابلة في الصورة. هذه العملية أساسية لـ مشكلة تأصيل الرموز، وهو تحد فلسفي وتقني يتعلق بكيفية حصول الرموز (الكلمات) على معناها. النماذج الحديثة مثل YOLO-World رائدة في اكتشاف المفردات المفتوحة، وهو تطبيق عملي لمبادئ التأصيل.

تطبيقات واقعية

يمكّن التأريض التطبيقات المتطورة التي تتطلب فهمًا دقيقًا للمشاهد المرئية.

  • الروبوتات التفاعلية: في الروبوتات، يسمح التأريض للروبوت باتباع أوامر اللغة الطبيعية. على سبيل المثال، يمكن للمستخدم أن يوجه روبوت المستودع إلى "التقاط الصندوق الأحمر الصغير خلف الصندوق الأزرق الكبير". يجب على الذكاء الاصطناعي للروبوت أن يؤسس هذه العبارة بأكملها، وفهم الكائنات والسمات (صغير، أحمر، كبير، أزرق) والعلاقات المكانية (خلف)، لتنفيذ المهمة بشكل صحيح. هذا أمر بالغ الأهمية للتطبيقات من أتمتة التصنيع إلى الروبوتات المساعدة في الرعاية الصحية.
  • الإجابة المرئية على الأسئلة (VQA) والبحث عن الصور: عندما تسأل نظامًا، "ما هو لون السيارة المتوقفة بجوار صنبور إطفاء الحريق؟" فإنه يحتاج أولاً إلى تحديد عبارات "السيارة" و "صنبور إطفاء الحريق" لتحديد موقعهما في الصورة. عندها فقط يمكنه تحديد لون السيارة والإجابة على السؤال. هذا يدعم أدوات البحث الدلالي الأكثر سهولة وقوة ويساعد في تطوير مساعدين افتراضيين أكثر فائدة.

الفروق بين المفاهيم ذات الصلة

من المهم التمييز بين التأريض ومهام رؤية الكمبيوتر الأخرى.

  • اكتشاف الكائنات: يحدد اكتشاف الكائنات القياسي مثيلات الفئات المحددة مسبقًا (مثل 'شخص' أو 'دراجة') من مفردات ثابتة. في المقابل، التأريض هو مهمة مفردات مفتوحة. يحدد مواقع الكائنات بناءً على لغة طبيعية وصفية ذات شكل حر، مثل "شخص يركب دراجة في يوم مشمس"، وهو ما لا تستطيع أجهزة الكشف القياسية التعامل معه.
  • التجزئة الدلالية: تحدد هذه المهمة تصنيفًا لكل بكسل في الصورة (على سبيل المثال، تصنيف جميع وحدات البكسل على أنها 'سماء' أو 'طريق' أو 'شجرة'). التأريض أكثر تركيزًا؛ فهو يعزل فقط الكائن أو المنطقة المحددة الموصوفة في المطالبة النصية. إنه مرتبط ارتباطًا وثيقًا بمهمة فرعية تسمى تجزئة التعبير بالإشارة، وهي شكل من أشكال تجزئة المثيل.

التحديات والاتجاهات المستقبلية

يمثل تطوير نماذج التأسيس القوية عدة تحديات. إن الغموض والثراء المتأصلين في اللغة البشرية يصعب نمذجتهما. يعد إنشاء مجموعات البيانات المشروحة الضرورية واسعة النطاق بدقة مكلفًا ويتطلب عمالة مكثفة؛ وتشمل الأمثلة مجموعات بيانات مثل RefCOCO. علاوة على ذلك، يمكن أن تكون الموارد الحسابية اللازمة لتدريب هذه النماذج المعقدة كبيرة، وغالبًا ما تتطلب تدريبًا موزعًا أو تدريبًا مكثفًا على السحابة. يعد ضمان قدرة النماذج على الأداء بكفاءة من أجل الاستدلال في الوقت الفعلي عقبة رئيسية أخرى.

غالبًا ما يتم نشر الأبحاث المستقبلية على منصات مثل arXiv، وتركز على تحسين الأداء من خلال تقنيات مثل التعلم الصفري (zero-shot learning) لتحسين التعميم على أوصاف الكائنات غير المرئية. تعمل مؤسسات مثل معهد ألين للذكاء الاصطناعي (AI2) بنشاط في البحث في هذه المجالات. مع نضوج تكنولوجيا التأسيس، فإنها ستمكن من تعاون طبيعي أكثر بين الإنسان والذكاء الاصطناعي وتقرب أنظمة الذكاء الاصطناعي من فهم حقيقي وقابل للتنفيذ للعالم.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن
تم نسخ الرابط إلى الحافظة