Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التأصيل (Grounding)

استكشف أساسيات التأسيس في مجال الذكاء الاصطناعي. تعلم كيفية ربط اللغة الطبيعية بالبيانات المرئية باستخدام Ultralytics و YOLO للكشف عن المفردات المفتوحة.

يشير التأسيس إلى قدرة نظام الذكاء الاصطناعي على ربط المفاهيم المجردة — التي تستمد عادةً من اللغة الطبيعية — بتمثيلات محددة وملموسة في العالم المادي، مثل البيانات المرئية أو المدخلات الحسية . في سياق الرؤية الحاسوبية، هذا يعني أن النموذج لا يعالج النص فحسب؛ بل يمكنه تحليل عبارة مثل "شخص يمشي مع كلب" وتحديد موقع تلك الكيانات بدقة داخل صورة أو مقطع فيديو. هذه العملية تسد الفجوة بين الاستدلال الرمزي والإدراك على مستوى البكسل، وتعالج المشكلة الأساسية للتأسيس الرمزي في علم الإدراك. من خلال ربط الرموز اللغوية بالسمات البصرية، يعمل التأسيس كحجر أساس للذكاء الاصطناعي متعدد الوسائط الحديث، مما يمكّن الآلات من التفاعل بشكل أكثر بديهية مع البيئات البشرية الديناميكية.

ميكانيكا التأريض

على المستوى التقني، يتضمن التأسيس مواءمة البيانات من طرق مختلفة في فضاء متجه عالي الأبعاد مشترك . تولد البنى المتقدمة، التي غالبًا ما تُبنى على إطار عمل Transformer المستخدم في معالجة اللغة الطبيعية (NLP)، تمثيلات رقمية تُعرف باسم التضمينات لكل من الأوصاف النصية والمدخلات المرئية. أثناء التدريب، يتعلم النموذج تقليل المسافة بين تضمين موجه نصي (على سبيل المثال، "حقيبة ظهر زرقاء ") وتضمين المنطقة المرئية المقابلة.

يتيح هذا التوافق إمكانية الكشف عن المفردات المفتوحة. على عكس التعلم التقليدي الخاضع للإشراف حيث يقتصر النموذج على مجموعة ثابتة من الفئات، فإن التأسيس يتيح التعلم الفوري. يمكن للنموذج المؤسس تحديد الكائنات التي لم يرها صراحةً أثناء التدريب، شريطة أن يفهم اللغة التي تصفها. تدعم أطر التعلم العميق مثل PyTorch، والتي تسهل عمليات المصفوفات المعقدة المطلوبة لمواءمات متعددة الوسائط.

تطبيقات واقعية

تعمل تقنية التأسيس على إعادة تشكيل الصناعات من خلال السماح للأنظمة بتفسير نوايا المستخدمين والتنقل في البيئات غير المنظمة بشكل فعال.

  • الذكاء الاصطناعي في الروبوتات: التأسيس أمر ضروري للعوامل المستقلة التي تنفذ التعليمات اللفظية. إذا طُلب من روبوت مستودع "التقاط الطرد الموجود على الرف العلوي"، فيجب عليه تأسيس مفهومي "الطرد" و"الرف العلوي" على إحداثيات ثلاثية الأبعاد محددة في مجال رؤيته. هذه القدرة هي محور اهتمام رئيسي لأبحاث الروبوتات في MIT CSAIL، حيث تتيح للروبوتات العمل بأمان جنبًا إلى جنب مع البشر.
  • البحث الدلالي واسترجاع الوسائط: يوفر التأسيس قوة لمحركات البحث المتقدمة التي تتجاوز مطابقة الكلمات المفتاحية. يمكن للمستخدمين البحث في أرشيفات الفيديو باستخدام أوصاف معقدة مثل "دراج يتجه إلى اليسار عند غروب الشمس"، ويستخدم النظام التأسيس لاسترجاع طوابع زمنية محددة. وهذا يعزز بشكل كبير فهم الفيديو لأغراض الأمن وإدارة الوسائط .
  • التكنولوجيا المساعدة: بالنسبة للمستخدمين ذوي الإعاقة البصرية، يتيح التأسيس للتطبيقات وصف المحيط في الوقت الفعلي أو الإجابة على الأسئلة المتعلقة بالبيئة، بالاعتماد على التعرف القوي على الصور المرتبط بتوليد الكلام.

التأريض باستخدام Ultralytics YOLO

يدعم Ultralytics التأسيس من خلال هياكل متخصصة مثل YOLO. في حين تتطلب النماذج القياسية التدريب على مجموعات بيانات محددة، يتيح YOLO للمستخدمين تحديد فئات الكشف المخصصة على الفور باستخدام مطالبات نصية. وهذا يؤدي إلى "تأسيس" المدخلات اللغوية الطبيعية على الصورة بشكل فعال دون الحاجة إلى إعادة التدريب.

يوضح المثال التالي كيفية استخدام ultralytics حزمة detect بناءً على أوصاف نصية مخصصة:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

التمييز بين التأريض والمفاهيم ذات الصلة

لتقدير فائدة التأسيس بشكل كامل، من المفيد التمييز بينه وبين مهام الرؤية الحاسوبية المماثلة:

  • مقابل الكشف عن الكائنات: تحدد نماذج الكشف التقليدية، مثل أحدث نموذج YOLO26، الكائنات من مجموعة مغلقة ومحددة مسبقًا من الفئات (على سبيل المثال، الفئات الـ 80 في COCO). أما Grounding فهو مفتوح، حيث يحدد الكائنات بناءً على نص حر.
  • مقابل تسمية الصور: تسمية الصور تولد جملة وصفية للصورة بأكملها (صورة $\to$ نص). عادةً ما تعمل التأسيس في الاتجاه المعاكس أو في اتجاهين، حيث تحدد عناصر بصرية محددة بناءً على النص المدخل (نص $\to$ منطقة الصورة).
  • مقابل الإجابة البصرية على الأسئلة (VQA): تتضمن VQA الإجابة على سؤال محدد حول صورة (على سبيل المثال، "ما لون السيارة؟"). تركز التأسيس بشكل خاص على خطوة التوطين — رسم مربع حدودي حول الكائن المذكور.

التحديات والتوقعات المستقبلية

على الرغم من التقدم المحرز، لا يزال التأسيس عملية حسابية مكثفة. يتطلب مواءمة نماذج اللغة الضخمة مع مشفرات الرؤية GPU كبيرة وإدارة فعالة للذاكرة ، وهو تحدٍ غالبًا ما يتصدى له مبتكرو الأجهزة مثل NVIDIA. بالإضافة إلى ذلك، يمكن أن تواجه النماذج صعوبات مع الغموض اللغوي، مما يتطلب نوافذ سياق كبيرة لحل ما إذا كانت كلمة "bat" تشير إلى أداة رياضية أو حيوان.

تتجه التطورات المستقبلية نحو نماذج أساسية موحدة متعددة الوسائط بطبيعتها. تتطور أدوات مثل Ultralytics لمساعدة المطورين على إدارة مجموعات البيانات المعقدة المطلوبة لهذه المهام، وتوفر سير عمل مبسطًا لتعليق البيانات ونشر النماذج. مع نضوج هذه التقنيات، يمكننا أن نتوقع تكاملًا سلسًا للأساسيات في الأجهزة المتطورة، مما يتيح تطبيقات ذكاء اصطناعي أكثر ذكاءً واستجابة .

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن