Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

التأصيل (Grounding)

اكتشف كيف يربط التأصيل في الذكاء الاصطناعي المفاهيم المجردة ببيانات العالم الحقيقي، مما يعزز السياق والدقة والثقة في التطبيقات الديناميكية.

التأريض هو العملية في الذكاء الاصطناعي في الذكاء الاصطناعي ربط المفاهيم المجردة، وعادةً ما تكون كلمات أو عبارات من اللغة الطبيعية، بالتمثيلات الملموسة في العالم المادي، مثل وحدات البكسل في صورة أو بيانات حسية من روبوت. بمصطلحات أبسط، إذا قرأ الكمبيوتر النص "قطة نائمة"، فإن التأريض هو القدرة على النظر إلى الصورة وتحديد المنطقة المحددة حيث توجد القطة. تعمل هذه القدرة على سد الفجوة الدلالية بين الرموز اللغوية والمعلومات الإدراكية المعلومات الإدراكية، وهو التحدي المعروف باسم مشكلة تأريض الرمز في العلوم المعرفية. في حين أن قد تقوم الأنظمة التقليدية بمعالجة النصوص والصور بشكل منفصل، فإن التأريض يمكّن الذكاء الاصطناعي متعدد الوسائط من فهم العلاقة بين بين الاثنين، مما يسهل التفاعل بين الإنسان والآلة بشكل أكثر سهولة.

ميكانيكا التأريض

على المستوى التقني، يعتمد التأريض على محاذاة المساحات المتجهة عالية الأبعاد. تستخدم النماذج الحديثة بنيات التعلّم العميق (DL) ، لا سيما المحولات، لتحويل كل من النصوص والصور إلى تمثيلات عددية تسمى التضمينات. أثناء التدريب يتعلّم النموذج أثناء التدريب تعيين تضمين عبارة نصية (على سبيل المثال، "سيارة حمراء") بالقرب من تضمين السمات المرئية المقابلة لذلك الكائن.

تتيح هذه العملية إمكانية الكشف عن المفردات المفتوحة. على عكس عملية القياسية التي تقتصر على قائمة ثابتة من الفئات المدربة مسبقًا (مثل الـ 80 فئة في COCO)، يمكن لنماذج التأريض تحديد أي كائن موصوف بواسطة نص موجه. يستخدم هذا الأمر التعلُّم من دون أي لقطة، حيث يحدد النموذج الأشياء التي لم يسبق له أن رآها صراحةً من قبل أثناء التدريب، وذلك ببساطة عن طريق فهم اللغة التي تصفها. وضعت الأبحاث التي أجرتها منظمات مثل OpenAI على CLIP الأساس لمواءمة هذه التمثيلات المرئية والنصية.

تطبيقات واقعية

يحول التأريض كيفية تفسير الآلات لنوايا المستخدم وتفاعلها مع بيئاتها.

  • الروبوتات والوكلاء المستقلون: في مجال الذكاء الاصطناعي في مجال الروبوتات، يعد التأريض ضروريًا لـ تنفيذ أوامر اللغة الطبيعية. إذا طلب المستخدم من روبوت الخدمة أن "يلتقط التفاحة بجانب الكوب"، فيجب على الروبوت أن يؤسس الكلمات "تفاحة" و"كوب" والعلاقة المكانية "بجانب" إلى إحداثيات فيزيائية محددة في تغذية الكاميرا الخاصة به. يسمح هذا بتنفيذ المهام الديناميكية في في بيئات غير منظمة، وهو محور تركيز رئيسي لأبحاث الروبوتات في IEEE.
  • البحث والاسترجاع الدلالي: أسس قوى البحث الدلالي المتقدمة محركات البحث الدلالي. بدلاً من مطابقة الكلمات المفتاحية، يمكن للنظام البحث في قاعدة بيانات الفيديو عن استعلامات معقدة مثل "راكب دراجة ينعطف يسارًا عند عند غروب الشمس." يقوم المحرك بتأريض الاستعلام في المحتوى المرئي لملفات الفيديو لاسترجاع الطوابع الزمنية الدقيقة. تعمل هذه التقنية على تعزيز أدوات فهم الفيديو وإدارة الأصول الرقمية وإدارة الأصول الرقمية.

التأريض باستخدام Ultralytics YOLO

إن ultralytics تدعم الحزمة التأريض من خلال YOLO النموذج. هذا النموذج يسمح للمستخدمين بتعريف فئات مخصصة أثناء التنقل باستخدام المطالبات النصية، مما يؤدي إلى "تأريض" النص على الصورة دون إعادة التدريب.

يوضح المثال التالي كيفية تحميل نموذج مُدرَّب مسبقًا وتحديد مطالبات مخصصة detect محددة:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

التمييز بين التأريض والمفاهيم ذات الصلة

لفهم التأريض، من المفيد التفريق بينه وبين مهام الرؤية الحاسوبية المماثلة:

  • مقابل الكشف عن الكائنات: الكشف القياسي، مثل ذلك الذي يتم إجراؤه بواسطة YOLO11يُحدّد الأجسام من مجموعة مغلقة من الفئات (على سبيل المثال، "شخص"، "سيارة"). أما التأريض فهو مفتوح ويمكنه detect الأشياء بناءً على أوصاف نصية حرة غير غير موجودة في بيانات التدريب.
  • مقابل التعليق على الصورة: تنشئ التسمية التوضيحية للص ورة وصفًا نصيًا من الصورة (صورة $/إلى$ نص). عادةً ما يعمل التأريض في الاتجاه العكسي أو ثنائي الاتجاه، حيث يحدد موقع العناصر المرئية بناءً على إدخال النص (نص $\إلى $$ منطقة الصورة).
  • مقابل التقسيم الدلالي: بينما يصنف يصنف التقسيم الدلالي كل بكسل في فئة، إلا أنه لا يربط بطبيعته تلك البكسلات بعبارات لغوية محددة أو مثيلات مميزة محددة بسمات معقدة (على سبيل المثال، "التفاحة الحمراء اللامعة" مقابل "تفاحة" فقط).

التحديات الحالية

على الرغم من التقدم المحرز، لا تزال عملية التأريض تستغرق وقتاً طويلاً من الناحية الحسابية. تتطلب مواءمة النماذج اللغوية الضخمة مع الضخمة تتطلب كبيرة من مواردGPU . بالإضافة إلى ذلك، يمكن للنماذج يمكن أن تعاني من الغموض؛ فعبارة "البنك" يمكن أن تشير إلى بنك نهري أو مؤسسة مالية, مما يتطلب من الذكاء الاصطناعي الاعتماد على نوافذ السياق لحل الأساس البصري الصحيح.

إن ضمان عمل هذه النماذج بكفاءة من أجل الاستدلال في الوقت الحقيقي هو مجال مستمر من التطوير المستمر. يعالج الباحثون أيضًا تحيّز البيانات لضمان تعميم نماذج التأريض بشكل منصف عبر الثقافات والسياقات المختلفة، وهو موضوع تتم مناقشته كثيرًا في الأخلاقيات في أدبيات الذكاء الاصطناعي.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن