استكشف أساسيات التأسيس في مجال الذكاء الاصطناعي. تعلم كيفية ربط اللغة الطبيعية بالبيانات المرئية باستخدام Ultralytics و YOLO للكشف عن المفردات المفتوحة.
يشير التأسيس إلى قدرة نظام الذكاء الاصطناعي على ربط المفاهيم المجردة — التي تستمد عادةً من اللغة الطبيعية — بتمثيلات محددة وملموسة في العالم المادي، مثل البيانات المرئية أو المدخلات الحسية . في سياق الرؤية الحاسوبية، هذا يعني أن النموذج لا يعالج النص فحسب؛ بل يمكنه تحليل عبارة مثل "شخص يمشي مع كلب" وتحديد موقع تلك الكيانات بدقة داخل صورة أو مقطع فيديو. هذه العملية تسد الفجوة بين الاستدلال الرمزي والإدراك على مستوى البكسل، وتعالج المشكلة الأساسية للتأسيس الرمزي في علم الإدراك. من خلال ربط الرموز اللغوية بالسمات البصرية، يعمل التأسيس كحجر أساس للذكاء الاصطناعي متعدد الوسائط الحديث، مما يمكّن الآلات من التفاعل بشكل أكثر بديهية مع البيئات البشرية الديناميكية.
على المستوى التقني، يتضمن التأسيس مواءمة البيانات من طرق مختلفة في فضاء متجه عالي الأبعاد مشترك . تولد البنى المتقدمة، التي غالبًا ما تُبنى على إطار عمل Transformer المستخدم في معالجة اللغة الطبيعية (NLP)، تمثيلات رقمية تُعرف باسم التضمينات لكل من الأوصاف النصية والمدخلات المرئية. أثناء التدريب، يتعلم النموذج تقليل المسافة بين تضمين موجه نصي (على سبيل المثال، "حقيبة ظهر زرقاء ") وتضمين المنطقة المرئية المقابلة.
يتيح هذا التوافق إمكانية الكشف عن المفردات المفتوحة. على عكس التعلم التقليدي الخاضع للإشراف حيث يقتصر النموذج على مجموعة ثابتة من الفئات، فإن التأسيس يتيح التعلم الفوري. يمكن للنموذج المؤسس تحديد الكائنات التي لم يرها صراحةً أثناء التدريب، شريطة أن يفهم اللغة التي تصفها. تدعم أطر التعلم العميق مثل PyTorch، والتي تسهل عمليات المصفوفات المعقدة المطلوبة لمواءمات متعددة الوسائط.
تعمل تقنية التأسيس على إعادة تشكيل الصناعات من خلال السماح للأنظمة بتفسير نوايا المستخدمين والتنقل في البيئات غير المنظمة بشكل فعال.
يدعم Ultralytics التأسيس من خلال هياكل متخصصة مثل YOLO. في حين تتطلب النماذج القياسية التدريب على مجموعات بيانات محددة، يتيح YOLO للمستخدمين تحديد فئات الكشف المخصصة على الفور باستخدام مطالبات نصية. وهذا يؤدي إلى "تأسيس" المدخلات اللغوية الطبيعية على الصورة بشكل فعال دون الحاجة إلى إعادة التدريب.
يوضح المثال التالي كيفية استخدام ultralytics حزمة detect بناءً على
أوصاف نصية مخصصة:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
لتقدير فائدة التأسيس بشكل كامل، من المفيد التمييز بينه وبين مهام الرؤية الحاسوبية المماثلة:
على الرغم من التقدم المحرز، لا يزال التأسيس عملية حسابية مكثفة. يتطلب مواءمة نماذج اللغة الضخمة مع مشفرات الرؤية GPU كبيرة وإدارة فعالة للذاكرة ، وهو تحدٍ غالبًا ما يتصدى له مبتكرو الأجهزة مثل NVIDIA. بالإضافة إلى ذلك، يمكن أن تواجه النماذج صعوبات مع الغموض اللغوي، مما يتطلب نوافذ سياق كبيرة لحل ما إذا كانت كلمة "bat" تشير إلى أداة رياضية أو حيوان.
تتجه التطورات المستقبلية نحو نماذج أساسية موحدة متعددة الوسائط بطبيعتها. تتطور أدوات مثل Ultralytics لمساعدة المطورين على إدارة مجموعات البيانات المعقدة المطلوبة لهذه المهام، وتوفر سير عمل مبسطًا لتعليق البيانات ونشر النماذج. مع نضوج هذه التقنيات، يمكننا أن نتوقع تكاملًا سلسًا للأساسيات في الأجهزة المتطورة، مما يتيح تطبيقات ذكاء اصطناعي أكثر ذكاءً واستجابة .