اكتشف كيف يربط التأصيل في الذكاء الاصطناعي المفاهيم المجردة ببيانات العالم الحقيقي، مما يعزز السياق والدقة والثقة في التطبيقات الديناميكية.
التأريض هو العملية في الذكاء الاصطناعي في الذكاء الاصطناعي ربط المفاهيم المجردة، وعادةً ما تكون كلمات أو عبارات من اللغة الطبيعية، بالتمثيلات الملموسة في العالم المادي، مثل وحدات البكسل في صورة أو بيانات حسية من روبوت. بمصطلحات أبسط، إذا قرأ الكمبيوتر النص "قطة نائمة"، فإن التأريض هو القدرة على النظر إلى الصورة وتحديد المنطقة المحددة حيث توجد القطة. تعمل هذه القدرة على سد الفجوة الدلالية بين الرموز اللغوية والمعلومات الإدراكية المعلومات الإدراكية، وهو التحدي المعروف باسم مشكلة تأريض الرمز في العلوم المعرفية. في حين أن قد تقوم الأنظمة التقليدية بمعالجة النصوص والصور بشكل منفصل، فإن التأريض يمكّن الذكاء الاصطناعي متعدد الوسائط من فهم العلاقة بين بين الاثنين، مما يسهل التفاعل بين الإنسان والآلة بشكل أكثر سهولة.
على المستوى التقني، يعتمد التأريض على محاذاة المساحات المتجهة عالية الأبعاد. تستخدم النماذج الحديثة بنيات التعلّم العميق (DL) ، لا سيما المحولات، لتحويل كل من النصوص والصور إلى تمثيلات عددية تسمى التضمينات. أثناء التدريب يتعلّم النموذج أثناء التدريب تعيين تضمين عبارة نصية (على سبيل المثال، "سيارة حمراء") بالقرب من تضمين السمات المرئية المقابلة لذلك الكائن.
تتيح هذه العملية إمكانية الكشف عن المفردات المفتوحة. على عكس عملية القياسية التي تقتصر على قائمة ثابتة من الفئات المدربة مسبقًا (مثل الـ 80 فئة في COCO)، يمكن لنماذج التأريض تحديد أي كائن موصوف بواسطة نص موجه. يستخدم هذا الأمر التعلُّم من دون أي لقطة، حيث يحدد النموذج الأشياء التي لم يسبق له أن رآها صراحةً من قبل أثناء التدريب، وذلك ببساطة عن طريق فهم اللغة التي تصفها. وضعت الأبحاث التي أجرتها منظمات مثل OpenAI على CLIP الأساس لمواءمة هذه التمثيلات المرئية والنصية.
يحول التأريض كيفية تفسير الآلات لنوايا المستخدم وتفاعلها مع بيئاتها.
إن ultralytics تدعم الحزمة التأريض من خلال YOLO النموذج. هذا النموذج
يسمح للمستخدمين بتعريف فئات مخصصة أثناء التنقل باستخدام المطالبات النصية، مما يؤدي إلى "تأريض" النص على
الصورة دون إعادة التدريب.
يوضح المثال التالي كيفية تحميل نموذج مُدرَّب مسبقًا وتحديد مطالبات مخصصة detect محددة:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
لفهم التأريض، من المفيد التفريق بينه وبين مهام الرؤية الحاسوبية المماثلة:
على الرغم من التقدم المحرز، لا تزال عملية التأريض تستغرق وقتاً طويلاً من الناحية الحسابية. تتطلب مواءمة النماذج اللغوية الضخمة مع الضخمة تتطلب كبيرة من مواردGPU . بالإضافة إلى ذلك، يمكن للنماذج يمكن أن تعاني من الغموض؛ فعبارة "البنك" يمكن أن تشير إلى بنك نهري أو مؤسسة مالية, مما يتطلب من الذكاء الاصطناعي الاعتماد على نوافذ السياق لحل الأساس البصري الصحيح.
إن ضمان عمل هذه النماذج بكفاءة من أجل الاستدلال في الوقت الحقيقي هو مجال مستمر من التطوير المستمر. يعالج الباحثون أيضًا تحيّز البيانات لضمان تعميم نماذج التأريض بشكل منصف عبر الثقافات والسياقات المختلفة، وهو موضوع تتم مناقشته كثيرًا في الأخلاقيات في أدبيات الذكاء الاصطناعي.