البحث المتجهي
اكتشف كيف تُحدث خاصية البحث المتجهي (vector search) ثورة في الذكاء الاصطناعي من خلال تمكين التشابه الدلالي في استرجاع البيانات لمعالجة اللغات الطبيعية (NLP)، والبحث المرئي، وأنظمة التوصية، والمزيد!
البحث المتجه هو تقنية متطورة لاسترجاع المعلومات تحدد العناصر المتشابهة داخل مجموعة بيانات بناءً على
على خصائصها الرياضية بدلاً من مطابقات الكلمات الرئيسية الدقيقة. من خلال تمثيل البيانات - مثل النصوص أو الصور أو
الصوت كمتجهات عددية عالية الأبعاد تُعرف باسم
التضمينات، تمكّن هذه الطريقة أجهزة الكمبيوتر من فهم
السياق والمعنى الدلالي وراء الاستعلام. على عكس طريقة
البحث بالكلمات المفتاحية التقليدية، والتي تعتمد على مطابقة كلمات محددة,
يحسب البحث المتجه التقارب بين العناصر في فضاء متعدد الأبعاد، مما يسمح له بإرجاع
حتى عندما تختلف الصياغة. هذه القدرة أساسية للذكاء الاصطناعي الحديث
الذكاء الاصطناعي الحديث (AI) و
وأنظمة التعلم الآلي، خاصةً في
التعامل مع البيانات غير المهيكلة مثل موجزات الفيديو و
واللغة الطبيعية.
كيفية عمل البحث في المتجهات
تتضمن الآلية الأساسية للبحث المتجه تحويل البيانات الأولية إلى تنسيق رقمي قابل للبحث. تعتمد هذه العملية
تعتمد على نماذج التعلّم العميق لأداء
استخراج الميزات، وتحويل المدخلات إلى
تضمينات متجهة.
-
التحويل: نموذج التعلم الآلي، مثل نموذج التعلم الآلي المتطور
YOLO11يعالج صورة أو نصًا ويخرج متجهًا - قائمة طويلة من الأرقام التي تمثل ميزات
قائمة طويلة من الأرقام التي تمثل ميزات العنصر (مثل الأشكال أو الألوان أو المفاهيم الدلالية).
-
الفهرسة: يتم تنظيم هذه النواقل بكفاءة، وغالبًا ما تكون ضمن
مخصصة، للسماح بالاسترجاع السريع.
-
حساب التشابه: عندما يقوم المستخدم بإرسال استعلام، يقوم النظام بتحويل الاستعلام إلى متجه
ويقيس المسافة بينه وبين المتجهات المخزنة باستخدام مقاييس مثل
تشابه جيب التمام أو
المسافة الإقليدية.
-
الاسترجاع: يقوم النظام بتحديد وإرجاع "أقرب الجيران" أو المتجهات الأقرب من الناحية الرياضية
الأقرب رياضيًّا إلى الاستعلام، وغالبًا ما يستخدم النظام
الجار الأقرب التقريبي (ANN)
لقابلية التوسع في مجموعات البيانات الكبيرة.
تطبيقات واقعية
يحرك البحث المتجه العديد من الميزات الذكية التي يتفاعل معها المستخدمون يوميًا، والتي تشمل مختلف الصناعات من
التجارة الإلكترونية إلى الأمن.
-
الاكتشاف البصري في البيع بالتجزئة: في
الذكاء الاصطناعي في البيع بالتجزئة، يعمل البحث المتجه على تشغيل "تسوق المظهر
المظهر". إذا قام أحد المستخدمين بتحميل صورة لحذاء رياضي، يستخدم النظام
الرؤية الحاسوبية لتوليد تضمين و
يعثر على منتجات متشابهة بصرياً في الكتالوج، ويعمل بشكل فعال كنظام
نظام توصية يعتمد على الأسلوب بدلاً من
بدلاً من أسماء المنتجات.
-
الإشراف على المحتوى والأمان: تستخدم المنصات البحث المتجه لـ
للكشف عن الحالات الشاذة من خلال مقارنة التحميلات الجديدة
مقابل قاعدة بيانات للمحتوى غير المشروع المعروف أو التهديدات الأمنية. من خلال مطابقة السمات الدلالية للصورة أو إطار
أو إطار فيديو، يمكن للنظام الإبلاغ عن المحتوى الذي يحتمل أن يكون ضارًا حتى لو تم تعديله قليلاً، مما يعزز
أمن البيانات.
مثال على Python : توليد التضمينات
الخطوة الأولى في أي خط بحث عن المتجهات هي توليد التضمينات. يوضح مقتطف الكود التالي كيفية
لإنتاج متجهات الميزة من صورة باستخدام متجهات الميزة
Ultralytics Python ونموذج مُدرَّب مسبقًا.
from ultralytics import YOLO
# Load the official YOLO11 model
model = YOLO("yolo11n.pt")
# Generate embeddings for an image file or URL
# The 'embed' method returns the high-dimensional feature vector
results = model.embed("https://ultralytics.com/images/bus.jpg")
# Print the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")
البحث المتجهي مقابل المفاهيم ذات الصلة
ولتنفيذ هذه الأنظمة بفعالية، من المفيد التمييز بين البحث المتجه والمصطلحات ذات الصلة الوثيقة في
في مجال علم البيانات.
-
البحث المتجه مقابل البحث الدلالي: البحث الدلالي هو المفهوم الأوسع لفهم قصد المستخدم ومعناه. البحث المتجه هو الطريقة المحددة
الطريقة المحددة المستخدمة لتحقيق ذلك من خلال حساب القرب الرياضي للمتجهات. بينما البحث الدلالي
يصف "ماذا" (إيجاد المعنى)، فإن البحث المتجه يصف "كيف" (باستخدام التضمينات و
ومقاييس المسافة).
-
بحث المتجهات مقابل قاعدة بيانات المتجهات: قاعدة بيانات المتجهات هي البنية التحتية المتخصصة المستخدمة لتخزين وفهرسة التضمينات. البحث المتجه هو
إجراء أو عملية الاستعلام عن قاعدة البيانات تلك للعثور على عناصر متشابهة. يمكنك استخدام قاعدة بيانات المتجهات من أجل
إجراء بحث متجه بكفاءة.
-
البحث الناقل مقابل البحث الناقل
معالجة اللغة الطبيعية (NLP): تركز البرمجة اللغوية العصبية على التفاعل بين الحواسيب واللغة البشرية. بينما تُستخدم نماذج البرمجة اللغوية العصبية (مثل المحولات)
غالبًا ما تستخدم لإنشاء تضمينات للنص، فإن البحث المتجه هو آلية الاسترجاع التي تعمل على تلك
التضمينات.
من خلال الاستفادة من سرعة
الاستدلال في الوقت الحقيقي وعمق
التعلم العميق، يسمح البحث المتجه للتطبيقات بتجاوز قواعد البيانات الجامدة وتقديم تجارب اكتشاف بديهية
تجارب اكتشاف بديهية شبيهة بالبشر. سواءً كان تنفيذ
اكتشاف الأشياء للمخزون أو إنشاء
روبوت محادثة مع تحسين السياق، فإن البحث المتجه هو
أداة أساسية في مجموعة أدوات مطوري الذكاء الاصطناعي الحديثة.