البحث المتجه هو تقنية قوية تُستخدم في الذكاء الاصطناعي (AI) والتعلم الآلي (ML) للعثور على العناصر المتشابهة دلاليًا، بدلاً من مجرد مطابقة الكلمات الرئيسية. تعمل هذه التقنية من خلال تمثيل نقاط البيانات - مثل المستندات النصية أو الصور أو المقاطع الصوتية أو الملفات الشخصية للمستخدمين - كمتجهات رقمية تُسمى التضمينات. تلتقط هذه التضمينات المعنى أو الخصائص الأساسية للبيانات. ثم يعثر البحث عن المتجهات على المتجهات في مجموعة البيانات "الأقرب" إلى متجه استعلام معين في فضاء عالي الأبعاد، وعادةً ما يستخدم مقاييس المسافة مثل تشابه جيب التمام أو المسافة الإقليدية. يسمح ذلك بإجراء بحث أكثر دقة وإدراكًا للسياق مقارنةً بالطرق التقليدية.
كيفية عمل البحث في المتجهات
تتضمن العملية عادةً عدة خطوات رئيسية:
- توليد التضمين: يتم تحويل البيانات إلى متجهات عالية الأبعاد (تضمينات) باستخدام نماذج التعلم العميق (DL ) المدربة مسبقًا، مثل BERT للنصوص أو محولات الرؤية (ViT) للصور. يتم تدريب هذه النماذج على مجموعات بيانات ضخمة لتعلم تمثيلات ذات معنى. على سبيل المثال Ultralytics YOLO المعروفة في المقام الأول باكتشاف الأجسام، تُنشئ أيضًا متجهات ميزات يمكن تكييفها لمهام البحث المرئي.
- الفهرسة: يتم تخزين المتجهات التي تم إنشاؤها وفهرستها في قاعدة بيانات متجهات متخصصة. يتم تحسين قواعد البيانات هذه للاستعلام بكفاءة عن البيانات عالية الأبعاد، وغالبًا ما تستخدم خوارزميات أقرب جار تقريبي (ANN) مثل HNSW (عالم صغير قابل للتنقل الهرمي) أو ScaNN (أقرب جيران قابل للتطوير). تقايض تقنيات الشبكة العصبية الاصطناعية قدرًا ضئيلًا من الدقة مقابل تحسينات كبيرة في السرعة، مما يجعل البحث المتجه ممكنًا لمجموعات البيانات الكبيرة.
- الاستعلام: عندما يتم إجراء استعلام بحث (على سبيل المثال، عبارة نصية أو صورة)، يتم تحويلها أولاً إلى نفس تنسيق المتجه باستخدام نفس نموذج التضمين.
- حساب التشابه: تقوم قاعدة بيانات المتجهات بعد ذلك بالبحث في فهرسها للعثور على المتجهات الأكثر تشابهًا مع متجه الاستعلام بناءً على مقياس المسافة المختار (على سبيل المثال، تشابه جيب التمام أو المسافة الإقليدية أو حاصل الضرب النقطي).
- استرجاع: يتم إرجاع العناصر المطابقة لأقرب المتجهات كنتائج بحث.
المفاهيم والتقنيات الرئيسية
- تضمينات المتجهات: تمثيلات عددية تلتقط المعنى الدلالي. تتعلمها النماذج أثناء التدريب على مجموعات بيانات كبيرة مثل ImageNet.
- قواعد بيانات المتجهات: صُممت أنظمة مثل Pinecone و Weaviate و Milvus و Chroma DB لتخزين المتجهات والاستعلام عنها.
- مقاييس التشابه: الدوال الرياضية (على سبيل المثال، تشابه جيب التمام والمسافة الإقليدية) المستخدمة لقياس "التقارب" بين المتجهات.
- الجار الأقرب التقريبي الأقرب (ANN): الخوارزميات التي تعثر بكفاءة على الجيران الأقرب المحتملين، وهو أمر بالغ الأهمية للأداء على نطاق واسع. توفر مكتبات مثل Faiss (البحث عن التشابه بالذكاء الاصطناعي على فيسبوك) تطبيقات.
- تقليل الأبعاد: يمكن استخدام تقنيات مثل PCA (تحليل المكونات الرئيسية) في بعض الأحيان لتقليل أبعاد المتجهات، مما قد يؤدي إلى تسريع البحث على حساب فقدان بعض المعلومات.
التطبيقات الواقعية
يتيح البحث المتجه مجموعة واسعة من التطبيقات الذكية:
- البحث الدلالي: تشغيل محركات البحث (مثل بحثGoogle ) أو قواعد المعرفة الداخلية لفهم مقصد الاستعلام بما يتجاوز الكلمات الرئيسية. على سبيل المثال، قد يؤدي البحث عن "أفكار عشاء صحي" إلى إرجاع وصفات للسلطات والدجاج المشوي وأطباق الكينوا، حتى لو لم تكن هذه الكلمات بالضبط في المستندات، لأن تضميناتها المتجهة متقاربة في المعنى.
- أنظمة التوصيات: تستخدم منصات مثل نتفليكس أو سبوتيفاي البحث المتجه للعثور على عناصر (أفلام، أغاني، منتجات) مشابهة لتلك التي أعجب بها المستخدم أو تفاعل معها سابقاً، بناءً على أوجه التشابه في تمثيلات المتجهات الخاصة بها.
- التعرف على الصور والبحث عنها: البحث عن الصور المتشابهة بصرياً (البحث العكسي عن الصور) أو تحديد المنتجات في الصور للتجارة الإلكترونية. هذا مجال تطبيق أساسي في مجال الرؤية الحاسوبية (CV).
- كشف الشذوذ: تحديد نقاط البيانات غير الاعتيادية (مثل المعاملات الاحتيالية والتدخلات الشبكية) التي تقع متجهاتها بعيدة عن مجموعات متجهات البيانات العادية.
- معالجة اللغة الطبيعية (NLP): تحسين التطبيقات مثل الإجابة عن الأسئلة واكتشاف التكرارات وتجميع البيانات النصية بناءً على الموضوع أو الشعور.
- التوليد المعزز للاسترجاع (RAG): يُستخدم في نماذج اللغة الكبيرة (LLMs) لاسترجاع السياق ذي الصلة من قاعدة معرفية قبل توليد استجابة، مما يحسن الدقة الواقعية ويقلل من الهلوسة.
البحث في المتجهات مقابل البحث في الكلمات المفتاحية
يكمن الاختلاف الأساسي في كيفية تحديد التشابه:
- البحث عن الكلمات الرئيسية: يطابق الكلمات أو العبارات الدقيقة باستخدام تقنيات مثل الفهارس المقلوبة. ويكافح مع المترادفات والسياق والاختلافات في اللغة.
- بحث المتجهات: يطابق استنادًا إلى التشابه الدلالي الذي تم التقاطه في التضمينات المتجهة. ويمكنه العثور على النتائج ذات الصلة حتى إذا لم تتطابق الكلمات المفتاحية بالضبط، مع فهم القصد أو المفهوم الأساسي.
بينما يوفر البحث المتجه نتائج أكثر دقة، إلا أنه يتطلب موارد حاسوبية كبيرة لتوليد التضمين والفهرسة، وغالبًا ما تتم إدارته بكفاءة من خلال منصات مثل Ultralytics HUB لإدارة النماذج ومجموعات البيانات. غالبًا ما تجمع الأنظمة الحديثة بين كل من البحث بالكلمات المفتاحية والبحث المتجه (البحث الهجين) للاستفادة من نقاط القوة في كل نهج. يمكنك استكشاف العديد من البرامج التعليمية والأدلة لفهم كيفية تطبيق المفاهيم ذات الصلة مثل نشر النماذج ومقاييس الأداء في هذه الأنظمة.