Hybrid Search
استكشف كيف يدمج البحث الهجين بين مطابقة الكلمات المفتاحية والذكاء الاصطناعي الدلالي. تعلم بناء خطوط أنابيب بحث واعية بالسياق باستخدام البيانات الوصفية من Ultralytics YOLO26.
من خلال الجمع بين دقة مطابقة الكلمات المفتاحية التقليدية والفهم السياقي للذكاء الاصطناعي الحديث، تقوم منهجية البحث هذه باسترجاع المعلومات وتصنيفها عبر الاستفادة من تمثيلات البيانات المتفرقة (Sparse) والكثيفة (Dense). وفي حين يعتمد محرك البحث القياسي كلياً على مطابقات الكلمات المفتاحية الدقيقة (المعروفة بـ البحث المعجمي)، وتعتمد محركات البحث المتجهي بشكل بحت على التشابه الدلالي، فإن محرك البحث الهجين يدمج هذين النهجين لتقديم نتائج دقيقة للغاية ومدركة للسياق.
كيفية عمله
ينفذ خط أنابيب البحث الهجين النموذجي طريقتين متميزتين للاسترجاع في وقت واحد، مع دمج مخرجاتهما في تصنيف واحد مُحسَّن:
- البحث المعجمي (المتفرق): يستخدم خوارزميات مثل BM25 لتسجيل مطابقات الكلمات المفتاحية الدقيقة بناءً على تكرار المصطلح. وهذا أمر بالغ الأهمية لاسترجاع كيانات محددة، أو اختصارات، أو رموز تعريف المنتجات (SKUs)، أو مصطلحات متخصصة قد يجد نموذج دلالي بحت صعوبة في تحديدها.
- البحث الدلالي (الكثيف): ينشئ مصفوفات عالية الأبعاد من الأرقام باستخدام نماذج الذكاء الاصطناعي لفهم المعنى الأعمق وسياق الاستعلام. وهذا يسمح للنظام بالعثور على نتائج ذات صلة حتى لو كانت الكلمات الدقيقة مفقودة من استعلام البحث.
بمجرد قيام كلتا الطريقتين باسترجاع النتائج المرشحة، تقوم خوارزمية دمج - الأكثر شيوعاً هي دمج الرتب المتبادل (RRF) - بجمع القوائم. تحسب RRF درجة جديدة بناءً على رتبة كل عنصر في مجموعات النتائج المتفرقة والكثيفة المعنية. يضمن هذا صعود المستندات التي تحتل مرتبة عالية في أي من عمليتي البحث أو كلتيهما إلى القمة، مما يوازن بين المطابقات السياقية الواسعة ودقة الكلمات المفتاحية المحددة.
تطبيقات الذكاء الاصطناعي وتعلم الآلة في العالم الحقيقي
تعتمد بنيات الذكاء الاصطناعي الحديثة بشكل كبير على هذه التقنية للتغلب على قيود استخدام طريقة استرجاع واحدة في بيئات الإنتاج.
- البحث الهجين عبر توليد الاسترجاع المعزز (RAG): في أنظمة المعرفة المؤسسية، يعد تزويد نموذج لغوي كبير (LLM) بالسياق الأكثر صلة أمراً بالغ الأهمية لمنع الهلوسة. يضمن إعداد البحث الهجين ضمن RAG قيام النموذج باسترجاع مستندات تطابق القيود التقنية الدقيقة مع سحب فقرات ذات صلة دلالياً في نفس الوقت.
- التجارة الإلكترونية واكتشاف المنتجات بصرياً: يستخدم تجار التجزئة البحث الهجين لتشغيل كتالوجات المنتجات. قد يبحث المستخدم عن "حذاء جري أحمر". يطابق المحرك المعجمي العلامة التجارية أو كلمات الفئة المفتاحية الدقيقة، بينما يستخدم نموذج رؤية حاسوبية للذكاء الاصطناعي تضمينات الصور (Image Embeddings) لإظهار عناصر مشابهة بصرياً.
اليوم، تدعم كل قاعدة بيانات متجهية رئيسية تقريباً - بما في ذلك Pinecone، وQdrant، وOpenSearch، وPostgreSQL عبر pgvector - البحث الهجين بشكل أصلي. وهذا يسمح للمطورين بفهرسة كل من الكلمات المفتاحية المتفرقة والمتجهات الكثيفة بكفاءة في بنية تحتية واحدة.
إنشاء البيانات الوصفية للبحث الهجين
في خطوط أنابيب الرؤية الحاسوبية، يمكنك استخراج كلمات مفتاحية ذات معنى من الصور لبناء المكون المتفرق للفهرس الهجين. باستخدام Ultralytics YOLO26، يمكنك تلقائياً إجراء كشف الأجسام على صورة واستخدام أسماء الفئات هذه كـ وسوم بيانات وصفية. يمكن بعد ذلك إقران وسوم الكلمات المفتاحية هذه بتضمينات المتجهات الكثيفة للصورة للحصول على فهرسة شاملة.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 object detection model
model = YOLO("yolo26n.pt")
# Run inference to detect objects in an image
results = model("store_aisle.jpg")
# Extract predicted class names to be indexed as keyword metadata (sparse data)
keywords = [model.names[int(box.cls)] for box in results[0].boxes]
print("Sparse keywords for lexical search:", keywords)من خلال إثراء تضمينات الصور الكثيفة بكلمات مفتاحية متفرقة دقيقة يتم إنشاؤها بواسطة الذكاء الاصطناعي، يمكن للمطورين الاستفادة من منصة Ultralytics وقواعد البيانات المتجهية المتوافقة مع البحث الهجين لبناء محركات بحث متعددة الوسائط قوية تفهم تماماً كلاً من الوسوم النصية الصريحة والسياق البصري الضمني لبياناتهم.






