Vector Database
اكتشف كيف تدير قواعد بيانات المتجهات التضمينات عالية الأبعاد للاسترجاع الدلالي. تعرّف على كيفية تشغيل تطبيقات الذكاء الاصطناعي باستخدام Ultralytics YOLO26 والبحث عن التشابه.
قاعدة بيانات المتجهات هي نظام تخزين متخصص مصمم لإدارة وفهرسة والاستعلام عن بيانات المتجهات عالية الأبعاد، والتي يشار إليها غالباً باسم embeddings. على عكس قاعدة البيانات العلائقية التقليدية، التي تنظم البيانات المهيكلة في صفوف وأعمدة لمطابقة الكلمات الرئيسية الدقيقة، فإن قاعدة بيانات المتجهات مُحسّنة للاسترجاع الدلالي. وهي تمكّن الأنظمة الذكية من العثور على نقاط بيانات متشابهة مفاهيمياً بدلاً من كونها متطابقة. تعد هذه القدرة أساسية للبنية التحتية الحديثة لـ الذكاء الاصطناعي (AI)، مما يسمح للتطبيقات بمعالجة وفهم البيانات غير المهيكلة—مثل الصور والصوت والفيديو والنصوص—من خلال تحليل العلاقات الرياضية بينها. تعمل قواعد البيانات هذه كذاكرة طويلة المدى للوكلاء الأذكياء، مما يسهل مهام مثل البحث المرئي والتوصيات المخصصة.
Link to this sectionكيف تعمل قواعد بيانات المتجهات#
تتمحور وظيفة قاعدة بيانات المتجهات حول مفهوم فضاء المتجهات، حيث يتم تعيين عناصر البيانات كنقاط في نظام إحداثيات متعدد الأبعاد. تبدأ العملية بـ استخراج الميزات، حيث يقوم نموذج التعلم العميق (DL) بتحويل المدخلات الخام إلى متجهات رقمية.
-
الاستيعاب (Ingestion): تتم معالجة البيانات بواسطة شبكة عصبية، مثل YOLO26 المتطور، لتوليد المتجهات (embeddings). تضغط هذه المتجهات المعنى الدلالي للمدخلات في قائمة كثيفة من أرقام الفاصلة العائمة.
-
الفهرسة (Indexing): لضمان انخفاض زمن انتقال الاستدلال أثناء الاسترجاع، تقوم قاعدة البيانات بتنظيم هذه المتجهات باستخدام خوارزميات متخصصة. تسمح تقنيات مثل Hierarchical Navigable Small World (HNSW) أو Inverted File Index (IVF) للنظام بالتنقل عبر مليارات المتجهات بكفاءة دون فحص كل إدخال على حدة.
-
الاستعلام (Querying): عندما يقدم المستخدم استعلام بحث (على سبيل المثال، صورة لنمط حذاء محدد)، يقوم النظام بتحويل الاستعلام إلى متجه وحساب قربه من المتجهات المخزنة باستخدام مقاييس المسافة مثل تشابه جيب التمام أو المسافة الإقليدية.
-
الاسترجاع (Retrieval): تُرجع قاعدة البيانات "أقرب الجيران"، والتي تمثل النتائج الأكثر صلة من الناحية السياقية.
يوضح مقتطف Python التالي كيفية توليد المتجهات (embeddings) باستخدام نموذج ultralytics قياسي، وهي الخطوة المطلوبة مسبقاً قبل ملء قاعدة بيانات المتجهات.
from ultralytics import YOLO
# Load a pre-trained YOLO26 classification model
model = YOLO("yolo26n-cls.pt")
# Generate feature embeddings for an image file
# The 'embed' method creates the vector representation needed for the database
results = model.embed("https://ultralytics.com/images/bus.jpg")
# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")Link to this sectionتطبيقات العالم الحقيقي#
تعد قواعد بيانات المتجهات المحرك وراء العديد من تطبيقات الرؤية الحاسوبية (CV) و معالجة اللغات الطبيعية (NLP) المتقدمة المستخدمة في بيئات المؤسسات اليوم.
- التوليد المعزز بالاسترجاع (RAG): في عصر الذكاء الاصطناعي التوليدي، تسمح قواعد بيانات المتجهات لـ نماذج اللغات الكبيرة (LLMs) بالوصول إلى مكتبة واسعة من البيانات الخاصة والمُحدّثة. من خلال استرجاع المستندات ذات الصلة بناءً على المعنى الدلالي لمطالبة المستخدم، يقلل النظام من الهلوسة في نماذج LLMs ويوفر استجابات واقعية ومدركة للسياق.
- محركات التوصية المرئية: في الذكاء الاصطناعي في قطاع التجزئة، تستخدم المنصات قواعد بيانات المتجهات لتشغيل ميزات "تسوق أنماط مشابهة". إذا عرض المستخدم فستاناً صيفياً معيناً، يستعلم النظام قاعدة البيانات عن صور منتجات أخرى ذات متجهات مرئية متشابهة—تطابق الأنماط والقصات والألوان—مما يوفر تجربة مستخدم أفضل من التصفية البسيطة القائمة على العلامات.
- اكتشاف الشذوذ والتهديدات: تستفيد الأنظمة الأمنية من قواعد بيانات المتجهات لـ اكتشاف الشذوذ. من خلال تخزين متجهات السلوك "الطبيعي" أو الموظفين المصرح لهم، يمكن للنظام وضع علامة فورية على القيم المتطرفة التي تقع خارج المجموعة المتوقعة في فضاء المتجهات، مما يعزز أمن البيانات ومراقبة المرافق.
Link to this sectionالتمييز بين المفاهيم ذات الصلة#
لتنفيذ هذه الأنظمة بفعالية، من المفيد التمييز بين قاعدة بيانات المتجهات والتقنيات ذات الصلة في مشهد عمليات تعلم الآلة (MLOps).
- قاعدة بيانات المتجهات مقابل البحث بالمتجهات: البحث بالمتجهات هو الإجراء أو العملية الخوارزمية للعثور على متجهات متشابهة ("الكيفية"). أما قاعدة بيانات المتجهات فهي البنية التحتية القوية التي تم إنشاؤها لتخزين البيانات وإدارة الفهرس وتنفيذ عمليات البحث هذه على نطاق واسع ("المكان").
- قاعدة بيانات المتجهات مقابل مخزن الميزات: مخزن الميزات هو مستودع مركزي لإدارة الميزات المستخدمة في تدريب النماذج والاستدلال، مما يضمن الاتساق. على الرغم من أنه يتعامل مع بيانات الميزات، إلا أنه غير مُحسّن في المقام الأول لاستعلامات الاسترجاع القائمة على التشابه التي تحدد قاعدة بيانات المتجهات.
- قاعدة بيانات المتجهات مقابل بحيرة البيانات: تخزن بحيرة البيانات كميات هائلة من البيانات الخام بتنسيقها الأصلي. بينما تخزن قاعدة بيانات المتجهات التمثيلات الرياضية المعالجة (المتجهات) لتلك البيانات، والمُحسّنة خصيصاً لـ البحث عن التشابه.
Link to this sectionالتكامل مع سير عمل الذكاء الاصطناعي الحديث#
يتضمن تنفيذ قاعدة بيانات المتجهات غالباً خط أنابيب (pipeline) تعمل فيه نماذج مثل YOLO26 الفعال كمحرك للتوليد المتجهي. تعالج هذه النماذج البيانات المرئية عند الحافة (edge) أو في السحابة، ويتم دفع المتجهات الناتجة إلى حلول مثل Pinecone أو Milvus أو Qdrant.
للفرق التي تتطلع إلى تبسيط دورة الحياة هذه بأكملها—بدءاً من تنظيم البيانات والتعليق التلقائي وصولاً إلى تدريب النموذج ونشره—توفر منصة Ultralytics بيئة شاملة. من خلال دمج تدريب النموذج مع استراتيجيات النشر الفعالة، يمكن للمطورين ضمان أن المتجهات التي تغذي قواعد بيانات المتجهات الخاصة بهم دقيقة، مما يؤدي إلى نتائج بحث ذات جودة أعلى ووكلاء ذكاء اصطناعي أكثر ذكاءً.






