Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

قاعدة بيانات المتجهات

اكتشف كيف تُحدث قواعد بيانات المتجهات ثورة في الذكاء الاصطناعي من خلال تمكين عمليات البحث الفعالة عن التشابه، والبحث الدلالي، واكتشاف الحالات الشاذة للأنظمة الذكية.

قاعدة البيانات المتجهة هي نظام تخزين متخصص مصمم لإدارة البيانات المتجهة عالية الأبعاد وفهرستها والاستعلام عنها, غالبًا ما يشار إليها باسم التضمينات. على عكس قواعد البيانات قواعد البيانات العلائقية التقليدية التي تخزن البيانات المهيكلة في صفوف وأعمدة لمطابقة الكلمات الرئيسية بالضبط، فإن قواعد البيانات المتجهة مُحسّنة للعثور على العناصر بناءً على تشابهها الدلالي. هذه القدرة تجعلها حجر الزاوية في الذكاء الاصطناعي الحديث حيث تسمح للأنظمة بمعالجة البيانات غير المهيكلة - مثل الصور والصوت والنصوص - من خلال فهم العلاقات السياقية بينها. وهي بمثابة ذاكرة طويلة الأجل لتطبيقات لتطبيقات التعلم الآلي، مما يتيح الاسترجاع الفعّال للمعلومات المترابطة مفاهيميًا وليس المتطابقة.

آلية عمل قواعد بيانات المتجهات

تعتمد الوظيفة الأساسية لقاعدة البيانات المتجهة على تحويل البيانات الأولية إلى متجهات رياضية من خلال عملية عملية تعرف باسم استخراج الميزة. A نموذج التعلم العميق، مثل محول الرؤية (ViT) أو أو الشبكة العصبية التلافيفية (CNN)، يحلل البيانات ويخرج متجهًا - قائمة طويلة من الأرقام التي تمثل ميزات البيانات.

بمجرد إنشاء هذه المتجهات، تقوم قاعدة البيانات بفهرستها باستخدام خوارزميات متخصصة مثل أقرب جار تقريبي (ANN). عندما يقوم المستخدم بإجراء استعلام، يقوم النظام بتحويل مصطلح البحث (صورة أو نص) إلى متجه ويحسب قربه من المتجهات المخزنة باستخدام مقاييس المسافة مثل تشابه جيب التمام أو المسافة الإقليدية. هذا يسمح لقاعدة البيانات بسرعة تحديد الجيران "الأقرب"، والتي تمثل النتائج الأكثر صلة.

يوضح مقتطف الكود التالي كيفية توليد التضمينات باستخدام نموذج نموذجYOLO11 وهي الخطوة الأولى قبل تخزين البيانات في قاعدة بيانات متجهة.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Generate feature embeddings for an image file
# This converts the visual content into a numerical vector
results = model.embed("bus.jpg")

# Output the shape of the resulting embedding vector
print(f"Embedding vector shape: {results[0].shape}")

تطبيقات واقعية

قواعد البيانات المتجهة هي المحرك وراء العديد من الميزات الذكية في البرامج التجارية والمؤسسية.

  • محركات التوصيات المرئية: في مجال الذكاء الاصطناعي في مجال البيع بالتجزئة، تستخدم المنصات قواعد بيانات المتجهات تشغيل ميزات "تسوق المظهر". عندما يشاهد العميل أحد المنتجات، يستعلم النظام عن قاعدة بيانات المتجهات عن العناصر ذات التضمينات البصرية المماثلة، ويقترح منتجات ذات أنماط أو ألوان أو أنماط مطابقة. وهذا يعزز تجربة المستخدم من خلال توفير توصيات مخصصة تتجاوز علامات التصنيف البسيطة.
  • التوليد المعزز للاسترجاع (RAG): قواعد بيانات المتجهات ضرورية لـ الاسترجاع-التوليد المعزز (RAG) أنظمة. من خلال تخزين تضمينات قواعد المعرفة الداخلية الواسعة، تتيح الشركات نماذج اللغات الكبيرة (LLMs) باسترجاع سياق دقيق وحديث قبل توليد إجابة. هذا يقلل من الهلوسات ويضمن أن يوفر الذكاء الاصطناعي استجابات واقعية بناءً على المستندات المسترجعة.

التفريق بين المفاهيم ذات الصلة

لفهم النظام البيئي، من المفيد التمييز بين قاعدة بيانات المتجهات والمصطلحات ذات الصلة:

  • قاعدة بيانات المتجهات مقابل البحث عن المتجهات: البحث عن المتجهات هو إجراء أو عملية حسابية للعثور على متجهات متشابهة. قاعدة بيانات المتجهات هي البنية التحتية أو نظام البرمجيات المصممة لتخزين هذه المتجهات وإجراء عمليات البحث بشكل متدرج ومستمر وباستمرار.
  • قاعدة بيانات المتجهات مقابل التضمينات: التضمينات هي حمولة البيانات الفعلية - التمثيل العددي للمدخلات. قاعدة بيانات المتجهات هي الحاوية التي تنظم هذه التضمينات للوصول السريع.
  • قاعدة بيانات المتجهات مقابل هندسة الميزات: هندسة الميزات هي العملية الأوسع لإنشاء ميزات للنماذج. تخزن قواعد بيانات المتجهات مخرجات هندسة الميزات الآلية (التضمينات) التي تقوم بها نماذج التعلم العميق.

حلول قاعدة بيانات المتجهات الشائعة

يوفر السوق العديد من الخيارات القوية لتنفيذ التخزين المتجه، بدءًا من الأدوات مفتوحة المصدر إلى الخدمات المُدارة المُدارة:

  • Pinecone: قاعدة بيانات متجهة سحابية أصلية مُدارة بالكامل مصممة لقابلية توسع عالية السرعة وسهولة الاستخدام في الإنتاج.
  • ميلفوس: قاعدة بيانات متجهية مفتوحة المصدر مصممة من أجل بحث التشابه، وغالبًا ما تُستخدم في تطبيقات تطبيقات الرؤية الحاسوبية واسعة النطاق.
  • Qdrant: محرك بحث متجه عالي الأداء مكتوب بلغة Rust, يقدم إمكانيات تصفية متقدمة للاستعلامات المعقدة.
  • ويفيات: قاعدة بيانات متجهات أصلية للذكاء الاصطناعي تخزن كلاً من الكائنات والمتجهات، مما يسمح بالبحث عن المتجهات والكلمات الرئيسية معًا.

من خلال دمج هذه الأدوات في سير عمل MLOps، يمكن للمطورين بناء أنظمة "تفهم" حقًا محتوى البيانات، مما يتيح قدرات متقدمة مثل البحث الدلالي واكتشاف الشذوذ، وتسليم المحتوى المخصص.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن