Yolo فيجن شنتشن
شنتشن
انضم الآن
مسرد المصطلحات

RAG متعدد الوسائط

استكشف Multimodal RAG لمعالجة النصوص والصور والفيديو. تعرف على كيفية قيام Ultralytics بتحسين خطوط أنابيب استرجاع الذكاء الاصطناعي للحصول على استجابات أكثر دقة ومراعاة للسياق.

الاسترجاع المتعدد الوسائط المعزز بالتوليد (Multimodal RAG) هو إطار عمل متقدم للذكاء الاصطناعي (AI) يوسع نطاق أنظمة RAG التقليدية لمعالجة أنواع مختلفة من البيانات والتفكير فيها، مثل النصوص والصور والفيديو والصوت. في حين أن الاسترجاع المعزز بالتوليد (RAG) تحسن دقة نموذج اللغة الكبيرة (LLM) من خلال استرجاع المستندات النصية ذات الصلة، فإن الاسترجاع المتعدد الوسائط RAG يمكّن النماذج من "الرؤية" و"السمع" من خلال استرجاع السياق من قاعدة معرفية متعددة الوسائط. هذا النهج يرسخ توليد النموذج في أدلة بصرية أو سمعية ملموسة ، مما يقلل بشكل كبير من الهلوسة في نماذج اللغة الكبيرة (LLM) ويمكّن المهام المعقدة مثل الإجابة على الأسئلة المرئية عبر مجموعات البيانات الخاصة. من خلال الاستفادة من التعلم متعدد الوسائط، يمكن لهذه الأنظمة توليف المعلومات من استعلام المستخدم (على سبيل المثال، النص) والأصول المسترجعة (على سبيل المثال، رسم بياني أو إطار مراقبة) لإنتاج ردود شاملة ومدركة للسياق.

كيف يعمل RAG متعدد الوسائط

عادةً ما تعكس بنية نظام RAG متعدد الوسائط خط الأنابيب القياسي "الاسترجاع ثم التوليد" ولكنها تتكيف مع البيانات غير النصية. تعتمد هذه العملية بشكل كبير على قواعد البيانات المتجهة والمساحات الدلالية المشتركة.

  1. الفهرسة: تتم معالجة البيانات من مصادر مختلفة — ملفات PDF ومقاطع فيديو ومجموعات شرائح. تقوم نماذج استخراج الميزات بتحويل هذه الأنماط المختلفة إلى متجهات رقمية عالية الأبعاد تُعرف باسم التضمينات. على سبيل المثال، يقوم نموذج مثل CLIP من OpenAI بمحاذاة تضمينات الصور والنصوص بحيث تكون صورة كلب وكلمة "كلب" قريبة من الناحية الحسابية.
  2. الاسترجاع: عندما يطرح المستخدم سؤالاً (على سبيل المثال، "أرني العيب في لوحة الدائرة الكهربائية هذه ")، يقوم النظام بإجراء بحث دلالي عبر قاعدة البيانات المتجهة للعثور على الصور أو مقاطع الفيديو الأكثر صلة بموضوع الاستعلام.
  3. التوليد: يتم إدخال السياق البصري المسترجع في نموذج الرؤية واللغة (VLM). يعالج نموذج الرؤية واللغة (VLM) كل من موجه النص الخاص بالمستخدم وخصائص الصورة المسترجعة لتوليد إجابة نهائية، بما يعني "التحدث" بشكل فعال مع البيانات.

تطبيقات واقعية

تقوم RAG متعددة الوسائط بتحويل الصناعات من خلال تمكين وكلاء الذكاء الاصطناعي من التفاعل مع العالم المادي من خلال البيانات المرئية.

  • الصيانة الصناعية والتصنيع: في الذكاء الاصطناعي في التصنيع، يمكن للفنيين الاستعلام عن نظام باستخدام صورة لجزء مكسور من الماكينة. يسترجع نظام RAG متعدد الوسائط سجلات الصيانة التاريخية المماثلة والرسوم التخطيطية الفنية والفيديوهات التعليمية لتوجيه عملية الإصلاح. وهذا يقلل من وقت التعطل ويجعل المعرفة المتخصصة متاحة للجميع.
  • اكتشاف التجزئة والتجارة الإلكترونية: تتيح التطبيقات التي تستخدم الذكاء الاصطناعي في مجال التجزئة للعملاء تحميل صورة للملابس التي يعجبهم. يسترجع النظام العناصر المشابهة بصريًا من المخزون الحالي ويقدم نصائح حول الأناقة أو مقارنات بين المنتجات، مما يخلق تجربة تسوق مخصصة للغاية.

التفريق بين المصطلحات ذات الصلة

لفهم المكانة المحددة لـ Multimodal RAG، من المفيد تمييزها عن المفاهيم ذات الصلة:

  • RAG متعدد الوسائط مقابل نموذج متعدد الوسائط: يقوم نموذج متعدد الوسائط (مثل GPT-4o أو Gemini) بإنشاء الاستجابة. RAG متعدد الوسائط هو البنية التي تغذي هذا النموذج ببيانات خارجية خاصة (صور، مستندات) لم يتم تدريبه عليها. النموذج هو المحرك؛ RAG هو خط الوقود.
  • RAG متعدد الوسائط مقابل الضبط الدقيق: يقوم الضبط الدقيق بتحديث أوزان النموذج بشكل دائم لتعلم مهمة أو أسلوب جديد. يوفر RAG معرفة مؤقتة في وقت الاستدلال. يُفضل استخدام RAG للبيانات الديناميكية (مثل المخزون اليومي) حيث يكون إعادة التدريب المتكرر غير عملي.

التنفيذ باستخدام Ultralytics

يمكن للمطورين إنشاء مكون الاسترجاع لخط أنابيب RAG متعدد الوسائط باستخدام Ultralytics YOLO. من خلال اكتشاف وتصنيف الكائنات داخل الصور، YOLO بيانات وصفية منظمة يمكن فهرستها للاسترجاع النصي أو استخدامها لقص مناطق الصورة ذات الصلة لـ VLM. تعمل Ultralytics على تبسيط تدريب هذه النماذج البصرية المتخصصة للتعرف على الكائنات المخصصة الضرورية لمجال عملك المحدد.

يوضح المثال التالي استخدام YOLO26 لاستخراج السياق البصري (الأجسام المكتشفة) من صورة، والتي يمكن بعد ذلك تمريرها إلى LLM كجزء من سير عمل RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

مزيد من القراءة والمصادر

  • وثائق LangChain: دليل شامل لبناء خطوط أنابيب الاسترجاع، بما في ذلك الدعم متعدد الوسائط.
  • دليل LlamaIndex متعدد الوسائط: وثائق مفصلة حول فهرسة واسترجاع أنواع البيانات المعقدة لـ LLM.
  • Google Vertex AI Search: قدرات بحث متجهية على مستوى المؤسسات لإنشاء تطبيقات RAG قابلة للتطوير.
  • Ultralytics : اكتشف كيفية تكامل الرؤية الحاسوبية مع أنظمة الذكاء الاصطناعي الأوسع نطاقًا في مختلف الصناعات.

انضم إلى مجتمع Ultralytics

انضم إلى مستقبل الذكاء الاصطناعي. تواصل وتعاون وانمو مع المبتكرين العالميين

انضم الآن