تعرف على YOLO26: جيل جديد من ذكاء الرؤية الاصطناعي.
Ultralytics
العودة إلى قاموس مصطلحات Ultralytics

Multimodal RAG

استكشف استرجاع الجيل المعزز متعدد الوسائط (Multimodal RAG) لمعالجة النص والصور والفيديو. تعلم كيف يعزز Ultralytics YOLO26 خطوط أنابيب استرجاع الذكاء الاصطناعي للحصول على استجابات أكثر دقة ووعيًا بالسياق.

التوليد المعزز بالاسترجاع متعدد الوسائط (Multimodal RAG) هو إطار عمل متقدم لـ الذكاء الاصطناعي (AI) يوسع أنظمة RAG التقليدية لمعالجة وتحليل أنواع بيانات متنوعة، مثل النصوص والصور والفيديو والصوت. بينما يحسن التوليد المعزز بالاسترجاع (RAG) القياسي دقة نموذج لغوي كبير (LLM) من خلال استرجاع مستندات نصية ذات صلة، يُمكّن Multimodal RAG النماذج من "الرؤية" و"السمع" عن طريق استرجاع سياق من قاعدة معرفية مختلطة الوسائط. يرسخ هذا النهج عملية التوليد في النموذج بأدلة بصرية أو سمعية ملموسة، مما يقلل بشكل كبير من الهلوسة في نماذج LLM ويُمكّن من تنفيذ مهام معقدة مثل الإجابة على الأسئلة البصرية حول مجموعات البيانات الخاصة. ومن خلال الاستفادة من التعلم متعدد الوسائط، يمكن لهذه الأنظمة تجميع المعلومات من استعلام المستخدم (على سبيل المثال، نص) والأصول المسترجعة (على سبيل المثال، مخطط أو إطار مراقبة) لإنتاج استجابات شاملة ومدركة للسياق.

Link to this sectionكيف يعمل Multimodal RAG#

تعكس بنية نظام Multimodal RAG عادةً خط أنابيب "الاسترجاع ثم التوليد" القياسي، ولكنها تكيفه مع البيانات غير النصية. تعتمد هذه العملية بشكل كبير على قواعد البيانات المتجهة والمساحات الدلالية المشتركة.

  1. الفهرسة: تتم معالجة البيانات من مصادر مختلفة—ملفات PDF، ومقاطع الفيديو، وعروض الشرائح. تقوم نماذج استخراج الميزات بتحويل هذه الوسائط المختلفة إلى متجهات رقمية عالية الأبعاد تُعرف باسم التضمينات (embeddings). على سبيل المثال، يقوم نموذج مثل CLIP الخاص بـ OpenAI بمحاذاة تضمينات الصورة والنص بحيث تكون صورة كلب وكلمة "كلب" متقاربتين رياضيًا.

  2. الاسترجاع: عندما يطرح المستخدم سؤالاً (على سبيل المثال، "أرني العيب في لوحة الدائرة هذه")، يقوم النظام بإجراء بحث دلالي عبر قاعدة البيانات المتجهة للعثور على الصور أو مقاطع الفيديو الأكثر صلة والتي تطابق هدف الاستعلام.

  3. التوليد: يتم إدخال السياق البصري المسترجع في نموذج لغة الرؤية (VLM). يعالج نموذج VLM كلاً من مطالبة المستخدم النصية وميزات الصورة المسترجعة لتوليد إجابة نهائية، مما يؤدي بفعالية إلى "الدردشة" مع البيانات.

Link to this sectionتطبيقات العالم الحقيقي#

يعمل Multimodal RAG على تحويل الصناعات من خلال تمكين وكلاء الذكاء الاصطناعي (AI agents) من التفاعل مع العالم المادي من خلال البيانات البصرية.

  • الصيانة الصناعية والتصنيع: في الذكاء الاصطناعي في التصنيع، يمكن للفنيين الاستعلام من النظام بصورة لجزء آلة مكسور. يسترجع نظام Multimodal RAG سجلات الصيانة التاريخية المشابهة، والمخططات الفنية، ودروس الفيديو الإرشادية لتوجيه عملية الإصلاح. هذا يقلل من وقت التوقف عن العمل ويضفي الطابع الديمقراطي على المعرفة المتخصصة.
  • اكتشاف البيع بالتجزئة والتجارة الإلكترونية: تسمح التطبيقات التي تستخدم الذكاء الاصطناعي في البيع بالتجزئة للعملاء بتحميل صورة لزي يعجبهم. يسترجع النظام عناصر مشابهة بصريًا من المخزون الحالي ويولد نصائح حول التنسيق أو مقارنات المنتجات، مما يخلق تجربة تسوق مخصصة للغاية.

Link to this sectionالتمييز بين المصطلحات ذات الصلة#

لفهم المجال المحدد لـ Multimodal RAG، من المفيد تمييزه عن المفاهيم ذات الصلة:

  • Multimodal RAG مقابل النموذج متعدد الوسائط: ينشئ النموذج متعدد الوسائط (مثل GPT-4o أو Gemini) الاستجابة. Multimodal RAG هو البنية التي تغذي ذلك النموذج ببيانات خارجية خاصة (صور، مستندات) لم يتم تدريبه عليها. النموذج هو المحرك؛ وRAG هو خط الوقود.
  • Multimodal RAG مقابل الضبط الدقيق (Fine-Tuning): يقوم الضبط الدقيق بتحديث أوزان النموذج بشكل دائم لتعلم مهمة أو أسلوب جديد. يوفر RAG معرفة مؤقتة في وقت الاستدلال. يُفضل RAG للبيانات الديناميكية (مثل المخزون اليومي) حيث يكون إعادة التدريب المتكرر غير عملي.

Link to this sectionالتنفيذ باستخدام Ultralytics#

يمكن للمطورين بناء مكون الاسترجاع الخاص بخط أنابيب Multimodal RAG باستخدام Ultralytics YOLO. من خلال اكتشاف وتصنيف الكائنات داخل الصور، يوفر YOLO بيانات وصفية منظمة يمكن فهرستها للاسترجاع القائم على النص أو استخدامها لاقتصاص مناطق الصور ذات الصلة لنموذج VLM. تبسط منصة Ultralytics تدريب نماذج الرؤية المتخصصة هذه للتعرف على كائنات مخصصة بالغة الأهمية لمجالك المحدد.

يوضح المثال التالي استخدام YOLO26 لاستخراج السياق البصري (الكائنات المكتشفة) من صورة، والتي يمكن بعد ذلك تمريرها إلى LLM كجزء من سير عمل RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionمزيد من القراءة والموارد#

  • توثيق LangChain: دليل شامل لبناء خطوط أنابيب الاسترجاع، بما في ذلك دعم الوسائط المتعددة.
  • دليل LlamaIndex متعدد الوسائط: وثائق مفصلة حول فهرسة واسترجاع أنواع البيانات المعقدة لنماذج LLM.
  • بحث Google Cloud Vertex AI: إمكانات بحث متجه على مستوى المؤسسات لبناء تطبيقات RAG قابلة للتوسع.
  • حلول Ultralytics: استكشف كيف يتكامل الرؤية الحاسوبية مع أنظمة الذكاء الاصطناعي الأوسع عبر مختلف الصناعات.

Explore solutions

Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الروبوتات

شغّل آلات أكثر ذكاءً باستخدام نماذج Ultralytics YOLO. يدفع الذكاء الاصطناعي للرؤية في الروبوتات الملاحة الذاتية، والإدراك، وتتبع الكائنات، والتحكم في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الخدمات اللوجستية

بسّط العمليات اللوجستية باستخدام نماذج Ultralytics YOLO. تُمكّن الرؤية بالذكاء الاصطناعي فحص الطرود، والفرز، وتتبع المركبات، ومراقبة السلامة في المستودعات في الوقت الفعلي.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التجزئة

أعد تصور تجارة التجزئة مع نماذج Ultralytics YOLO. تعزز الرؤية بالذكاء الاصطناعي تتبع المخزون، ومراقبة الأرفف، وإدارة الطوابير، ورؤى أكثر ذكاءً للعملاء.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في الرعاية الصحية

قم ببناء حلول الرعاية الصحية مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري في الرعاية الصحية على تعزيز سرعة التصوير الطبي، والتشخيص الأكثر ذكاءً، ومراقبة المرضى.
اعرف المزيد
Real-time AI that works with your team

الذكاء الاصطناعي في التصنيع

حسّن عمليات التصنيع باستخدام نماذج Ultralytics YOLO. تقود الرؤية بالذكاء الاصطناعي مراقبة الجودة، واكتشاف العيوب، والامتثال لمعدات الوقاية الشخصية (PPE)، وأتمتة خطوط التجميع.
اعرف المزيد
Real-time AI that works with your operation

الذكاء الاصطناعي في مجال السيارات

طبق رؤية الحاسوب في مجال السيارات مع نماذج Ultralytics YOLO. يعمل الذكاء الاصطناعي البصري على تعزيز السلامة على الطرق، ومساعدة السائق، وأتمتة المركبات من أجل طرق أكثر ذكاءً.
اعرف المزيد
Real-time AI tailored to your operation

الذكاء الاصطناعي في الزراعة

ادمج الذكاء الاصطناعي البصري في الزراعة الذكية باستخدام نماذج Ultralytics YOLO. عزز مراقبة المحاصيل، وتتبع الماشية، والزراعة الدقيقة للحصول على إنتاجية أعلى وأكثر ذكاءً.
اعرف المزيد

لنبنِ مستقبل الذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل تعلم الآلة