تعزيز تطبيقات الذكاء الاصطناعي باستخدام RAG والرؤية الحاسوبية

أبيرامي فينا

4 دقائق للقراءة

28 مايو 2025

تعلّم كيف يساعد الجمع بين توليد الاسترجاع المعزز (RAG) والرؤية الحاسوبية أنظمة الذكاء الاصطناعي في تفسير المستندات والمرئيات والمحتوى الواقعي المعقد.

سرعان ما أصبح استخدام أدوات الذكاء الاصطناعي مثل ChatGPT أو Gemini طريقة شائعة للعثور على المعلومات. وسواء كنت تقوم بصياغة رسالة، أو تلخيص مستند، أو الإجابة عن سؤال، فإن هذه الأدوات غالباً ما تقدم حلاً أسرع وأسهل. 

ولكن إذا كنت قد استخدمت النماذج اللغوية الكبيرة (LLMs ) عدة مرات، فمن المحتمل أنك لاحظت محدوديتها. فعندما يُطلب منها استفسارات محددة للغاية أو حساسة للوقت، يمكن أن تستجيب بإجابات غير صحيحة، وغالباً ما تكون بثقة.

ويحدث هذا لأن الآلات المستقلة المستقلة تعتمد فقط على البيانات التي تم تدريبها عليها. ولا يمكنهم الوصول إلى آخر التحديثات أو المعرفة المتخصصة خارج مجموعة البيانات تلك. ونتيجة لذلك، يمكن أن تكون إجاباتهم قديمة أو غير دقيقة.

للمساعدة في حل هذه المشكلة، طوّر الباحثون طريقة تسمى التوليد المعزز للاسترجاع (RAG). تعمل RAG على تعزيز نماذج اللغة من خلال تمكينها من سحب معلومات جديدة ذات صلة من مصادر موثوقة عند الرد على الاستفسارات.

في هذه المقالة، سنستكشف كيفية عمل RAG وكيف يعزز أدوات الذكاء الاصطناعي من خلال استرجاع المعلومات الحديثة ذات الصلة. سنلقي نظرة أيضًا على كيفية عمله جنبًا إلى جنب مع الرؤية الحاسوبية، وهو مجال من مجالات الذكاء الاصطناعي يركز على تفسير البيانات المرئية، لمساعدة الأنظمة على فهم ليس فقط النصوص، بل أيضًا الصور والتخطيطات والمستندات المعقدة بصريًا.

فهم التوليد المعزز للاسترجاع (RAG)

عندما نطرح سؤالاً على روبوت الدردشة الآلي للذكاء الاصطناعي، فإننا نتوقع بشكل عام أكثر من مجرد إجابة تبدو جيدة. من الناحية المثالية، يجب أن تكون الإجابة الجيدة واضحة ودقيقة ومفيدة حقًا. ولتقديم ذلك، يحتاج نموذج الذكاء الاصطناعي إلى أكثر من مجرد مهارات لغوية؛ فهو يحتاج أيضاً إلى الوصول إلى المعلومات الصحيحة، خاصةً فيما يتعلق بمواضيع محددة أو حساسة من حيث الوقت.

RAG هي تقنية تساعد في سد هذه الفجوة. فهي تجمع بين قدرة نموذج اللغة على فهم النص وتوليد النص مع القدرة على استرجاع المعلومات ذات الصلة من مصادر خارجية. فبدلاً من الاعتماد فقط على بيانات التدريب الخاصة به، يقوم النموذج بسحب المحتوى الداعم من قواعد المعرفة الموثوقة أثناء تشكيل استجابته.

الشكل 1. حالات استخدام RAG الرئيسية. الصورة للمؤلف.

يمكنك التفكير في الأمر مثل طرح سؤال على شخص ما وجعله يستشير مرجعًا موثوقًا به قبل الإجابة. لا تزال إجابتهم بكلماتهم الخاصة، ولكنها مستندة إلى أحدث المعلومات ذات الصلة.

ويساعد هذا النهج أجهزة LLMs على الاستجابة بإجابات أكثر اكتمالاً ودقة ومصممة خصيصًا لاستعلام المستخدم، مما يجعلها أكثر موثوقية في التطبيقات الواقعية حيث تكون الدقة مهمة حقًا.

نظرة على كيفية عمل RAG

يعمل RAG على تحسين كيفية استجابة النموذج اللغوي الكبير من خلال تقديم خطوتين رئيسيتين: الاسترجاع والتوليد. أولاً، يقوم باسترجاع المعلومات ذات الصلة من قاعدة معرفية خارجية. ثم، يستخدم تلك المعلومات لتوليد استجابة جيدة التشكيل ومدركة للسياق.

دعنا نلقي نظرة على مثال بسيط لمعرفة كيفية عمل هذه العملية. تخيل أنك تستخدم مساعد الذكاء الاصطناعي لإدارة شؤونك المالية الشخصية وتريد التحقق مما إذا كنت قد بقيت ضمن هدف الإنفاق لهذا الشهر.

تبدأ العملية عندما تسأل المساعد سؤالاً مثل "هل التزمت بميزانيتي هذا الشهر؟ وبدلاً من الاعتماد فقط على ما تعلمه أثناء التدريب، يستخدم النظام أداة استرجاع للبحث في أحدث سجلاتك المالية (أشياء مثل كشوف الحسابات المصرفية أو ملخصات المعاملات). يركز على فهم القصد من وراء سؤالك ويجمع المعلومات الأكثر صلة بالموضوع.

بمجرد استرجاع تلك المعلومات، يتولى نموذج اللغة المهمة. فهو يعالج كلاً من سؤالك والبيانات التي تم سحبها من سجلاتك لتوليد إجابة واضحة ومفيدة. فبدلاً من سرد التفاصيل الأولية، تلخص الإجابة إنفاقك وتمنحك رؤية مباشرة ومفيدة - مثل تأكيد ما إذا كنت قد حققت هدفك أم لا والإشارة إلى مجالات الإنفاق الرئيسية.

يساعد هذا النهج في توفير استجابات لا تتسم بالدقة فحسب، بل ترتكز أيضًا على معلوماتك الحقيقية والمحدثة، مما يجعل التجربة أكثر فائدة بكثير من نموذج يعمل فقط مع بيانات التدريب الثابتة.

الشكل 2. فهم كيفية عمل RAG

الحاجة إلى أنظمة RAG متعددة الوسائط

عادةً لا تتم مشاركة المعلومات عادةً في نص عادي. فغالبًا ما تحمل الصور المرئية تفاصيل مهمة، بدءًا من الصور الطبية والمخططات إلى شرائح العروض التقديمية والمستندات الممسوحة ضوئيًا. يمكن لأجهزة LLM التقليدية، المصممة أساساً لقراءة النصوص وفهمها، أن تواجه صعوبة في هذا النوع من المحتوى.

ومع ذلك، يمكن استخدام RAG إلى جانب الرؤية الحاسوبية لسد هذه الفجوة. عندما يتم الجمع بين الاثنين معاً، فإنهما يشكلان ما يُعرف باسم نظام RAG متعدد الوسائط - وهو إعداد يمكنه التعامل مع كل من النصوص والمرئيات معاً، مما يساعد روبوتات الدردشة الآلية التي تعمل بالذكاء الاصطناعي على تقديم إجابات أكثر دقة واكتمالاً.

ويقع في صميم هذا النهج نماذج لغة الرؤية (VLMs)، والتي تم تصميمها لمعالجة كلا النوعين من المدخلات والاستدلال عليها. في هذا الإعداد، تسترجع RAG المعلومات الأكثر صلة من مصادر البيانات الكبيرة، بينما تقوم نماذج لغة الرؤية البصرية (VLM)، التي تم تمكينها بواسطة الرؤية الحاسوبية، بتفسير الصور والتخطيطات والرسوم البيانية.

هذا مفيد بشكل خاص للمستندات الواقعية، مثل النماذج الممسوحة ضوئيًا أو التقارير الطبية أو شرائح العروض التقديمية، حيث يمكن العثور على تفاصيل حيوية في كل من النص والعناصر المرئية. على سبيل المثال، عند تحليل مستند يتضمن صورًا إلى جانب الجداول والفقرات، يمكن لنظام متعدد الوسائط استخراج العناصر المرئية وإنشاء ملخص لما تظهره ودمجه مع النص المحيط لتقديم استجابة أكثر اكتمالاً وفائدة.

الشكل 3. يستخدم RAG متعدد الوسائط الصور والنصوص لتقديم إجابات أفضل.

تطبيقات RAG للبيانات المرئية 

والآن بعد أن ناقشنا ما هو RAG وكيف يعمل مع رؤية الكمبيوتر، دعونا نلقي نظرة على بعض الأمثلة الواقعية والمشاريع البحثية التي توضح كيفية استخدام هذا النهج.

فهم المستندات المرئية باستخدام VisRAG

لنفترض أنك تحاول استخراج رؤى من تقرير مالي أو مستند قانوني ممسوح ضوئيًا. لا تتضمن هذه الأنواع من الملفات غالبًا ليس فقط النصوص، ولكن أيضًا الجداول والمخططات والتخطيطات التي تساعد في شرح المعلومات. قد يغفل النموذج اللغوي المباشر عن هذه العناصر المرئية أو يسيء تفسيرها، مما يؤدي إلى استجابات غير كاملة أو غير دقيقة.

تم إنشاء VisRAG من قبل الباحثين لمواجهة هذا التحدي. وهو عبارة عن خط أنابيب RAG قائم على VLM يعالج كل صفحة كصورة بدلاً من معالجة النص فقط. وهذا يسمح للنظام بفهم كل من المحتوى وبنيته البصرية. ونتيجة لذلك، يمكنه العثور على الأجزاء الأكثر صلة بالموضوع وإعطاء إجابات أكثر وضوحًا ودقة واستنادًا إلى السياق الكامل للمستند.

الشكل 4. يمكن لـ VisRAG قراءة المستندات كصور لالتقاط المحتوى النصي والتخطيط.

الإجابة على الأسئلة المرئية باستخدام RAG

الإجابة عن الأسئلة المرئية (VQA) هي مهمة يقوم فيها نظام الذكاء الاصطناعي بالإجابة عن أسئلة حول الصور. وتركز العديد من أنظمة VQA الحالية على الإجابة عن أسئلة حول مستند واحد دون الحاجة إلى البحث عن معلومات إضافية - وهذا ما يُعرف بالإعداد المغلق.

VDocRAG هو إطار عمل VDocRAG الذي يتبع نهجًا أكثر واقعية. فهو يدمج VQA مع القدرة على استرداد المستندات ذات الصلة أولاً. وهذا مفيد في مواقف العالم الحقيقي حيث قد ينطبق سؤال المستخدم على واحد من بين العديد من المستندات، ويحتاج النظام إلى العثور على المستند الصحيح قبل الإجابة. وللقيام بذلك، يستخدم VDocRAG مستندات VLMs لتحليل المستندات كصور، مع الحفاظ على كل من النص والبنية المرئية.

هذا يجعل VDocRAG مؤثرًا بشكل خاص في تطبيقات مثل البحث في المؤسسات وأتمتة المستندات ودعم العملاء. يمكن أن يساعد الفرق على استخراج الإجابات بسرعة من المستندات المعقدة والمنسقة بصريًا، مثل الكتيبات أو ملفات السياسات، حيث يكون فهم التخطيط بنفس أهمية قراءة الكلمات.

الشكل 5. الفرق بين الحلول القائمة على VDocRAG والحلول القائمة على LLM.

تحسين التعليق على الصور باستخدام RAG

يتضمن التعليق على الصور إنشاء وصف مكتوب لما يحدث في الصورة. يتم استخدامه في مجموعة متنوعة من التطبيقات - بدءًا من جعل المحتوى عبر الإنترنت أكثر سهولة في الوصول إلى تشغيل البحث عن الصور، ودعم أنظمة الإشراف على المحتوى والتوصيات.

ومع ذلك، فإن إنشاء تسميات توضيحية دقيقة ليس سهلاً دائماً لنماذج الذكاء الاصطناعي. يكون الأمر صعباً بشكل خاص عندما تعرض الصورة شيئاً مختلفاً عما تم تدريب النموذج عليه. تعتمد العديد من أنظمة التسميات التوضيحية بشكل كبير على بيانات التدريب، لذلك عند مواجهة مشاهد غير مألوفة، يمكن أن تأتي التسميات التوضيحية غامضة أو غير دقيقة.

ولمعالجة هذه المشكلة، طوّر الباحثون طريقة Re-ViLM، وهي طريقة تجلب التوليد المعزز بالاسترجاع (RAG) إلى عملية التسميات التوضيحية للصور. فبدلاً من إنشاء تعليق من الصفر، تسترجع Re-ViLM أزواجًا متشابهة من الصور والنصوص من قاعدة بيانات وتستخدمها لتوجيه إخراج التعليق. 

ويساعد هذا النهج القائم على الاسترجاع النموذج على تأصيل أوصافه في الأمثلة ذات الصلة، مما يحسن من الدقة والطلاقة. تُظهر النتائج الأولية أن نموذج Re-ViLM يولد المزيد من التسميات التوضيحية الطبيعية والمراعية للسياق باستخدام أمثلة حقيقية، مما يساعد على تقليل الأوصاف الغامضة أو غير الدقيقة.

الشكل 6. تعمل Re-ViLM على تحسين التسميات التوضيحية للصور من خلال استرجاع أمثلة نصية مرئية.

إيجابيات وسلبيات استخدام RAG لفهم البيانات المرئية

إليك نظرة سريعة على فوائد تطبيق تقنيات التوليد المعزز للاسترجاع لاسترجاع المعلومات المرئية واستخدامها: 

  • التلخيص المحسّن التلخيص المعزز القدرات: يمكن أن تتضمن الملخصات رؤى من العناصر المرئية (مثل اتجاهات الرسوم البيانية أو عناصر الرسوم البيانية)، وليس فقط النص.
  • بحث واسترجاع أكثر قوة: يمكن لخطوات الاسترجاع تحديد الصفحات المرئية ذات الصلة حتى في حالة عدم وجود كلمات رئيسية في النص، باستخدام الفهم القائم على الصور.
  • دعم المستندات الممسوحة ضوئيًا أو المكتوبة بخط اليد أو المستندات المستندة إلى الصور: يمكن لخطوط أنابيب RAG الممكّنة من قِبل VLMs معالجة المحتوى الذي لا يمكن قراءته في النماذج النصية فقط.

على الرغم من هذه الفوائد، لا تزال هناك بعض القيود التي يجب وضعها في الاعتبار عند استخدام RAG للعمل مع البيانات المرئية. فيما يلي بعض من أهمها:

  • متطلبات حوسبة عالية: يستخدم تحليل الصور والنصوص على حد سواء المزيد من الذاكرة وقوة المعالجة، مما قد يؤدي إلى إبطاء الأداء أو زيادة التكاليف.
  • خصوصية البيانات والمخاوف الأمنية: قد تحتوي المستندات المرئية، خاصة في قطاعات مثل الرعاية الصحية أو التمويل، على معلومات حساسة تعقّد عمليات الاسترجاع والمعالجة.
  • أوقات استنتاج أطول: نظرًا لأن المعالجة البصرية تضيف تعقيدًا، فإن توليد الاستجابات قد يستغرق وقتًا أطول مقارنةً بالأنظمة النصية فقط.

الوجبات الرئيسية

يعمل التوليد المعزز بالاسترجاع على تحسين كيفية إجابة النماذج اللغوية الكبيرة على الأسئلة من خلال السماح لها بجلب المعلومات ذات الصلة والمحدثة من مصادر خارجية. وعندما تقترن هذه الأنظمة بالرؤية الحاسوبية، لا يمكن لهذه الأنظمة معالجة النصوص فحسب، بل يمكنها أيضًا معالجة المحتوى المرئي، مثل المخططات والجداول والصور والمستندات الممسوحة ضوئيًا، مما يؤدي إلى إجابات أكثر دقة وشمولية.

هذا النهج يجعل نماذج الاسترجاع والفهم البصري أكثر ملاءمة للمهام الواقعية التي تتضمن مستندات معقدة. من خلال الجمع بين الاسترجاع والفهم البصري، يمكن لهذه النماذج تفسير التنسيقات المتنوعة بشكل أكثر فعالية وتقديم رؤى أكثر فائدة في السياقات العملية اليومية.

انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعمق في الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع الرؤية الحاسوبية الخاصة بك؟ اطلع على خيارات الترخيص لدينا. اكتشف المزيد عن الذكاء الاصطناعي في مجال الرعاية الصحية والرؤية الحاسوبية في مجال البيع بالتجزئة على صفحات الحلول الخاصة بنا!

دعونا نبني المستقبل
للذكاء الاصطناعي معاً!

ابدأ رحلتك مع مستقبل التعلم الآلي

ابدأ مجاناً
تم نسخ الرابط إلى الحافظة