تعزيز تطبيقات الذكاء الاصطناعي بـ RAG والرؤية الحاسوبية
تعرف على كيفية مساعدة الجمع بين التوليد المعزز بالاسترجاع (RAG) والرؤية الحاسوبية لأنظمة الذكاء الاصطناعي في تفسير المستندات، والمرئيات، والمحتوى المعقد في العالم الحقيقي.

أصبح استخدام أدوات الذكاء الاصطناعي مثل ChatGPT أو Gemini وسيلة شائعة للبحث عن المعلومات. سواء كنت تكتب رسالة، أو تلخص مستنداً، أو تجيب على سؤال، فإن هذه الأدوات توفر غالباً حلاً أسرع وأسهل.
ولكن إذا استخدمت نماذج اللغة الكبيرة (LLMs) عدة مرات، فمن المحتمل أنك لاحظت قيودها. فعند طرح استفسارات محددة للغاية أو حساسة للوقت، قد تستجيب بإجابات غير صحيحة، وغالباً ما تفعل ذلك بثقة.
يحدث هذا لأن نماذج LLM المستقلة تعتمد فقط على البيانات التي تدربت عليها. فهي لا تملك وصولاً إلى أحدث التحديثات أو المعرفة المتخصصة خارج نطاق تلك البيانات. ونتيجة لذلك، قد تكون إجاباتها قديمة أو غير دقيقة.
وللمساعدة في حل هذه المشكلة، طور الباحثون أسلوباً يسمى توليد الاسترجاع المعزز (RAG). تعمل تقنية RAG على تحسين نماذج اللغة من خلال تمكينها من سحب معلومات جديدة وذات صلة من مصادر موثوقة عند الاستجابة للاستفسارات.
في هذه المقالة، سنستكشف كيفية عمل تقنية RAG وكيف تعزز أدوات الذكاء الاصطناعي من خلال استرجاع معلومات ذات صلة ومحدثة. سنبحث أيضًا في كيفية عملها جنبًا إلى جنب مع رؤية الحاسوب، وهو مجال من مجالات الذكاء الاصطناعي يركز على تفسير البيانات المرئية، لمساعدة الأنظمة على فهم ليس النصوص فحسب، بل الصور والتخطيطات والمستندات المعقدة بصريًا أيضًا.
Link to this sectionفهم توليد الاسترجاع المعزز (RAG)#
عند طرح سؤال على برنامج دردشة آلي يعمل بالذكاء الاصطناعي، نتوقع عموماً أكثر من مجرد استجابة تبدو جيدة. من الناحية المثالية، يجب أن تكون الإجابة الجيدة واضحة ودقيقة ومفيدة حقاً. ولتقديم ذلك، يحتاج نموذج الذكاء الاصطناعي إلى أكثر من مجرد مهارات لغوية؛ بل يحتاج أيضاً إلى الوصول إلى المعلومات الصحيحة، خاصة بالنسبة للموضوعات المحددة أو الحساسة للوقت.
RAG هي تقنية تساعد في سد هذه الفجوة. فهي تجمع بين قدرة نموذج اللغة على فهم وتوليد النصوص والقدرة على استرجاع المعلومات ذات الصلة من مصادر خارجية. وبدلاً من الاعتماد فقط على بيانات التدريب الخاصة به، يقوم النموذج بنشاط بسحب محتوى داعم من قواعد معرفية موثوقة أثناء صياغة استجابته.

الشكل 1. حالات استخدام RAG الرئيسية. الصورة بواسطة المؤلف.
يمكنك التفكير في الأمر كطرح سؤال على شخص ما وطلب منه استشارة مرجع موثوق قبل الرد. تظل إجابته بكلماته الخاصة، ولكنها مستنيرة بأكثر المعلومات صلة وحداثة.
يساعد هذا النهج نماذج LLM على تقديم إجابات أكثر اكتمالاً ودقة ومصممة خصيصاً لاستفسار المستخدم، مما يجعلها أكثر موثوقية في تطبيقات العالم الحقيقي حيث تكون الدقة أمراً مهماً حقاً.
Link to this sectionنظرة على كيفية عمل RAG#
تعمل RAG على تحسين كيفية استجابة نموذج اللغة الكبير من خلال تقديم خطوتين رئيسيتين: الاسترجاع والتوليد. أولاً، يسترجع النموذج معلومات ذات صلة من قاعدة معرفية خارجية. ثم يستخدم تلك المعلومات لتوليد استجابة جيدة الصياغة وواعية بالسياق.
دعونا نلقي نظرة على مثال بسيط لرؤية كيفية عمل هذه العملية. تخيل أنك تستخدم مساعداً ذكياً لإدارة أموالك الشخصية وتريد التحقق مما إذا كنت قد التزمت بهدف الإنفاق الخاص بك لهذا الشهر.
تبدأ العملية عندما تطرح على المساعد سؤالاً مثل: "هل التزمت بميزانيتي هذا الشهر؟". بدلاً من الاعتماد فقط على ما تعلمه أثناء التدريب، يستخدم النظام أداة استرجاع للبحث في أحدث سجلاتك المالية (مثل كشوف الحسابات البنكية أو ملخصات المعاملات). وهو يركز على فهم القصد من وراء سؤالك ويجمع أكثر المعلومات صلة.
بمجرد استرجاع هذه المعلومات، يتولى نموذج اللغة المهمة. فهو يعالج كلاً من سؤالك والبيانات المستمدة من سجلاتك لتوليد إجابة واضحة ومفيدة. وبدلاً من سرد التفاصيل الخام، تلخص الاستجابة إنفاقك وتمنحك رؤية مباشرة وذات مغزى - مثل تأكيد ما إذا كنت قد حققت هدفك والإشارة إلى مجالات الإنفاق الرئيسية.
يساعد هذا النهج نموذج LLM على تقديم استجابات ليست دقيقة فحسب، بل تستند أيضاً إلى معلوماتك الحقيقية والمحدثة، مما يجعل التجربة أكثر فائدة بكثير من نموذج يعمل فقط مع بيانات تدريب ثابتة.

الشكل 2. فهم كيفية عمل RAG.
Link to this sectionالحاجة إلى أنظمة RAG متعددة الوسائط#
عادةً، لا تتم مشاركة المعلومات دائماً كنص عادي. فمن الفحوصات الطبية والمخططات إلى شرائح العرض التقديمي والمستندات الممسوحة ضوئياً، غالباً ما تحمل العناصر المرئية تفاصيل مهمة. قد تواجه نماذج LLM التقليدية، التي صُممت بشكل أساسي لقراءة النصوص وفهمها، صعوبة في التعامل مع هذا النوع من المحتوى.
ومع ذلك، يمكن استخدام RAG جنباً إلى جنب مع رؤية الحاسوب لسد تلك الفجوة. فعند الجمع بينهما، يشكلان ما يعرف بنظام RAG متعدد الوسائط - وهو نظام يمكنه التعامل مع كل من النصوص والعناصر المرئية، مما يساعد برامج الدردشة الذكية على تقديم إجابات أكثر دقة واكتمالاً.
في صميم هذا النهج توجد نماذج رؤية-لغة (VLMs)، المصممة لمعالجة كلا النوعين من المدخلات والاستدلال عليهما. في هذا الإعداد، تسترجع تقنية RAG المعلومات الأكثر صلة من مصادر بيانات كبيرة، بينما يقوم نموذج VLM، بدعم من رؤية الحاسوب، بتفسير الصور والتخطيطات والمخططات.
يعد هذا مفيداً بشكل خاص للمستندات الواقعية، مثل النماذج الممسوحة ضوئياً أو التقارير الطبية أو شرائح العرض التقديمي، حيث قد توجد تفاصيل حيوية في كل من النصوص والعناصر المرئية. على سبيل المثال، عند تحليل مستند يتضمن صوراً إلى جانب جداول وفقرات، يمكن للنظام متعدد الوسائط استخراج العناصر المرئية، وتوليد ملخص لما تعرضه، والجمع بين ذلك والنص المحيط لتقديم استجابة أكثر اكتمالاً وفائدة.

الشكل 3. يستخدم RAG متعدد الوسائط الصور والنصوص لتقديم إجابات أفضل.
Link to this sectionتطبيقات RAG للبيانات المرئية#
الآن بعد أن ناقشنا ماهية RAG وكيفية عملها مع رؤية الحاسوب، دعونا نلقي نظرة على بعض الأمثلة الواقعية والمشاريع البحثية التي تعرض كيفية استخدام هذا النهج.
Link to this sectionفهم المستندات المرئية باستخدام VisRAG#
لنقل إنك تحاول استخراج رؤى من تقرير مالي أو مستند قانوني ممسوح ضوئياً. غالباً ما تتضمن هذه الأنواع من الملفات نصوصاً فحسب، بل أيضاً جداول ورسوماً بيانية وتخطيطات تساعد في شرح المعلومات. قد يغفل نموذج لغة مباشر عن هذه العناصر المرئية أو يسيء تفسيرها، مما يؤدي إلى استجابات غير مكتملة أو غير دقيقة.
VisRAG تم إنشاؤه من قبل باحثين لمعالجة هذا التحدي. وهو خط معالجة RAG قائم على نموذج VLM يتعامل مع كل صفحة كصورة بدلاً من معالجة النص فقط. يسمح هذا للنظام بفهم المحتوى وهيكله المرئي. ونتيجة لذلك، يمكنه العثور على الأجزاء الأكثر صلة وتقديم إجابات أكثر وضوحاً ودقة واستناداً إلى السياق الكامل للمستند.

الشكل 4. يمكن لـ VisRAG قراءة المستندات كصور لالتقاط المحتوى النصي والتخطيط.
Link to this sectionالإجابة على الأسئلة المرئية باستخدام RAG#
الإجابة على الأسئلة المرئية (VQA) هي مهمة يجيب فيها نظام ذكاء اصطناعي على أسئلة حول الصور. تركز العديد من أنظمة VQA الحالية على الإجابة على أسئلة حول مستند واحد دون الحاجة إلى البحث عن معلومات إضافية - وهذا ما يعرف بالإعداد المغلق.
VDocRAG هو إطار عمل RAG يتبع نهجاً أكثر واقعية. فهو يدمج VQA مع القدرة على استرجاع المستندات ذات الصلة أولاً. وهذا مفيد في مواقف العالم الحقيقي حيث قد ينطبق سؤال المستخدم على واحد من العديد من المستندات، ويحتاج النظام إلى العثور على المستند الصحيح قبل الإجابة. للقيام بذلك، يستخدم VDocRAG نماذج VLM لتحليل المستندات كصور، مما يحافظ على نصها وهيكلها المرئي.
هذا يجعل VDocRAG مؤثراً بشكل خاص في تطبيقات مثل البحث المؤسسي، وأتمتة المستندات، ودعم العملاء. يمكنه مساعدة الفرق على استخراج الإجابات بسرعة من المستندات المعقدة ذات التنسيق المرئي، مثل الكتيبات أو ملفات السياسات، حيث يكون فهم التخطيط مهماً تماماً مثل قراءة الكلمات.

الشكل 5. الفرق بين VDocRAG وحلول LLM.
Link to this sectionتحسين وصف الصور باستخدام RAG#
وصف الصور يتضمن توليد وصف مكتوب لما يحدث في صورة ما. يتم استخدامه في مجموعة متنوعة من التطبيقات - من جعل المحتوى عبر الإنترنت أكثر سهولة في الوصول إليه إلى دعم البحث عن الصور، ودعم الإشراف على المحتوى وأنظمة التوصية.
ومع ذلك، فإن توليد أوصاف دقيقة ليس دائماً سهلاً لنماذج الذكاء الاصطناعي. ويصبح الأمر صعباً بشكل خاص عندما تعرض الصورة شيئاً مختلفاً عما تم تدريب النموذج عليه. تعتمد العديد من أنظمة الوصف بشكل كبير على بيانات التدريب، لذا عندما تواجه مشاهد غير مألوفة، قد تأتي أوصافها غامضة أو غير دقيقة.
ولمعالجة هذا، طور الباحثون Re-ViLM، وهو أسلوب يدخل توليد الاسترجاع المعزز (RAG) في وصف الصور. بدلاً من توليد وصف من الصفر، يسترجع Re-ViLM أزواج صور-نصوص متشابهة من قاعدة بيانات ويستخدمها لتوجيه مخرجات الوصف.
يساعد هذا النهج القائم على الاسترجاع النموذج في استناد أوصافه إلى أمثلة ذات صلة، مما يحسن الدقة والطلاقة. تظهر النتائج الأولية أن Re-ViLM يولد أوصافاً أكثر طبيعية ووعياً بالسياق باستخدام أمثلة حقيقية، مما يساعد في تقليل الأوصاف الغامضة أو غير الدقيقة.

الشكل 6. Re-ViLM يحسن أوصاف الصور من خلال استرجاع أمثلة مرئية-نصية.
Link to this sectionإيجابيات وسلبيات استخدام RAG لفهم البيانات المرئية#
إليك نظرة سريعة على فوائد تطبيق تقنيات توليد الاسترجاع المعزز لاسترجاع واستخدام المعلومات المرئية:
- قدرات تلخيص معززة: يمكن للملخصات دمج رؤى من العناصر المرئية (مثل اتجاهات الرسوم البيانية أو عناصر المعلومات الرسومية)، وليس النصوص فقط.
- بحث واسترجاع أكثر قوة: يمكن لخطوات الاسترجاع تحديد الصفحات المرئية ذات الصلة حتى عندما لا تكون الكلمات الرئيسية موجودة في النص، وذلك باستخدام الفهم القائم على الصور.
- دعم المستندات الممسوحة ضوئياً أو المكتوبة بخط اليد أو القائمة على الصور: يمكن لخطوط معالجة RAG المدعومة بنماذج VLM معالجة محتوى كان سيصبح غير قابل للقراءة لنماذج النصوص فقط.
على الرغم من هذه الفوائد، لا تزال هناك بعض القيود التي يجب وضعها في الاعتبار عند استخدام RAG للعمل مع البيانات المرئية. إليك بعض القيود الرئيسية:
- متطلبات حوسبة عالية: يتطلب تحليل الصور والنصوص معاً المزيد من الذاكرة وقوة المعالجة، وهو ما قد يؤدي إلى إبطاء الأداء أو زيادة التكاليف.
- مخاوف خصوصية البيانات والأمن: قد تحتوي المستندات المرئية، خاصة في قطاعات مثل الرعاية الصحية أو التمويل، على معلومات حساسة تعقد عمليات الاسترجاع والمعالجة.
- أوقات استنتاج أطول: نظراً لأن المعالجة المرئية تضيف تعقيداً، فقد يستغرق توليد الاستجابات وقتاً أطول مقارنة بأنظمة النصوص فقط.
Link to this sectionأبرز النقاط#
يعمل توليد الاسترجاع المعزز على تحسين كيفية إجابة نماذج اللغة الكبيرة على الأسئلة من خلال السماح لها بجلب معلومات ذات صلة ومحدثة من مصادر خارجية. عند اقترانها برؤية الحاسوب، يمكن لهذه الأنظمة معالجة ليس النصوص فحسب، بل أيضاً المحتوى المرئي، مثل الرسوم البيانية والجداول والصور والمستندات الممسوحة ضوئياً، مما يؤدي إلى استجابات أكثر دقة وشمولاً.
يجعل هذا النهج نماذج LLM أكثر ملاءمة للمهام الواقعية التي تتضمن مستندات معقدة. من خلال الجمع بين الاسترجاع والفهم المرئي، يمكن لهذه النماذج تفسير تنسيقات متنوعة بشكل أكثر فعالية وتقديم رؤى أكثر فائدة في السياقات العملية اليومية.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعمق أكثر في الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع رؤية الحاسوب الخاصة بك؟ تحقق من خيارات الترخيص لدينا. اكتشف المزيد حول الذكاء الاصطناعي في الرعاية الصحية ورؤية الحاسوب في التجزئة على صفحات الحلول الخاصة بنا!






