تعرف على كيف يساعد الجمع بين التوليد المعزز بالاسترجاع (RAG) ورؤية الكمبيوتر أنظمة الذكاء الاصطناعي على تفسير المستندات والمرئيات والمحتوى المعقد في العالم الحقيقي.

تعرف على كيف يساعد الجمع بين التوليد المعزز بالاسترجاع (RAG) ورؤية الكمبيوتر أنظمة الذكاء الاصطناعي على تفسير المستندات والمرئيات والمحتوى المعقد في العالم الحقيقي.

أصبح استخدام أدوات الذكاء الاصطناعي مثل ChatGPT أو Gemini طريقة شائعة للعثور على المعلومات بسرعة. سواء كنت تقوم بصياغة رسالة أو تلخيص مستند أو الإجابة على سؤال، غالبًا ما تقدم هذه الأدوات حلاً أسرع وأسهل.
ولكن إذا كنت قد استخدمت نماذج اللغة الكبيرة (LLMs) عدة مرات، فمن المحتمل أنك لاحظت قيودها. عند مطالبتهم باستعلامات محددة للغاية أو حساسة للوقت، يمكنهم الرد بإجابات غير صحيحة، غالبًا بثقة.
يحدث هذا لأن نماذج اللغة الكبيرة (LLMs) المستقلة تعتمد فقط على البيانات التي تم تدريبها عليها. ليس لديهم حق الوصول إلى أحدث التحديثات أو المعرفة المتخصصة بخلاف مجموعة البيانات هذه. ونتيجة لذلك، يمكن أن تكون إجاباتهم قديمة أو غير دقيقة.
للمساعدة في حل هذه المشكلة، طور الباحثون طريقة تسمى التوليد المعزز بالاسترجاع (RAG). يعزز RAG نماذج اللغة من خلال تمكينها من سحب معلومات جديدة وذات صلة من مصادر موثوقة عند الرد على الاستعلامات.
في هذه المقالة، سنستكشف كيف يعمل RAG وكيف يعزز أدوات الذكاء الاصطناعي من خلال استرجاع المعلومات الحديثة وذات الصلة. سنلقي نظرة أيضًا على كيفية عمله جنبًا إلى جنب مع رؤية الكمبيوتر، وهو مجال من مجالات الذكاء الاصطناعي يركز على تفسير البيانات المرئية، لمساعدة الأنظمة على فهم ليس فقط النصوص ولكن أيضًا الصور والتخطيطات والمستندات المعقدة بصريًا.
عندما نطرح سؤالاً على روبوت محادثة يعمل بالذكاء الاصطناعي، فإننا نتوقع عمومًا أكثر من مجرد استجابة تبدو جيدة. من الناحية المثالية، يجب أن تكون الإجابة الجيدة واضحة ودقيقة ومفيدة حقًا. لتقديم ذلك، يحتاج نموذج الذكاء الاصطناعي إلى أكثر من مجرد مهارات لغوية؛ بل يحتاج أيضًا إلى الوصول إلى المعلومات الصحيحة، خاصةً للموضوعات المحددة أو الحساسة للوقت.
RAG هي تقنية تساعد في سد هذه الفجوة. فهو يجمع بين قدرة نموذج اللغة على فهم وإنشاء النصوص وقوة استرجاع المعلومات ذات الصلة من مصادر خارجية. بدلاً من الاعتماد فقط على بيانات التدريب الخاصة به، يسحب النموذج بنشاط المحتوى الداعم من قواعد المعرفة الموثوقة أثناء تكوين استجابته.

يمكنك التفكير في الأمر على أنه سؤال شخص ما سؤالًا وجعله يراجع مرجعًا موثوقًا به قبل الرد. لا تزال إجابته بكلماته الخاصة، ولكنها مستنيرة بأحدث المعلومات وأكثرها صلة.
يساعد هذا النهج نماذج اللغة الكبيرة (LLMs) على الاستجابة بإجابات أكثر اكتمالاً ودقة ومصممة خصيصًا لاستعلام المستخدم، مما يجعلها أكثر موثوقية في التطبيقات الواقعية حيث تهم الدقة حقًا.
يعزز RAG كيفية استجابة نموذج لغوي كبير من خلال تقديم خطوتين رئيسيتين: الاسترجاع والتوليد. أولاً، يسترجع المعلومات ذات الصلة من قاعدة معرفة خارجية. ثم يستخدم هذه المعلومات لإنشاء استجابة جيدة التكوين وواعية بالسياق.
دعنا نلقي نظرة على مثال بسيط لنرى كيف تعمل هذه العملية. تخيل أنك تستخدم مساعدًا يعمل بالذكاء الاصطناعي لإدارة شؤونك المالية الشخصية وتريد التحقق مما إذا كنت قد بقيت ضمن هدف الإنفاق الخاص بك لهذا الشهر.
تبدأ العملية عندما تطرح على المساعد سؤالاً مثل: "هل التزمت بميزانيتي هذا الشهر؟" بدلاً من الاعتماد فقط على ما تعلمه أثناء التدريب، يستخدم النظام أداة استرجاع للبحث في سجلاتك المالية الحديثة (مثل كشوفات الحسابات المصرفية أو ملخصات المعاملات). ويركز على فهم النية الكامنة وراء سؤالك وجمع المعلومات الأكثر صلة.
بمجرد استرجاع هذه المعلومات، يتولى نموذج اللغة المهمة. فهو يعالج سؤالك والبيانات المستمدة من سجلاتك لإنشاء إجابة واضحة ومفيدة. بدلاً من سرد التفاصيل الأولية، يلخص الرد إنفاقك ويمنحك رؤية مباشرة وذات مغزى - مثل التأكيد على ما إذا كنت قد حققت هدفك والإشارة إلى مجالات الإنفاق الرئيسية.
يساعد هذا النهج نموذج اللغة الكبير (LLM) على تقديم استجابات ليست دقيقة فحسب، بل تستند أيضًا إلى معلوماتك الحقيقية والمحدثة، مما يجعل التجربة أكثر فائدة بكثير من النموذج الذي يعمل فقط مع بيانات التدريب الثابتة.

عادةً، لا تتم مشاركة المعلومات دائمًا في نص عادي. من الفحوصات الطبية والرسوم البيانية إلى شرائح العروض التقديمية والمستندات الممسوحة ضوئيًا، غالبًا ما تحمل المرئيات تفاصيل مهمة. يمكن لنماذج اللغة الكبيرة (LLM) التقليدية، التي تم إنشاؤها بشكل أساسي لقراءة النصوص وفهمها، أن تواجه صعوبة في هذا النوع من المحتوى.
ومع ذلك، يمكن استخدام RAG جنبًا إلى جنب مع رؤية الكمبيوتر لسد هذه الفجوة. عندما يتم الجمع بين الاثنين، فإنهما يشكلان ما يعرف بنظام RAG متعدد الوسائط - وهو إعداد يمكنه التعامل مع كل من النصوص والمرئيات، مما يساعد روبوتات الدردشة المدعومة بالذكاء الاصطناعي على تقديم إجابات أكثر دقة واكتمالاً.
في صميم هذا النهج توجد نماذج الرؤية اللغوية (VLMs)، المصممة لمعالجة كلا النوعين من المدخلات والاستدلال عليهما. في هذا الإعداد، يسترجع RAG المعلومات الأكثر صلة من مصادر البيانات الكبيرة، بينما يفسر VLM، الذي تم تمكينه بواسطة رؤية الكمبيوتر، الصور والتخطيطات والرسوم البيانية.
هذا مفيد بشكل خاص للمستندات الواقعية، مثل النماذج الممسوحة ضوئيًا أو التقارير الطبية أو شرائح العروض التقديمية، حيث يمكن العثور على تفاصيل حيوية في كل من النص والمرئيات. على سبيل المثال، عند تحليل مستند يتضمن صورًا إلى جانب الجداول والفقرات، يمكن للنظام متعدد الوسائط استخراج العناصر المرئية وإنشاء ملخص لما تعرضه ودمج ذلك مع النص المحيط لتقديم استجابة أكثر اكتمالاً وفائدة.

الآن بعد أن ناقشنا ماهية RAG وكيف يعمل مع رؤية الكمبيوتر، دعنا نلقي نظرة على بعض الأمثلة الواقعية والمشاريع البحثية التي تعرض كيفية استخدام هذا النهج.
لنفترض أنك تحاول استخلاص رؤى من تقرير مالي أو مستند قانوني ممسوح ضوئيًا. غالبًا ما تتضمن هذه الأنواع من الملفات ليس فقط نصًا، ولكن أيضًا جداول ومخططات وتخطيطات تساعد في شرح المعلومات. قد يتجاهل نموذج لغوي مباشر أو يسيء تفسير هذه العناصر المرئية، مما يؤدي إلى استجابات غير كاملة أو غير دقيقة.
تم إنشاء VisRAG بواسطة باحثين لمواجهة هذا التحدي. إنه خط أنابيب RAG يعتمد على VLM ويعامل كل صفحة كصورة بدلاً من معالجة النص فقط. يتيح ذلك للنظام فهم كل من المحتوى وهيكله المرئي. ونتيجة لذلك، يمكنه العثور على الأجزاء الأكثر صلة وتقديم إجابات أكثر وضوحًا ودقة واستنادًا إلى السياق الكامل للمستند.

الإجابة على الأسئلة المرئية (VQA) هي مهمة يجيب فيها نظام الذكاء الاصطناعي على أسئلة حول الصور. تركز العديد من أنظمة VQA الحالية على الإجابة على أسئلة حول مستند واحد دون الحاجة إلى البحث عن معلومات إضافية - وهذا ما يعرف بالإعداد المغلق.
VDocRAG هو إطار عمل RAG يتبع نهجًا أكثر واقعية. فهو يدمج VQA مع القدرة على استرجاع المستندات ذات الصلة أولاً. وهذا مفيد في المواقف الواقعية حيث قد ينطبق سؤال المستخدم على أحد المستندات العديدة، ويحتاج النظام إلى العثور على المستند الصحيح قبل الإجابة. للقيام بذلك، يستخدم VDocRAG نماذج VLMs لتحليل المستندات كصور، مع الحفاظ على كل من النص وهيكله المرئي.
هذا يجعل VDocRAG مؤثرًا بشكل خاص في تطبيقات مثل البحث المؤسسي وأتمتة المستندات و دعم العملاء. يمكن أن يساعد الفرق في استخراج الإجابات بسرعة من المستندات المعقدة ذات التنسيق المرئي، مثل الأدلة أو ملفات السياسة، حيث يكون فهم التخطيط بنفس أهمية قراءة الكلمات.

يتضمن التعليق على الصور إنشاء وصف مكتوب لما يحدث في الصورة. يتم استخدامه في مجموعة متنوعة من التطبيقات - من جعل المحتوى عبر الإنترنت أكثر سهولة في الوصول إليه إلى تشغيل البحث عن الصور ودعم أنظمة الإشراف على المحتوى والتوصية به.
ومع ذلك، فإن إنشاء تسميات توضيحية دقيقة ليس بالأمر السهل دائمًا بالنسبة لنماذج الذكاء الاصطناعي. يكون الأمر صعبًا بشكل خاص عندما تعرض الصورة شيئًا مختلفًا عما تم تدريب النموذج عليه. تعتمد العديد من أنظمة التعليق التوضيحي بشكل كبير على بيانات التدريب، لذلك عندما تواجه مشاهد غير مألوفة، يمكن أن تكون التسميات التوضيحية الخاصة بها غامضة أو غير دقيقة.
لمعالجة هذا الأمر، طور الباحثون Re-ViLM، وهي طريقة تجلب التوليد المعزز بالاسترجاع (RAG) إلى التعليق على الصور. بدلاً من إنشاء تسمية توضيحية من البداية، يسترجع Re-ViLM أزواج الصور والنصوص المتشابهة من قاعدة بيانات ويستخدمها لتوجيه إخراج التسمية التوضيحية.
يساعد هذا النهج القائم على الاسترجاع النموذج على ترسيخ أوصافه في أمثلة ذات صلة، مما يحسن الدقة والطلاقة. تُظهر النتائج الأولية أن Re-ViLM يولد تسميات توضيحية أكثر طبيعية ووعيًا بالسياق باستخدام أمثلة حقيقية، مما يساعد على تقليل الأوصاف الغامضة أو غير الدقيقة.

إليك نظرة سريعة على فوائد تطبيق تقنيات التوليد المعزز بالاسترجاع لاسترجاع واستخدام المعلومات المرئية:
على الرغم من هذه الفوائد، لا تزال هناك بعض القيود التي يجب وضعها في الاعتبار عند استخدام RAG للعمل مع البيانات المرئية. فيما يلي بعض القيود الرئيسية:
تعمل تقنية التوليد المعزز بالاسترجاع على تحسين طريقة إجابة نماذج اللغة الكبيرة على الأسئلة من خلال السماح لها بجلب معلومات حديثة وذات صلة من مصادر خارجية. عند إقرانها بالرؤية الحاسوبية، يمكن لهذه الأنظمة معالجة ليس فقط النصوص ولكن أيضًا المحتوى المرئي، مثل الرسوم البيانية والجداول والصور والمستندات الممسوحة ضوئيًا، مما يؤدي إلى استجابات أكثر دقة وشمولية.
يجعل هذا النهج نماذج LLM أكثر ملاءمة للمهام الواقعية التي تتضمن مستندات معقدة. من خلال الجمع بين الاسترجاع والفهم المرئي، يمكن لهذه النماذج تفسير تنسيقات متنوعة بشكل أكثر فعالية وتقديم رؤى أكثر فائدة في السياقات العملية واليومية.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعمق في الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريع الرؤية الحاسوبية الخاصة بك؟ تحقق من خيارات الترخيص الخاصة بنا. اكتشف المزيد حول الذكاء الاصطناعي في الرعاية الصحية و الرؤية الحاسوبية في البيع بالتجزئة على صفحات الحلول الخاصة بنا!