تعرف على كيفية مساعدة الجمع بين توليد الاسترجاع المعزز (RAG) والرؤية الحاسوبية لأنظمة الذكاء الاصطناعي في تفسير المستندات والمرئيات والمحتوى المعقد في العالم الحقيقي.
استخدام أدوات الذكاء الاصطناعي مثل ChatGPT أصبح تطبيق "جيميني" سريعًا وسيلة شائعة للعثور على المعلومات. سواء كنت تكتب رسالة، أو تلخّص مستندًا، أو تجيب على سؤال، غالبًا ما توفر هذه الأدوات حلولًا أسرع وأسهل.
لكن إذا استخدمتَ نماذج اللغات الكبيرة (LLMs) عدة مرات، فمن المرجح أنك لاحظتَ حدودها. فعند مطالبتها باستفسارات محددة للغاية أو حساسة للوقت، قد تُجيب بإجابات غير صحيحة، وغالبًا ما تكون بثقة.
يحدث هذا لأن طلاب ماجستير القانون المستقلين يعتمدون كليًا على البيانات التي تدربوا عليها. لا يمكنهم الوصول إلى أحدث التحديثات أو المعرفة المتخصصة التي تتجاوز تلك المجموعة من البيانات. ونتيجةً لذلك، قد تكون إجاباتهم قديمة أو غير دقيقة.
للمساعدة في حل هذه المشكلة، طوّر الباحثون طريقة تُسمى التوليد المُعزّز بالاسترجاع (RAG) . تُحسّن هذه الطريقة نماذج اللغة بتمكينها من استخلاص معلومات جديدة وذات صلة من مصادر موثوقة عند الرد على الاستفسارات.
في هذه المقالة، سنستكشف آلية عمل RAG وكيف تُحسّن أدوات الذكاء الاصطناعي من خلال استرجاع معلومات مُحدّثة وذات صلة. كما سنتناول كيفية عملها جنبًا إلى جنب مع الرؤية الحاسوبية ، وهو مجال من مجالات الذكاء الاصطناعي يُركز على تفسير البيانات المرئية، لمساعدة الأنظمة على فهم النصوص والصور والمخططات والمستندات المعقدة بصريًا.
عند طرح سؤال على روبوت محادثة ذكي، نتوقع عادةً أكثر من مجرد إجابة تبدو جيدة. من الناحية المثالية، ينبغي أن تكون الإجابة الجيدة واضحة ودقيقة ومفيدة حقًا. ولتحقيق ذلك، لا يحتاج نموذج الذكاء الاصطناعي إلى مهارات لغوية فحسب؛ بل يحتاج أيضًا إلى الوصول إلى المعلومات الصحيحة، خاصةً فيما يتعلق بمواضيع محددة أو حساسة زمنيًا.
RAG هي تقنية تُساعد على سد هذه الفجوة. فهي تجمع بين قدرة نموذج اللغة على فهم النصوص وتوليدها، والقدرة على استرجاع المعلومات ذات الصلة من مصادر خارجية. فبدلاً من الاعتماد كليًا على بيانات التدريب، يستعين النموذج بنشاط بالمحتوى الداعم من قواعد المعرفة الموثوقة أثناء تشكيل استجابته.
يمكنك تشبيه الأمر بطرح سؤال على شخص ما، ثم طلب منه الرجوع إلى مرجع موثوق قبل الرد. ستكون إجابته بكلماته الخاصة، لكنها تستند إلى أحدث المعلومات وأكثرها صلة.
يساعد هذا النهج طلاب الماجستير في القانون على الاستجابة بإجابات أكثر اكتمالاً ودقة ومصممة خصيصًا لاستفسار المستخدم، مما يجعلها أكثر موثوقية في التطبيقات الواقعية حيث تكون الدقة مهمة حقًا.
يُحسّن RAG كيفية استجابة نموذج لغوي كبير من خلال إدخال خطوتين رئيسيتين: الاسترجاع والتوليد. أولًا، يسترجع المعلومات ذات الصلة من قاعدة معارف خارجية. ثم يستخدم هذه المعلومات لتوليد استجابة مُحكمة ومُراعية للسياق.
لنلقِ نظرة على مثال بسيط لنرى كيف تسير هذه العملية. تخيّل أنك تستخدم مساعدًا ذكيًا لإدارة شؤونك المالية الشخصية، وتريد التحقق من التزامك بميزانية الإنفاق الشهرية.
تبدأ العملية بسؤال المساعد سؤالاً مثل: "هل التزمتُ بميزانيتي هذا الشهر؟". بدلاً من الاعتماد فقط على ما تعلمه خلال التدريب، يستخدم النظام أداةً للبحث في أحدث سجلاتك المالية (مثل كشوف الحسابات المصرفية أو ملخصات المعاملات). يركز النظام على فهم الغرض من سؤالك، ويجمع المعلومات الأكثر صلة.
بمجرد استرجاع هذه المعلومات، يتولى نموذج اللغة زمام الأمور. فهو يعالج سؤالك والبيانات المستقاة من سجلاتك لتوليد إجابة واضحة ومفيدة. بدلاً من سرد تفاصيل خام، تُلخص الإجابة إنفاقك وتمنحك رؤية مباشرة وهادفة - مثل تأكيد ما إذا كنت قد حققت هدفك وتحديد مجالات الإنفاق الرئيسية.
يساعد هذا النهج المتعلم على تقديم استجابات ليست دقيقة فحسب، بل تستند أيضًا إلى معلوماتك الحقيقية المحدثة، مما يجعل التجربة أكثر فائدة بكثير من النموذج الذي يعمل فقط مع بيانات التدريب الثابتة.
عادةً، لا تُشارك المعلومات دائمًا بنص عادي. من المسوحات الطبية والرسوم البيانية إلى شرائح العروض التقديمية والمستندات الممسوحة ضوئيًا، غالبًا ما تحمل المواد المرئية تفاصيل مهمة. قد تواجه برامج الماجستير في القانون التقليدية، المصممة أساسًا لقراءة النصوص وفهمها، صعوبة في التعامل مع هذا النوع من المحتوى.
ومع ذلك، يمكن استخدام RAG مع الرؤية الحاسوبية لسد هذه الفجوة. عند دمجهما، يُشكلان ما يُعرف بنظام RAG متعدد الوسائط - وهو نظام قادر على التعامل مع النصوص والصور، مما يُساعد روبوتات الدردشة القائمة على الذكاء الاصطناعي على تقديم إجابات أكثر دقة واكتمالاً.
يعتمد هذا النهج بشكل أساسي على نماذج الرؤية واللغة (VLMs) ، المصممة لمعالجة كلا النوعين من المدخلات والتفكير فيهما. في هذا الإعداد، تسترجع RAG المعلومات الأكثر صلة من مصادر بيانات ضخمة، بينما تفسر نماذج الرؤية واللغة، المدعومة بالرؤية الحاسوبية، الصور والمخططات والرسوم البيانية.
يُعد هذا مفيدًا بشكل خاص للمستندات العملية، مثل النماذج الممسوحة ضوئيًا والتقارير الطبية وشرائح العروض التقديمية، حيث قد تتضمن النصوص والصور تفاصيل مهمة. على سبيل المثال، عند تحليل مستند يتضمن صورًا إلى جانب جداول وفقرات، يمكن لنظام متعدد الوسائط استخراج العناصر المرئية، وإنشاء ملخص لما تعرضه، ودمجه مع النص المحيط به لتقديم استجابة أكثر شمولًا وإفادة.
الآن بعد أن ناقشنا ما هو RAG وكيف يعمل مع الرؤية الحاسوبية، دعونا نلقي نظرة على بعض الأمثلة الواقعية ومشاريع البحث التي توضح كيفية استخدام هذا النهج.
لنفترض أنك تحاول استخلاص معلومات من تقرير مالي أو مستند قانوني ممسوح ضوئيًا. غالبًا ما تتضمن هذه الأنواع من الملفات نصوصًا، بالإضافة إلى جداول ومخططات ومخططات توضيحية تساعد في شرح المعلومات. قد يغفل نموذج اللغة البسيط هذه العناصر المرئية أو يُسيء تفسيرها، مما يؤدي إلى إجابات غير كاملة أو غير دقيقة.
تم تطوير VisRAG من قِبل الباحثين لمواجهة هذا التحدي. وهو عبارة عن خط أنابيب RAG قائم على VLM، يُعامل كل صفحة كصورة بدلاً من معالجة النص فقط. هذا يُمكّن النظام من فهم كلٍّ من المحتوى وبنيته المرئية. ونتيجةً لذلك، يُمكنه العثور على الأجزاء الأكثر صلة وتقديم إجابات أوضح وأكثر دقة، ومبنية على السياق الكامل للمستند.
الإجابة البصرية على الأسئلة (VQA) هي مهمة يجيب فيها نظام ذكاء اصطناعي على أسئلة حول الصور. تُركز العديد من أنظمة VQA الحالية على الإجابة على أسئلة حول مستند واحد دون الحاجة للبحث عن معلومات إضافية - وهذا ما يُعرف بالإعداد المغلق.
VDocRAG هو إطار عمل RAG يتبنى نهجًا أكثر واقعية. فهو يدمج VQA مع إمكانية استرجاع المستندات ذات الصلة أولًا. يُعد هذا مفيدًا في المواقف الواقعية حيث قد ينطبق سؤال المستخدم على مستند واحد من بين العديد من المستندات، ويحتاج النظام إلى إيجاد المستند الصحيح قبل الإجابة. لتحقيق ذلك، يستخدم VDocRAG وحدات VLM لتحليل المستندات كصور، مع الحفاظ على بنيتها النصية والمرئية.
هذا يجعل VDocRAG مؤثرًا بشكل خاص في تطبيقات مثل البحث المؤسسي، وأتمتة المستندات، ودعم العملاء . فهو يُمكّن الفرق من استخراج الإجابات بسرعة من مستندات معقدة ذات تنسيق بصري، مثل الأدلة أو ملفات السياسات، حيث يكون فهم التصميم بنفس أهمية قراءة الكلمات.
يتضمن شرح الصور إنشاء وصف مكتوب لما يحدث في الصورة. ويُستخدم في تطبيقات متنوعة، بدءًا من تسهيل الوصول إلى المحتوى عبر الإنترنت، وصولًا إلى دعم البحث عن الصور، ودعم أنظمة إدارة المحتوى والتوصية به.
مع ذلك، ليس من السهل دائمًا على نماذج الذكاء الاصطناعي إنشاء تعليقات دقيقة. ويزداد الأمر صعوبةً عندما تُظهر الصورة شيئًا مختلفًا عما تدرب عليه النموذج. تعتمد العديد من أنظمة التعليقات بشكل كبير على بيانات التدريب، لذا عند مواجهة مشاهد غير مألوفة، قد تكون تعليقاتها مبهمة أو غير دقيقة.
لمعالجة هذه المشكلة، طوّر الباحثون Re-ViLM ، وهي طريقة تُدمج التوليد المُعزّز بالاسترجاع (RAG) في ترجمة الصور. فبدلاً من توليد ترجمة من الصفر، يسترجع Re-ViLM أزواجًا متشابهة من الصور والنصوص من قاعدة بيانات، ويستخدمها لتوجيه إخراج الترجمة.
يساعد هذا النهج القائم على الاسترجاع النموذج على بناء أوصافه على أمثلة ذات صلة، مما يُحسّن الدقة والانسيابية. تُظهر النتائج الأولية أن Re-ViLM يُنتج تعليقات توضيحية أكثر طبيعية ووعيًا بالسياق باستخدام أمثلة واقعية، مما يُساعد على تقليل الأوصاف الغامضة أو غير الدقيقة.
فيما يلي نظرة سريعة على فوائد تطبيق تقنيات التوليد المعزز بالاسترجاع لاسترجاع المعلومات المرئية واستخدامها:
على الرغم من هذه المزايا، لا تزال هناك بعض القيود التي يجب مراعاتها عند استخدام RAG للتعامل مع البيانات المرئية. إليك بعض أهمها:
يُحسّن التوليد المُعزَّز بالاسترجاع كيفية إجابة نماذج اللغة الكبيرة على الأسئلة، إذ يسمح لها بجلب معلومات مُحدَّثة وذات صلة من مصادر خارجية. وعند دمجها مع الرؤية الحاسوبية، تستطيع هذه الأنظمة معالجة ليس فقط النصوص، بل أيضًا المحتوى المرئي، مثل المخططات والجداول والصور والمستندات الممسوحة ضوئيًا، مما يُؤدي إلى إجابات أكثر دقة وشمولية.
هذا النهج يجعل برامج الماجستير في القانون أكثر ملاءمةً للمهام الواقعية التي تتضمن مستندات معقدة. فمن خلال الجمع بين الاسترجاع والفهم البصري، يمكن لهذه النماذج تفسير صيغ متنوعة بفعالية أكبر، وتوفير رؤىً أكثر فائدة في السياقات العملية اليومية.
انضم إلى مجتمعنا المتنامي! استكشف مستودع GitHub الخاص بنا للتعمق في مجال الذكاء الاصطناعي. هل أنت مستعد لبدء مشاريعك الخاصة في مجال الرؤية الحاسوبية؟ اطلع على خيارات الترخيص لدينا. اكتشف المزيد عن الذكاء الاصطناعي في مجال الرعاية الصحية والرؤية الحاسوبية في مجال البيع بالتجزئة على صفحات حلولنا!