Miglioramento delle applicazioni AI con RAG e computer vision

Abirami Vina

4 minuti di lettura

28 maggio 2025

Scoprite come la combinazione di retrieval-augmented generation (RAG) e computer vision aiuta i sistemi di intelligenza artificiale a interpretare documenti, immagini e contenuti complessi del mondo reale.

L'uso di strumenti di intelligenza artificiale come ChatGPT o Gemini sta rapidamente diventando un modo comune per trovare informazioni. Che si tratti di redigere un messaggio, riassumere un documento o rispondere a una domanda, questi strumenti offrono spesso una soluzione più rapida e semplice. 

Ma se avete usato qualche volta i modelli linguistici di grandi dimensioni (LLM), avrete probabilmente notato i loro limiti. Quando vengono sollecitati con domande molto specifiche o sensibili al tempo, possono rispondere in modo errato, spesso con sicurezza.

Questo accade perché gli LLM autonomi si basano esclusivamente sui dati su cui sono stati addestrati. Non hanno accesso agli ultimi aggiornamenti o alle conoscenze specialistiche al di là di quel set di dati. Di conseguenza, le loro risposte possono essere obsolete o imprecise.

Per risolvere questo problema, i ricercatori hanno sviluppato un metodo chiamato retrieval-augmented generation (RAG). Il RAG migliora i modelli linguistici consentendo loro di attingere informazioni fresche e pertinenti da fonti attendibili quando rispondono alle query.

In questo articolo analizzeremo come funziona il RAG e come migliora gli strumenti di intelligenza artificiale recuperando informazioni pertinenti e aggiornate. Inoltre, vedremo come funziona insieme alla computer vision, un campo dell'intelligenza artificiale incentrato sull'interpretazione dei dati visivi, per aiutare i sistemi a comprendere non solo il testo, ma anche le immagini, i layout e i documenti visivamente complessi.

Comprendere la generazione aumentata dal recupero (RAG)

Quando si pone una domanda a un chatbot AI, generalmente ci si aspetta qualcosa di più di una risposta che suoni bene. Idealmente, una buona risposta dovrebbe essere chiara, accurata e veramente utile. Per ottenere questo risultato, il modello di intelligenza artificiale non ha bisogno solo di competenze linguistiche, ma anche di accedere alle informazioni giuste, soprattutto per argomenti specifici o sensibili al tempo.

La RAG è una tecnica che aiuta a colmare questo divario. Mette insieme la capacità del modello linguistico di comprendere e generare testo con la capacità di recuperare informazioni rilevanti da fonti esterne. Invece di basarsi esclusivamente sui dati di addestramento, il modello raccoglie attivamente contenuti di supporto da basi di conoscenza affidabili mentre forma la sua risposta.

Figura 1. Casi d'uso principali del RAG. Immagine dell'autore.

Si può pensare che sia come fare una domanda a qualcuno e fargli consultare un riferimento affidabile prima di rispondere. La risposta è sempre scritta con le loro parole, ma è informata dalle informazioni più rilevanti e aggiornate.

Questo approccio aiuta i LLM a rispondere con risposte più complete, accurate e adeguate alla domanda dell'utente, rendendoli molto più affidabili nelle applicazioni reali in cui l'accuratezza è davvero importante.

Uno sguardo a come funziona il RAG

RAG migliora il modo in cui un modello linguistico di grandi dimensioni risponde introducendo due fasi chiave: il recupero e la generazione. In primo luogo, recupera le informazioni rilevanti da una base di conoscenza esterna. Quindi, utilizza tali informazioni per generare una risposta ben formata e consapevole del contesto.

Vediamo un semplice esempio per capire come funziona questo processo. Immaginate di utilizzare un assistente AI per gestire le vostre finanze personali e di voler verificare se avete rispettato l'obiettivo di spesa del mese.

Il processo inizia quando si pone all'assistente una domanda del tipo: "Ho rispettato il budget questo mese?". Invece di basarsi solo su ciò che ha imparato durante la formazione, il sistema utilizza un retriever per cercare tra i documenti finanziari più recenti (ad esempio estratti conto o riepiloghi delle transazioni). Si concentra sulla comprensione dell'intento della domanda e raccoglie le informazioni più rilevanti.

Una volta recuperate le informazioni, il modello linguistico prende il sopravvento. Elabora sia la domanda che i dati estratti dai registri per generare una risposta chiara e utile. Piuttosto che elencare dettagli grezzi, la risposta riassume la spesa e fornisce una visione diretta e significativa, ad esempio confermando se si è raggiunto l'obiettivo e indicando le aree di spesa principali.

Questo approccio aiuta l'LLM a fornire risposte non solo accurate, ma anche basate su informazioni reali e aggiornate, rendendo l'esperienza molto più utile di un modello che lavora solo con dati di addestramento statici.

Figura 2. Comprensione del funzionamento del RAG.

La necessità di sistemi RAG multimodali

In genere, le informazioni non sono sempre condivise in chiaro. Dalle scansioni e dai diagrammi medici alle diapositive di presentazione e ai documenti scannerizzati, le immagini spesso contengono dettagli importanti. I LLM tradizionali, costruiti principalmente per leggere e comprendere il testo, possono avere difficoltà con questo tipo di contenuti.

Tuttavia, il RAG può essere utilizzato insieme alla computer vision per colmare questo divario. Quando i due sistemi sono uniti, formano quello che viene definito un sistema RAG multimodale: una configurazione in grado di gestire sia il testo che le immagini, aiutando i chatbot AI a fornire risposte più accurate e complete.

Al centro di questo approccio ci sono i modelli di linguaggio di visione (VLM), progettati per elaborare e ragionare su entrambi i tipi di input. In questa configurazione, il RAG recupera le informazioni più rilevanti da grandi fonti di dati, mentre il VLM, abilitato dalla computer vision, interpreta immagini, layout e diagrammi.

Ciò è particolarmente utile per i documenti del mondo reale, come moduli scannerizzati, referti medici o diapositive di presentazione, dove i dettagli vitali possono trovarsi sia nel testo che nelle immagini. Ad esempio, quando si analizza un documento che include immagini accanto a tabelle e paragrafi, un sistema multimodale può estrarre gli elementi visivi, generare un riassunto di ciò che mostrano e combinarlo con il testo circostante per fornire una risposta più completa e utile.

Figura 3. Il RAG multimodale utilizza immagini e testo per fornire risposte migliori.

Applicazioni di RAG per i dati visivi 

Dopo aver discusso cos'è il RAG e come funziona con la computer vision, vediamo alcuni esempi reali e progetti di ricerca che illustrano l'utilizzo di questo approccio.

Comprendere i documenti visivi con VisRAG

Supponiamo che stiate cercando di estrarre informazioni da un rapporto finanziario o da un documento legale scansionato. Questi tipi di file spesso non includono solo testo, ma anche tabelle, grafici e layout che aiutano a spiegare le informazioni. Un modello linguistico semplice potrebbe trascurare o interpretare male questi elementi visivi, dando luogo a risposte incomplete o imprecise.

VisRAG è stato creato dai ricercatori per affrontare questa sfida. Si tratta di una pipeline RAG basata su VLM che tratta ogni pagina come un'immagine, invece di elaborare solo il testo. Ciò consente al sistema di comprendere sia il contenuto che la sua struttura visiva. Di conseguenza, è in grado di trovare le parti più rilevanti e di fornire risposte più chiare, accurate e basate sull'intero contesto del documento.

Figura 4. VisRAG è in grado di leggere i documenti come immagini per catturare il contenuto testuale e il layout.

Risposta visiva alle domande con RAG

La risposta a domande visive (VQA) è un compito in cui un sistema di intelligenza artificiale risponde a domande su immagini. Molti dei sistemi di VQA esistenti si concentrano sulla risposta a domande su un singolo documento, senza la necessità di ricercare ulteriori informazioni: si tratta di un'impostazione chiusa.

VDocRAG è un framework RAG che adotta un approccio più realistico. Integra la VQA con la capacità di recuperare prima i documenti rilevanti. Questo è utile nelle situazioni reali in cui la domanda di un utente può riguardare uno dei tanti documenti e il sistema deve trovare quello giusto prima di rispondere. A tal fine, VDocRAG utilizza i VLM per analizzare i documenti come immagini, preservando sia il testo che la struttura visiva.

Ciò rende VDocRAG particolarmente efficace in applicazioni come la ricerca aziendale, l'automazione dei documenti e l'assistenza clienti. Può aiutare i team a estrarre rapidamente le risposte da documenti complessi e formattati visivamente, come manuali o file di policy, dove la comprensione del layout è importante quanto la lettura delle parole.

Figura 5. Differenza tra le soluzioni basate su VDocRAG e LLM.

Migliorare la didascalia delle immagini con RAG

La didascalia delle immagini consiste nel generare una descrizione scritta di ciò che accade in un'immagine. Viene utilizzata in una varietà di applicazioni: dal rendere più accessibili i contenuti online all'alimentare la ricerca di immagini, fino a supportare la moderazione dei contenuti e i sistemi di raccomandazione.

Tuttavia, generare didascalie accurate non è sempre facile per i modelli AI. È particolarmente difficile quando l'immagine mostra qualcosa di diverso da ciò su cui il modello è stato addestrato. Molti sistemi di sottotitolazione si basano molto sui dati di addestramento, quindi quando si trovano di fronte a scene sconosciute, le loro didascalie possono risultare vaghe o imprecise.

Per affrontare questo problema, i ricercatori hanno sviluppato Re-ViLM, un metodo che introduce la retrieval-augmented generation (RAG) nelle didascalie delle immagini. Invece di generare una didascalia da zero, Re-ViLM recupera coppie immagine-testo simili da un database e le utilizza per guidare l'output della didascalia. 

Questo approccio basato sul reperimento aiuta il modello a fondare le sue descrizioni su esempi pertinenti, migliorando sia l'accuratezza che la fluidità. I primi risultati mostrano che Re-ViLM genera didascalie più naturali e consapevoli del contesto grazie all'uso di esempi reali, contribuendo a ridurre le descrizioni vaghe o imprecise.

Figura 6. Re-ViLM migliora le didascalie delle immagini recuperando esempi di testo visivo.

Pro e contro dell'utilizzo di RAG per comprendere i dati visivi

Ecco un rapido sguardo ai vantaggi dell'applicazione di tecniche di generazione aumentata del recupero per recuperare e utilizzare le informazioni visive: 

  • Miglioramento riepilogo capacità di sintesi: I riepiloghi possono incorporare approfondimenti dalle immagini (come i trend dei grafici o gli elementi infografici), non solo dal testo.
  • Ricerca e recupero più robusti: Le fasi di recupero possono identificare le pagine visive rilevanti anche quando le parole chiave non sono presenti nel testo, utilizzando la comprensione basata sulle immagini.
  • Supporto per documenti scansionati, scritti a mano o basati su immagini: Le pipeline RAG abilitate dai VLM possono elaborare contenuti che sarebbero illeggibili per i modelli di solo testo.

Nonostante questi vantaggi, ci sono ancora alcune limitazioni da tenere presenti quando si usa RAG per lavorare con i dati visivi. Ecco alcune delle principali:

  • Elevati requisiti di elaborazione: L'analisi di immagini e testi richiede più memoria e potenza di elaborazione, il che può rallentare le prestazioni o aumentare i costi.
  • Privacy dei dati e sicurezza: I documenti visivi, soprattutto in settori come quello sanitario o finanziario, possono contenere informazioni sensibili che complicano i flussi di lavoro di recupero ed elaborazione.
  • Tempi di inferenza più lunghi: Poiché l'elaborazione visiva aggiunge complessità, la generazione delle risposte può richiedere più tempo rispetto ai sistemi di solo testo.

Punti di forza

La generazione aumentata di recupero sta migliorando il modo in cui i modelli linguistici di grandi dimensioni rispondono alle domande, consentendo loro di recuperare informazioni pertinenti e aggiornate da fonti esterne. Se abbinati alla computer vision, questi sistemi sono in grado di elaborare non solo testo ma anche contenuti visivi, come grafici, tabelle, immagini e documenti scansionati, ottenendo risposte più accurate e complete.

Questo approccio rende i LLM più adatti a compiti reali che coinvolgono documenti complessi. Unendo il reperimento e la comprensione visiva, questi modelli possono interpretare in modo più efficace formati diversi e fornire informazioni più utili in contesti pratici e quotidiani.

Unisciti alla nostra comunità in crescita! Esplorate il nostro repository GitHub per approfondire il tema dell'intelligenza artificiale. Siete pronti ad avviare i vostri progetti di computer vision? Scoprite le nostre opzioni di licenza. Scoprite di più sull'IA nella sanità e sulla computer vision nella vendita al dettaglio nelle nostre pagine dedicate alle soluzioni!

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti