Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Migliorare le applicazioni di IA con RAG e computer vision

Abirami Vina

4 minuti di lettura

28 maggio 2025

Scopri come la combinazione di retrieval-augmented generation (RAG) con la computer vision sta aiutando i sistemi di intelligenza artificiale a interpretare documenti, immagini e contenuti complessi del mondo reale.

L'utilizzo di strumenti di AI come ChatGPT o Gemini sta rapidamente diventando un modo comune per trovare informazioni. Che tu stia scrivendo una bozza di un messaggio, riassumendo un documento o rispondendo a una domanda, questi strumenti offrono spesso una soluzione più rapida e semplice. 

Ma se hai usato modelli linguistici di grandi dimensioni (LLM) alcune volte, probabilmente hai notato i loro limiti. Se sollecitati con query altamente specifiche o urgenti, possono rispondere con risposte errate, spesso con sicurezza.

Questo accade perché i modelli linguistici di grandi dimensioni (LLM) standalone si basano esclusivamente sui dati su cui sono stati addestrati. Non hanno accesso agli aggiornamenti più recenti o a conoscenze specialistiche al di là di quel set di dati. Di conseguenza, le loro risposte possono essere obsolete o inaccurate.

Per aiutare a risolvere questo problema, i ricercatori hanno sviluppato un metodo chiamato retrieval-augmented generation (RAG). RAG migliora i modelli linguistici consentendo loro di estrarre informazioni fresche e pertinenti da fonti attendibili quando rispondono alle query.

In questo articolo, esploreremo come funziona RAG e come migliora gli strumenti di AI recuperando informazioni pertinenti e aggiornate. Esamineremo anche come funziona insieme alla computer vision, un campo dell'intelligenza artificiale incentrato sull'interpretazione dei dati visivi, per aiutare i sistemi a comprendere non solo il testo, ma anche immagini, layout e documenti visivamente complessi.

Comprendere la generazione aumentata dal recupero (RAG)

Quando poniamo una domanda a un chatbot AI, generalmente ci aspettiamo qualcosa di più di una semplice risposta che suoni bene. Idealmente, una buona risposta dovrebbe essere chiara, accurata e realmente utile. Per fornire questo, il modello AI ha bisogno di più delle competenze linguistiche; ha anche bisogno di accedere alle informazioni giuste, specialmente per argomenti specifici o urgenti.

RAG è una tecnica che aiuta a colmare questo divario. Unisce la capacità del modello linguistico di comprendere e generare testo con la potenza di recuperare informazioni pertinenti da fonti esterne. Invece di fare affidamento esclusivamente sui suoi dati di training, il modello attinge attivamente contenuti di supporto da knowledge base affidabili durante la formulazione della sua risposta.

Fig. 1. Principali casi d'uso di RAG. Immagine dell'autore.

Puoi pensarlo come chiedere a qualcuno una domanda e fargli consultare un riferimento affidabile prima di rispondere. La loro risposta è ancora nelle loro stesse parole, ma è informata dalle informazioni più pertinenti e aggiornate.

Questo approccio aiuta gli LLM a rispondere con risposte più complete, accurate e personalizzate in base alla query dell'utente, rendendoli molto più affidabili in applicazioni reali dove l'accuratezza conta davvero.

Uno sguardo al funzionamento di RAG

RAG migliora il modo in cui un modello linguistico di grandi dimensioni risponde introducendo due passaggi chiave: recupero e generazione. Innanzitutto, recupera informazioni pertinenti da una knowledge base esterna. Quindi, utilizza tali informazioni per generare una risposta ben formata e consapevole del contesto.

Diamo un'occhiata a un semplice esempio per vedere come funziona questo processo. Immagina di utilizzare un assistente IA per gestire le tue finanze personali e di voler verificare se sei rimasto entro il tuo obiettivo di spesa per il mese.

Il processo inizia quando poni all'assistente una domanda come: "Ho rispettato il mio budget questo mese?" Invece di fare affidamento solo su ciò che ha imparato durante l'addestramento, il sistema utilizza un retriever per cercare tra i tuoi documenti finanziari più recenti (come estratti conto bancari o riepiloghi delle transazioni). Si concentra sulla comprensione dell'intento alla base della tua domanda e raccoglie le informazioni più pertinenti.

Una volta recuperate queste informazioni, il modello linguistico prende il sopravvento. Elabora sia la tua domanda sia i dati estratti dai tuoi archivi per generare una risposta chiara e utile. Anziché elencare i dettagli grezzi, la risposta riassume le tue spese e ti fornisce una visione diretta e significativa, ad esempio confermando se hai raggiunto il tuo obiettivo ed evidenziando le principali aree di spesa.

Questo approccio aiuta l'LLM a fornire risposte non solo accurate, ma anche basate su informazioni reali e aggiornate, rendendo l'esperienza molto più utile rispetto a un modello che lavora solo con dati di training statici.

Fig. 2. Comprensione del funzionamento di RAG.

La necessità di sistemi RAG multimodali

In genere, le informazioni non sono sempre condivise in testo semplice. Dalle scansioni mediche e dai diagrammi alle diapositive delle presentazioni e ai documenti scansionati, le immagini spesso contengono dettagli importanti. I modelli linguistici di grandi dimensioni (LLM) tradizionali, che sono principalmente costruiti per leggere e comprendere il testo, possono avere difficoltà con questo tipo di contenuto.

Tuttavia, RAG può essere utilizzato insieme alla computer vision per colmare questa lacuna. Quando i due vengono combinati, formano quello che è noto come un sistema RAG multimodale, una configurazione in grado di gestire sia il testo che le immagini, aiutando i chatbot AI a fornire risposte più accurate e complete.

Al centro di questo approccio ci sono i modelli di visione-linguaggio (VLM), progettati per elaborare e ragionare su entrambi i tipi di input. In questa configurazione, RAG recupera le informazioni più rilevanti da grandi fonti di dati, mentre il VLM, abilitato dalla visione artificiale, interpreta immagini, layout e diagrammi.

Questo è particolarmente utile per i documenti del mondo reale, come moduli scansionati, referti medici o diapositive di presentazioni, dove dettagli vitali possono essere trovati sia nel testo che nelle immagini. Ad esempio, quando si analizza un documento che include immagini insieme a tabelle e paragrafi, un sistema multimodale può estrarre elementi visivi, generare un riepilogo di ciò che mostrano e combinarlo con il testo circostante per fornire una risposta più completa e utile.

Fig 3. Il RAG multimodale utilizza immagini e testo per fornire risposte migliori.

Applicazioni di RAG per dati visivi 

Ora che abbiamo discusso di cosa sia RAG e di come funziona con la computer vision, esaminiamo alcuni esempi reali e progetti di ricerca che mostrano come viene utilizzato questo approccio.

Comprendere i documenti visivi con VisRAG

Supponiamo che tu stia cercando di estrarre informazioni da un rapporto finanziario o da un documento legale scansionato. Questi tipi di file spesso includono non solo testo, ma anche tabelle, grafici e layout che aiutano a spiegare le informazioni. Un modello linguistico semplice potrebbe trascurare o interpretare erroneamente questi elementi visivi, portando a risposte incomplete o inaccurate.

VisRAG è stato creato dai ricercatori per affrontare questa sfida. È una pipeline RAG basata su VLM che tratta ogni pagina come un'immagine anziché elaborare solo il testo. Ciò consente al sistema di comprendere sia il contenuto che la sua struttura visiva. Di conseguenza, può trovare le parti più rilevanti e fornire risposte più chiare, più accurate e basate sul contesto completo del documento.

Fig. 4. VisRAG può leggere i documenti come immagini per acquisire il contenuto testuale e il layout.

Visual question answering con RAG

Il visual question answering (VQA) è un'attività in cui un sistema di intelligenza artificiale risponde a domande relative a immagini. Molti sistemi VQA esistenti si concentrano sulla risposta a domande su un singolo documento senza la necessità di cercare informazioni aggiuntive: questo è noto come impostazione chiusa.

VDocRAG è un framework RAG che adotta un approccio più realistico. Integra VQA con la capacità di recuperare prima i documenti pertinenti. Questo è utile in situazioni reali in cui la domanda di un utente potrebbe applicarsi a uno dei tanti documenti e il sistema deve trovare quello giusto prima di rispondere. Per fare ciò, VDocRAG utilizza i VLM per analizzare i documenti come immagini, preservandone sia il testo che la struttura visiva.

Questo rende VDocRAG particolarmente efficace in applicazioni come la ricerca aziendale, l'automazione dei documenti e il supporto clienti. Può aiutare i team a estrarre rapidamente risposte da documenti complessi e formattati visivamente, come manuali o file di policy, dove la comprensione del layout è importante quanto la lettura delle parole.

Fig 5. La differenza tra VDocRAG e le soluzioni basate su LLM.

Miglioramento della didascalia delle immagini con RAG

L'Image captioning implica la generazione di una descrizione scritta di ciò che sta accadendo in un'immagine. Viene utilizzato in una varietà di applicazioni: dal rendere i contenuti online più accessibili all'alimentazione della ricerca di immagini e al supporto della moderazione dei contenuti e dei sistemi di raccomandazione.

Tuttavia, generare didascalie accurate non è sempre facile per i modelli di IA. È particolarmente difficile quando l'immagine mostra qualcosa di diverso da ciò su cui il modello è stato addestrato. Molti sistemi di didascalie si basano fortemente sui dati di addestramento, quindi, di fronte a scene sconosciute, le loro didascalie possono risultare vaghe o imprecise.

Per affrontare questo problema, i ricercatori hanno sviluppato Re-ViLM, un metodo che introduce la generazione aumentata dal recupero (RAG) nella didascalia delle immagini. Invece di generare una didascalia da zero, Re-ViLM recupera coppie immagine-testo simili da un database e le utilizza per guidare l'output della didascalia. 

Questo approccio basato sul retrieval aiuta il modello a basare le sue descrizioni su esempi pertinenti, migliorando sia l'accuratezza che la fluidità. I primi risultati mostrano che Re-ViLM genera didascalie più naturali e consapevoli del contesto utilizzando esempi reali, contribuendo a ridurre le descrizioni vaghe o imprecise.

Fig. 6. Re-ViLM migliora le didascalie delle immagini recuperando esempi visivo-testuali.

Pro e contro dell'utilizzo di RAG per comprendere i dati visivi

Ecco una rapida panoramica dei vantaggi dell'applicazione di tecniche di generazione aumentata dal recupero per recuperare e utilizzare informazioni visive: 

  • Funzionalità di riepilogo migliorate: I riepiloghi possono includere informazioni provenienti da elementi visivi (come andamenti di grafici o elementi di infografiche), non solo dal testo.
  • Ricerca e recupero più robusti: I passaggi di recupero possono identificare le pagine visive pertinenti anche quando le parole chiave non sono presenti nel testo, utilizzando la comprensione basata sulle immagini.
  • Supporto per documenti scansionati, scritti a mano o basati su immagini: Le pipeline RAG abilitate da VLM possono elaborare contenuti che sarebbero illeggibili per i modelli di solo testo.

Nonostante questi vantaggi, ci sono ancora alcune limitazioni da tenere a mente quando si utilizza RAG per lavorare con dati visivi. Ecco alcuni dei principali:

  • Elevati requisiti di calcolo: L'analisi sia di immagini che di testo utilizza più memoria e potenza di elaborazione, il che può rallentare le prestazioni o aumentare i costi.
  • Privacy dei dati e problemi di sicurezza: I documenti visivi, specialmente in settori come quello sanitario o finanziario, possono contenere informazioni sensibili che complicano i flussi di lavoro di recupero ed elaborazione.
  • Tempi di inferenza più lunghi: Poiché l'elaborazione visiva aggiunge complessità, la generazione di risposte può richiedere più tempo rispetto ai sistemi di solo testo.

Punti chiave

La generazione aumentata dal recupero sta migliorando il modo in cui i modelli linguistici di grandi dimensioni rispondono alle domande, consentendo loro di recuperare informazioni pertinenti e aggiornate da fonti esterne. Se abbinati alla computer vision, questi sistemi possono elaborare non solo il testo ma anche contenuti visivi, come grafici, tabelle, immagini e documenti scansionati, portando a risposte più accurate e complete.

Questo approccio rende gli LLM più adatti a compiti reali che coinvolgono documenti complessi. Integrando il recupero e la comprensione visiva, questi modelli possono interpretare formati diversi in modo più efficace e fornire informazioni più utili in contesti pratici e quotidiani.

Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per approfondire la tua conoscenza dell'IA. Sei pronto per iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri di più sull'IA nel settore sanitario e sulla computer vision nel retail nelle nostre pagine delle soluzioni!

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti