Migliorare le applicazioni di IA con RAG e computer vision
Scopri come la combinazione di Retrieval-Augmented Generation (RAG) con la computer vision aiuta i sistemi di IA a interpretare documenti, elementi visivi e contenuti complessi del mondo reale.

L'utilizzo di strumenti AI come ChatGPT o Gemini sta rapidamente diventando un modo comune per trovare informazioni. Che tu stia scrivendo un messaggio, riassumendo un documento o rispondendo a una domanda, questi strumenti offrono spesso una soluzione più rapida e semplice.
Tuttavia, se hai utilizzato large language models (LLMs) alcune volte, avrai probabilmente notato i loro limiti. Quando riceve query molto specifiche o sensibili al fattore tempo, un modello può rispondere con risposte errate, spesso con molta sicurezza.
Ciò accade perché gli LLM autonomi si affidano esclusivamente ai dati su cui sono stati addestrati. Non hanno accesso agli ultimi aggiornamenti o a conoscenze specializzate al di fuori di tale set di dati. Di conseguenza, le loro risposte possono essere obsolete o imprecise.
Per aiutare a risolvere questo problema, i ricercatori hanno sviluppato un metodo chiamato retrieval-augmented generation (RAG). Il RAG potenzia i modelli linguistici consentendo loro di recuperare informazioni aggiornate e pertinenti da fonti attendibili quando rispondono alle query.
In questo articolo, esploreremo come funziona il RAG e come migliora gli strumenti di AI recuperando informazioni pertinenti e aggiornate. Esamineremo inoltre come opera insieme alla computer vision, un campo dell'intelligenza artificiale focalizzato sull'interpretazione dei dati visivi, per aiutare i sistemi a comprendere non solo il testo ma anche immagini, layout e documenti visivamente complessi.
Link to this sectionComprendere la retrieval-augmented generation (RAG)#
Quando poniamo una domanda a un chatbot AI, in genere ci aspettiamo qualcosa di più di una semplice risposta che suoni bene. Idealmente, una buona risposta dovrebbe essere chiara, accurata e genuinamente utile. Per fornire ciò, il AI model necessita di qualcosa di più delle sole competenze linguistiche; ha anche bisogno di accedere alle informazioni giuste, specialmente per argomenti specifici o sensibili al fattore tempo.
Il RAG è una tecnica che aiuta a colmare questo divario. Unisce la capacità del modello linguistico di comprendere e generare testo con il potere di recuperare informazioni pertinenti da fonti esterne. Invece di fare affidamento esclusivamente sui dati di addestramento, il modello estrae attivamente contenuti di supporto da basi di conoscenza attendibili mentre formula la sua risposta.

Fig 1. Casi d'uso chiave del RAG. Immagine dell'autore.
Puoi immaginarlo come fare una domanda a qualcuno e chiedergli di consultare un riferimento affidabile prima di rispondere. La risposta rimane espressa con le sue parole, ma è informata dalle informazioni più pertinenti e aggiornate.
Questo approccio aiuta gli LLM a rispondere con risposte più complete, accurate e su misura per la query dell'utente, rendendoli molto più affidabili in applicazioni reali dove la precisione conta davvero.
Link to this sectionUno sguardo a come funziona il RAG#
Il RAG migliora il modo in cui un large language model risponde introducendo due passaggi chiave: recupero e generazione. Innanzitutto, recupera le informazioni pertinenti da una base di conoscenza esterna. Quindi, utilizza tali informazioni per generare una risposta ben formata e consapevole del contesto.
Diamo un'occhiata a un semplice esempio per vedere come funziona questo processo. Immagina di utilizzare un assistente AI per gestire le tue finanze personali e di voler verificare se sei rimasto entro il tuo obiettivo di spesa per il mese.
Il processo inizia quando chiedi all'assistente qualcosa come: "Sono rimasto nel budget questo mese?". Invece di fare affidamento solo su ciò che ha appreso durante l'addestramento, il sistema utilizza un retriever per cercare tra i tuoi documenti finanziari più recenti (come estratti conto o riepiloghi delle transazioni). Si concentra sulla comprensione dell'intento dietro la tua domanda e raccoglie le informazioni più pertinenti.
Una volta recuperate tali informazioni, il modello linguistico prende il sopravvento. Elabora sia la tua domanda che i dati estratti dai tuoi record per generare una risposta chiara e utile. Piuttosto che elencare dettagli grezzi, la risposta riassume le tue spese e ti fornisce un insight diretto e significativo, come la conferma del raggiungimento dell'obiettivo e l'indicazione delle principali aree di spesa.
Questo approccio aiuta l'LLM a fornire risposte che non sono solo accurate, ma anche basate sulle tue informazioni reali e aggiornate, rendendo l'esperienza molto più utile di un modello che lavora solo con dati di addestramento statici.

Fig 2. Comprendere come funziona il RAG.
Link to this sectionIl bisogno di sistemi RAG multimodali#
In genere, le informazioni non sono sempre condivise in semplice testo. Da scansioni mediche e diagrammi a diapositive di presentazione e documenti scansionati, gli elementi visivi contengono spesso dettagli importanti. Gli LLM tradizionali, costruiti principalmente per leggere e comprendere il testo, possono avere difficoltà con questo tipo di contenuto.
Tuttavia, il RAG può essere utilizzato insieme alla computer vision per colmare tale divario. Quando i due vengono riuniti, formano quello che è noto come sistema RAG multimodale: una configurazione in grado di gestire sia testo che elementi visivi, aiutando i chatbot AI a fornire risposte più accurate e complete.
Al centro di questo approccio ci sono i vision-language models (VLMs), progettati per elaborare e ragionare su entrambi i tipi di input. In questa configurazione, il RAG recupera le informazioni più pertinenti da grandi fonti di dati, mentre il VLM, abilitato dalla computer vision, interpreta immagini, layout e diagrammi.
Ciò è particolarmente utile per documenti del mondo reale, come moduli scansionati, referti medici o diapositive di presentazione, dove dettagli vitali possono essere trovati sia nel testo che negli elementi visivi. Ad esempio, quando si analizza un documento che include immagini insieme a tabelle e paragrafi, un sistema multimodale può estrarre elementi visivi, generare un riepilogo di ciò che mostrano e combinarlo con il testo circostante per fornire una risposta più completa e utile.

Fig 3. Il RAG multimodale utilizza immagini e testo per fornire risposte migliori.
Link to this sectionApplicazioni del RAG per dati visivi#
Ora che abbiamo discusso cosa sia il RAG e come funzioni con la computer vision, diamo un'occhiata ad alcuni esempi del mondo reale e progetti di ricerca che mostrano come questo approccio venga utilizzato.
Link to this sectionComprendere i documenti visivi con VisRAG#
Mettiamo il caso che tu stia cercando di estrarre insight da un rapporto finanziario o da un documento legale scansionato. Questi tipi di file includono spesso non solo testo, ma anche tabelle, grafici e layout che aiutano a spiegare le informazioni. Un modello linguistico diretto potrebbe trascurare o interpretare male questi elementi visivi, portando a risposte incomplete o imprecise.
VisRAG è stato creato dai ricercatori per affrontare questa sfida. È una pipeline RAG basata su VLM che tratta ogni pagina come un'immagine invece di elaborare solo il testo. Ciò consente al sistema di comprendere sia il contenuto che la sua struttura visiva. Di conseguenza, può trovare le parti più pertinenti e fornire risposte che sono più chiare, più accurate e basate sull'intero contesto del documento.

Fig 4. VisRAG può leggere documenti come immagini per catturare il contenuto testuale e il layout.
Link to this sectionRisposta visiva alle domande con RAG#
La visual question answering (VQA) è un'attività in cui un sistema AI risponde a domande sulle immagini. Molti sistemi VQA esistenti si concentrano sulla risposta a domande su un singolo documento senza la necessità di cercare informazioni aggiuntive; questo è noto come ambiente chiuso.
VDocRAG è un framework RAG che adotta un approccio più realistico. Integra la VQA con la capacità di recuperare prima documenti pertinenti. Ciò è utile in situazioni del mondo reale in cui la domanda di un utente potrebbe applicarsi a uno dei tanti documenti, e il sistema deve trovare quello giusto prima di rispondere. Per fare ciò, VDocRAG utilizza VLM per analizzare i documenti come immagini, preservando sia il testo che la struttura visiva.
Ciò rende VDocRAG particolarmente efficace in applicazioni come la ricerca aziendale, l'automazione dei documenti e il supporto clienti. Può aiutare i team a estrarre rapidamente risposte da documenti complessi e formattati visivamente, come manuali o file di policy, dove la comprensione del layout è importante tanto quanto la lettura delle parole.

Fig 5. La differenza tra VDocRAG e le soluzioni basate su LLM.
Link to this sectionMigliorare la didascalia delle immagini con RAG#
Image captioning comporta la generazione di una descrizione scritta di ciò che accade in un'immagine. Viene utilizzato in una varietà di applicazioni: dal rendere i contenuti online più accessibili all'alimentazione della ricerca di immagini e al supporto della moderazione dei contenuti e dei sistemi di raccomandazione.
Tuttavia, generare didascalie accurate non è sempre facile per i modelli AI. È particolarmente difficile quando l'immagine mostra qualcosa di diverso da ciò su cui il modello è stato addestrato. Molti sistemi di didascalia si affidano pesantemente ai dati di addestramento, quindi quando si trovano di fronte a scene sconosciute, le loro didascalie possono risultare vaghe o imprecise.
Per affrontare questo problema, i ricercatori hanno sviluppato Re-ViLM, un metodo che introduce la retrieval-augmented generation (RAG) nella didascalia delle immagini. Invece di generare una didascalia da zero, Re-ViLM recupera coppie immagine-testo simili da un database e le utilizza per guidare l'output della didascalia.
Questo approccio basato sul recupero aiuta il modello a basare le sue descrizioni su esempi pertinenti, migliorando sia l'accuratezza che la fluidità. I primi risultati mostrano che Re-ViLM genera didascalie più naturali e consapevoli del contesto utilizzando esempi reali, contribuendo a ridurre le descrizioni vaghe o imprecise.

Fig 6. Re-ViLM migliora le didascalie delle immagini recuperando esempi visivo-testuali.
Link to this sectionPro e contro dell'utilizzo del RAG per comprendere i dati visivi#
Ecco una rapida panoramica dei vantaggi dell'applicazione di tecniche di retrieval-augmented generation per recuperare e utilizzare le informazioni visive:
- Capacità di riassunto migliorate: i riassunti possono incorporare insight dagli elementi visivi (come trend di grafici o elementi di infografica), non solo dal testo.
- Ricerca e recupero più robusti: i passaggi di recupero possono identificare pagine visive pertinenti anche quando le parole chiave non sono presenti nel testo, utilizzando la comprensione basata sulle immagini.
- Supporto per documenti scansionati, scritti a mano o basati su immagini: le pipeline RAG abilitate dai VLM possono elaborare contenuti che sarebbero illeggibili per i modelli di solo testo.
Nonostante questi vantaggi, ci sono ancora alcune limitazioni da tenere a mente quando si utilizza il RAG per lavorare con i dati visivi. Ecco alcune delle principali:
- Elevati requisiti di calcolo: l'analisi di immagini e testo utilizza più memoria e potenza di elaborazione, il che può rallentare le prestazioni o aumentare i costi.
- Preoccupazioni relative alla privacy dei dati e alla sicurezza: i documenti visivi, specialmente in settori come l'assistenza sanitaria o la finanza, possono contenere informazioni sensibili che complicano i flussi di lavoro di recupero ed elaborazione.
- Tempi di inferenza più lunghi: poiché l'elaborazione visiva aggiunge complessità, la generazione delle risposte può richiedere più tempo rispetto ai sistemi di solo testo.
Link to this sectionPunti chiave#
La retrieval-augmented generation sta migliorando il modo in cui i large language model rispondono alle domande consentendo loro di recuperare informazioni pertinenti e aggiornate da fonti esterne. Se abbinati alla computer vision, questi sistemi possono elaborare non solo testo ma anche contenuti visivi, come grafici, tabelle, immagini e documenti scansionati, portando a risposte più accurate e complete.
Questo approccio rende gli LLM più adatti a compiti del mondo reale che coinvolgono documenti complessi. Unendo recupero e comprensione visiva, questi modelli possono interpretare formati diversi in modo più efficace e fornire insight che risultano più utili in contesti pratici e quotidiani.
Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per approfondire l'AI. Sei pronto a iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri di più sull'AI nell'assistenza sanitaria e sulla computer vision nel settore retail nelle nostre pagine delle soluzioni!






