Controllo verde
Link copiato negli appunti

Migliorare le applicazioni di intelligenza artificiale con RAG e visione artificiale

Scopri come la combinazione della generazione aumentata dal recupero (RAG) con la visione artificiale aiuta i sistemi di intelligenza artificiale a interpretare documenti, immagini e contenuti complessi del mondo reale.

Utilizzando strumenti di intelligenza artificiale come ChatGPT o Gemini sta rapidamente diventando un metodo comune per trovare informazioni. Che si tratti di scrivere una bozza di messaggio, riassumere un documento o rispondere a una domanda, questi strumenti offrono spesso una soluzione più rapida e semplice. 

Ma se hai utilizzato i modelli linguistici di grandi dimensioni (LLM) alcune volte, probabilmente ne avrai notato i limiti. Quando vengono richieste query molto specifiche o con tempistiche ristrette, possono fornire risposte errate, spesso con sicurezza.

Ciò accade perché gli LLM autonomi si basano esclusivamente sui dati su cui sono stati formati. Non hanno accesso agli ultimi aggiornamenti o a conoscenze specialistiche che vadano oltre quel set di dati. Di conseguenza, le loro risposte possono essere obsolete o imprecise.

Per risolvere questo problema, i ricercatori hanno sviluppato un metodo chiamato generazione aumentata dal recupero (RAG) . Il RAG migliora i modelli linguistici consentendo loro di estrarre informazioni aggiornate e pertinenti da fonti attendibili quando rispondono alle query.

In questo articolo, esploreremo il funzionamento di RAG e come potenzia gli strumenti di intelligenza artificiale recuperando informazioni pertinenti e aggiornate. Esamineremo anche come interagisce con la visione artificiale , un campo dell'intelligenza artificiale focalizzato sull'interpretazione dei dati visivi, per aiutare i sistemi a comprendere non solo il testo, ma anche immagini, layout e documenti visivamente complessi.

Comprensione della generazione aumentata dal recupero (RAG)

Quando poniamo una domanda a un chatbot di intelligenza artificiale, generalmente ci aspettiamo più di una semplice risposta convincente. Idealmente, una buona risposta dovrebbe essere chiara, accurata e realmente utile. Per raggiungere questo obiettivo, il modello di intelligenza artificiale non necessita solo di competenze linguistiche: ha anche bisogno di accedere alle informazioni corrette, soprattutto per argomenti specifici o urgenti.

RAG è una tecnica che aiuta a colmare questa lacuna. Combina la capacità del modello linguistico di comprendere e generare testo con la capacità di recuperare informazioni rilevanti da fonti esterne. Invece di affidarsi esclusivamente ai propri dati di training, il modello attinge attivamente a contenuti di supporto da basi di conoscenza affidabili durante la formulazione della sua risposta.

Figura 1. Principali casi d'uso di RAG. Immagine dell'autore.

Si può pensare che sia come porre una domanda a qualcuno e chiedergli di consultare un riferimento affidabile prima di rispondere. La risposta sarà comunque espressa con parole proprie, ma basata sulle informazioni più pertinenti e aggiornate.

Questo approccio aiuta gli LLM a fornire risposte più complete, precise e personalizzate in base alla query dell'utente, rendendoli molto più affidabili nelle applicazioni del mondo reale in cui la precisione è davvero importante.

Uno sguardo a come funziona RAG

RAG migliora la risposta di un modello linguistico di grandi dimensioni introducendo due passaggi chiave: recupero e generazione. In primo luogo, recupera le informazioni rilevanti da una base di conoscenza esterna. In secondo luogo, utilizza tali informazioni per generare una risposta ben formata e contestualizzata.

Facciamo un semplice esempio per capire come funziona questo processo. Immagina di utilizzare un assistente AI per gestire le tue finanze personali e di voler verificare se hai rispettato il tuo obiettivo di spesa mensile.

Il processo inizia quando poni all'assistente una domanda come: "Ho rispettato il mio budget questo mese?". Invece di basarsi solo su ciò che ha appreso durante la formazione, il sistema utilizza un sistema di recupero per cercare tra i tuoi dati finanziari più recenti (come estratti conto bancari o riepiloghi delle transazioni). Si concentra sulla comprensione dell'intento della tua domanda e raccoglie le informazioni più pertinenti.

Una volta recuperate queste informazioni, il modello linguistico prende il sopravvento. Elabora sia la domanda che i dati estratti dai registri per generare una risposta chiara e utile. Invece di elencare i dettagli grezzi, la risposta riassume le spese e fornisce un'analisi diretta e significativa, ad esempio confermando il raggiungimento dell'obiettivo e indicando le aree di spesa chiave.

Questo approccio aiuta l'LLM a fornire risposte non solo accurate, ma anche basate su informazioni reali e aggiornate, rendendo l'esperienza molto più utile di un modello che funziona solo con dati di formazione statici.

Fig. 2. Comprensione del funzionamento del RAG.

La necessità di sistemi RAG multimodali

In genere, le informazioni non vengono sempre condivise in formato testo. Dalle scansioni mediche e dai diagrammi alle slide delle presentazioni e ai documenti scansionati, gli elementi visivi contengono spesso dettagli importanti. Gli LLM tradizionali, progettati principalmente per leggere e comprendere il testo, possono avere difficoltà con questo tipo di contenuti.

Tuttavia, il RAG può essere utilizzato insieme alla visione artificiale per colmare questa lacuna. Quando i due vengono combinati, formano quello che viene definito un sistema RAG multimodale: una configurazione in grado di gestire sia testo che immagini, aiutando i chatbot AI a fornire risposte più accurate e complete.

Al centro di questo approccio ci sono i modelli di visione-linguaggio (VLM) , progettati per elaborare e ragionare su entrambi i tipi di input. In questa configurazione, il RAG recupera le informazioni più rilevanti da grandi fonti di dati, mentre il VLM, supportato dalla visione artificiale, interpreta immagini, layout e diagrammi.

Questo è particolarmente utile per documenti reali, come moduli scansionati, referti medici o slide di presentazioni, in cui dettagli essenziali possono essere presenti sia nel testo che nelle immagini. Ad esempio, quando si analizza un documento che include immagini accanto a tabelle e paragrafi, un sistema multimodale può estrarre elementi visivi, generare un riepilogo di ciò che mostrano e combinarlo con il testo circostante per fornire una risposta più completa e utile.

Fig. 3. Il RAG multimodale utilizza immagini e testo per fornire risposte migliori.

Applicazioni di RAG per i dati visivi 

Ora che abbiamo spiegato cos'è il RAG e come funziona con la visione artificiale, diamo un'occhiata ad alcuni esempi concreti e progetti di ricerca che mostrano come viene utilizzato questo approccio.

Comprendere i documenti visivi con VisRAG

Supponiamo che tu stia cercando di estrarre informazioni da un report finanziario o da un documento legale scansionato. Questi tipi di file spesso includono non solo testo, ma anche tabelle, grafici e layout che aiutano a spiegare le informazioni. Un modello linguistico semplice potrebbe trascurare o interpretare male questi elementi visivi, portando a risposte incomplete o imprecise.

VisRAG è stato creato dai ricercatori per affrontare questa sfida. Si tratta di una pipeline RAG basata su VLM che tratta ogni pagina come un'immagine anziché elaborare solo il testo. Questo permette al sistema di comprendere sia il contenuto che la sua struttura visiva. Di conseguenza, può individuare le parti più rilevanti e fornire risposte più chiare, accurate e basate sul contesto completo del documento.

Fig. 4. VisRAG può leggere i documenti come immagini per catturarne il contenuto testuale e il layout.

Risposta visiva alle domande con RAG

Il Visual Question Answering (VQA) è un'attività in cui un sistema di intelligenza artificiale risponde a domande relative alle immagini. Molti sistemi VQA esistenti si concentrano sulla risposta a domande relative a un singolo documento senza dover cercare informazioni aggiuntive: questa è nota come impostazione chiusa.

VDocRAG è un framework RAG che adotta un approccio più realistico. Integra VQA con la capacità di recuperare prima i documenti rilevanti. Questo è utile in situazioni reali in cui la domanda di un utente potrebbe riguardare uno tra molti documenti e il sistema deve trovare quello corretto prima di rispondere. Per fare ciò, VDocRAG utilizza VLM per analizzare i documenti come immagini, preservandone sia il testo che la struttura visiva.

Questo rende VDocRAG particolarmente efficace in applicazioni come la ricerca aziendale, l'automazione dei documenti e l'assistenza clienti . Può aiutare i team a estrarre rapidamente risposte da documenti complessi e formattati visivamente, come manuali o file di policy, in cui comprendere il layout è importante quanto leggere il testo.

Fig 5. Differenza tra le soluzioni basate su VDocRAG e LLM.

Migliorare la didascalia delle immagini con RAG

La didascalia delle immagini consiste nel generare una descrizione scritta di ciò che accade in un'immagine. Viene utilizzata in una varietà di applicazioni: dal rendere i contenuti online più accessibili, al potenziamento della ricerca di immagini, fino al supporto dei sistemi di moderazione e raccomandazione dei contenuti.

Tuttavia, generare didascalie accurate non è sempre facile per i modelli di intelligenza artificiale. È particolarmente difficile quando l'immagine mostra qualcosa di diverso da ciò su cui il modello è stato addestrato. Molti sistemi di didascalia si basano in larga misura sui dati di addestramento, quindi, quando si trovano di fronte a scene non familiari, le loro didascalie possono risultare vaghe o imprecise.

Per affrontare questo problema, i ricercatori hanno sviluppato Re-ViLM , un metodo che integra la generazione aumentata dal recupero (RAG) nella didascalia delle immagini. Invece di generare una didascalia da zero, Re-ViLM recupera coppie immagine-testo simili da un database e le utilizza per guidare l'output della didascalia. 

Questo approccio basato sul recupero aiuta il modello a basare le sue descrizioni su esempi pertinenti, migliorando sia l'accuratezza che la fluidità. I primi risultati mostrano che Re-ViLM genera didascalie più naturali e contestualizzate utilizzando esempi reali, contribuendo a ridurre descrizioni vaghe o imprecise.

Fig 6. Re-ViLM migliora le didascalie delle immagini recuperando esempi di testo visivo.

Pro e contro dell'utilizzo di RAG per comprendere i dati visivi

Ecco una rapida occhiata ai vantaggi dell'applicazione di tecniche di generazione con recupero aumentato per recuperare e utilizzare informazioni visive: 

  • Funzionalità di riepilogo avanzate : i riepiloghi possono incorporare informazioni ottenute da elementi visivi (come tendenze di grafici o elementi infografici), non solo da testo.
  • Ricerca e recupero più efficaci : le fasi di recupero possono identificare pagine visive pertinenti anche quando le parole chiave non sono presenti nel testo, utilizzando la comprensione basata sulle immagini.
  • Supporto per documenti scansionati, scritti a mano o basati su immagini: le pipeline RAG abilitate dai VLM possono elaborare contenuti che sarebbero illeggibili per i modelli solo testo.

Nonostante questi vantaggi, ci sono ancora alcune limitazioni da tenere a mente quando si utilizza RAG per elaborare dati visivi. Ecco alcune delle principali:

  • Elevati requisiti di elaborazione: l'analisi sia delle immagini sia del testo richiede più memoria e potenza di elaborazione, il che può rallentare le prestazioni o aumentare i costi.
  • Problemi di riservatezza e sicurezza dei dati: i documenti visivi, soprattutto in settori come quello sanitario o finanziario, possono contenere informazioni sensibili che complicano i flussi di lavoro di recupero ed elaborazione.
  • Tempi di inferenza più lunghi: poiché l'elaborazione visiva aggiunge complessità, la generazione delle risposte può richiedere più tempo rispetto ai sistemi basati solo su testo.

Punti di forza

La generazione con recupero aumentato sta migliorando il modo in cui i modelli linguistici di grandi dimensioni rispondono alle domande, consentendo loro di recuperare informazioni pertinenti e aggiornate da fonti esterne. Se abbinati alla visione artificiale, questi sistemi possono elaborare non solo testo, ma anche contenuti visivi, come grafici, tabelle, immagini e documenti scansionati, producendo risposte più accurate e complete.

Questo approccio rende gli LLM più adatti ad attività pratiche che coinvolgono documenti complessi. Combinando recupero e comprensione visiva, questi modelli possono interpretare formati diversi in modo più efficace e fornire spunti più utili nei contesti pratici e quotidiani.

Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per approfondire l'intelligenza artificiale. Pronto ad avviare i tuoi progetti di visione artificiale? Scopri le nostre opzioni di licenza . Scopri di più sull'intelligenza artificiale in ambito sanitario e sulla visione artificiale nel settore retail nelle nostre pagine dedicate alle soluzioni!

Logo di LinkedInLogo di TwitterLogo di FacebookSimbolo di copia-link

Leggi tutto in questa categoria

Costruiamo insieme il futuro
di AI!

Inizia il tuo viaggio nel futuro dell'apprendimento automatico