Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Unisciti a noi per esaminare più da vicino i recenti aggiornamenti di ChatGPT rilasciati da OpenAI. Esploreremo Canvas, il fine-tuning per le capacità di visione e la nuova funzionalità di ricerca.
Dopo aver esaminato per l'ultima volta i modelli o1 di OpenAI a settembre (che sono stati progettati per migliorare il ragionamento), sono state aggiunte molte nuove ed entusiasmanti funzionalità a ChatGPT. Alcune di queste versioni sono rivolte agli sviluppatori, mentre altre sono progettate per perfezionare l'esperienza utente. Nel complesso, ogni aggiornamento contribuisce a rendere le interazioni con ChatGPT più intuitive ed efficaci.
Aggiornamenti come Canvas, progettato per la scrittura e la codifica collaborativa, e il fine-tuning per le capacità di visione che migliorano il modo in cui ChatGPT funziona con le immagini, hanno suscitato molto interesse, incoraggiando gli utenti a esplorare possibilità più creative. Nel frattempo, gli aggiornamenti tecnici, come le nuove API e i rapporti sui test di equità, affrontano aspetti come l'integrazione del modello e le pratiche di AI etica. Approfondiamo e cerchiamo di capire meglio le ultime funzionalità di ChatGPT di OpenAI!
Una panoramica della funzionalità canvas di OpenAI
Canvas è il primo aggiornamento importante dell'interfaccia utente (UI) di ChatGPT dal suo rilascio. Si tratta di una nuova interfaccia con un layout a due schermate, prompt nella barra laterale sinistra e risposte nella finestra laterale destra. La nuova UI elimina il flusso di lavoro abituale di una struttura a schermata singola simile a una chat e passa a un layout a due schermate adatto a scopi di multitasking per aumentare la produttività.
Fig. 1. Canvas porta aggiornamenti dell'interfaccia utente a ChatGPT.
Prima dell'introduzione di Canvas, lavorare con documenti di lunga durata su ChatGPT significava dover scorrere su e giù parecchio. Nel nuovo layout, i prompt vengono visualizzati nella barra laterale sinistra e il documento di testo o lo snippet di codice occupa la maggior parte dello schermo. Se necessario, puoi anche personalizzare le dimensioni della barra laterale sinistra e della schermata di output. Inoltre, puoi selezionare una porzione di testo o una sezione di codice e modificare la sezione specifica senza alterare l'intero documento.
Fig. 2. Modifica di sezioni specifiche del testo utilizzando Canvas.
Se utilizzi Canvas, noterai che non c'è un pulsante o un interruttore specifico per aprirlo sull'interfaccia di ChatGPT. Invece, quando lavori con il modello GPT-4o, Canvas si apre automaticamente se rileva che stai modificando, scrivendo o programmando. Per prompt più semplici, rimane inattivo. Se desideri aprirlo manualmente, puoi utilizzare prompt come "Apri Canvas" o "Mostrami il layout di Canvas".
Attualmente, Canvas è in versione beta ed è disponibile solo con GPT-4o. Tuttavia, OpenAI ha menzionato che Canvas sarà disponibile per tutti gli utenti gratuiti quando uscirà dalla fase beta.
Aggiornamenti API di ChatGPT
OpenAI ha rilasciato tre nuovi aggiornamenti dell'API ChatGPT volti a migliorare efficienza, scalabilità e versatilità. Analizziamo più da vicino ciascuno di questi aggiornamenti.
Distillazione del modello
Utilizzando la funzionalità di Distillazione del modello tramite le API di OpenAI, gli sviluppatori possono utilizzare gli output di modelli avanzati come GPT-4o o o1-preview per migliorare le prestazioni di modelli più piccoli ed efficienti in termini di costi come GPT-4o mini. La distillazione del modello è un processo che prevede l'addestramento di modelli più piccoli per imitare il comportamento di quelli più avanzati, rendendoli più efficienti per compiti specifici.
Prima dell'introduzione di questa funzionalità, gli sviluppatori dovevano coordinare manualmente una varietà di attività utilizzando strumenti diversi. Queste attività includevano la generazione di dataset, la misurazione delle prestazioni del modello e la messa a punto dei modelli, il che spesso rendeva il processo complesso e soggetto a errori. L'aggiornamento Model Distillation consente agli sviluppatori di utilizzare Stored Completions, uno strumento che consente loro di generare automaticamente dataset acquisendo e memorizzando le coppie input-output prodotte da modelli avanzati tramite l'API.
Un'altra caratteristica della Model Distillation, Evals (attualmente in versione beta), aiuta a misurare le prestazioni di un modello su compiti specifici, senza la necessità di creare script di valutazione personalizzati o di utilizzare strumenti separati. Utilizzando set di dati generati con Stored Completions e valutando le prestazioni con Evals, gli sviluppatori possono ottimizzare i propri modelli GPT personalizzati.
Fig. 3. È possibile utilizzare Evals per misurare le prestazioni del modello.
Caching dei prompt
Spesso, quando si creano applicazioni di IA, specialmente chatbot, lo stesso contesto (le informazioni di background o la cronologia delle conversazioni precedenti necessarie per comprendere la richiesta corrente) verrà utilizzato ripetutamente per più chiamate API. La Prompt Caching consente agli sviluppatori di riutilizzare i token di input utilizzati di recente (segmenti di testo che il modello elabora per comprendere il prompt e generare una risposta), contribuendo a ridurre i costi e la latenza.
Dal 1° ottobre, OpenAI ha applicato automaticamente la Prompt Caching ai suoi modelli come GPT-4o, GPT-4o mini, o1-preview e o1-mini. Ciò significa che quando gli sviluppatori utilizzano l'API per interagire con un modello con un prompt lungo (oltre 1.024 token), il sistema salva le parti che ha già elaborato.
In questo modo, se vengono utilizzati di nuovo prompt uguali o simili, può evitare di ricalcolare quelle parti. Il sistema memorizza automaticamente nella cache la parte più lunga del prompt che ha incontrato in precedenza, a partire da 1.024 token e aggiungendo blocchi di 128 token man mano che il prompt diventa più lungo.
API in tempo reale
La creazione di un assistente vocale generalmente comporta la necessità di trascrivere l'audio in testo, elaborare il testo e quindi riconvertirlo in audio per riprodurre la risposta. L'API Realtime di OpenAI mira a gestire l'intero processo con una singola richiesta API. Semplificando il processo, l'API consente conversazioni in tempo reale con l'AI.
Ad esempio, un assistente vocale integrato con la Realtime API può eseguire azioni specifiche, come effettuare un ordine o trovare informazioni, in base alle richieste dell'utente. L'API rende l'assistente vocale più reattivo e in grado di adattarsi rapidamente alle esigenze degli utenti. La Realtime API è diventata disponibile tramite beta pubblica il 1° ottobre, con sei voci. Il 30 ottobre sono state aggiunte altre cinque voci, per un totale di undici voci disponibili.
Fig. 4. Un esempio di utilizzo dell'API Realtime per esercitarsi nelle conversazioni in una nuova lingua.
Fine-tuning di ChatGPT per attività di visione artificiale
In origine, il modello linguistico di visione GPT-4o poteva essere messo a punto e personalizzato solo utilizzando set di dati di solo testo. Ora, con il rilascio dell'API di fine-tuning della visione, gli sviluppatori possono addestrare e personalizzare GPT-4o utilizzando set di dati di immagini. Dal suo rilascio, il fine-tuning della visione è diventato un importante argomento di interesse tra gli sviluppatori e gli ingegneri della computer vision.
Per ottimizzare le capacità di visione di GPT-4o, gli sviluppatori possono utilizzare set di dati di immagini che variano da un minimo di 100 immagini a un massimo di 50.000 immagini. Dopo aver verificato che il set di dati corrisponda al formato richiesto da OpenAI, può essere caricato sulla piattaforma OpenAI e il modello può essere ottimizzato per applicazioni specifiche.
Ad esempio, Automat, una società di automazione, ha utilizzato un set di dati di screenshot per addestrare GPT-4o a identificare gli elementi dell'interfaccia utente su uno schermo in base a una descrizione. Questo aiuta a semplificare la Robotic Process Automation (RPA), facilitando l'interazione dei bot con le interfacce utente. Invece di fare affidamento su coordinate fisse o regole di selezione complesse, il modello può identificare gli elementi dell'interfaccia utente in base a semplici descrizioni, rendendo le configurazioni di automazione più adattabili e facili da mantenere quando le interfacce cambiano.
Fig 5. Utilizzo di una versione fine-tuned del modello GPT-4o per rilevare gli elementi dell'interfaccia utente.
Correttezza e rilevamento dei bias in ChatGPT
Le preoccupazioni etiche che circondano le applicazioni dell'IA sono un argomento di discussione di rilievo, man mano che l'IA diventa sempre più avanzata. Poiché le risposte di ChatGPT si basano su prompt forniti dagli utenti e sui dati disponibili su Internet, può essere difficile affinare il suo linguaggio in modo che sia sempre responsabile. Alcune segnalazioni indicano che le risposte di ChatGPT sono distorte in base al nome, al genere e all'etnia. Per affrontare questo problema, il team interno di OpenAI ha condotto un test di correttezza in prima persona.
I nomi spesso portano sottili indizi sulla nostra cultura e su fattori geografici. Nella maggior parte dei casi, ChatGPT ignorerà gli indizi sottili nei nomi. Tuttavia, in alcuni casi, i nomi che riflettono l'etnia o la cultura portano a risposte diverse da ChatGPT, con circa l'1% di queste che riflettono un linguaggio dannoso. L'eliminazione dei pregiudizi e del linguaggio dannoso è un compito impegnativo per un modello linguistico. Tuttavia, condividendo pubblicamente questi risultati e riconoscendo i limiti del modello, OpenAI aiuta gli utenti a perfezionare i loro prompt per ottenere risposte più neutre e imparziali.
Fig. 6. Un esempio di risposte differenti a causa del nome dell'utente.
Comprendere la ricerca di ChatGPT
Quando ChatGPT è stato lanciato per la prima volta, c'erano discussioni nella comunità dell'IA sulla possibilità che potesse sostituire la tradizionale navigazione web. Ora, molti utenti stanno usando ChatGPT invece di Google Search.
Il nuovo aggiornamento di OpenAI, la funzione di ricerca, fa un ulteriore passo avanti. Con la funzione di ricerca, ChatGPT genera risposte aggiornate e include collegamenti a fonti pertinenti. A partire dal 31 ottobre, la funzione di ricerca è disponibile per tutti gli utenti di ChatGPT Plus e Team, rendendo ChatGPT più simile a un motore di ricerca basato sull'IA.
Fig. 7. Un esempio di utilizzo della nuova funzionalità di ricerca di ChatGPT.
La strada da percorrere
I recenti aggiornamenti di ChatGPT si concentrano sul rendere l'IA più utile, flessibile ed equa. La nuova funzionalità Canvas aiuta gli utenti a lavorare in modo più efficiente, mentre la messa a punto della vision consente agli sviluppatori di personalizzare i modelli per gestire meglio le attività visive. Affrontare l'equità e ridurre i pregiudizi sono anche priorità fondamentali, garantendo che l'IA funzioni bene per tutti, indipendentemente da chi siano. Che tu sia uno sviluppatore che mette a punto modelli o semplicemente utilizzi le funzionalità più recenti, ChatGPT si sta evolvendo per soddisfare un'ampia gamma di esigenze. Con funzionalità in tempo reale, integrazione visiva e un focus sull'uso responsabile, questi aggiornamenti creano un'esperienza di IA più affidabile per tutti.