Gli ultimi aggiornamenti di OpenAI: Canvas, fine-tuning per la visione e altro ancora
Unisciti a noi mentre esaminiamo da vicino i recenti aggiornamenti di ChatGPT rilasciati da OpenAI. Esploreremo Canvas, il fine-tuning per le funzionalità di visione e la più recente funzione di ricerca.

Dopo aver esaminato a settembre i modelli o1 di OpenAI (progettati per migliorare il ragionamento), molte nuove ed entusiasmanti funzionalità sono state aggiunte a ChatGPT. Alcuni di questi rilasci sono pensati per gli sviluppatori, altri per affinare l'esperienza utente. Nel complesso, ogni aggiornamento contribuisce a rendere le interazioni con ChatGPT più intuitive ed efficaci.
Aggiornamenti come Canvas, progettato per la scrittura e la programmazione collaborativa, e il fine-tuning per le capacità visive che migliorano il modo in cui ChatGPT interagisce con le immagini, hanno suscitato molto interesse, incoraggiando gli utenti a esplorare possibilità più creative. Nel frattempo, aggiornamenti tecnici, come nuove API e report sui test di equità, affrontano aspetti come l'integrazione dei modelli e le pratiche di AI etica. Approfondiamo e comprendiamo meglio le ultime funzionalità di ChatGPT di OpenAI!
Link to this sectionUna panoramica della funzionalità Canvas di OpenAI#
Canvas è il primo importante aggiornamento dell'interfaccia utente (UI) di ChatGPT dal suo rilascio. È una nuova interfaccia con un layout a due schermi, i prompt nella barra laterale sinistra e le risposte nella finestra destra. La nuova UI elimina la solita struttura a schermo singolo tipica delle chat e passa a un layout a due schermi, adatto al multitasking per aumentare la produttività.

Fig 1. Canvas porta aggiornamenti UI su ChatGPT.
Prima dell'introduzione di Canvas, lavorare con documenti lunghi su ChatGPT significava dover scorrere spesso verso l'alto e verso il basso. Nel nuovo layout, i prompt sono visualizzati nella barra laterale sinistra, mentre il documento di testo o lo snippet di codice occupa la maggior parte dello schermo. Se necessario, puoi persino personalizzare le dimensioni della barra laterale sinistra e dello schermo di output. Inoltre, puoi selezionare una parte del testo o una sezione di codice e modificare la sezione specifica senza alterare l'intero documento.

Fig 2. Modifica di sezioni specifiche di testo usando Canvas.
Se usi Canvas, noterai che non esiste un pulsante o un interruttore specifico per aprirlo nell'interfaccia di ChatGPT. Invece, quando lavori con il modello GPT-4o, Canvas si apre automaticamente se rileva che stai modificando, scrivendo o programmando. Per prompt più semplici, rimane inattivo. Se vuoi aprirlo manualmente, puoi usare prompt come "Apri Canvas" o "Mostrami il layout Canvas."
Attualmente, Canvas è in beta e disponibile solo con GPT-4o. Tuttavia, OpenAI ha menzionato che Canvas sarà disponibile per tutti gli utenti gratuiti una volta uscito dalla fase beta.
Link to this sectionAggiornamenti delle API di ChatGPT#
OpenAI ha rilasciato tre nuovi aggiornamenti alle API di ChatGPT volti a migliorare efficienza, scalabilità e versatilità. Analizziamo più da vicino ciascuno di questi aggiornamenti.
Link to this sectionDistillazione dei modelli#
Usando la funzionalità di Distillazione dei modelli tramite le API di OpenAI, gli sviluppatori possono utilizzare gli output di modelli avanzati come GPT-4o o o1-preview per migliorare le prestazioni di modelli più piccoli ed economici come GPT-4o mini. La distillazione dei modelli è un processo che prevede l'addestramento di modelli più piccoli affinché imitino il comportamento di quelli più avanzati, rendendoli più efficienti per attività specifiche.
Prima dell'introduzione di questa funzionalità, gli sviluppatori dovevano coordinare manualmente una serie di attività utilizzando strumenti diversi. Queste attività includevano la generazione di dataset, la misurazione delle prestazioni del modello e il fine-tuning dei modelli, il che spesso rendeva il processo complesso e incline agli errori. L'aggiornamento Model Distillation permette agli sviluppatori di utilizzare Stored Completions, uno strumento che consente loro di generare dataset automaticamente, acquisendo e memorizzando le coppie input-output prodotte da modelli avanzati tramite l'API.
Un'altra caratteristica della Distillazione dei modelli, Evals (attualmente in beta), aiuta a misurare quanto bene un modello esegue compiti specifici, senza bisogno di creare script di valutazione personalizzati o usare strumenti separati. Usando dataset generati con i Stored Completions e valutando le prestazioni con Evals, gli sviluppatori possono effettuare il fine-tuning dei propri modelli GPT personalizzati.

Fig 3. Puoi usare Evals per misurare le prestazioni del modello.
Link to this sectionCaching dei prompt#
Spesso, quando costruisci applicazioni AI, specialmente chatbot, lo stesso contesto (le informazioni di base o la cronologia della conversazione precedente necessarie per comprendere la richiesta attuale) viene utilizzato ripetutamente per molteplici chiamate API. Prompt Caching permette agli sviluppatori di riutilizzare i token di input utilizzati di recente (segmenti di testo che il modello elabora per comprendere il prompt e generare una risposta), contribuendo a ridurre costi e latenza.
Dal 1° ottobre, OpenAI ha applicato automaticamente il Prompt Caching ai suoi modelli come GPT-4o, GPT-4o mini, o1-preview e o1-mini. Ciò significa che quando gli sviluppatori usano l'API per interagire con un modello con un prompt lungo (oltre 1.024 token), il sistema salva le parti che ha già elaborato.
In questo modo, se vengono utilizzati di nuovo prompt identici o simili, può evitare di ricalcolare quelle parti. Il sistema memorizza automaticamente nella cache la parte più lunga del prompt precedentemente incontrata, iniziando con 1.024 token e aggiungendo blocchi da 128 token man mano che il prompt si allunga.
Link to this sectionAPI Realtime#
La creazione di un assistente vocale comporta generalmente la necessità di trascrivere l'audio in testo, elaborare il testo e poi convertirlo nuovamente in audio per riprodurre la risposta. La Realtime API di OpenAI mira a gestire l'intero processo con una singola richiesta API. Semplificando il processo, l'API abilita conversazioni in tempo reale con l'AI.
Ad esempio, un assistente vocale integrato con l'API Realtime può eseguire azioni specifiche, come effettuare un ordine o trovare informazioni, in base alle richieste dell'utente. L'API rende l'assistente vocale più reattivo e in grado di adattarsi rapidamente alle esigenze degli utenti. L'API Realtime è diventata disponibile tramite beta pubblica il 1° ottobre, con sei voci. Il 30 ottobre sono state aggiunte altre cinque voci, portando a undici il numero totale di voci disponibili.

Fig 4. Un esempio di utilizzo dell'API Realtime per esercitarsi nelle conversazioni in una nuova lingua.
Link to this sectionFine-tuning di ChatGPT per attività visive#
Originariamente, il modello linguistico visivo GPT-4o poteva essere sottoposto a fine-tuning e personalizzato solo usando dataset di solo testo. Ora, con il rilascio dell'API di fine-tuning visivo, gli sviluppatori possono addestrare e personalizzare GPT-4o usando dataset di immagini. Dal suo rilascio, il fine-tuning visivo è diventato un argomento di grande interesse tra sviluppatori e ingegneri di visione artificiale.
Per effettuare il fine-tuning delle capacità visive di GPT-4o, gli sviluppatori possono usare dataset di immagini che spaziano da un minimo di 100 immagini a un massimo di 50.000. Dopo aver verificato che il dataset rispetti il formato richiesto da OpenAI, può essere caricato sulla piattaforma OpenAI e il modello può essere sottoposto a fine-tuning per applicazioni specifiche.
Ad esempio, Automat, un'azienda di automazione, ha usato un dataset di screenshot per addestrare GPT-4o a identificare elementi dell'interfaccia utente su uno schermo in base a una descrizione. Questo aiuta a semplificare la Robotic Process Automation (RPA) rendendo più facile per i bot interagire con le interfacce utente. Invece di fare affidamento su coordinate fisse o complesse regole di selezione, il modello può identificare gli elementi dell'interfaccia in base a semplici descrizioni, rendendo le configurazioni di automazione più adattabili e facili da mantenere quando le interfacce cambiano.

Fig 5. Uso di una versione di GPT-4o sottoposta a fine-tuning per rilevare elementi UI.
Link to this sectionEquità di ChatGPT e rilevamento dei bias#
Le preoccupazioni etiche riguardanti le applicazioni AI sono un argomento di conversazione importante man mano che l'AI diventa sempre più avanzata. Poiché le risposte di ChatGPT si basano sui prompt forniti dall'utente e sui dati disponibili su Internet, può essere difficile perfezionare il suo linguaggio affinché sia sempre responsabile. I report indicano che le risposte di ChatGPT sono influenzate dai bias relativi a nome, genere e razza. Per affrontare questo problema, il team interno di OpenAI ha condotto un test di equità in prima persona.
I nomi spesso contengono sottili indizi sulla nostra cultura e su fattori geografici. Nella maggior parte dei casi, ChatGPT ignora i sottili indizi nei nomi. Tuttavia, in alcuni casi, i nomi che riflettono razza o cultura portano a risposte diverse da ChatGPT, con circa l'1% di queste che riflette linguaggio dannoso. Eliminare i bias e il linguaggio dannoso è un compito impegnativo per un modello linguistico. Tuttavia, condividendo pubblicamente questi risultati e riconoscendo i limiti del modello, OpenAI aiuta gli utenti a perfezionare i propri prompt per ottenere risposte più neutrali e prive di bias.

Fig 6. Un esempio di risposte divergenti a causa del nome dell'utente.
Link to this sectionCapire la ricerca di ChatGPT#
Quando ChatGPT è stato lanciato per la prima volta, c'erano discussioni nella comunità AI sulla possibilità che potesse sostituire la tradizionale navigazione web. Ora, molti utenti usano ChatGPT al posto di Google Search.
Il nuovo aggiornamento di OpenAI, la funzionalità di Ricerca, fa un ulteriore passo avanti. Con la Ricerca, ChatGPT genera risposte aggiornate e include collegamenti a fonti pertinenti. A partire dal 31 ottobre, la funzionalità di Ricerca è disponibile per tutti gli utenti ChatGPT Plus e Team, rendendo ChatGPT simile a un motore di ricerca basato su AI.

Fig 7. Un esempio di utilizzo della nuova funzionalità di Ricerca di ChatGPT.
Link to this sectionLa strada da percorrere#
I recenti aggiornamenti di ChatGPT si concentrano sul rendere l'AI più utile, flessibile ed equa. La nuova funzionalità Canvas aiuta gli utenti a lavorare in modo più efficiente, mentre il fine-tuning visivo consente agli sviluppatori di personalizzare i modelli per gestire meglio le attività visive. Affrontare l'equità e ridurre i bias sono anche priorità chiave, garantendo che l'AI funzioni bene per tutti, indipendentemente da chi siano. Che tu sia uno sviluppatore che esegue il fine-tuning dei modelli o che tu stia solo usando le ultime funzionalità, ChatGPT si sta evolvendo per soddisfare una vasta gamma di esigenze. Con capacità in tempo reale, integrazione visiva e un focus sull'uso responsabile, questi aggiornamenti stanno costruendo un'esperienza AI più affidabile e degna di fiducia per tutti.
Scopri di più sull'AI visitando il nostro repository GitHub e unendoti alla nostra community. Scopri di più sulle applicazioni dell'AI nella guida autonoma e nell'assistenza sanitaria.






