Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Gli ultimi aggiornamenti di OpenAI: Canvas, Vision Fine-Tuning e altro

Abirami Vina

4 minuti di lettura

7 novembre 2024

Scoprite insieme a noi i recenti aggiornamenti di ChatGPT rilasciati da OpenAI. Esploreremo Canvas, la messa a punto delle capacità di visione e l'ultima funzione di ricerca.

Dopo l'ultima occhiata ai modelli o1 di OpenAI a settembre (progettati per migliorare il ragionamento), sono state aggiunte molte nuove ed entusiasmanti funzionalità a ChatGPT. Alcune di queste novità sono rivolte agli sviluppatori, mentre altre sono state pensate per migliorare l'esperienza degli utenti. Nel complesso, ogni aggiornamento contribuisce a rendere le interazioni con ChatGPT più intuitive ed efficaci.

Aggiornamenti come Canvas, progettato per la scrittura e la codifica collaborativa, e la messa a punto delle capacità di visione che migliora il modo in cui ChatGPT lavora con le immagini, hanno suscitato molto interesse, incoraggiando gli utenti a esplorare più possibilità creative. Nel frattempo, gli aggiornamenti tecnici, come le nuove API e i rapporti sui test di correttezza, affrontano aspetti come l'integrazione dei modelli e le pratiche etiche dell'IA . Immergiamoci e scopriamo meglio le ultime funzionalità di ChatGPT di OpenAI!

Una panoramica della funzionalità canvas di OpenAI

Canvas è il primo aggiornamento importante dell'interfaccia utente (UI) di ChatGPTdal suo rilascio. Si tratta di una nuova interfaccia con un layout a due schermate, con le richieste nella barra laterale sinistra e le risposte nella finestra laterale destra. La nuova interfaccia utente elimina il flusso di lavoro abituale di una struttura a schermo singolo simile a una chat e passa a un layout a due schermi che si adatta al multitasking per aumentare la produttività.

Figura 1. Canvas porta aggiornamenti dell'interfaccia utente a ChatGPT.

Prima dell'introduzione di Canvas, lavorare con documenti lunghi su ChatGPT significava dover scorrere in alto e in basso. Nel nuovo layout, le richieste vengono visualizzate sulla barra laterale sinistra e il documento di testo o lo snippet di codice occupa la maggior parte dello schermo. Se necessario, è possibile personalizzare le dimensioni della barra laterale sinistra e della schermata di output. Inoltre, è possibile selezionare una parte del testo o una sezione di codice e modificare la sezione specifica senza alterare l'intero documento.

Fig. 2. Modifica di sezioni specifiche del testo utilizzando Canvas.

Se utilizzate Canvas, noterete che non c'è un pulsante o una levetta specifica per aprirlo nell'interfaccia di ChatGPT . Invece, quando si lavora con il modello GPT-4o, Canvas si apre automaticamente se rileva che si sta modificando, scrivendo o codificando. Per le richieste più semplici, rimane inattivo. Se si desidera aprirlo manualmente, si possono usare messaggi come "Apri la Tela" o "Dammi il layout della Tela".

Attualmente, Canvas è in versione beta ed è disponibile solo con GPT-4o. Tuttavia, OpenAI ha menzionato che Canvas sarà disponibile per tutti gli utenti gratuiti quando uscirà dalla fase beta.

Aggiornamenti API di ChatGPT

OpenAI ha rilasciato tre nuovi aggiornamenti dell'API ChatGPT volti a migliorare l'efficienza, la scalabilità e la versatilità. Diamo un'occhiata più da vicino a ciascuno di questi aggiornamenti.

Distillazione del modello

Utilizzando la funzionalità di Distillazione del modello tramite le API di OpenAI, gli sviluppatori possono utilizzare gli output di modelli avanzati come GPT-4o o o1-preview per migliorare le prestazioni di modelli più piccoli ed efficienti in termini di costi come GPT-4o mini. La distillazione del modello è un processo che prevede l'addestramento di modelli più piccoli per imitare il comportamento di quelli più avanzati, rendendoli più efficienti per compiti specifici.

Prima dell'introduzione di questa funzionalità, gli sviluppatori dovevano coordinare manualmente una varietà di attività utilizzando strumenti diversi. Queste attività includevano la generazione di dataset, la misurazione delle prestazioni del modello e la messa a punto dei modelli, il che spesso rendeva il processo complesso e soggetto a errori. L'aggiornamento Model Distillation consente agli sviluppatori di utilizzare Stored Completions, uno strumento che consente loro di generare automaticamente dataset acquisendo e memorizzando le coppie input-output prodotte da modelli avanzati tramite l'API.

Un'altra caratteristica della Model Distillation, Evals (attualmente in versione beta), aiuta a misurare le prestazioni di un modello su compiti specifici, senza la necessità di creare script di valutazione personalizzati o di utilizzare strumenti separati. Utilizzando set di dati generati con Stored Completions e valutando le prestazioni con Evals, gli sviluppatori possono ottimizzare i propri modelli GPT personalizzati.

Fig. 3. È possibile utilizzare Evals per misurare le prestazioni del modello.

Caching dei prompt

Spesso, quando si creano applicazioni di IA, specialmente chatbot, lo stesso contesto (le informazioni di background o la cronologia delle conversazioni precedenti necessarie per comprendere la richiesta corrente) verrà utilizzato ripetutamente per più chiamate API. La Prompt Caching consente agli sviluppatori di riutilizzare i token di input utilizzati di recente (segmenti di testo che il modello elabora per comprendere il prompt e generare una risposta), contribuendo a ridurre i costi e la latenza.

Dal 1° ottobre, OpenAI ha applicato automaticamente la Prompt Caching ai suoi modelli come GPT-4o, GPT-4o mini, o1-preview e o1-mini. Ciò significa che quando gli sviluppatori utilizzano l'API per interagire con un modello con un prompt lungo (oltre 1.024 token), il sistema salva le parti che ha già elaborato. 

In questo modo, se vengono utilizzati di nuovo prompt uguali o simili, può evitare di ricalcolare quelle parti. Il sistema memorizza automaticamente nella cache la parte più lunga del prompt che ha incontrato in precedenza, a partire da 1.024 token e aggiungendo blocchi di 128 token man mano che il prompt diventa più lungo.

API in tempo reale

La creazione di un assistente vocale generalmente comporta la necessità di trascrivere l'audio in testo, elaborare il testo e quindi riconvertirlo in audio per riprodurre la risposta. L'API Realtime di OpenAI mira a gestire l'intero processo con una singola richiesta API. Semplificando il processo, l'API consente conversazioni in tempo reale con l'AI. 

Ad esempio, un assistente vocale integrato con la Realtime API può eseguire azioni specifiche, come effettuare un ordine o trovare informazioni, in base alle richieste dell'utente. L'API rende l'assistente vocale più reattivo e in grado di adattarsi rapidamente alle esigenze degli utenti. La Realtime API è diventata disponibile tramite beta pubblica il 1° ottobre, con sei voci. Il 30 ottobre sono state aggiunte altre cinque voci, per un totale di undici voci disponibili.

Fig. 4. Un esempio di utilizzo dell'API Realtime per esercitarsi nelle conversazioni in una nuova lingua.

Messa a punto di ChatGPT per i compiti di visione

In origine, il modello linguistico di visione GPT-4o poteva essere messo a punto e personalizzato solo utilizzando set di dati di solo testo. Ora, con il rilascio dell'API di fine-tuning della visione, gli sviluppatori possono addestrare e personalizzare GPT-4o utilizzando set di dati di immagini. Dal suo rilascio, il fine-tuning della visione è diventato un importante argomento di interesse tra gli sviluppatori e gli ingegneri della computer vision.

Per ottimizzare le capacità di visione di GPT-4o, gli sviluppatori possono utilizzare set di dati di immagini che variano da un minimo di 100 immagini a un massimo di 50.000 immagini. Dopo aver verificato che il set di dati corrisponda al formato richiesto da OpenAI, può essere caricato sulla piattaforma OpenAI e il modello può essere ottimizzato per applicazioni specifiche. 

Ad esempio, Automat, una società di automazione, ha utilizzato un set di dati di screenshot per addestrare GPT-4o a identificare gli elementi dell'interfaccia utente su uno schermo in base a una descrizione. Questo aiuta a semplificare la Robotic Process Automation (RPA), facilitando l'interazione dei bot con le interfacce utente. Invece di fare affidamento su coordinate fisse o regole di selezione complesse, il modello può identificare gli elementi dell'interfaccia utente in base a semplici descrizioni, rendendo le configurazioni di automazione più adattabili e facili da mantenere quando le interfacce cambiano.

Figura 5. Utilizzo di una versione perfezionata del modello GPT-4o per detect elementi dell'interfaccia utente.

ChatGPT equità e rilevamento dei pregiudizi

Le preoccupazioni etiche che circondano le applicazioni di IA sono un argomento di conversazione importante, dato che l'IA diventa sempre più avanzata. Poiché le risposte di ChatGPTsi basano sui suggerimenti forniti dagli utenti e sui dati disponibili su Internet, può essere difficile perfezionare il suo linguaggio per essere sempre responsabile. Le segnalazioni indicano che le risposte diChatGPTsono distorte in base al nome, al sesso e alla razza. Per risolvere questo problema, il team interno di OpenAI ha condotto un test di correttezza in prima persona.

I nomi spesso contengono sottili indicazioni sulla nostra cultura e sui fattori geografici. Nella maggior parte dei casi, ChatGPT ignorerà le sottili indicazioni contenute nei nomi. Tuttavia, in alcuni casi, i nomi che rispecchiano la razza o la cultura danno luogo a risposte diverse da parte di ChatGPT, e circa l'1% di questi riflette un linguaggio dannoso. Eliminare i pregiudizi e il linguaggio dannoso è un compito impegnativo per un modello linguistico. Tuttavia, condividendo pubblicamente questi risultati e riconoscendo i limiti del modello, OpenAI aiuta gli utenti a perfezionare le richieste per ottenere risposte più neutre e imparziali. 

Fig. 6. Un esempio di risposte differenti a causa del nome dell'utente.

Capire la ricerca ChatGPT

Quando ChatGPT è stato lanciato per la prima volta, nella comunità dell'IA si è discusso se potesse sostituire la tradizionale navigazione sul web. Ora molti utenti utilizzano ChatGPT al posto di Google Search

Il nuovo aggiornamento di OpenAI, la funzione di ricerca, fa un ulteriore passo avanti. Con la funzione di ricerca, ChatGPT genera risposte aggiornate e include link a fonti rilevanti. Dal 31 ottobre, la funzione di ricerca è disponibile per tutti gli utenti di ChatGPT Plus e Team, rendendo ChatGPT più simile a un motore di ricerca alimentato dall'intelligenza artificiale.

Figura 7. Un esempio di utilizzo della nuova funzione di ricerca di ChatGPT.

La strada da percorrere

I recenti aggiornamenti di ChatGPT si concentrano sul rendere l'intelligenza artificiale più utile, flessibile ed equa. La nuova funzione Canvas aiuta gli utenti a lavorare in modo più efficiente, mentre la messa a punto della visione consente agli sviluppatori di personalizzare i modelli per gestire meglio i compiti visivi. Anche l'equità e la riduzione dei pregiudizi sono priorità fondamentali, per garantire che l'IA funzioni bene per tutti, indipendentemente dalla loro identità. Che siate sviluppatori che perfezionano i modelli o che stiate semplicemente utilizzando le ultime funzionalità, ChatGPT si sta evolvendo per soddisfare un'ampia gamma di esigenze. Grazie alle funzionalità in tempo reale, all'integrazione visiva e all'attenzione per un uso responsabile, questi aggiornamenti creano un'esperienza di IA più affidabile e attendibile per tutti.

Scopri di più sull'AI visitando il nostro repository GitHub e unisciti alla nostra community. Scopri di più sulle applicazioni dell'AI nella guida autonoma e nell'assistenza sanitaria.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis