GPT-4o di OpenAI mostra il potenziale dell'IA
Esplora il nuovo GPT-4o di OpenAI, caratterizzato da un'IA avanzata con interazioni realistiche che cambiano il modo in cui comunichiamo con la tecnologia. Esplora le sue caratteristiche rivoluzionarie!

Lunedì 13 maggio 2024, OpenAI ha annunciato il lancio del suo nuovo modello di punta, GPT-4o, dove la 'o' sta per 'omni'. GPT-4o è un avanzato modello di AI multimodale per interazioni in tempo reale via testo, audio e visione, che offre un'elaborazione più rapida, supporto multilingua e una maggiore sicurezza.
Introduce capacità di AI generativa mai viste prima. Basandosi sui punti di forza conversazionali di ChatGPT, le funzionalità di GPT-4o segnano un passo avanti sostanziale nel modo in cui le persone percepiscono l'AI. Ora possiamo parlare con GPT-4o come se fosse una persona reale. Immergiamoci e scopriamo esattamente di cosa è capace GPT-4o!
Link to this sectionConosciamo GPT-4o#
Durante l'aggiornamento primaverile di OpenAI, è stato rivelato che, sebbene GPT-4o sia intelligente quanto GPT-4, è in grado di elaborare i dati più velocemente ed è meglio attrezzato per gestire testo, visione e audio. A differenza delle versioni precedenti, focalizzate sul rendere i modelli più intelligenti, questa release è stata realizzata tenendo a mente la necessità di rendere l'AI più facile da usare per il grande pubblico.

Fig 1. Aggiornamento Primaverile di OpenAI
La modalità vocale di ChatGPT, rilasciata alla fine dello scorso anno, prevedeva l'integrazione di tre modelli diversi per trascrivere gli input vocali, comprendere e generare risposte scritte e convertire il testo in parlato affinché l'utente potesse ascoltare una risposta. Questa modalità gestiva problemi di latenza e non risultava molto naturale. GPT-4o può elaborare nativamente testo, visione e audio in un colpo solo per dare all'utente l'impressione di partecipare a una conversazione naturale.
Inoltre, a differenza della modalità vocale, ora puoi interrompere GPT-4o mentre parla e reagirà proprio come farebbe una persona. Si fermerà ad ascoltare, per poi fornire una risposta in tempo reale basata su ciò che hai detto. Può anche esprimere emozioni attraverso la voce e comprendere il tuo tono.
Link to this sectionFunzionalità entusiasmanti di GPT-4o#
La valutazione del modello GPT-4o mostra quanto sia avanzato. Uno dei risultati più interessanti è che GPT-4o migliora notevolmente il riconoscimento vocale rispetto a Whisper-v3 in tutte le lingue, specialmente in quelle meno comuni.
Le prestazioni dell'ASR (Automatic Speech Recognition) audio misurano quanto accuratamente un modello trascrive il linguaggio parlato in testo. Le prestazioni di GPT-4o sono monitorate tramite il Word Error Rate (WER), che mostra la percentuale di parole trascritte in modo errato (un WER inferiore indica una qualità migliore). Il grafico sottostante mostra il WER inferiore di GPT-4o in varie regioni, dimostrando la sua efficacia nel migliorare il riconoscimento vocale per le lingue con meno risorse.

Fig 2. GPT-4o ha un riconoscimento vocale superiore in più lingue.
Ecco uno sguardo ad alcune altre caratteristiche uniche di GPT-4o:
- Più veloce - È due volte più veloce di GPT-4 Turbo. Può rispondere agli input audio in soli 232 millisecondi, tempi di risposta simili a quelli di una conversazione umana.
- Conveniente - La versione API di GPT-4o è il 50% più economica di GPT-4 Turbo.
- Memoria - GPT-4o ha la capacità di mantenere la consapevolezza tra diverse conversazioni. Può ricordare di cosa stai parlando in chat diverse.
- Multilingua - GPT-4o è stato addestrato per migliorare la velocità e la qualità in 50 lingue diverse.
Link to this sectionEsempi di ciò che GPT-4o può fare#
Ora puoi tirare fuori GPT-4o sul tuo telefono, accendere la fotocamera e chiedere a GPT-4o, come faresti con un amico, di indovinare il tuo umore in base alla tua espressione facciale. GPT-4o può vederti attraverso la fotocamera e rispondere.

Fig 3. GPT-4o che comprende l'umore di una persona tramite video.
Puoi persino usarlo per risolvere problemi di matematica mostrando a GPT-4o cosa stai scrivendo tramite video. In alternativa, potresti condividere lo schermo e lui può diventare un utile tutor su Khan Academy, chiedendoti di indicare diverse parti di un triangolo in geometria, come mostrato di seguito.

Fig 4. GPT-4o che funge da tutor su Khan Academy.
Oltre ad aiutare i ragazzi con la matematica, gli sviluppatori possono conversare con GPT-4o per eseguire il debug del proprio codice. Ciò è possibile grazie all'introduzione di ChatGPT come app desktop. Se evidenzi e copi il codice usando CTRL "C" mentre parli con l'app vocale desktop di GPT-4o, sarà in grado di leggere il tuo codice. Oppure, potresti usarlo per tradurre conversazioni tra sviluppatori che parlano lingue diverse.
Le possibilità con GPT-4o sembrano infinite. Una delle demo più interessanti di OpenAI ha utilizzato due telefoni per mostrare GPT-4o mentre parla con diverse istanze di se stesso e cantano insieme.

Fig 5. AI che parla e canta con un'altra AI.
Link to this sectionApplicazioni di GPT-4o#
Come mostrato in una demo, GPT-4o può rendere il mondo più accessibile per le persone con disabilità visive. Può aiutarle a interagire e a muoversi in modo più sicuro e indipendente. Ad esempio, gli utenti possono attivare il video e mostrare a GPT-4o una vista della strada. GPT-4o può quindi fornire descrizioni in tempo reale dell'ambiente, come identificare ostacoli, leggere segnali stradali o guidarli verso una posizione specifica. Può persino aiutarli a chiamare un taxi avvisandoli quando un taxi si sta avvicinando.

Fig 6. GPT-4o che segnala l'avvicinarsi di un taxi.
Allo stesso modo, GPT-4o può trasformare vari settori con le sue capacità avanzate. Nel retail, può migliorare il servizio clienti fornendo assistenza in tempo reale, rispondendo alle richieste e aiutando i clienti a trovare prodotti sia online che in negozio. Diciamo che stai guardando uno scaffale di prodotti e non riesci a trovare quello che cerchi: GPT-4o può aiutarti.
Nell'healthcare, GPT-4o può assistere nella diagnostica analizzando i dati dei pazienti, suggerendo possibili condizioni in base ai sintomi e offrendo indicazioni sulle opzioni di trattamento. Può anche supportare i professionisti medici riassumendo le cartelle cliniche, fornendo un rapido accesso alla letteratura medica e offrendo persino la traduzione in tempo reale per comunicare con pazienti che parlano lingue diverse. Questi sono solo un paio di esempi. Le applicazioni di GPT-4o rendono la vita quotidiana più facile offrendo assistenza su misura e sensibile al contesto, abbattendo le barriere alla comunicazione e all'accesso alle informazioni.
Link to this sectionGPT-4o e la sicurezza del modello#
Proprio come le versioni precedenti di GPT, che hanno avuto un impatto su centinaia di milioni di vite, GPT-4o probabilmente interagirà con audio e video in tempo reale a livello globale, rendendo la sicurezza un elemento cruciale in queste applicazioni. OpenAI è stata molto attenta a costruire GPT-4o concentrandosi sulla mitigazione dei potenziali rischi.
Per garantire sicurezza e affidabilità, OpenAI ha implementato rigorose misure di sicurezza. Queste includono il filtraggio dei dati di addestramento, il perfezionamento del comportamento del modello dopo l'addestramento e l'integrazione di nuovi sistemi di sicurezza per la gestione delle uscite vocali. Inoltre, GPT-4o è stato ampiamente testato da oltre 70 esperti esterni in campi come la psicologia sociale, i bias e l'equità, e la disinformazione. I test esterni assicurano che qualsiasi rischio introdotto o amplificato dalle nuove funzionalità venga identificato e affrontato.
Per mantenere elevati standard di sicurezza, OpenAI sta rilasciando le funzionalità di GPT-4o gradualmente nelle prossime settimane. Un rilascio graduale consente a OpenAI di monitorare le prestazioni, risolvere eventuali problemi e raccogliere il feedback degli utenti. Adottare un approccio attento garantisce che GPT-4o offra funzionalità avanzate mantenendo i più alti standard di sicurezza e uso etico.
Link to this sectionProva tu stesso GPT-4o#
GPT-4o è disponibile per l'accesso gratuito. Per provare le capacità di conversazione in tempo reale sopra menzionate, puoi scaricare l'app ChatGPT dal Google Play Store o dall'Apple App Store direttamente sul tuo telefono.
Dopo aver effettuato l'accesso, potrai selezionare GPT-4o dall'elenco visualizzato toccando i tre punti nell'angolo in alto a destra dello schermo. Dopo aver navigato in una chat abilitata con GPT-4o, se tocchi il segno più nell'angolo in basso a sinistra dello schermo, vedrai diverse opzioni di input. Nell'angolo in basso a destra dello schermo, vedrai un'icona a forma di cuffie. Selezionando l'icona, ti verrà chiesto se desideri provare una versione hands-free di GPT-4o. Dopo aver accettato, potrai provare GPT-4o, come mostrato di seguito.

Fig 7. Provare GPT-4o sull'app mobile di ChatGPT.
Se desideri integrare le funzionalità avanzate di GPT-4o nei tuoi progetti, è disponibile come API per gli sviluppatori. Ti consente di incorporare il potente riconoscimento vocale, il supporto multilingua e le capacità di conversazione in tempo reale di GPT-4o nelle tue applicazioni. Utilizzando l'API, puoi migliorare l'esperienza utente, creare app più intelligenti e portare la tecnologia AI all'avanguardia in diversi settori.
Link to this sectionGPT-4o: Non ancora del tutto umano#
Sebbene GPT-4o sia molto più avanzato dei precedenti modelli di AI, è importante ricordare che GPT-4o presenta i suoi limiti. OpenAI ha menzionato che a volte può cambiare lingua casualmente mentre parla, passando dall'inglese al francese. Hanno anche notato che GPT-4o traduce in modo errato tra le lingue. Man mano che più persone proveranno il modello, capiremo dove eccelle GPT-4o e dove ha bisogno di ulteriori miglioramenti.
Link to this sectionIl succo del discorso#
Il GPT-4o di OpenAI apre nuove porte per l'AI con la sua elaborazione avanzata di testo, visione e audio, offrendo interazioni naturali simili a quelle umane. Eccelle in termini di velocità, efficienza dei costi e supporto multilingua. GPT-4o è uno strumento versatile per l'istruzione, l'accessibilità e l'assistenza in tempo reale. Man mano che gli utenti esploreranno le capacità di GPT-4o, il feedback guiderà la sua evoluzione. GPT-4o dimostra che l'AI sta davvero cambiando il nostro mondo e diventando parte della nostra vita quotidiana.
Esplora il nostro GitHub repository e unisciti alla nostra community per approfondire l'AI. Visita le nostre pagine delle soluzioni per vedere come l'AI sta trasformando settori come la manufacturing e l'agriculture.






