Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

OpenAI o1: una nuova serie di modelli OpenAI per il ragionamento AI

Abirami Vina

5 minuti di lettura

13 settembre 2024

Scopri i nuovi modelli OpenAI o1 e cosa li rende speciali. Vedremo anche come funzionano e il loro impatto sul futuro dell'AI.

La community dell'AI è in fermento per le speculazioni sul prossimo passo dei modelli GPT di OpenAI, con molti che si riferiscono ad esso come "Project Strawberry". La ragione di ciò è che se si chiede a GPT-4o quanti R ci sono nella parola "strawberry", risponderà che ci sono due R nella parola "strawberry". Può sembrare strano, considerando quanto sia potente GPT-4o. Tuttavia, il modello è costruito per elaborare il sottotesto, non le parole esatte. Si diceva che il prossimo modello mirerà a risolvere questo problema. Sam Altman ha ulteriormente alimentato queste voci pubblicando foto di fragole sul suo account X (precedentemente noto come Twitter).

Con l'ultimo annuncio di OpenAI di giovedì 12 settembre, finalmente abbiamo una risposta alle speculazioni! È stata rilasciata OpenAI o1, una nuova serie di modelli AI progettati per rallentare e pensare prima di rispondere. È interessante notare che OpenAI o1 è in grado di ragionare meglio e rispondere correttamente alla domanda sulle fragole! In questo articolo, discuteremo di cosa è OpenAI o1, come funziona, dove può essere utilizzato e cosa significa per il futuro dell'AI. Iniziamo!

__wf_reserved_inherit
Fig. 1. Un esempio di richiesta a OpenAI o1 sulle fragole.

Nuovi progressi nell'AI da parte di OpenAI

Nel luglio 2024, i dirigenti di OpenAI hanno condiviso che la ricerca di OpenAI si sta avvicinando a un livello umano di risoluzione dei problemi, indicato come livello 2 di AI. È chiaro che questo livello si concentra sul ragionamento, poiché OpenAI introduce la sua nuova serie di modelli, OpenAI o1, come un modello che pensa prima di rispondere. OpenAI o1 è un nuovo LLM (large language model), un modello AI che comprende e genera testo simile a quello umano imparando schemi da enormi quantità di dati linguistici. È stato progettato per gestire problemi complessi che richiedono un ragionamento approfondito. 

__wf_reserved_inherit
Fig. 2. La prospettiva di OpenAI sulle fasi dell'AI.

Il modello è stato addestrato utilizzando il reinforcement learning, una tecnica in cui il modello impara a prendere decisioni migliori attraverso tentativi ed errori ricevendo ricompense o penalità per le sue azioni. L'algoritmo di reinforcement learning aiuta il modello a pensare in modo più efficace seguendo una catena di pensiero. OpenAI ha anche condiviso che le prestazioni di o1 continuano a migliorare con più reinforcement learning durante l'addestramento e con più tempo dedicato a "pensare" durante la risoluzione dei problemi, dimostrando che sia un addestramento esteso che un'elaborazione ponderata aiutano a migliorare le capacità del modello.

Sebbene OpenAI o1 sia un progresso significativo per il ragionamento complesso, è ancora un modello iniziale e manca di alcune funzionalità che rendono ChatGPT utile, come la navigazione sul web o il caricamento di file e immagini. Per molte attività comuni, GPT-4o potrebbe essere ancora più capace per ora. Tuttavia, OpenAI o1 segna un grande passo avanti nella capacità dell'AI di gestire il ragionamento complesso, motivo per cui OpenAI sta avviando una nuova serie e la chiama OpenAI o1.

Come i nuovi modelli OpenAI migliorano il ragionamento AI

OpenAI o1 può essere utilizzato per attività come decifrare codici, risolvere sfide di programmazione, rispondere a problemi di matematica, affrontare cruciverba e persino gestire argomenti complessi in scienza, sicurezza e assistenza sanitaria. In un divertente cenno al nome in codice del progetto, OpenAI ha mostrato le capacità di ragionamento del modello decifrando un codice che rivelava il messaggio "CI SONO TRE R IN FRAGOLA". 

Oltre a risolvere i codici, OpenAI o1 è anche abile nella programmazione. Si comporta bene nelle sfide di programmazione competitiva come quelle su Codeforces, una piattaforma in cui i programmatori risolvono problemi di codifica complessi in condizioni di tempo limitato. In queste sfide, il modello raggiunge alti punteggi Elo (un sistema di punteggio che misura i livelli di abilità in base alle prestazioni rispetto ad altri concorrenti) e supera i modelli precedenti. Eccelle anche in matematica e si comporta bene in esami come l'American Invitational Mathematics Examination (AIME). 

__wf_reserved_inherit
Fig. 3. Valutazione comparativa delle capacità di codifica di o1.

Questi progressi posizionano OpenAI o1 come un aggiornamento significativo rispetto ai modelli precedenti come GPT-4o. Apre nuove possibilità per l'AI in aree come business, sviluppo, ricerca e assistenza sanitaria. Ad esempio, nella ricerca genetica, OpenAI o1 può esaminare rapidamente un gran numero di articoli di ricerca, individuando risultati chiave e connessioni tra marcatori genetici e malattie. Comprende il linguaggio scientifico complesso e può riassumere i punti importanti, aiutando i ricercatori a concentrarsi sulle informazioni più rilevanti. 

Uno sguardo più da vicino alla catena di pensiero

Abbiamo visto prima che OpenAI o1 introduce un processo di ragionamento "Chain of Thought". Consente al modello di affrontare problemi complessi in un modo simile alle strategie cognitive umane. Il modello può suddividere le sfide in passaggi più piccoli e gestibili e perfezionare iterativamente il suo approccio. A differenza dei modelli precedenti che si basavano sul riconoscimento di schemi immediato, o1 ottimizza il suo processo decisionale esplorando più percorsi di ragionamento, imparando sia dai successi che dagli errori attraverso il reinforcement learning.

OpenAI ha deciso di mantenere queste catene di pensiero grezze nascoste agli utenti, offrendo invece riassunti che forniscono informazioni sul ragionamento del modello senza esporre ogni passaggio. Questa decisione aiuta a prevenire l'uso improprio del processo di pensiero del modello, consentendo al contempo agli sviluppatori di monitorare e perfezionare la sicurezza e l'allineamento dell'AI. Osservando internamente le catene nascoste, gli sviluppatori possono garantire che o1 aderisca alle linee guida etiche ed eviti comportamenti dannosi.

Benchmarking OpenAI o1

OpenAI o1 mostra notevoli miglioramenti rispetto a GPT-4o in diversi benchmark che valutano le capacità di ragionamento e problem-solving. Nell'American Invitational Mathematics Examination (AIME) 2024, un difficile esame di matematica per i migliori studenti delle scuole superiori, o1 ha raggiunto un tasso di accuratezza del 74% con un solo campione per problema, rispetto al 12% di GPT-4o. Con un consenso su 64 campioni, la sua accuratezza è aumentata all'83% e, utilizzando un metodo di re-ranking raffinato con 1.000 campioni, ha raggiunto il 93%, posizionandosi tra i primi 500 studenti a livello nazionale. 

Oltre alla matematica, o1 ha ottenuto risultati eccezionali anche nei benchmark che valutano la conoscenza scientifica, come il GPQA Diamond, che copre domande di livello di dottorato in chimica, fisica e biologia. Sorprendentemente, o1 ha superato gli esperti umani con dottorato di ricerca in questo test, diventando il primo modello di intelligenza artificiale a farlo. Ha anche superato GPT-4o in 54 categorie su 57 nel benchmark MMLU, che valuta la comprensione in una vasta gamma di materie, tra cui storia, legge e scienze.

__wf_reserved_inherit
Fig 4. Benchmarking OpenAI o1.

Sperimenta direttamente OpenAI o1

OpenAI ha introdotto due nuovi modelli di intelligenza artificiale nella serie o1: o1-preview e o1-mini. Il modello o1-preview è progettato per pensare più a fondo prima di rispondere, eccellendo in compiti di ragionamento complesso in ambito scientifico, di programmazione e matematico. Offre capacità avanzate di problem-solving per gli utenti che affrontano progetti impegnativi. Al contrario, o1-mini è un modello più piccolo, più veloce e più economico, ottimizzato specificamente per il ragionamento STEM, in particolare la matematica e la programmazione. Pur avendo una conoscenza del mondo meno ampia, o1-mini eguaglia quasi le prestazioni di o1-preview in valutazioni chiave come la competizione di matematica AIME e le sfide di programmazione di Codeforces, il tutto con un costo inferiore dell'80%.

__wf_reserved_inherit
Fig 5. Confronto tra i modelli OpenAI.

Puoi provare questi modelli attraverso varie piattaforme OpenAI. Gli utenti di ChatGPT Plus e Team possono accedere sia a o1-preview che a o1-mini tramite il selettore di modelli, sperimentando capacità di ragionamento avanzate direttamente in ChatGPT. Gli sviluppatori con accesso API di livello 5 possono iniziare a prototipare con questi modelli, anche se alcune funzionalità avanzate sono ancora in fase di sviluppo. OpenAI prevede inoltre di rendere o1-mini disponibile a tutti gli utenti di ChatGPT Free a breve. Esplorando questi modelli, puoi sperimentare in prima persona i progressi nel ragionamento dell'IA e scegliere quello più adatto alle tue esigenze.

Considerazioni etiche sull'IA fatte da OpenAI

OpenAI si è concentrata sull'etica e la sicurezza durante lo sviluppo della serie di modelli o1. Prima di rilasciare i modelli o1-preview e o1-mini, ha condotto valutazioni approfondite, inclusi test esterni e controlli interni per rischi come contenuti non consentiti, allucinazioni e bias. I modelli sono progettati con capacità di ragionamento avanzate per comprendere e seguire meglio le regole di sicurezza. 

OpenAI ha anche implementato misure di sicurezza come blocklist e classificatori di sicurezza per gestire i rischi. Il modello o1 ha una valutazione del rischio complessivo media. Presenta bassi rischi in aree come la sicurezza informatica e l'autonomia del modello e rischi medi in aree come i contenuti CBRN (chimici, biologici, radiologici e nucleari) e la persuasione. Il Safety Advisory Group e il Board di OpenAI hanno esaminato queste misure di sicurezza per garantire che il modello sia sicuro ed etico da usare.

__wf_reserved_inherit
Fig 6. Scorecard di OpenAI o1.

Dai rumors alla realtà: OpenAI o1 sale sul palco

OpenAI o1 è un grande passo avanti nel ragionamento dell'IA, trasformando alcuni dei primi rumors in realtà. A differenza di GPT-4o, la serie o1 pensa più a fondo utilizzando un approccio "Chain of Thought", scomponendo problemi complessi in passaggi più piccoli per ottenere risposte migliori. Attualmente disponibile come anteprima in ChatGPT e nell'API, OpenAI prevede di aggiungere funzionalità come la navigazione web e il caricamento di file e immagini. OpenAI ha anche condiviso che prevede di continuare a sviluppare e rilasciare modelli nella serie GPT, insieme alla nuova serie OpenAI o1. Mentre l'IA continua a evolversi, progressi come questi stanno aprendo la strada a sistemi di IA più potenti, intuitivi e versatili che possono assistere e comprendere meglio le esigenze umane.

Rimani aggiornato sulle ultime novità sull'IA unendoti alla nostra community! Visita il nostro repository GitHub per vedere come stiamo aprendo la strada a soluzioni di IA in settori come la produzione e l'assistenza sanitaria. 🚀

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti