Uno sguardo alle entusiasmanti innovazioni dell'intelligenza artificiale del primo trimestre del 2024. Tratteremo scoperte come Sora AI di OpenAI, il chip cerebrale di Neuralink e i più recenti LLM.

Uno sguardo alle entusiasmanti innovazioni dell'intelligenza artificiale del primo trimestre del 2024. Tratteremo scoperte come Sora AI di OpenAI, il chip cerebrale di Neuralink e i più recenti LLM.
La comunità dell'IA sembra far parlare di sé quasi quotidianamente. I primi mesi del 2024 sono stati entusiasmanti e ricchi di nuove innovazioni nell'IA. Dai nuovi e potenti modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si preannuncia straordinario.
Stiamo assistendo alla trasformazione dei settori grazie all'IA, che rende le informazioni più accessibili e compie persino i primi passi verso la fusione delle nostre menti con le macchine. Riavvolgiamo il primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in pochi mesi.
I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati testuali, sono stati al centro dell'attenzione nel primo trimestre del 2024. Molte importanti aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo di precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle versioni LLM più importanti dell'inizio del 2024.
Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e di base. Sonnet bilancia velocità e intelligenza ed è destinato alle applicazioni aziendali. Opus, la versione più avanzata, offre intelligenza e ragionamento senza pari ed è ideale per compiti complessi e per raggiungere i migliori benchmark.
Claude 3 vanta molte funzionalità e miglioramenti avanzati:
Databricks DBRX è un LLM open source per scopi generali rilasciato da Databricks il 27 marzo 2024. DBRX si comporta molto bene in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli consolidati pur essendo circa il 40% più piccolo di modelli simili.
DBRX è stato addestrato utilizzando la predizione del token successivo con un'architettura mixture-of-experts (MoE) a grana fine, ed è per questo che possiamo osservare miglioramenti significativi nelle prestazioni di training e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono adatti a gestire diversi tipi di informazioni o attività.
Google ha presentato Gemini 1.5, un modello di IA multimodale ad alta efficienza computazionale in grado di analizzare grandi quantità di dati testuali, video e audio, il 15 febbraio 2024. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una caratteristica fondamentale di Gemini 1.5 è la sua svolta nella comprensione del contesto a lungo termine. Il modello è in grado di gestire fino a 1 milione di token in modo coerente. Le capacità di Gemini 1.5 sono dovute anche a una nuova architettura basata su MoE.
Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:
Il primo trimestre del 2024 ha svelato modelli di AI generativa in grado di creare immagini così reali da aver scatenato dibattiti sul futuro dei social media e sui progressi dell'AI. Analizziamo i modelli che stanno suscitando la conversazione.
OpenAI, il creatore di ChatGPT, ha annunciato Sora, un modello di deep learning all'avanguardia per la generazione di video da testo, il 15 febbraio 2024. Sora è un generatore di video da testo in grado di creare video della durata di un minuto con un'elevata qualità visiva basati su prompt testuali forniti dall'utente.
Ad esempio, dai un'occhiata al seguente prompt.
“Un mondo di carta splendidamente reso di una barriera corallina, piena di pesci colorati e creature marine.”
Ed ecco un fotogramma dal video di output.
L'architettura di Sora lo rende possibile combinando modelli di diffusione per la generazione di texture e modelli transformer per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso a red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback.
Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione di immagini da testo, il 22 febbraio 2024. Il modello combina l'architettura del trasformatore di diffusione e il flow matching. Non hanno ancora rilasciato un documento tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.
L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e accuratezza migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.
Il 23 gennaio 2024, Google ha lanciato Lumiere, un modello di diffusione text-to-video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, o STUNet in breve, che aiuta Lumiere a capire dove si trovano gli oggetti e come si muovono in un video. In questo modo, può generare video fluidi e realistici.
Con la capacità di generare 80 fotogrammi per video, Lumiere sta superando i limiti e definendo nuovi standard per la qualità video nel settore dell'IA. Ecco alcune delle caratteristiche di Lumiere:
L'inizio del 2024 ha anche portato con sé molte innovazioni nell'IA che sembrano uscite da un film di fantascienza. Cose che in precedenza avremmo detto impossibili sono ora in fase di lavorazione. Il futuro non sembra così lontano con le seguenti scoperte.
Il 29 gennaio 2024, Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano. Questo è un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato 'Telepathy', è in fase di sviluppo.
L'obiettivo è consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i loro pensieri. Le potenziali applicazioni vanno oltre la semplice comodità. Elon Musk immagina un futuro in cui le persone con paralisi possano comunicare facilmente.
Il 18 gennaio 2024, Walt Disney Imagineering ha presentato HoloTile Floor, definito il primo tapis roulant omnidirezionale multi-persona al mondo.
Può muoversi sotto qualsiasi persona o oggetto come la telecinesi per un'esperienza immersiva di realtà virtuale e aumentata. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre ci sei sopra. Il pavimento HoloTile di Disney può anche essere posizionato su palcoscenici teatrali per ballare e muoversi in modi creativi.
Il 2 febbraio 2024, l'attesissimo visore Vision Pro di Apple è arrivato sul mercato. È dotato di una serie di funzionalità e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Il visore Vision Pro si rivolge a un pubblico diversificato, combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che spaziano dagli strumenti di produttività ai servizi di gioco e intrattenimento, sono state ottimizzate per Vision Pro al momento del lancio.
Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di creare un ingegnere del software AI autonomo. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano attività specifiche, Devin è progettato per gestire interi progetti di sviluppo software, dall'idea iniziale al completamento.
Può apprendere nuove tecnologie, creare e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a codebase open source e di produzione e persino assumere veri e propri lavori di sviluppo da siti come Upwork.
Devin è stato valutato su SWE-bench, un benchmark impegnativo che richiede agli agent di risolvere problemi reali di GitHub riscontrati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.
Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma, ecco alcune altre menzioni d'onore.
L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molte importanti pietre miliari tecnologiche. Ma questo è solo l'inizio di ciò che l'IA può fare. Se desideri saperne di più sugli ultimi sviluppi dell'IA, Ultralytics è qui per te.
Visita il nostro repository GitHub per scoprire i nostri ultimi contributi nel campo della computer vision e dell'AI. Puoi anche consultare le nostre pagine dedicate alle soluzioni per vedere come l'AI viene utilizzata in settori come la produzione e la sanità.