Uno sguardo alle entusiasmanti innovazioni dell'IA del primo trimestre del 2024. Parleremo di scoperte come l'intelligenza artificiale Sora di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.

Uno sguardo alle entusiasmanti innovazioni dell'IA del primo trimestre del 2024. Parleremo di scoperte come l'intelligenza artificiale Sora di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.
La comunità dell'IA sembra fare notizia quasi ogni giorno. I primi mesi del 2024 sono stati entusiasmanti e ricchi di innovazioni nel campo dell'IA. Dai nuovi e potenti modelli linguistici alle protesi cerebrali umane, il 2024 si preannuncia sorprendente.
Stiamo assistendo alla trasformazione dell'IA nei settori industriali, rendendo le informazioni più accessibili e persino muovendo i primi passi verso la fusione delle nostre menti con le macchine. Torniamo indietro al primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti dall'IA in pochi mesi.
I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati testuali, sono stati al centro della scena nel primo trimestre del 2024. Molte grandi aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo di precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcuni dei più importanti LLM rilasciati all'inizio del 2024.
Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e basilari. Sonnet bilancia la velocità con l'intelligenza e si rivolge alle applicazioni aziendali. Opus, la versione più avanzata, offre un'intelligenza e un ragionamento senza pari ed è ideale per attività complesse e per ottenere i migliori benchmark.
Claude 3 vanta numerose funzioni e miglioramenti avanzati:
Databricks DBRX è un LLM aperto e generico rilasciato da Databricks il 27 marzo 2024. DBRX ottiene ottimi risultati in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli affermati, pur essendo più piccolo di circa il 40% rispetto a modelli simili.
DBRX è stato addestrato utilizzando la predizione dei next-token con un'architettura a grana fine di tipo "mixture-of-experts" (MoE), ed è per questo che possiamo notare miglioramenti significativi nelle prestazioni di addestramento e inferenza. La sua architettura consente al modello di prevedere con maggiore precisione la parola successiva in una sequenza consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono in grado di gestire diversi tipi di informazioni o compiti.
Il 15 febbraio 2024 Google ha presentato Gemini 1.5, un modello di intelligenza artificiale multimodale ed efficiente dal punto di vista dei calcoli, in grado di analizzare dati testuali, video e audio. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una delle caratteristiche principali di Gemini 1.5 è l'innovazione nella comprensione dei contesti lunghi. Il modello è in grado di gestire fino a 1 milione di token in modo costante. Le capacità di Gemini 1.5 sono anche merito di una nuova architettura basata su MoE.
Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:
Il primo trimestre del 2024 ha svelato modelli di IA generativa in grado di creare immagini così reali da suscitare dibattiti sul futuro dei social media e sui progressi dell'IA. Scopriamo i modelli che stanno animando la conversazione.
OpenAI, il creatore di ChatGPT, ha annunciato il 15 febbraio 2024 un modello di deep learning text-to-video all'avanguardia, chiamato Sora. Sora è un generatore di video testuali in grado di generare video della durata di un minuto con un'elevata qualità visiva sulla base di richieste testuali dell'utente.
Ad esempio, date un'occhiata al seguente prompt.
"Un mondo di papercraft splendidamente reso di una barriera corallina, ricca di pesci e creature marine colorate".
Ecco un fotogramma del video in uscita.
L'architettura di Sora lo rende possibile fondendo modelli di diffusione per la generazione di texture e modelli di trasformazione per la coerenza strutturale. Finora l'accesso a Sora è stato concesso ai red teamer e a un gruppo selezionato di artisti visivi, designer e registi per capire i rischi e ottenere un feedback.
Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione da testo a immagine, il 22 febbraio 2024. Il modello mescola l'architettura del trasformatore di diffusione e il flow matching. Non è stato ancora rilasciato un documento tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.
L'ultimo modello di Stable Diffusion offre migliori prestazioni, qualità dell'immagine e precisione nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà inoltre una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Gli utenti potranno scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.
Il 23 gennaio 2024 Google ha lanciato Lumiere, un modello di diffusione da testo a video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, in breve STUNet. Aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo è in grado di generare video fluidi e realistici.
Con la capacità di generare 80 fotogrammi per video, Lumiere sta superando i limiti e stabilendo nuovi standard per la qualità video nello spazio AI. Ecco alcune delle caratteristiche di Lumiere:
L'inizio del 2024 ha portato anche molte innovazioni nel campo dell'intelligenza artificiale che sembrano uscite da un film di fantascienza. Si sta lavorando a cose che in passato avremmo ritenuto impossibili. Il futuro non sembra così lontano con le seguenti scoperte.
Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano il 29 gennaio 2024. Si tratta di un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha dichiarato che il primo prodotto di Neuralink, chiamato "Telepathy", è in preparazione.
L'obiettivo è quello di consentire agli utenti, in particolare a quelli che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso il pensiero. Le potenziali applicazioni vanno oltre la comodità. Elon Musk immagina un futuro in cui le persone paralizzate possano comunicare facilmente.
Il 18 gennaio 2024, Walt Disney Imagineering ha presentato l'HoloTile Floor. È stato definito il primo tappeto mobile omnidirezionale per più persone al mondo.
È in grado di muoversi sotto qualsiasi persona o oggetto, come se fosse una telecinesi, per un'esperienza coinvolgente di realtà virtuale e aumentata. È possibile camminare in qualsiasi direzione ed evitare collisioni. L'HoloTile Floor di Disney può anche essere installato su palcoscenici teatrali per danzare e muoversi in modo creativo.
Il 2 febbraio 2024 arriverà sul mercato l'attesissimo auricolare Vision Pro di Apple. Ha una serie di funzioni e applicazioni progettate per ridefinire l'esperienza della realtà virtuale e aumentata. Le cuffie Vision Pro si rivolgono a un pubblico eterogeneo, unendo intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che al momento del lancio sono state ottimizzate per Vision Pro oltre 600 applicazioni, dagli strumenti di produttività ai servizi di gioco e intrattenimento.
Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di ingegnere informatico autonomo. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano compiti specifici, Devin è progettato per gestire interi progetti di sviluppo software, dal concetto iniziale al completamento.
Può imparare nuove tecnologie, costruire e distribuire applicazioni complete, trovare e risolvere bug, addestrare i propri modelli, contribuire alle basi di codice open-source e di produzione e persino accettare lavori di sviluppo reali da siti come Upwork.
Devin è stato valutato su SWE-bench, un benchmark impegnativo che chiede agli agenti di risolvere problemi reali di GitHub riscontrati in progetti open-source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.
Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma ecco altre menzioni d'onore.
L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molti importanti traguardi tecnologici. Ma questo è solo l'inizio di ciò che l'IA può fare. Se desiderate saperne di più sugli ultimi sviluppi dell'IA, Ultralytics vi ha fornito tutte le informazioni necessarie.
Consultate il nostro repository GitHub per vedere i nostri ultimi contributi in materia di computer vision e IA. Potete anche consultare le nostre pagine dedicate alle soluzioni per vedere come l'IA viene utilizzata in settori come quello manifatturiero e sanitario.