Il 2024 inizia con un'ondata di IA generativa

Abirami Vina

6 minuti di lettura

12 aprile 2024

Uno sguardo alle entusiasmanti innovazioni dell'IA del primo trimestre del 2024. Parleremo di scoperte come l'intelligenza artificiale Sora di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.

La comunità dell'IA sembra fare notizia quasi ogni giorno. I primi mesi del 2024 sono stati entusiasmanti e ricchi di innovazioni nel campo dell'IA. Dai nuovi e potenti modelli linguistici alle protesi cerebrali umane, il 2024 si preannuncia sorprendente.

Stiamo assistendo alla trasformazione dell'IA nei settori industriali, rendendo le informazioni più accessibili e persino muovendo i primi passi verso la fusione delle nostre menti con le macchine. Torniamo indietro al primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti dall'IA in pochi mesi.

I corsi di laurea magistrale sono di tendenza

I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati testuali, sono stati al centro della scena nel primo trimestre del 2024. Molte grandi aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo di precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcuni dei più importanti LLM rilasciati all'inizio del 2024.

Claude 3 di Anthropic

Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e basilari. Sonnet bilancia la velocità con l'intelligenza e si rivolge alle applicazioni aziendali. Opus, la versione più avanzata, offre un'intelligenza e un ragionamento senza pari ed è ideale per attività complesse e per ottenere i migliori benchmark.

Claude 3 vanta numerose funzioni e miglioramenti avanzati:

  • Conversazioni multilingue migliorate: Capacità migliorate in lingue come lo spagnolo, il giapponese e il francese.
  • Caratteristiche di visione avanzate: In grado di gestire diversi formati visivi.
  • Rifiuti ridotti al minimo: Mostra una maggiore comprensione con un minor numero di rifiuti non necessari, indicando una migliore comprensione del contesto.
  • Finestra di contesto estesa: Offre una finestra di contesto di 200K, ma è in grado di elaborare input superiori a 1 milione di token in base alle esigenze del cliente.
__wf_reserved_inherit
Figura 1. Claude 3 è più consapevole del contesto rispetto alle versioni precedenti.

DBRX di Databricks

Databricks DBRX è un LLM aperto e generico rilasciato da Databricks il 27 marzo 2024. DBRX ottiene ottimi risultati in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli affermati, pur essendo più piccolo di circa il 40% rispetto a modelli simili.

__wf_reserved_inherit
Figura 2. Confronto tra DBRX e altri modelli.

DBRX è stato addestrato utilizzando la predizione dei next-token con un'architettura a grana fine di tipo "mixture-of-experts" (MoE), ed è per questo che possiamo notare miglioramenti significativi nelle prestazioni di addestramento e inferenza. La sua architettura consente al modello di prevedere con maggiore precisione la parola successiva in una sequenza consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono in grado di gestire diversi tipi di informazioni o compiti.

Gemini 1.5 di Google

Il 15 febbraio 2024 Google ha presentato Gemini 1.5, un modello di intelligenza artificiale multimodale ed efficiente dal punto di vista dei calcoli, in grado di analizzare dati testuali, video e audio. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una delle caratteristiche principali di Gemini 1.5 è l'innovazione nella comprensione dei contesti lunghi. Il modello è in grado di gestire fino a 1 milione di token in modo costante. Le capacità di Gemini 1.5 sono anche merito di una nuova architettura basata su MoE.

__wf_reserved_inherit
Figura 3. Confronto tra le lunghezze dei contesti dei LLM più diffusi

Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:

  • Gestione dei dati migliorata: Consente di caricare direttamente PDF di grandi dimensioni, archivi di codice o lunghi video come prompt. Il modello è in grado di ragionare su più modalità e di produrre testo.
  • Caricamento di file multipli e domande: Gli sviluppatori possono ora caricare più file e porre domande.
  • Può essere usato per diversi compiti: È ottimizzato per scalare tra diversi compiti e mostra miglioramenti in aree come la matematica, la scienza, il ragionamento, il multilinguismo, la comprensione dei video e il codice.

Immagini sorprendenti dall'intelligenza artificiale

Il primo trimestre del 2024 ha svelato modelli di IA generativa in grado di creare immagini così reali da suscitare dibattiti sul futuro dei social media e sui progressi dell'IA. Scopriamo i modelli che stanno animando la conversazione.

Sora di OpenAI 

OpenAI, il creatore di ChatGPT, ha annunciato il 15 febbraio 2024 un modello di deep learning text-to-video all'avanguardia, chiamato Sora. Sora è un generatore di video testuali in grado di generare video della durata di un minuto con un'elevata qualità visiva sulla base di richieste testuali dell'utente. 

Ad esempio, date un'occhiata al seguente prompt. 

"Un mondo di papercraft splendidamente reso di una barriera corallina, ricca di pesci e creature marine colorate". 

Ecco un fotogramma del video in uscita. 

__wf_reserved_inherit
Figura 4. Un fotogramma di un video generato da Sora.

L'architettura di Sora lo rende possibile fondendo modelli di diffusione per la generazione di texture e modelli di trasformazione per la coerenza strutturale. Finora l'accesso a Sora è stato concesso ai red teamer e a un gruppo selezionato di artisti visivi, designer e registi per capire i rischi e ottenere un feedback. 

Diffusione stabile di AI 3 

Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione da testo a immagine, il 22 febbraio 2024. Il modello mescola l'architettura del trasformatore di diffusione e il flow matching. Non è stato ancora rilasciato un documento tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.

__wf_reserved_inherit
Figura 5. L'immagine di output basata sul prompt: "Opera d'arte anime epica di un mago in cima a una montagna di notte che lancia un incantesimo cosmico nel cielo scuro con la scritta "Diffusione stabile 3" fatta di energia colorata".

L'ultimo modello di Stable Diffusion offre migliori prestazioni, qualità dell'immagine e precisione nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà inoltre una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Gli utenti potranno scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.

Lumiere di Google 

Il 23 gennaio 2024 Google ha lanciato Lumiere, un modello di diffusione da testo a video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, in breve STUNet. Aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo è in grado di generare video fluidi e realistici.

__wf_reserved_inherit
Figura 6. Un fotogramma di un video generato sulla base del prompt: "Panda suona l'ukulele a casa".

Con la capacità di generare 80 fotogrammi per video, Lumiere sta superando i limiti e stabilendo nuovi standard per la qualità video nello spazio AI. Ecco alcune delle caratteristiche di Lumiere:

  • Da immagine a video: Partendo da un'immagine e da una richiesta, Lumiere può animare immagini in video.
  • Generazione stilizzata: Lumiere può creare video con stili specifici utilizzando una singola immagine di riferimento.
  • Cinemagraphs: Lumiere può animare regioni specifiche all'interno di un'immagine per creare scene dinamiche, come un particolare oggetto che si muove mentre il resto della scena rimane statico.
  • Video Inpainting: Può modificare parti di un video, ad esempio cambiando l'abbigliamento delle persone presenti o alterando i dettagli dello sfondo.

Il futuro sembra essere qui

L'inizio del 2024 ha portato anche molte innovazioni nel campo dell'intelligenza artificiale che sembrano uscite da un film di fantascienza. Si sta lavorando a cose che in passato avremmo ritenuto impossibili. Il futuro non sembra così lontano con le seguenti scoperte.

Neuralink di Elon Musk

Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano il 29 gennaio 2024. Si tratta di un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha dichiarato che il primo prodotto di Neuralink, chiamato "Telepathy", è in preparazione. 

__wf_reserved_inherit
Fig. 7. L'impianto Neuralink

L'obiettivo è quello di consentire agli utenti, in particolare a quelli che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso il pensiero. Le potenziali applicazioni vanno oltre la comodità. Elon Musk immagina un futuro in cui le persone paralizzate possano comunicare facilmente.

Il pavimento HoloTile Disney 

Il 18 gennaio 2024, Walt Disney Imagineering ha presentato l'HoloTile Floor. È stato definito il primo tappeto mobile omnidirezionale per più persone al mondo. 

__wf_reserved_inherit
Figura 8. Lanny Smoot, Imagineer Disney, posa sulla sua ultima innovazione, il pavimento HoloTile.

È in grado di muoversi sotto qualsiasi persona o oggetto, come se fosse una telecinesi, per un'esperienza coinvolgente di realtà virtuale e aumentata. È possibile camminare in qualsiasi direzione ed evitare collisioni. L'HoloTile Floor di Disney può anche essere installato su palcoscenici teatrali per danzare e muoversi in modo creativo.

Vision Pro di Apple

Il 2 febbraio 2024 arriverà sul mercato l'attesissimo auricolare Vision Pro di Apple. Ha una serie di funzioni e applicazioni progettate per ridefinire l'esperienza della realtà virtuale e aumentata. Le cuffie Vision Pro si rivolgono a un pubblico eterogeneo, unendo intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che al momento del lancio sono state ottimizzate per Vision Pro oltre 600 applicazioni, dagli strumenti di produttività ai servizi di gioco e intrattenimento.

Devin di Cognition

Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di ingegnere informatico autonomo. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano compiti specifici, Devin è progettato per gestire interi progetti di sviluppo software, dal concetto iniziale al completamento. 

Può imparare nuove tecnologie, costruire e distribuire applicazioni complete, trovare e risolvere bug, addestrare i propri modelli, contribuire alle basi di codice open-source e di produzione e persino accettare lavori di sviluppo reali da siti come Upwork. 

__wf_reserved_inherit
Figura 9. Confronto tra Devin e altri modelli.

Devin è stato valutato su SWE-bench, un benchmark impegnativo che chiede agli agenti di risolvere problemi reali di GitHub riscontrati in progetti open-source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.

Menzioni d'onore

Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma ecco altre menzioni d'onore. 

  • LATTE3D di NVIDIA, annunciato il 21 marzo 2024, è un modello di intelligenza artificiale text-to-3D che crea istantaneamente rappresentazioni 3D da messaggi di testo.
  • Il nuovo generatore da testo a video di Midjourney, annunciato dal CEO David Holz, ha iniziato la formazione a gennaio e dovrebbe essere lanciato a breve.
  • Per far progredire la rivoluzione dei PC AI, Lenovo ha rilasciato il ThinkBook 13x con tecnologia E Ink Prism e laptop AI ad alte prestazioni l'8 gennaio 2024.

Rimanete aggiornati sulle tendenze dell'IA con noi!

L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molti importanti traguardi tecnologici. Ma questo è solo l'inizio di ciò che l'IA può fare. Se desiderate saperne di più sugli ultimi sviluppi dell'IA, Ultralytics vi ha fornito tutte le informazioni necessarie.

Consultate il nostro repository GitHub per vedere i nostri ultimi contributi in materia di computer vision e IA. Potete anche consultare le nostre pagine dedicate alle soluzioni per vedere come l'IA viene utilizzata in settori come quello manifatturiero e sanitario

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti