Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Il 2024 inizia con un'ondata di AI generativa

Abirami Vina

6 minuti di lettura

12 aprile 2024

Uno sguardo alle entusiasmanti innovazioni dell'intelligenza artificiale del primo trimestre del 2024. Tratteremo scoperte come Sora AI di OpenAI, il chip cerebrale di Neuralink e i più recenti LLM.

La comunità dell'IA sembra far parlare di sé quasi quotidianamente. I primi mesi del 2024 sono stati entusiasmanti e ricchi di nuove innovazioni nell'IA. Dai nuovi e potenti modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si preannuncia straordinario.

Stiamo assistendo alla trasformazione dei settori grazie all'IA, che rende le informazioni più accessibili e compie persino i primi passi verso la fusione delle nostre menti con le macchine. Riavvolgiamo il primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in pochi mesi.

I modelli LLM sono di tendenza

I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati testuali, sono stati al centro dell'attenzione nel primo trimestre del 2024. Molte importanti aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo di precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle versioni LLM più importanti dell'inizio del 2024.

Claude 3 di Anthropic

Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e di base. Sonnet bilancia velocità e intelligenza ed è destinato alle applicazioni aziendali. Opus, la versione più avanzata, offre intelligenza e ragionamento senza pari ed è ideale per compiti complessi e per raggiungere i migliori benchmark.

Claude 3 vanta molte funzionalità e miglioramenti avanzati:

  • Conversazioni multilingue migliorate: capacità migliorate in lingue tra cui spagnolo, giapponese e francese​.
  • Funzionalità avanzate di visione: in grado di gestire vari formati visivi.
  • Rifiuti minimizzati: mostra una maggiore comprensione con meno rifiuti non necessari, indicando una migliore comprensione contestuale​.
  • Finestra di contesto estesa: offre una finestra di contesto di 200K, ma è in grado di elaborare input superiori a 1 milione di token in base alle esigenze del cliente.
__wf_reserved_inherit
Fig. 1. Claude 3 è più consapevole del contesto rispetto alle versioni precedenti.

DBRX di Databricks

Databricks DBRX è un LLM open source per scopi generali rilasciato da Databricks il 27 marzo 2024. DBRX si comporta molto bene in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli consolidati pur essendo circa il 40% più piccolo di modelli simili.

__wf_reserved_inherit
Fig. 2. Confronto tra DBRX e altri modelli.

DBRX è stato addestrato utilizzando la predizione del token successivo con un'architettura mixture-of-experts (MoE) a grana fine, ed è per questo che possiamo osservare miglioramenti significativi nelle prestazioni di training e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono adatti a gestire diversi tipi di informazioni o attività.

Gemini 1.5 di Google

Google ha presentato Gemini 1.5, un modello di IA multimodale ad alta efficienza computazionale in grado di analizzare grandi quantità di dati testuali, video e audio, il 15 febbraio 2024. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una caratteristica fondamentale di Gemini 1.5 è la sua svolta nella comprensione del contesto a lungo termine. Il modello è in grado di gestire fino a 1 milione di token in modo coerente. Le capacità di Gemini 1.5 sono dovute anche a una nuova architettura basata su MoE.

__wf_reserved_inherit
Fig. 3. Confronto tra le lunghezze del contesto dei modelli LLM più diffusi

Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:

  • Gestione dei dati migliorata: consente il caricamento diretto di PDF di grandi dimensioni, repository di codice o video lunghi come prompt. Il modello può ragionare tra le modalità e restituire testo.
  • Caricamenti e query di file multipli: gli sviluppatori possono ora caricare più file e porre domande.
  • Può essere utilizzato per diverse attività: è ottimizzato per scalare su diverse attività e mostra miglioramenti in aree come matematica, scienze, ragionamento, multilinguismo, comprensione video e codice.

Immagini straordinarie dall'AI

Il primo trimestre del 2024 ha svelato modelli di AI generativa in grado di creare immagini così reali da aver scatenato dibattiti sul futuro dei social media e sui progressi dell'AI. Analizziamo i modelli che stanno suscitando la conversazione.

Sora di OpenAI 

OpenAI, il creatore di ChatGPT, ha annunciato Sora, un modello di deep learning all'avanguardia per la generazione di video da testo, il 15 febbraio 2024. Sora è un generatore di video da testo in grado di creare video della durata di un minuto con un'elevata qualità visiva basati su prompt testuali forniti dall'utente. 

Ad esempio, dai un'occhiata al seguente prompt. 

“Un mondo di carta splendidamente reso di una barriera corallina, piena di pesci colorati e creature marine.” 

Ed ecco un fotogramma dal video di output. 

__wf_reserved_inherit
Fig. 4. Un fotogramma di un video generato da Sora.

L'architettura di Sora lo rende possibile combinando modelli di diffusione per la generazione di texture e modelli transformer per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso a red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback. 

Stable Diffusion 3 di Stability AI 

Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione di immagini da testo, il 22 febbraio 2024. Il modello combina l'architettura del trasformatore di diffusione e il flow matching. Non hanno ancora rilasciato un documento tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.

__wf_reserved_inherit
Fig 5. L'immagine di output basata sul prompt: “Opera d'arte anime epica di un mago in cima a una montagna di notte che lancia un incantesimo cosmico nel cielo buio che dice "Stable Diffusion 3" fatto di energia colorata”

L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e accuratezza migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.

Lumiere di Google 

Il 23 gennaio 2024, Google ha lanciato Lumiere, un modello di diffusione text-to-video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, o STUNet in breve, che aiuta Lumiere a capire dove si trovano gli oggetti e come si muovono in un video. In questo modo, può generare video fluidi e realistici.

__wf_reserved_inherit
Fig. 6. Un fotogramma di un video generato a partire dal prompt: “Panda suona l'ukulele a casa.”

Con la capacità di generare 80 fotogrammi per video, Lumiere sta superando i limiti e definendo nuovi standard per la qualità video nel settore dell'IA. Ecco alcune delle caratteristiche di Lumiere:

  • Da immagine a video: partendo da un'immagine e da un prompt, Lumiere può animare le immagini in video.
  • Generazione stilizzata: Lumiere è in grado di creare video in stili specifici utilizzando una singola immagine di riferimento.
  • Cinemagraph: Lumiere può animare regioni specifiche all'interno di un'immagine per creare scene dinamiche, come ad esempio un oggetto particolare che si muove mentre il resto della scena rimane statico.
  • Video Inpainting: Può modificare parti di un video, come cambiare l'abbigliamento delle persone al suo interno o alterare i dettagli dello sfondo.

Il futuro sembra essere qui

L'inizio del 2024 ha anche portato con sé molte innovazioni nell'IA che sembrano uscite da un film di fantascienza. Cose che in precedenza avremmo detto impossibili sono ora in fase di lavorazione. Il futuro non sembra così lontano con le seguenti scoperte.

Neuralink di Elon Musk

Il 29 gennaio 2024, Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano. Questo è un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato 'Telepathy', è in fase di sviluppo. 

__wf_reserved_inherit
Fig. 7. L'impianto Neuralink

L'obiettivo è consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i loro pensieri. Le potenziali applicazioni vanno oltre la semplice comodità. Elon Musk immagina un futuro in cui le persone con paralisi possano comunicare facilmente.

HoloTile Floor di Disney 

Il 18 gennaio 2024, Walt Disney Imagineering ha presentato HoloTile Floor, definito il primo tapis roulant omnidirezionale multi-persona al mondo. 

__wf_reserved_inherit
Fig. 8. L'Imagineer Disney Lanny Smoot posa sulla sua ultima innovazione, il pavimento HoloTile.

Può muoversi sotto qualsiasi persona o oggetto come la telecinesi per un'esperienza immersiva di realtà virtuale e aumentata. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre ci sei sopra. Il pavimento HoloTile di Disney può anche essere posizionato su palcoscenici teatrali per ballare e muoversi in modi creativi.

Vision Pro di Apple

Il 2 febbraio 2024, l'attesissimo visore Vision Pro di Apple è arrivato sul mercato. È dotato di una serie di funzionalità e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Il visore Vision Pro si rivolge a un pubblico diversificato, combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che spaziano dagli strumenti di produttività ai servizi di gioco e intrattenimento, sono state ottimizzate per Vision Pro al momento del lancio.

Devin di Cognition

Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di creare un ingegnere del software AI autonomo. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano attività specifiche, Devin è progettato per gestire interi progetti di sviluppo software, dall'idea iniziale al completamento. 

Può apprendere nuove tecnologie, creare e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a codebase open source e di produzione e persino assumere veri e propri lavori di sviluppo da siti come Upwork. 

__wf_reserved_inherit
Fig. 9. Confronto tra Devin e altri modelli.

Devin è stato valutato su SWE-bench, un benchmark impegnativo che richiede agli agent di risolvere problemi reali di GitHub riscontrati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.

Menzioni d'onore

Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma, ecco alcune altre menzioni d'onore. 

  • LATTE3D di NVIDIA, annunciato il 21 marzo 2024, è un modello di IA text-to-3D che crea istantaneamente rappresentazioni 3D da prompt di testo.
  • Il nuovo generatore text-to-video di Midjourney, anticipato dal CEO David Holz, ha iniziato l'addestramento a gennaio e dovrebbe essere lanciato a breve.
  • Facendo progredire la rivoluzione dell'AI PC, Lenovo ha rilasciato il ThinkBook 13x con tecnologia E Ink Prism e laptop AI ad alte prestazioni l'8 gennaio 2024.

Rimani aggiornato con noi sulle tendenze dell'IA!

L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molte importanti pietre miliari tecnologiche. Ma questo è solo l'inizio di ciò che l'IA può fare. Se desideri saperne di più sugli ultimi sviluppi dell'IA, Ultralytics è qui per te.

Visita il nostro repository GitHub per scoprire i nostri ultimi contributi nel campo della computer vision e dell'AI. Puoi anche consultare le nostre pagine dedicate alle soluzioni per vedere come l'AI viene utilizzata in settori come la produzione e la sanità

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti