Il 2024 inizia con un'ondata di AI generativa
Uno sguardo alle entusiasmanti innovazioni dell'AI del primo trimestre del 2024. Copriremo le scoperte come Sora AI di OpenAI, il chip cerebrale di Neuralink e gli ultimi LLM.

La comunità dell'IA sembra fare notizia quasi ogni giorno. I primi mesi del 2024 sono stati entusiasmanti e pieni di nuove innovazioni nell'IA. Dai potenti nuovi modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si prospetta sorprendente.
Stiamo vedendo l'IA trasformare le industrie, rendere le informazioni più accessibili e persino fare i primi passi verso la fusione delle nostre menti con le macchine. Ripercorriamo il primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in soli pochi mesi.
Link to this sectionGli LLM sono di tendenza#
I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano basandosi su enormi quantità di dati testuali, hanno occupato il centro della scena nel primo trimestre del 2024. Molte importanti aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo dei precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle uscite di LLM più degne di nota dall'inizio del 2024.
Link to this sectionClaude 3 di Anthropic#
Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna adatta a mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e di base. Sonnet bilancia velocità e intelligenza ed è destinato ad applicazioni aziendali. Opus, la versione più avanzata, offre intelligenza e capacità di ragionamento senza pari ed è ideale per compiti complessi e per raggiungere i migliori benchmark.
Claude 3 vanta molte funzionalità e miglioramenti avanzati:
- Conversazioni multilingue migliorate: abilità migliorate in lingue tra cui spagnolo, giapponese e francese.
- Funzionalità di visione avanzate: in grado di gestire vari formati visivi.
- Rifiuti ridotti al minimo: mostra maggiore comprensione con meno rifiuti non necessari, indicando una migliore comprensione contestuale.
- Finestra di contesto estesa: offre una finestra di contesto di 200K, ma è in grado di elaborare input superiori a 1 milione di token in base alle esigenze del cliente.

Fig 1. Claude 3 è più consapevole del contesto rispetto alle versioni precedenti.
Link to this sectionDBRX di Databricks#
Databricks DBRX è un LLM aperto per scopi generali rilasciato da Databricks il 27 marzo 2024. DBRX ottiene ottimi risultati in vari benchmark, tra cui comprensione linguistica, programmazione e matematica. Supera altri modelli affermati pur essendo circa il 40% più piccolo di modelli simili.

Fig 2. Confronto di DBRX con altri modelli.
DBRX è stato addestrato utilizzando la previsione del prossimo token con un'architettura mixture-of-experts (MoE) a grana fine, ed è per questo che possiamo osservare miglioramenti significativi nelle prestazioni di addestramento e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono bravi a gestire diversi tipi di informazioni o attività.
Link to this sectionGemini 1.5 di Google#
Google ha introdotto Gemini 1.5, un modello di IA multimodale ed efficiente dal punto di vista computazionale in grado di analizzare ampi dati di testo, video e audio, il 15 febbraio 2024. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una caratteristica chiave di Gemini 1.5 è la sua svolta nella comprensione del contesto lungo. Il modello è in grado di gestire costantemente fino a 1 milione di token. Le capacità di Gemini 1.5 sono dovute anche a una nuova architettura basata su MoE.

Fig 3. Confronto delle lunghezze di contesto di popolari LLM
Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:
- Gestione migliorata dei dati: consente il caricamento diretto di PDF di grandi dimensioni, repository di codice o video lunghi come prompt. Il modello può ragionare tra le modalità ed emettere testo.
- Caricamenti di file multipli e query: gli sviluppatori ora possono caricare più file e porre domande.
- Può essere utilizzato per compiti diversi: è ottimizzato per scalare su compiti diversi e mostra miglioramenti in aree come matematica, scienza, ragionamento, multilinguismo, comprensione video e codice.
Link to this sectionVisual sbalorditivi dall'IA#
Il primo trimestre del 2024 ha svelato modelli di IA generativa in grado di creare visual così reali da aver scatenato dibattiti sul futuro dei social media e sul progresso dell'IA. Immergiamoci nei modelli che stanno animando la conversazione.
Link to this sectionSora di OpenAI#
OpenAI, il creatore di ChatGPT, ha annunciato un modello di deep learning text-to-video all'avanguardia chiamato Sora il 15 febbraio 2024. Sora è un generatore text-to-video in grado di generare video lunghi un minuto con un'elevata qualità visiva basata su prompt testuali dell'utente.
Ad esempio, dai un'occhiata al seguente prompt.
“Un mondo di carta magnificamente renderizzato di una barriera corallina, ricco di pesci colorati e creature marine.”
Ed ecco un fotogramma dal video di output.

Fig 4. Un fotogramma da un video generato da Sora.
L'architettura di Sora rende tutto questo possibile combinando modelli di diffusione per la generazione di texture e modelli Transformer per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso a red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback.
Link to this sectionStable Diffusion 3 di Stability AI#
Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione text-to-image, il 22 febbraio 2024. Il modello combina l'architettura dei diffusion transformer e il flow matching. Non hanno ancora pubblicato un paper tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.

Fig 5. L'immagine di output basata sul prompt: “Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy” (Source)
L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e precisione migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.
Link to this sectionLumiere di Google#
Il 23 gennaio 2024, Google ha lanciato Lumiere, un modello di diffusione text-to-video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, o STUNet in breve. Aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo, può generare video fluidi e realistici.

Fig 6. Un fotogramma da un video generato in base al prompt: “Panda play ukulele at home.”
Con la capacità di generare 80 fotogrammi per video, Lumiere sta spingendo oltre i confini e stabilendo nuovi standard per la qualità video nello spazio dell'IA. Ecco alcune delle caratteristiche di Lumiere:
- Image-to-Video: partendo da un'immagine e un prompt, Lumiere può animare immagini in video.
- Generazione stilizzata: Lumiere può creare video in stili specifici utilizzando una singola immagine di riferimento.
- Cinemagraph: Lumiere può animare regioni specifiche all'interno di un'immagine per creare scene dinamiche, come un particolare oggetto che si muove mentre il resto della scena rimane statico.
- Video Inpainting: può modificare parti di un video, come cambiare l'abbigliamento delle persone al suo interno o alterare i dettagli dello sfondo.
Link to this sectionIl futuro sembra essere qui#
L'inizio del 2024 ha anche portato molte innovazioni nell'IA che sembrano uscite da un film di fantascienza. Cose che in precedenza avremmo definito impossibili sono ora in fase di sviluppo. Il futuro non sembra così lontano con le seguenti scoperte.
Link to this sectionNeuralink di Elon Musk#
Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano il 29 gennaio 2024. Questo è un enorme passo avanti verso il collegamento dei cervelli umani ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato 'Telepathy', è in cantiere.

Fig 7. L'impianto Neuralink
L'obiettivo è consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i propri pensieri. Le potenziali applicazioni vanno oltre la comodità. Elon Musk immagina un futuro in cui le persone con paralisi possano comunicare facilmente.
Link to this sectionHoloTile Floor di Disney#
Il 18 gennaio 2024, Walt Disney Imagineering ha presentato il HoloTile Floor. È stato soprannominato il primo terreno mobile omnidirezionale per più persone al mondo.

Fig 8. Il Disney Imagineer Lanny Smoot posa sulla sua ultima innovazione, il HoloTile floor.
Può muoversi sotto qualsiasi persona o oggetto come telecinesi per un'esperienza di realtà virtuale e aumentata coinvolgente. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre ci sei sopra. Il HoloTile Floor di Disney può anche essere posizionato su palchi teatrali per ballare e muoversi in modi creativi.
Link to this sectionVision Pro di Apple#
Il 2 febbraio 2024, l'attesissimo visore Vision Pro di Apple è arrivato sul mercato. Ha una serie di caratteristiche e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Il visore Vision Pro si rivolge a un pubblico eterogeneo combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che vanno dagli strumenti di produttività ai servizi di gioco e intrattenimento, erano ottimizzate per Vision Pro al momento del lancio.
Link to this sectionDevin di Cognition#
Il 12 marzo 2024, Cognition ha rilasciato un assistente all'ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di un ingegnere del software IA autonomo. A differenza degli assistenti alla programmazione tradizionali che offrono suggerimenti o completano compiti specifici, Devin è progettato per gestire interi progetti di sviluppo software, dall'idea iniziale al completamento.
Può apprendere nuove tecnologie, costruire e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a codebase open source e di produzione, e persino accettare veri lavori di sviluppo da siti come Upwork.

Fig 9. Confronto di Devin con altri modelli.
Devin è stato valutato su SWE-bench, un benchmark impegnativo che chiede agli agenti di risolvere problemi GitHub del mondo reale riscontrati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.
Link to this sectionMenzioni d'onore#
Sono successe così tante cose che coprire tutto in questo articolo non è possibile. Ma ecco alcune altre menzioni d'onore.
- LATTE3D di NVIDIA, annunciato il 21 marzo 2024, è un modello di IA text-to-3D che crea istantaneamente rappresentazioni 3D da prompt testuali.
- Il nuovo generatore text-to-video di Midjourney, anticipato dal CEO David Holz, ha iniziato l'addestramento a gennaio e il lancio è previsto a breve.
- Facendo avanzare la rivoluzione dell'IA PC, Lenovo ha rilasciato il ThinkBook 13x con tecnologia E Ink Prism e laptop IA ad alte prestazioni l'8 gennaio 2024.
Link to this sectionResta aggiornato sulle tendenze dell'IA con noi!#
L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molte importanti pietre miliari tecnologiche. Ma questo è solo l'inizio di ciò che l'IA può fare. Se vuoi saperne di più sugli ultimi sviluppi dell'IA, Ultralytics ha quello che fa per te.
Dai un'occhiata al nostro GitHub repository per vedere i nostri ultimi contributi in computer vision e IA. Puoi anche consultare le nostre pagine delle soluzioni per vedere come l'IA viene utilizzata in settori come manufacturing e healthcare.






