AI 2024: Onda AI generativa

La comunità dell'IA sembra far parlare di sé quasi quotidianamente. I primi mesi del 2024 sono stati entusiasmanti e ricchi di nuove innovazioni nell'IA. Dai nuovi e potenti modelli linguistici di grandi dimensioni agli impianti cerebrali umani, il 2024 si preannuncia straordinario.

Stiamo assistendo alla trasformazione dei settori grazie all'IA, che rende le informazioni più accessibili e compie persino i primi passi verso la fusione delle nostre menti con le macchine. Riavvolgiamo il primo trimestre del 2024 e diamo un'occhiata più da vicino ai progressi compiuti nell'IA in pochi mesi.

I modelli LLM sono di tendenza

I modelli linguistici di grandi dimensioni (LLM), progettati per comprendere, generare e manipolare il linguaggio umano sulla base di grandi quantità di dati testuali, sono stati al centro dell'attenzione nel primo trimestre del 2024. Molte importanti aziende tecnologiche hanno rilasciato i propri modelli LLM, ognuno con capacità uniche. L'incredibile successo di precedenti LLM come GPT-3 ha ispirato questa tendenza. Ecco alcune delle versioni LLM più importanti dell'inizio del 2024.

Claude 3 di Anthropic

Anthropic ha rilasciato Claude 3 il 14 marzo 2024. Il modello Claude 3 è disponibile in tre versioni: Opus, Sonnet e Haiku, ognuna delle quali serve mercati e scopi diversi. Haiku, il modello più veloce, è ottimizzato per risposte rapide e basilari. Sonnet bilancia la velocità con l'intelligenza e si rivolge alle applicazioni aziendali. Opus, la versione più avanzata, offre un'intelligenza e un ragionamento senza pari ed è ideale per attività complesse e per ottenere i migliori benchmark.

Claude 3 vanta molte funzionalità e miglioramenti avanzati:

Conversazioni multilingue migliorate: capacità migliorate in lingue tra cui spagnolo, giapponese e francese.
‍
Funzionalità avanzate di visione: in grado di gestire vari formati visivi.
‍
Rifiuti minimizzati: mostra una maggiore comprensione con meno rifiuti non necessari, indicando una migliore comprensione contestuale.
‍
Finestra di contesto estesa: offre una finestra di contesto di 200K, ma è in grado di elaborare input superiori a 1 milione di token in base alle esigenze del cliente.

__wf_reserved_inherit — Fig. 1. Claude 3 è più consapevole del contesto rispetto alle versioni precedenti.

‍

DBRX di Databricks

Databricks DBRX è un LLM open source per scopi generali rilasciato da Databricks il 27 marzo 2024. DBRX si comporta molto bene in vari benchmark, tra cui la comprensione del linguaggio, la programmazione e la matematica. Supera altri modelli consolidati pur essendo circa il 40% più piccolo di modelli simili.

‍

DBRX è stato addestrato utilizzando la predizione del token successivo con un'architettura mixture-of-experts (MoE) a grana fine, ed è per questo che possiamo osservare miglioramenti significativi nelle prestazioni di training e inferenza. La sua architettura consente al modello di prevedere la parola successiva in una sequenza in modo più accurato consultando un insieme diversificato di sottomodelli specializzati (gli "esperti"). Questi sottomodelli sono adatti a gestire diversi tipi di informazioni o attività.

Gemini 1.5 di Google

Il 15 febbraio 2024 Google ha presentato Gemini 1.5, un modello di intelligenza artificiale multimodale ed efficiente dal punto di vista dei calcoli, in grado di analizzare dati testuali, video e audio. L'ultimo modello è più avanzato in termini di prestazioni, efficienza e capacità. Una caratteristica fondamentale di Gemini 1.5 è l'innovazione nella comprensione dei contesti lunghi. Il modello è in grado di gestire fino a 1 milione di token in modo costante. Le capacità di Gemini 1.5 sono anche merito di una nuova architettura basata su MoE.

‍

Ecco alcune delle caratteristiche più interessanti di Gemini 1.5:

Gestione dei dati migliorata: consente il caricamento diretto di PDF di grandi dimensioni, repository di codice o video lunghi come prompt. Il modello può ragionare tra le modalità e restituire testo.
‍
Caricamenti e query di file multipli: gli sviluppatori possono ora caricare più file e porre domande.
‍
Può essere utilizzato per diverse attività: è ottimizzato per scalare su diverse attività e mostra miglioramenti in aree come matematica, scienze, ragionamento, multilinguismo, comprensione video e codice.

Immagini straordinarie dall'AI

Il primo trimestre del 2024 ha svelato modelli di AI generativa in grado di creare immagini così reali da aver scatenato dibattiti sul futuro dei social media e sui progressi dell'AI. Analizziamo i modelli che stanno suscitando la conversazione.

Sora di OpenAI

OpenAI, il creatore di ChatGPT, ha annunciato il 15 febbraio 2024 un modello di deep learning text-to-video all'avanguardia, chiamato Sora. Sora è un generatore di video testuali in grado di generare video della durata di un minuto con un'elevata qualità visiva sulla base di richieste testuali dell'utente.

Ad esempio, dai un'occhiata al seguente prompt.

“Un mondo di carta splendidamente reso di una barriera corallina, piena di pesci colorati e creature marine.”

Ed ecco un fotogramma dal video di output.

‍

L'architettura di Sora lo rende possibile combinando modelli di diffusione per la generazione di texture e modelli transformer per la coerenza strutturale. Finora, l'accesso a Sora è stato concesso a red teamer e a un gruppo selezionato di artisti visivi, designer e registi per comprendere i rischi e ottenere feedback.

Diffusione Stability AIdi Stability AI3

Stability AI ha annunciato l'arrivo di Stable Diffusion 3, un modello di generazione da testo a immagine, il 22 febbraio 2024. Il modello combina l'architettura del trasformatore di diffusione e il flow matching. Non è stato ancora rilasciato un documento tecnico, ma ci sono alcune caratteristiche chiave da tenere d'occhio.

‍

L'ultimo modello di Stable Diffusion offre prestazioni, qualità dell'immagine e accuratezza migliorate nella creazione di immagini con più soggetti. Stable Diffusion 3 offrirà anche una varietà di modelli che vanno da 800 milioni a 8 miliardi di parametri. Consentirà agli utenti di scegliere in base alle loro specifiche esigenze di scalabilità e dettaglio.

Lumiere di Google

Il 23 gennaio 2024 Google ha lanciato Lumiere, un modello di diffusione da testo a video. Lumiere utilizza un'architettura chiamata Space-Time-U-Net, in breve STUNet. Aiuta Lumiere a capire dove si trovano le cose e come si muovono in un video. In questo modo è in grado di generare video fluidi e realistici.

‍

Con la capacità di generare 80 fotogrammi per video, Lumiere sta superando i limiti e definendo nuovi standard per la qualità video nel settore dell'IA. Ecco alcune delle caratteristiche di Lumiere:

Da immagine a video: partendo da un'immagine e da un prompt, Lumiere può animare le immagini in video.
‍
Generazione stilizzata: Lumiere è in grado di creare video in stili specifici utilizzando una singola immagine di riferimento.
‍
Cinemagraph: Lumiere può animare regioni specifiche all'interno di un'immagine per creare scene dinamiche, come ad esempio un oggetto particolare che si muove mentre il resto della scena rimane statico.
‍
Video Inpainting: Può modificare parti di un video, come cambiare l'abbigliamento delle persone al suo interno o alterare i dettagli dello sfondo.

Il futuro sembra essere qui

L'inizio del 2024 ha anche portato con sé molte innovazioni nell'IA che sembrano uscite da un film di fantascienza. Cose che in precedenza avremmo detto impossibili sono ora in fase di lavorazione. Il futuro non sembra così lontano con le seguenti scoperte.

Neuralink di Elon Musk

Il 29 gennaio 2024, Neuralink di Elon Musk ha impiantato con successo il suo chip cerebrale wireless in un essere umano. Questo è un enorme passo avanti verso la connessione del cervello umano ai computer. Elon Musk ha condiviso che il primo prodotto di Neuralink, chiamato 'Telepathy', è in fase di sviluppo.

‍

L'obiettivo è consentire agli utenti, in particolare a coloro che hanno perso la funzionalità degli arti, di controllare i dispositivi senza sforzo attraverso i loro pensieri. Le potenziali applicazioni vanno oltre la semplice comodità. Elon Musk immagina un futuro in cui le persone con paralisi possano comunicare facilmente.

HoloTile Floor di Disney

Il 18 gennaio 2024, Walt Disney Imagineering ha presentato HoloTile Floor, definito il primo tapis roulant omnidirezionale multi-persona al mondo.

‍

Può muoversi sotto qualsiasi persona o oggetto come la telecinesi per un'esperienza immersiva di realtà virtuale e aumentata. Puoi camminare in qualsiasi direzione ed evitare collisioni mentre ci sei sopra. Il pavimento HoloTile di Disney può anche essere posizionato su palcoscenici teatrali per ballare e muoversi in modi creativi.

Vision Pro di Apple

Il 2 febbraio 2024, l'attesissimo visore Vision Pro di Apple è arrivato sul mercato. È dotato di una serie di funzionalità e applicazioni progettate per ridefinire l'esperienza di realtà virtuale e aumentata. Il visore Vision Pro si rivolge a un pubblico diversificato, combinando intrattenimento, produttività e spatial computing. Apple ha annunciato con orgoglio che oltre 600 app, che spaziano dagli strumenti di produttività ai servizi di gioco e intrattenimento, sono state ottimizzate per Vision Pro al momento del lancio.

Devin di Cognition

Il 12 marzo 2024, Cognition ha rilasciato un assistente di ingegneria del software chiamato Devin. Devin è il primo tentativo al mondo di creare un ingegnere del software AI autonomo. A differenza dei tradizionali assistenti di codifica che offrono suggerimenti o completano attività specifiche, Devin è progettato per gestire interi progetti di sviluppo software, dall'idea iniziale al completamento.

Può apprendere nuove tecnologie, creare e distribuire app complete, trovare e correggere bug, addestrare i propri modelli, contribuire a codebase open source e di produzione e persino assumere veri e propri lavori di sviluppo da siti come Upwork.

‍

Devin è stato valutato su SWE-bench, un benchmark impegnativo che richiede agli agent di risolvere problemi reali di GitHub riscontrati in progetti open source come Django e scikit-learn. Ha risolto correttamente il 13,86% dei problemi end-to-end, rispetto al precedente stato dell'arte dell'1,96%.

Menzioni d'onore

Sono successe così tante cose che non è possibile coprire tutto in questo articolo. Ma, ecco alcune altre menzioni d'onore.

LATTE3D di NVIDIA, annunciato il 21 marzo 2024, è un modello di intelligenza artificiale text-to-3D che crea istantaneamente rappresentazioni 3D da messaggi di testo.
‍
Il nuovo generatore text-to-video di Midjourney, anticipato dal CEO David Holz, ha iniziato l'addestramento a gennaio e dovrebbe essere lanciato a breve.
‍
Facendo progredire la rivoluzione dell'AI PC, Lenovo ha rilasciato il ThinkBook 13x con tecnologia E Ink Prism e laptop AI ad alte prestazioni l'8 gennaio 2024.

Rimani aggiornato con noi sulle tendenze dell'IA!

L'inizio del 2024 ha visto progressi rivoluzionari nell'IA e molti importanti traguardi tecnologici. Ma questo è solo l'inizio di ciò che l'IA può fare. Se desiderate saperne di più sugli ultimi sviluppi dell'IA, Ultralytics vi ha fornito tutte le informazioni necessarie.

Visita il nostro repository GitHub per scoprire i nostri ultimi contributi nel campo della computer vision e dell'AI. Puoi anche consultare le nostre pagine dedicate alle soluzioni per vedere come l'AI viene utilizzata in settori come la produzione e la sanità.

Il 2024 inizia con un'ondata di AI generativa

I modelli LLM sono di tendenza

Claude 3 di Anthropic

DBRX di Databricks

Gemini 1.5 di Google

Immagini straordinarie dall'AI

Sora di OpenAI

Diffusione Stability AIdi Stability AI3

Lumiere di Google

Il futuro sembra essere qui

Neuralink di Elon Musk

HoloTile Floor di Disney

Vision Pro di Apple

Devin di Cognition

Menzioni d'onore

Rimani aggiornato con noi sulle tendenze dell'IA!

Leggi di più in questa categoria

Tendenze future del rilevamento degli oggetti: 7 aspetti chiave da tenere d'occhio

Segnare gol più intelligenti con l'aiuto dell'intelligenza artificiale nel calcio

Esplorazione di SAM 3: il nuovo modello Segment Anything di Meta AI

Costruiamo insieme il futuro
dell'AI!

Il 2024 inizia con un'ondata di AI generativa

I modelli LLM sono di tendenza

Claude 3 di Anthropic

DBRX di Databricks

Gemini 1.5 di Google

Immagini straordinarie dall'AI

Sora di OpenAI

Diffusione Stability AIdi Stability AI3

Lumiere di Google

Il futuro sembra essere qui

Neuralink di Elon Musk

HoloTile Floor di Disney

Vision Pro di Apple

Devin di Cognition

Menzioni d'onore

Rimani aggiornato con noi sulle tendenze dell'IA!

Leggi di più in questa categoria

Tendenze future del rilevamento degli oggetti: 7 aspetti chiave da tenere d'occhio

Segnare gol più intelligenti con l'aiuto dell'intelligenza artificiale nel calcio

Esplorazione di SAM 3: il nuovo modello Segment Anything di Meta AI

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!