X
Ultralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 LoslatenUltralytics YOLOv8.2 Pijl loslaten
Groene cheque
Link gekopieerd naar klembord

2024 begint met een generatieve AI-golf

Een blik op de spannende AI-innovaties uit het eerste kwartaal van 2024. We behandelen doorbraken zoals OpenAI's Sora AI, Neuralink's hersenchip en de nieuwste LLM's.

Facebook-logoTwitter-logoLinkedIn logoSymbool voor kopiëren-linken

De AI-gemeenschap lijkt bijna dagelijks de krantenkoppen te halen. De eerste maanden van 2024 waren spannend en zaten boordevol nieuwe AI-innovaties. Van krachtige nieuwe grote taalmodellen tot menselijke hersenimplantaten, 2024 belooft geweldig te worden.

We zien dat AI industrieën transformeert, informatie toegankelijker maakt en zelfs de eerste stappen zet om onze geest samen te voegen met machines. Laten we het eerste kwartaal van 2024 terugspoelen en de vooruitgang die in slechts een paar maanden tijd op het gebied van AI is geboekt, nader bekijken.

LLM's zijn trending

Grote taalmodellen (LLM's), ontworpen om menselijke taal te begrijpen, te genereren en te manipuleren op basis van enorme hoeveelheden tekstgegevens, stonden centraal in het eerste kwartaal van 2024. Veel grote technologiebedrijven hebben hun eigen LLM-modellen uitgebracht, elk met unieke mogelijkheden. Het ongelooflijke succes van eerdere LLM's zoals GPT-3 inspireerde deze trend. Hier zijn enkele van de meest opvallende LLM-releases van begin 2024.

Anthropic's Claude 3

Anthropic uitgebracht Claude 3 op 14 maart 2024. Het Claude 3-model is er in drie versies: Opus, Sonnet en Haiku, die elk verschillende markten en doelen bedienen. Haiku, het snelste model, is geoptimaliseerd voor snelle, eenvoudige reacties. Sonnet balanceert snelheid met intelligentie en is gericht op bedrijfsapplicaties. Opus, de meest geavanceerde versie, levert ongeëvenaarde intelligentie en redenering en is ideaal voor complexe taken en het behalen van topbenchmarks.

Claude 3 beschikt over veel geavanceerde functies en verbeteringen:

  • Verbeterde meertalige gesprekken: Verbeterde vaardigheden in talen zoals Spaans, Japans en Frans.
  • Geavanceerde Vision-functies: Geschikt voor verschillende visuele formaten
  • Minimale weigeringen: toont meer begrip met minder onnodige weigeringen, wat wijst op een beter begrip van de context
  • Uitgebreid contextvenster: Het biedt een contextvenster van 200K, maar kan invoer van meer dan 1 miljoen tokens verwerken op basis van de behoeften van de klant.
Figuur 1. Claude 3 is meer contextueel bewust dan eerdere versies.

DBRX van Databricks

Databricks DBRX is een open, algemene LLM die op 27 maart 2024 door Databricks is uitgebracht. DBRX doet het erg goed in verschillende benchmarks, waaronder taalbegrip, programmeren en wiskunde. Het overtreft andere gevestigde modellen en is ongeveer 40% kleiner dan vergelijkbare modellen.

Figuur 2. DBRX vergelijken met andere modellen.

DBRX is getraind met behulp van next-token prediction met een fijnmazige mix-of-experts (MoE)-architectuur, en daarom kunnen we aanzienlijke verbeteringen zien in de trainings- en inferentieprestaties. De architectuur stelt het model in staat om het volgende woord in een reeks nauwkeuriger te voorspellen door een diverse reeks gespecialiseerde submodellen (de "experts") te raadplegen. Deze submodellen zijn goed in het omgaan met verschillende soorten informatie of taken.

Google's Gemini 1.5

Google introduceerde op 15 februari 2024 Gemini 1.5, een rekenefficiënt, multimodaal AI-model dat uitgebreide tekst-, video- en audiogegevens kan analyseren. Het nieuwste model is geavanceerder op het gebied van prestaties, efficiëntie en mogelijkheden. Een belangrijk kenmerk van Gemini 1.5 is de doorbraak in het begrijpen van lange contexten. Het model is in staat om tot 1 miljoen tokens consistent te verwerken. De 1.5-mogelijkheden van Gemini zijn ook te danken aan een nieuwe op MoE gebaseerde architectuur.

Figuur 3. Contextlengtes van populaire LLM's vergelijken

Hier zijn enkele van Gemini's 1.5 meest interessante functies:

  • Verbeterde gegevensverwerking: Maakt directe uploads van grote PDF's, codeopslagplaatsen of lange video's als prompts mogelijk. Het model kan redeneren over modaliteiten en tekst uitvoeren.
  • Meerdere bestandsuploads en query's: Ontwikkelaars kunnen nu meerdere bestanden uploaden en vragen stellen.
  • Kan voor verschillende taken worden gebruikt: het is geoptimaliseerd om te schalen over verschillende taken en toont verbeteringen op gebieden als wiskunde, wetenschap, redeneren, meertaligheid, videobegrip en code

Verbluffende beelden van AI

Het eerste kwartaal van 2024 heeft generatieve AI-modellen onthuld die beelden kunnen creëren die zo echt zijn dat ze hebben geleid tot debatten over de toekomst van sociale media en de vooruitgang van AI. Laten we eens kijken naar de modellen die het gesprek aanwakkeren.

Sora van OpenAI 

OpenAI, de maker van ChatGPT, kondigde op 15 februari 2024 een state-of-the-art tekst-naar-video deep learning-model aan, Sora genaamd. Sora is een tekst-naar-video-generator die video's van een minuut met een hoge visuele kwaliteit kan genereren op basis van tekstuele gebruikersprompts. 

Kijk bijvoorbeeld eens naar de volgende prompt. 

"Een prachtig weergegeven papieren wereld van een koraalrif, vol met kleurrijke vissen en zeedieren." 

En hier is een frame van de uitvoervideo. 

Figuur 4. Een frame van een video gegenereerd door Sora.

Sora's architectuur maakt dit mogelijk door diffusiemodellen voor het genereren van texturen te combineren met transformatormodellen voor structurele coherentie. Tot nu toe is toegang tot Sora gegeven aan red teamers en een selecte groep beeldend kunstenaars, ontwerpers en filmmakers om de risico's te begrijpen en feedback te krijgen. 

Stability AI's Stabiele Diffusie 3 

Stability AI kondigde de komst aan van Stable Diffusion 3, een model voor het genereren van tekst-naar-beeld, op 22 februari 2024. Het model combineert diffusietransformatorarchitectuur en flowmatching. Ze moeten nog een technisch document uitbrengen, maar er zijn een paar belangrijke kenmerken om op te letten.

Figuur 5. De uitvoerafbeelding is gebaseerd op de prompt: "Episch anime-kunstwerk van een tovenaar bovenop een berg die 's nachts een kosmische spreuk in de donkere lucht werpt met de tekst "Stable Diffusion 3" gemaakt van kleurrijke energie"

Het nieuwste model van Stable Diffusion biedt verbeterde prestaties, beeldkwaliteit en nauwkeurigheid bij het maken van afbeeldingen met meerdere onderwerpen. Stable Diffusion 3 zal ook een verscheidenheid aan modellen bieden, variërend van 800 miljoen tot 8 miljard parameters. Het stelt gebruikers in staat om te kiezen op basis van hun specifieke behoeften aan schaalbaarheid en detail.

Lumière van Google 

Op 23 januari 2024 lanceerde Google Lumière, een tekst-naar-video-diffusiemodel. Lumière maakt gebruik van een architectuur genaamd Space-Time-U-Net, of kortweg STUNet. Het helpt Lumière te begrijpen waar dingen zijn en hoe ze bewegen in een video. Door dit te doen, kan het vloeiende en levensechte video's genereren.

Figuur 6. Een frame uit een video die is gegenereerd op basis van de prompt: 'Panda speelt thuis ukelele'.

Met de mogelijkheid om 80 frames per video te genereren, verlegt Lumiere grenzen en stelt het nieuwe normen voor videokwaliteit in de AI-ruimte. Hier zijn enkele van de kenmerken van Lumière:

  • Image-to-Video: Uitgaande van een afbeelding en een prompt kan Lumière afbeeldingen animeren tot video's.
  • Gestileerde generatie: Lumière kan video's in specifieke stijlen maken met behulp van een enkele referentieafbeelding.
  • Cinemagraphs: Lumière kan specifieke regio's in een afbeelding animeren om dynamische scènes te creëren, zoals een bepaald object dat beweegt terwijl de rest van de scène statisch blijft.
  • Video Inpainting: Het kan delen van een video wijzigen, zoals het veranderen van de kleding van mensen in de video of het wijzigen van achtergronddetails.

De toekomst lijkt hier te zijn

Het begin van 2024 heeft ook veel AI-innovaties met zich meegebracht die aanvoelen als iets uit een sciencefictionfilm. Dingen waarvan we voorheen dachten dat ze onmogelijk waren, worden nu aangepakt. De toekomst lijkt niet zo ver weg met de volgende ontdekkingen.

Elon Musk's Neuralink

Elon Musk's Neuralink heeft op 29 januari 2024 met succes zijn draadloze hersenchip in een mens geïmplanteerd. Dit is een enorme stap in de richting van het verbinden van menselijke hersenen met computers. Elon Musk deelde mee dat het eerste product van Neuralink, genaamd 'Telepathy', in de pijplijn zit. 

Figuur 7. Het Neuralink-implantaat

Het doel is om gebruikers, met name degenen die de functionaliteit van ledematen hebben verloren, in staat te stellen apparaten moeiteloos via hun gedachten te bedienen. De mogelijke toepassingen reiken verder dan gemak. Elon Musk stelt zich een toekomst voor waarin mensen met verlamming gemakkelijk kunnen communiceren.

Disney's HoloTile Vloer 

Op 18 januari 2024 onthulde Walt Disney Imagineering de HoloTile Floor. Het wordt 's werelds eerste omnidirectionele loopbandterrein voor meerdere personen genoemd. 

Figuur 8. Disney Imagineer Lanny Smoot poseert op zijn nieuwste innovatie, de HoloTile-vloer.

Het kan onder elke persoon of elk object als telekinese bewegen voor een meeslepende virtual en augmented reality-ervaring. U kunt in elke richting lopen en botsingen vermijden terwijl u erop zit. Disney's HoloTile Floor kan ook op theatrale podia worden geplant om op creatieve manieren te dansen en te bewegen.

Visie Pro van Apple

Op 2 februari 2024 kwam de langverwachte Vision Pro-headset van Apple op de markt. Het heeft een scala aan functies en toepassingen die zijn ontworpen om de virtual en augmented reality-ervaring opnieuw te definiëren. De Vision Pro-headset is geschikt voor een divers publiek door entertainment, productiviteit en ruimtelijk computergebruik te combineren. Apple heeft met trots aangekondigd dat meer dan 600 apps, variërend van productiviteitstools tot gaming- en entertainmentdiensten, bij de lancering zijn geoptimaliseerd voor de Vision Pro.

Cognitie's Devin

Op 12 maart 2024 heeft Cognition een software-engineeringassistent uitgebracht genaamd Devin. Devin is 's werelds eerste poging tot een autonome AI-software-engineer. In tegenstelling tot traditionele codeerassistenten die suggesties doen of specifieke taken uitvoeren, is Devin ontworpen om volledige softwareontwikkelingsprojecten af te handelen, van het eerste concept tot de voltooiing. 

Het kan nieuwe technologieën leren, volledige apps bouwen en implementeren, bugs vinden en oplossen, zijn eigen modellen trainen, bijdragen aan open-source- en productiecodebases en zelfs echte ontwikkelingstaken aannemen van sites zoals Upwork. 

Figuur 9. Devin vergelijken met andere modellen.

Devin werd geëvalueerd op SWE-bench, een uitdagende benchmark die agenten vraagt om echte GitHub-problemen op te lossen die worden aangetroffen in open-sourceprojecten zoals Django en scikit-learn. Het loste 13,86% van de problemen end-to-end correct op, vergeleken met de vorige state-of-the-art van 1,96%.

Eervolle vermeldingen

Er is zoveel gebeurd dat het niet mogelijk is om alles in dit artikel te behandelen. Maar hier zijn nog enkele eervolle vermeldingen. 

  • NVIDIA's LATTE3D, aangekondigd op 21 maart 2024, is een tekst-naar-3D AI-model dat direct 3D-representaties maakt op basis van tekstprompts.
  • De nieuwe tekst-naar-videogenerator van Midjourney, geplaagd door CEO David Holz, begon in januari met trainen en zal naar verwachting binnenkort worden gelanceerd.
  • Lenovo heeft de AI-pc-revolutie bevorderd en op 8 januari 2024 de ThinkBook 13x uitgebracht met E Ink Prism-technologie en krachtige AI-laptops.

Blijf met ons op de hoogte van AI-trends!

Begin 2024 waren er baanbrekende ontwikkelingen op het gebied van AI en vele belangrijke technologische mijlpalen. Maar dit is nog maar het begin van wat AI kan doen. Als je meer wilt weten over de nieuwste AI-ontwikkelingen, Ultralytics heeft je gedekt.

Bekijk onze GitHub-repository om onze nieuwste bijdragen op het gebied van computervisie en AI te zien. U kunt ook onze oplossingspagina's bekijken om te zien hoe AI wordt gebruikt in sectoren zoals productie en gezondheidszorg

Laten we samen bouwen aan de toekomst
van AI!

Begin je reis met de toekomst van machine learning

Lees meer in deze categorie