Een blik op de spannende AI-innovaties uit het eerste kwartaal van 2024. We behandelen doorbraken zoals OpenAI's Sora AI, Neuralink's hersenchip en de nieuwste LLM's.
De AI-gemeenschap lijkt bijna dagelijks de krantenkoppen te halen. De eerste maanden van 2024 waren spannend en zaten boordevol nieuwe AI-innovaties. Van krachtige nieuwe grote taalmodellen tot menselijke hersenimplantaten, 2024 belooft geweldig te worden.
We zien dat AI industrieën transformeert, informatie toegankelijker maakt en zelfs de eerste stappen zet om onze geest samen te voegen met machines. Laten we het eerste kwartaal van 2024 terugspoelen en de vooruitgang die in slechts een paar maanden tijd op het gebied van AI is geboekt, nader bekijken.
Grote taalmodellen (LLM's), ontworpen om menselijke taal te begrijpen, te genereren en te manipuleren op basis van enorme hoeveelheden tekstgegevens, stonden centraal in het eerste kwartaal van 2024. Veel grote technologiebedrijven hebben hun eigen LLM-modellen uitgebracht, elk met unieke mogelijkheden. Het ongelooflijke succes van eerdere LLM's zoals GPT-3 inspireerde deze trend. Hier zijn enkele van de meest opvallende LLM-releases van begin 2024.
Anthropic uitgebracht Claude 3 op 14 maart 2024. Het Claude 3-model is er in drie versies: Opus, Sonnet en Haiku, die elk verschillende markten en doelen bedienen. Haiku, het snelste model, is geoptimaliseerd voor snelle, eenvoudige reacties. Sonnet balanceert snelheid met intelligentie en is gericht op bedrijfsapplicaties. Opus, de meest geavanceerde versie, levert ongeëvenaarde intelligentie en redenering en is ideaal voor complexe taken en het behalen van topbenchmarks.
Claude 3 beschikt over veel geavanceerde functies en verbeteringen:
Databricks DBRX is een open, algemene LLM die op 27 maart 2024 door Databricks is uitgebracht. DBRX doet het erg goed in verschillende benchmarks, waaronder taalbegrip, programmeren en wiskunde. Het overtreft andere gevestigde modellen en is ongeveer 40% kleiner dan vergelijkbare modellen.
DBRX is getraind met behulp van next-token prediction met een fijnmazige mix-of-experts (MoE)-architectuur, en daarom kunnen we aanzienlijke verbeteringen zien in de trainings- en inferentieprestaties. De architectuur stelt het model in staat om het volgende woord in een reeks nauwkeuriger te voorspellen door een diverse reeks gespecialiseerde submodellen (de "experts") te raadplegen. Deze submodellen zijn goed in het omgaan met verschillende soorten informatie of taken.
Google introduceerde op 15 februari 2024 Gemini 1.5, een rekenefficiënt, multimodaal AI-model dat uitgebreide tekst-, video- en audiogegevens kan analyseren. Het nieuwste model is geavanceerder op het gebied van prestaties, efficiëntie en mogelijkheden. Een belangrijk kenmerk van Gemini 1.5 is de doorbraak in het begrijpen van lange contexten. Het model is in staat om tot 1 miljoen tokens consistent te verwerken. De 1.5-mogelijkheden van Gemini zijn ook te danken aan een nieuwe op MoE gebaseerde architectuur.
Hier zijn enkele van Gemini's 1.5 meest interessante functies:
Het eerste kwartaal van 2024 heeft generatieve AI-modellen onthuld die beelden kunnen creëren die zo echt zijn dat ze hebben geleid tot debatten over de toekomst van sociale media en de vooruitgang van AI. Laten we eens kijken naar de modellen die het gesprek aanwakkeren.
OpenAI, de maker van ChatGPT, kondigde op 15 februari 2024 een state-of-the-art tekst-naar-video deep learning-model aan, Sora genaamd. Sora is een tekst-naar-video-generator die video's van een minuut met een hoge visuele kwaliteit kan genereren op basis van tekstuele gebruikersprompts.
Kijk bijvoorbeeld eens naar de volgende prompt.
"Een prachtig weergegeven papieren wereld van een koraalrif, vol met kleurrijke vissen en zeedieren."
En hier is een frame van de uitvoervideo.
Sora's architectuur maakt dit mogelijk door diffusiemodellen voor het genereren van texturen te combineren met transformatormodellen voor structurele coherentie. Tot nu toe is toegang tot Sora gegeven aan red teamers en een selecte groep beeldend kunstenaars, ontwerpers en filmmakers om de risico's te begrijpen en feedback te krijgen.
Stability AI kondigde de komst aan van Stable Diffusion 3, een model voor het genereren van tekst-naar-beeld, op 22 februari 2024. Het model combineert diffusietransformatorarchitectuur en flowmatching. Ze moeten nog een technisch document uitbrengen, maar er zijn een paar belangrijke kenmerken om op te letten.
Het nieuwste model van Stable Diffusion biedt verbeterde prestaties, beeldkwaliteit en nauwkeurigheid bij het maken van afbeeldingen met meerdere onderwerpen. Stable Diffusion 3 zal ook een verscheidenheid aan modellen bieden, variërend van 800 miljoen tot 8 miljard parameters. Het stelt gebruikers in staat om te kiezen op basis van hun specifieke behoeften aan schaalbaarheid en detail.
Op 23 januari 2024 lanceerde Google Lumière, een tekst-naar-video-diffusiemodel. Lumière maakt gebruik van een architectuur genaamd Space-Time-U-Net, of kortweg STUNet. Het helpt Lumière te begrijpen waar dingen zijn en hoe ze bewegen in een video. Door dit te doen, kan het vloeiende en levensechte video's genereren.
Met de mogelijkheid om 80 frames per video te genereren, verlegt Lumiere grenzen en stelt het nieuwe normen voor videokwaliteit in de AI-ruimte. Hier zijn enkele van de kenmerken van Lumière:
Het begin van 2024 heeft ook veel AI-innovaties met zich meegebracht die aanvoelen als iets uit een sciencefictionfilm. Dingen waarvan we voorheen dachten dat ze onmogelijk waren, worden nu aangepakt. De toekomst lijkt niet zo ver weg met de volgende ontdekkingen.
Elon Musk's Neuralink heeft op 29 januari 2024 met succes zijn draadloze hersenchip in een mens geïmplanteerd. Dit is een enorme stap in de richting van het verbinden van menselijke hersenen met computers. Elon Musk deelde mee dat het eerste product van Neuralink, genaamd 'Telepathy', in de pijplijn zit.
Het doel is om gebruikers, met name degenen die de functionaliteit van ledematen hebben verloren, in staat te stellen apparaten moeiteloos via hun gedachten te bedienen. De mogelijke toepassingen reiken verder dan gemak. Elon Musk stelt zich een toekomst voor waarin mensen met verlamming gemakkelijk kunnen communiceren.
Op 18 januari 2024 onthulde Walt Disney Imagineering de HoloTile Floor. Het wordt 's werelds eerste omnidirectionele loopbandterrein voor meerdere personen genoemd.
Het kan onder elke persoon of elk object als telekinese bewegen voor een meeslepende virtual en augmented reality-ervaring. U kunt in elke richting lopen en botsingen vermijden terwijl u erop zit. Disney's HoloTile Floor kan ook op theatrale podia worden geplant om op creatieve manieren te dansen en te bewegen.
Op 2 februari 2024 kwam de langverwachte Vision Pro-headset van Apple op de markt. Het heeft een scala aan functies en toepassingen die zijn ontworpen om de virtual en augmented reality-ervaring opnieuw te definiëren. De Vision Pro-headset is geschikt voor een divers publiek door entertainment, productiviteit en ruimtelijk computergebruik te combineren. Apple heeft met trots aangekondigd dat meer dan 600 apps, variërend van productiviteitstools tot gaming- en entertainmentdiensten, bij de lancering zijn geoptimaliseerd voor de Vision Pro.
Op 12 maart 2024 heeft Cognition een software-engineeringassistent uitgebracht genaamd Devin. Devin is 's werelds eerste poging tot een autonome AI-software-engineer. In tegenstelling tot traditionele codeerassistenten die suggesties doen of specifieke taken uitvoeren, is Devin ontworpen om volledige softwareontwikkelingsprojecten af te handelen, van het eerste concept tot de voltooiing.
Het kan nieuwe technologieën leren, volledige apps bouwen en implementeren, bugs vinden en oplossen, zijn eigen modellen trainen, bijdragen aan open-source- en productiecodebases en zelfs echte ontwikkelingstaken aannemen van sites zoals Upwork.
Devin werd geëvalueerd op SWE-bench, een uitdagende benchmark die agenten vraagt om echte GitHub-problemen op te lossen die worden aangetroffen in open-sourceprojecten zoals Django en scikit-learn. Het loste 13,86% van de problemen end-to-end correct op, vergeleken met de vorige state-of-the-art van 1,96%.
Er is zoveel gebeurd dat het niet mogelijk is om alles in dit artikel te behandelen. Maar hier zijn nog enkele eervolle vermeldingen.
Begin 2024 waren er baanbrekende ontwikkelingen op het gebied van AI en vele belangrijke technologische mijlpalen. Maar dit is nog maar het begin van wat AI kan doen. Als je meer wilt weten over de nieuwste AI-ontwikkelingen, Ultralytics heeft je gedekt.
Bekijk onze GitHub-repository om onze nieuwste bijdragen op het gebied van computervisie en AI te zien. U kunt ook onze oplossingspagina's bekijken om te zien hoe AI wordt gebruikt in sectoren zoals productie en gezondheidszorg.
Begin je reis met de toekomst van machine learning