2024 beginnt mit einer generativen KI-Welle

Abirami Vina

6 Minuten lesen

12. April 2024

Ein Blick auf die spannenden KI-Innovationen des ersten Quartals 2024. Wir berichten über bahnbrechende Entwicklungen wie die Sora-KI von OpenAI, den Gehirnchip von Neuralink und die neuesten LLMs.

Die KI-Gemeinschaft scheint fast täglich Schlagzeilen zu machen. Die ersten Monate des Jahres 2024 waren spannend und vollgepackt mit neuen KI-Innovationen. Von leistungsstarken neuen großen Sprachmodellen bis hin zu menschlichen Gehirnimplantaten - das Jahr 2024 wird erstaunlich werden.

Wir erleben, wie KI Branchen verändert, Informationen zugänglicher macht und sogar die ersten Schritte in Richtung einer Verschmelzung unseres Verstandes mit Maschinen unternimmt. Spulen wir das erste Quartal 2024 zurück und werfen wir einen genaueren Blick auf die Fortschritte, die die KI in nur wenigen Monaten gemacht hat.

LLMs sind im Trend

Große Sprachmodelle (Large Language Models, LLMs), die menschliche Sprache auf der Grundlage riesiger Mengen von Textdaten verstehen, generieren und manipulieren sollen, standen im ersten Quartal 2024 im Mittelpunkt. Viele große Technologieunternehmen brachten ihre eigenen LLM-Modelle heraus, jedes mit einzigartigen Fähigkeiten. Der unglaubliche Erfolg früherer LLMs wie GPT-3 inspirierte diesen Trend. Hier sind einige der bemerkenswertesten LLM-Veröffentlichungen von Anfang 2024.

Anthropic's Claude 3

Anthropic veröffentlichte Claude 3 am 14. März 2024. Das Modell Claude 3 gibt es in drei Versionen: Opus, Sonnet und Haiku, die jeweils unterschiedliche Märkte und Zwecke bedienen. Haiku, das schnellste Modell, ist für schnelle, einfache Antworten optimiert. Sonnet verbindet Geschwindigkeit mit Intelligenz und ist auf Unternehmensanwendungen ausgerichtet. Opus, die fortschrittlichste Version, bietet unvergleichliche Intelligenz und logisches Denken und ist ideal für komplexe Aufgaben und das Erreichen von Spitzen-Benchmarks.

Claude 3 verfügt über viele erweiterte Funktionen und Verbesserungen:

  • Verbesserte mehrsprachige Konversationen: Verbesserte Fähigkeiten in Sprachen wie Spanisch, Japanisch und Französisch.
  • Erweiterte Bildverarbeitungsfunktionen: Kann verschiedene Bildformate verarbeiten.
  • Minimierte Ablehnungen: Zeigt mehr Verständnis mit weniger unnötigen Ablehnungen, was auf ein verbessertes kontextuelles Verständnis hinweist.
  • Erweitertes Kontextfenster: Es bietet ein 200K-Kontextfenster, kann aber je nach Kundenbedarf auch Eingaben über 1 Million Token verarbeiten.
__wf_reserved_inherit
Abb. 1. Claude 3 ist kontextbewusster als frühere Versionen.

DBRX von Databricks

Databricks DBRX ist ein offener, universeller LLM, der am 27. März 2024 von Databricks veröffentlicht wurde. DBRX schneidet in verschiedenen Benchmarks, darunter Sprachverständnis, Programmierung und Mathematik, sehr gut ab. Er übertrifft andere etablierte Modelle und ist dabei etwa 40 % kleiner als ähnliche Modelle.

__wf_reserved_inherit
Abb. 2. Vergleich von DBRX mit anderen Modellen.

DBRX wurde mit Hilfe der Next-Token-Vorhersage mit einer feinkörnigen Mixture-of-Experts (MoE)-Architektur trainiert, weshalb wir deutliche Verbesserungen bei der Trainings- und Inferenzleistung feststellen können. Dank dieser Architektur kann das Modell das nächste Wort in einer Sequenz genauer vorhersagen, indem es eine Reihe von spezialisierten Teilmodellen (die "Experten") zu Rate zieht. Diese Teilmodelle sind gut im Umgang mit verschiedenen Arten von Informationen oder Aufgaben.

Googles Gemini 1.5

Google stellte am 15. Februar 2024 Gemini 1.5 vor, ein rechenintensives, multimodales KI-Modell, das umfangreiche Text-, Video- und Audiodaten analysieren kann. Das neueste Modell ist in Bezug auf Leistung, Effizienz und Fähigkeiten noch fortschrittlicher. Ein Hauptmerkmal von Gemini 1.5 ist der Durchbruch beim Verstehen langer Kontexte. Das Modell ist in der Lage, bis zu 1 Million Token konsistent zu verarbeiten. Die Fähigkeiten von Gemini 1.5 sind auch auf eine neue MoE-basierte Architektur zurückzuführen.

__wf_reserved_inherit
Abb. 3. Vergleich der Kontextlängen der gängigen LLMs

Hier sind einige der interessantesten Funktionen von Gemini 1.5:

  • Verbesserte Datenverarbeitung: Ermöglicht das direkte Hochladen von großen PDF-Dateien, Code-Repositories oder langen Videos als Eingabeaufforderung. Das Modell kann modalitätsübergreifend denken und Text ausgeben.
  • Mehrere Datei-Uploads und Abfragen: Entwickler können jetzt mehrere Dateien hochladen und Fragen stellen.
  • Kann für verschiedene Aufgaben verwendet werden: Es ist für die Skalierung auf verschiedene Aufgaben optimiert und zeigt Verbesserungen in Bereichen wie Mathematik, Wissenschaft, logisches Denken, Mehrsprachigkeit, Videoverständnis und Code

Atemberaubende Visuals von AI

Das erste Quartal 2024 hat generative KI-Modelle vorgestellt, die so realistische Bilder erzeugen können, dass sie Debatten über die Zukunft der sozialen Medien und den Fortschritt der KI ausgelöst haben. Werfen wir einen Blick auf die Modelle, die die Diskussion anheizen.

Sora von OpenAI 

OpenAI, der Erfinder von ChatGPT, kündigte am 15. Februar 2024 ein hochmodernes Text-to-Video Deep Learning-Modell namens Sora an. Sora ist ein Text-zu-Video-Generator, der in der Lage ist, minutenlange Videos mit hoher visueller Qualität auf der Grundlage von textuellen Benutzeraufforderungen zu erzeugen. 

Schauen Sie sich zum Beispiel die folgende Aufforderung an. 

"Eine wunderschön gestaltete Pappmaché-Welt eines Korallenriffs mit vielen bunten Fischen und Meeresbewohnern." 

Und hier ist ein Bild aus dem Ausgabevideo. 

__wf_reserved_inherit
Abb. 4. Ein Frame aus einem von Sora generierten Video.

Die Architektur von Sora macht dies möglich, indem sie Diffusionsmodelle für die Texturerzeugung und Transformer-Modelle für die strukturelle Kohärenz miteinander verbindet. Bisher haben Red Teamer und eine ausgewählte Gruppe von bildenden Künstlern, Designern und Filmemachern Zugang zu Sora erhalten, um die Risiken zu verstehen und Feedback zu erhalten. 

Stabilität AI's Stabile Diffusion 3 

Stability AI kündigte für den 22. Februar 2024 die Veröffentlichung von Stable Diffusion 3 an, einem Modell zur Erzeugung von Text und Bild. Das Modell kombiniert eine Diffusionstransformator-Architektur mit einer Flussanpassung. Die Veröffentlichung eines technischen Papiers steht noch aus, aber es gibt ein paar wichtige Merkmale, auf die man achten sollte.

__wf_reserved_inherit
Abb. 5. Das Ausgabebild basierend auf der Eingabeaufforderung: "Episches Anime-Kunstwerk eines Zauberers auf einem nächtlichen Berg, der einen kosmischen Zauberspruch in den dunklen Himmel wirft, auf dem "Stabile Diffusion 3" aus bunter Energie steht"

Das neueste Modell von Stable Diffusion bietet verbesserte Leistung, Bildqualität und Genauigkeit bei der Erstellung von Bildern mit mehreren Motiven. Stable Diffusion 3 wird außerdem eine Vielzahl von Modellen mit 800 Millionen bis 8 Milliarden Parametern bieten. Damit können die Benutzer je nach ihren spezifischen Anforderungen an Skalierbarkeit und Detailgenauigkeit wählen.

Googles Lumiere 

Am 23. Januar 2024 stellte Google Lumiere vor, ein Modell zur Verbreitung von Text in Videos. Lumiere verwendet eine Architektur namens Space-Time-U-Net, kurz STUNet. Sie hilft Lumiere zu verstehen, wo sich Dinge befinden und wie sie sich in einem Video bewegen. Auf diese Weise kann es glatte und naturgetreue Videos erzeugen.

__wf_reserved_inherit
Abb. 6. Ein Frame aus einem Video, das auf der Grundlage der Aufforderung erstellt wurde: "Panda spielt Ukulele zu Hause".

Mit der Fähigkeit, 80 Bilder pro Video zu generieren, verschiebt Lumiere die Grenzen und setzt neue Maßstäbe für die Videoqualität im KI-Bereich. Hier sind einige der Funktionen von Lumiere:

  • Bild-zu-Video: Ausgehend von einem Bild und einer Eingabeaufforderung kann Lumiere Bilder zu Videos animieren.
  • Stilisierte Erzeugung: Lumiere kann anhand eines einzigen Referenzbildes Videos in bestimmten Stilen erstellen.
  • Cinemagraphs: Lumiere kann bestimmte Bereiche innerhalb eines Bildes animieren, um dynamische Szenen zu erzeugen, z. B. wenn sich ein bestimmtes Objekt bewegt, während der Rest der Szene statisch bleibt.
  • Video-Inpainting: Es kann Teile eines Videos verändern, z. B. die Kleidung von Personen oder Hintergrunddetails.

Die Zukunft scheint da zu sein

Der Beginn des Jahres 2024 hat auch viele KI-Innovationen mit sich gebracht, die sich wie aus einem Science-Fiction-Film anfühlen. Dinge, die wir früher für unmöglich gehalten hätten, werden jetzt in Angriff genommen. Mit den folgenden Entdeckungen scheint die Zukunft gar nicht mehr so weit entfernt zu sein.

Neuralink von Elon Musk

Das Unternehmen Neuralink von Elon Musk hat seinen drahtlosen Gehirnchip am 29. Januar 2024 erfolgreich in einen Menschen implantiert. Dies ist ein großer Schritt auf dem Weg zur Verbindung von menschlichen Gehirnen mit Computern. Elon Musk teilte mit, dass das erste Produkt von Neuralink mit dem Namen "Telepathy" in der Pipeline ist. 

__wf_reserved_inherit
Abb. 7. Das Neuralink-Implantat

Ziel ist es, den Nutzern, insbesondere denjenigen, die die Funktion ihrer Gliedmaßen verloren haben, die Möglichkeit zu geben, Geräte mühelos durch ihre Gedanken zu steuern. Die möglichen Anwendungen gehen über die Bequemlichkeit hinaus. Elon Musk stellt sich eine Zukunft vor, in der Menschen mit Lähmungen problemlos kommunizieren können.

Disneys HoloTile-Boden 

Am 18. Januar 2024 enthüllte Walt Disney Imagineering den HoloTile Floor. Er wurde als der erste omnidirektionale Mehrpersonen-Laufbandboden der Welt bezeichnet. 

__wf_reserved_inherit
Abbildung 8. Disney Imagineer Lanny Smoot posiert auf seiner neuesten Innovation, dem HoloTile-Boden.

Es kann sich unter jeder Person oder jedem Objekt bewegen, wie bei der Telekinese, und bietet so ein immersives Virtual- und Augmented-Reality-Erlebnis. Sie können in jede Richtung gehen und Kollisionen vermeiden, während Sie sich darauf befinden. Disneys HoloTile Floor kann auch auf Theaterbühnen verlegt werden, um zu tanzen und sich auf kreative Weise zu bewegen.

Apples Vision Pro

Am 2. Februar 2024 kommt das mit Spannung erwartete Vision Pro Headset von Apple auf den Markt. Es bietet eine Reihe von Funktionen und Anwendungen, die das Erlebnis von virtueller und erweiterter Realität neu definieren sollen. Das Vision Pro Headset spricht ein breites Publikum an, indem es Unterhaltung, Produktivität und räumliche Datenverarbeitung miteinander verbindet. Apple verkündete stolz, dass bei der Markteinführung mehr als 600 Apps, von Produktivitätstools bis hin zu Spiel- und Unterhaltungsdiensten, für das Vision Pro optimiert wurden.

Devin von Cognition

Am 12. März 2024 veröffentlichte Cognition einen Softwareentwicklungsassistenten namens Devin. Devin ist der weltweit erste Versuch eines autonomen KI-Softwareingenieurs. Anders als herkömmliche Programmierassistenten, die Vorschläge machen oder bestimmte Aufgaben erledigen, soll Devin ganze Softwareentwicklungsprojekte vom ersten Konzept bis zur Fertigstellung übernehmen. 

Es kann neue Technologien erlernen, vollständige Anwendungen erstellen und bereitstellen, Fehler finden und beheben, seine eigenen Modelle trainieren, zu Open-Source- und Produktionscodebasen beitragen und sogar echte Entwicklungsaufträge von Websites wie Upwork annehmen. 

__wf_reserved_inherit
Abb. 9. Vergleich von Devin mit anderen Modellen.

Devin wurde mit SWE-bench bewertet, einem anspruchsvollen Benchmark, bei dem Agenten reale GitHub-Probleme in Open-Source-Projekten wie Django und scikit-learn lösen müssen. Er löste 13,86 % der Probleme durchgängig korrekt, verglichen mit dem bisherigen Stand der Technik von 1,96 %.

Ehrenvolle Erwähnungen

Es hat sich so viel getan, dass es nicht möglich ist, alles in diesem Artikel zu erwähnen. Aber hier sind einige weitere lobende Erwähnungen. 

  • NVIDIAs LATTE3D, angekündigt am 21. März 2024, ist ein Text-zu-3D-KI-Modell, das aus Textaufforderungen sofort 3D-Darstellungen erzeugt.
  • Der neue Text-zu-Video-Generator von Midjourney, der von CEO David Holz angekündigt wurde, hat im Januar mit dem Training begonnen und wird voraussichtlich bald starten.
  • Lenovo treibt die KI-PC-Revolution voran und veröffentlicht am 8. Januar 2024 das ThinkBook 13x mit E Ink Prism-Technologie und leistungsstarken KI-Laptops.

Bleiben Sie mit uns über AI-Trends auf dem Laufenden!

Anfang 2024 gab es bahnbrechende Fortschritte in der KI und viele wichtige technologische Meilensteine. Aber das ist erst der Anfang dessen, was KI leisten kann. Wenn Sie mehr über die neuesten KI-Entwicklungen erfahren möchten, hat Ultralytics die Lösung für Sie.

In unserem GitHub-Repository finden Sie unsere neuesten Beiträge zu Computer Vision und KI. Auf unseren Lösungsseiten erfahren Sie außerdem, wie KI in Branchen wie der Fertigung und dem Gesundheitswesen eingesetzt wird. 

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert