2024 beginnt mit einer Welle generativer KI
Ein Blick auf die spannenden KI-Innovationen des ersten Quartals 2024. Wir behandeln Durchbrüche wie OpenAIs Sora AI, Neuralinks Gehirn-Chip und die neuesten LLMs.

Die KI-Community scheint fast täglich für Schlagzeilen zu sorgen. Die ersten Monate des Jahres 2024 waren aufregend und vollgepackt mit neuen KI-Innovationen. Von leistungsstarken neuen Large Language Models bis hin zu Gehirnimplantaten – 2024 entwickelt sich zu einem erstaunlichen Jahr.
Wir erleben, wie KI ganze Branchen transformiert, Informationen leichter zugänglich macht und sogar die ersten Schritte zur Verschmelzung von Mensch und Maschine unternimmt. Lass uns das erste Quartal 2024 Revue passieren lassen und einen genaueren Blick auf die Fortschritte werfen, die in nur wenigen Monaten in der KI erzielt wurden.
Link to this sectionLLMs liegen im Trend#
Large Language Models (LLMs), die darauf ausgelegt sind, menschliche Sprache auf Basis riesiger Textdatenmengen zu verstehen, zu generieren und zu manipulieren, standen im ersten Quartal 2024 im Mittelpunkt. Viele große Technologieunternehmen haben ihre eigenen LLM-Modelle veröffentlicht, jedes mit einzigartigen Fähigkeiten. Der unglaubliche Erfolg früherer LLMs wie GPT-3 befeuerte diesen Trend. Hier sind einige der bemerkenswertesten LLM-Veröffentlichungen von Anfang 2024.
Link to this sectionAnthropic's Claude 3#
Anthropic veröffentlichte Claude 3 am 14. März 2024. Das Claude 3-Modell gibt es in drei Versionen: Opus, Sonnet und Haiku, die jeweils unterschiedliche Märkte und Zwecke bedienen. Haiku, das schnellste Modell, ist auf zügige, grundlegende Antworten optimiert. Sonnet balanciert Geschwindigkeit mit Intelligenz und richtet sich an Unternehmensanwendungen. Opus, die fortschrittlichste Version, liefert beispiellose Intelligenz und logisches Denken und ist ideal für komplexe Aufgaben sowie das Erreichen von Spitzenwerten bei Benchmarks.
Claude 3 bietet viele erweiterte Funktionen und Verbesserungen:
- Verbesserte mehrsprachige Konversationen: Erweiterte Fähigkeiten in Sprachen wie Spanisch, Japanisch und Französisch.
- Erweiterte Vision-Funktionen: Kann verschiedene visuelle Formate verarbeiten.
- Minimierte Ablehnungen: Zeigt mehr Verständnis bei weniger unnötigen Ablehnungen, was auf ein verbessertes Kontextverständnis hindeutet.
- Erweitertes Kontextfenster: Es bietet ein 200K-Kontextfenster, ist aber je nach Kundenbedarf in der Lage, Inputs von über 1 Million Tokens zu verarbeiten.

Abb. 1. Claude 3 verfügt über ein besseres Kontextverständnis als frühere Versionen.
Link to this sectionDatabricks' DBRX#
Databricks DBRX ist ein offenes Allzweck-LLM, das am 27. März 2024 von Databricks veröffentlicht wurde. DBRX schneidet bei verschiedenen Benchmarks, einschließlich Sprachverständnis, Programmierung und Mathematik, sehr gut ab. Es übertrifft andere etablierte Modelle und ist dabei etwa 40 % kleiner als vergleichbare Modelle.

Abb. 2. Vergleich von DBRX mit anderen Modellen.
DBRX wurde mittels Next-Token-Prediction mit einer fein abgestimmten Mixture-of-Experts (MoE)-Architektur trainiert, weshalb wir signifikante Verbesserungen bei der Trainings- und Inferenzleistung beobachten können. Die Architektur erlaubt es dem Modell, das nächste Wort in einer Sequenz präziser vorherzusagen, indem eine vielfältige Menge spezialisierter Teilmodelle (die "Experten") hinzugezogen wird. Diese Teilmodelle sind gut darin, unterschiedliche Arten von Informationen oder Aufgaben zu bewältigen.
Link to this sectionGoogle’s Gemini 1.5#
Google stellte am 15. Februar 2024 Gemini 1.5 vor, ein recheneffizientes, multimodales KI-Modell, das umfangreiche Text-, Video- und Audiodaten analysieren kann. Das neueste Modell ist in Bezug auf Leistung, Effizienz und Fähigkeiten fortschrittlicher. Ein Hauptmerkmal von Gemini 1.5 ist der Durchbruch beim Verständnis langer Kontexte. Das Modell kann konsistent bis zu 1 Million Tokens verarbeiten. Die Fähigkeiten von Gemini 1.5 sind ebenfalls einer neuen MoE-basierten Architektur zu verdanken.

Abb. 3. Vergleich der Kontextlängen populärer LLMs
Hier sind einige der interessantesten Funktionen von Gemini 1.5:
- Verbesserte Datenverarbeitung: Ermöglicht das direkte Hochladen großer PDFs, Code-Repositories oder langer Videos als Prompts. Das Modell kann über Modalitäten hinweg Schlussfolgerungen ziehen und Text ausgeben.
- Hochladen mehrerer Dateien und Abfragen: Entwickler können nun mehrere Dateien hochladen und Fragen dazu stellen.
- Einsetzbar für verschiedene Aufgaben: Es ist darauf optimiert, über diverse Aufgaben hinweg zu skalieren, und zeigt Verbesserungen in Bereichen wie Mathematik, Wissenschaft, logisches Denken, Mehrsprachigkeit, Videoverständnis und Code.
Link to this sectionAtemberaubende Bilder von KI#
Das erste Quartal 2024 hat generative KI-Modelle hervorgebracht, die so realistische Bilder erstellen können, dass sie Debatten über die Zukunft sozialer Medien und den Fortschritt der KI ausgelöst haben. Lass uns einen Blick auf die Modelle werfen, die für Gesprächsstoff sorgen.
Link to this sectionOpenAI’s Sora#
OpenAI, der Schöpfer von ChatGPT, kündigte am 15. Februar 2024 ein hochmodernes Deep-Learning-Modell für Text-zu-Video namens Sora an. Sora ist ein Text-zu-Video-Generator, der basierend auf textuellen Benutzeraufforderungen minutenlange Videos in hoher visueller Qualität erstellen kann.
Schau dir zum Beispiel den folgenden Prompt an.
“Eine wunderschön gestaltete Papercraft-Welt eines Korallenriffs, voller bunter Fische und Meeresbewohner.”
Und hier ist ein Frame aus dem ausgegebenen Video.

Abb. 4. Ein Frame aus einem von Sora generierten Video.
Soras Architektur ermöglicht dies durch die Kombination von Diffusionsmodellen zur Texturerzeugung und Transformer-Modellen für strukturelle Kohärenz. Bisher wurde der Zugriff auf Sora an Red Teamer sowie eine ausgewählte Gruppe von bildenden Künstlern, Designern und Filmemachern vergeben, um die Risiken zu verstehen und Feedback zu sammeln.
Link to this sectionStability AI’s Stable Diffusion 3#
Stability AI kündigte am 22. Februar 2024 die Ankunft von Stable Diffusion 3 an, einem Text-zu-Bild-Generierungsmodell. Das Modell kombiniert die Architektur von Diffusion-Transformern mit Flow-Matching. Ein technisches Paper wurde zwar noch nicht veröffentlicht, aber es gibt einige wichtige Funktionen, auf die du achten solltest.

Abb. 5. Das ausgegebene Bild basierend auf dem Prompt: „Epische Anime-Kunst eines Zauberers auf einem Berg in der Nacht, der einen kosmischen Zauberspruch in den dunklen Himmel wirkt, der „Stable Diffusion 3“ aus bunter Energie buchstabiert“ (Quelle)
Das neueste Modell von Stable Diffusion bietet eine verbesserte Leistung, Bildqualität und Genauigkeit bei der Erstellung von Bildern mit mehreren Subjekten. Stable Diffusion 3 wird zudem eine Vielzahl von Modellen von 800 Millionen bis 8 Milliarden Parametern anbieten. Dies ermöglicht es Benutzern, basierend auf ihren spezifischen Anforderungen an Skalierbarkeit und Detailgrad zu wählen.
Link to this sectionGoogle’s Lumiere#
Am 23. Januar 2024 startete Google Lumiere, ein Diffusionsmodell für Text-zu-Video. Lumiere verwendet eine Architektur namens Space-Time-U-Net, kurz STUNet. Sie hilft Lumiere zu verstehen, wo sich Dinge befinden und wie sie sich in einem Video bewegen. Dadurch kann es flüssige und lebensechte Videos erzeugen.

Abb. 6. Ein Frame aus einem Video, das basierend auf dem Prompt „Panda spielt zu Hause Ukulele“ generiert wurde.
Mit der Fähigkeit, 80 Frames pro Video zu generieren, verschiebt Lumiere Grenzen und setzt neue Standards für Videoqualität im KI-Bereich. Hier sind einige von Lumieres Funktionen:
- Bild-zu-Video: Ausgehend von einem Bild und einem Prompt kann Lumiere Bilder in Videos animieren.
- Stilisierte Generierung: Lumiere kann Videos in bestimmten Stilen unter Verwendung eines einzelnen Referenzbildes erstellen.
- Cinemagraphs: Lumiere kann bestimmte Bereiche innerhalb eines Bildes animieren, um dynamische Szenen zu erzeugen, wie zum Beispiel ein sich bewegendes Objekt, während der Rest der Szene statisch bleibt.
- Video-Inpainting: Es kann Teile eines Videos verändern, wie das Ändern der Kleidung von Personen darin oder das Anpassen von Hintergrunddetails.
Link to this sectionDie Zukunft scheint angekommen zu sein#
Der Anfang des Jahres 2024 hat auch viele KI-Innovationen hervorgebracht, die sich anfühlen wie aus einem Science-Fiction-Film. Dinge, die wir zuvor als unmöglich bezeichnet hätten, werden jetzt bearbeitet. Die Zukunft fühlt sich mit den folgenden Entdeckungen gar nicht mehr so weit weg an.
Link to this sectionElon Musk’s Neuralink#
Elon Musks Neuralink implantierte am 29. Januar 2024 erfolgreich seinen kabellosen Gehirnchip in einen Menschen. Dies ist ein riesiger Schritt in Richtung der Verbindung von menschlichen Gehirnen mit Computern. Elon Musk teilte mit, dass Neuralinks erstes Produkt namens „Telepathy“ in der Entwicklung ist.

Abb. 7. Das Neuralink-Implantat
Das Ziel ist es, Benutzern, insbesondere solchen, die die Funktionalität ihrer Gliedmaßen verloren haben, zu ermöglichen, Geräte mühelos durch ihre Gedanken zu steuern. Die potenziellen Anwendungen gehen über bloße Bequemlichkeit hinaus. Elon Musk stellt sich eine Zukunft vor, in der Menschen mit Lähmungen problemlos kommunizieren können.
Link to this sectionDisney's HoloTile Floor#
Am 18. Januar 2024 stellte Walt Disney Imagineering den HoloTile Floor vor. Er wurde als der weltweit erste omnidirektionale Laufboden für mehrere Personen bezeichnet.

Abb. 8. Disney Imagineer Lanny Smoot posiert auf seiner neuesten Innovation, dem HoloTile-Boden.
Er kann sich unter jeder Person oder jedem Objekt wie durch Telekinese bewegen, um ein immersives Virtual- und Augmented-Reality-Erlebnis zu schaffen. Man kann in jede Richtung gehen und dabei Kollisionen vermeiden. Disneys HoloTile Floor kann auch auf Theaterbühnen eingesetzt werden, um kreativ zu tanzen und sich zu bewegen.
Link to this sectionApple’s Vision Pro#
Am 2. Februar 2024 kam Apples mit Spannung erwartetes Vision Pro Headset auf den Markt. Es verfügt über eine Reihe von Funktionen und Anwendungen, die das Virtual- und Augmented-Reality-Erlebnis neu definieren sollen. Das Vision Pro Headset spricht ein vielfältiges Publikum an, indem es Unterhaltung, Produktivität und räumliches Rechnen verbindet. Apple gab stolz bekannt, dass bei der Markteinführung über 600 Apps, von Produktivitätstools bis hin zu Gaming- und Unterhaltungsdiensten, für das Vision Pro optimiert waren.
Link to this sectionCognition’s Devin#
Am 12. März 2024 veröffentlichte Cognition einen Software-Engineering-Assistenten namens Devin. Devin ist der weltweit erste Versuch eines autonomen KI-Softwareentwicklers. Im Gegensatz zu herkömmlichen Coding-Assistenten, die Vorschläge bieten oder spezifische Aufgaben erledigen, ist Devin darauf ausgelegt, ganze Softwareentwicklungsprojekte vom ersten Konzept bis zum Abschluss zu bewältigen.
Er kann neue Technologien erlernen, vollständige Apps erstellen und bereitstellen, Fehler finden und beheben, seine eigenen Modelle trainieren, zu Open-Source- und Produktiv-Codebases beitragen und sogar echte Entwicklungsjobs von Seiten wie Upwork annehmen.

Abb. 9. Vergleich von Devin mit anderen Modellen.
Devin wurde auf SWE-bench evaluiert, einem anspruchsvollen Benchmark, der Agenten auffordert, reale GitHub-Probleme in Open-Source-Projekten wie Django und scikit-learn zu lösen. Er löste korrekt 13,86 % der Probleme vollständig, verglichen mit dem bisherigen Bestwert von 1,96 %.
Link to this sectionEhrenhafte Erwähnungen#
Es ist so viel passiert, dass es unmöglich ist, alles in diesem Artikel abzudecken. Aber hier sind einige weitere ehrenhafte Erwähnungen.
- NVIDIAs LATTE3D, angekündigt am 21. März 2024, ist ein Text-zu-3D-KI-Modell, das sofort 3D-Darstellungen aus Text-Prompts erstellt.
- Midjourneys neuer Text-zu-Video-Generator, der von CEO David Holz angeteasert wurde, begann im Januar mit dem Training und wird in Kürze erwartet.
- Um die KI-PC-Revolution voranzutreiben, veröffentlichte Lenovo am 8. Januar 2024 das ThinkBook 13x mit E Ink Prism Technologie und leistungsstarke KI-Laptops.
Link to this sectionBleib mit uns über KI-Trends auf dem Laufenden!#
Der Anfang des Jahres 2024 brachte bahnbrechende Fortschritte in der KI und viele wichtige technologische Meilensteine. Aber das ist erst der Anfang dessen, was KI leisten kann. Wenn du mehr über die neuesten KI-Entwicklungen erfahren möchtest, bist du bei Ultralytics genau richtig.
Schau dir unser GitHub-Repository an, um unsere neuesten Beiträge zu Computer Vision und KI zu sehen. Du kannst auch unsere Lösungsseiten besuchen, um zu sehen, wie KI in Branchen wie Fertigung und Gesundheitswesen eingesetzt wird.






