Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

2024 beginnt mit einer generativen KI-Welle

Abirami Vina

6 Minuten Lesezeit

12. April 2024

Ein Blick auf die aufregenden KI-Innovationen aus dem ersten Quartal 2024. Wir werden Durchbrüche wie OpenAIs Sora AI, Neuralinks Gehirnchip und die neuesten LLMs behandeln.

Die KI-Community scheint fast täglich Schlagzeilen zu machen. Die ersten Monate des Jahres 2024 waren aufregend und voller neuer KI-Innovationen. Von leistungsstarken neuen Large Language Models bis hin zu menschlichen Gehirnimplantaten entwickelt sich 2024 zu einem erstaunlichen Jahr.

Wir erleben, wie KI Branchen verändert, Informationen zugänglicher macht und sogar die ersten Schritte zur Verschmelzung unseres Geistes mit Maschinen unternimmt. Lassen Sie uns das erste Quartal 2024 Revue passieren und die Fortschritte in der KI in nur wenigen Monaten genauer betrachten.

LLMs sind im Trend

Large Language Models (LLMs), die entwickelt wurden, um menschliche Sprache auf der Grundlage riesiger Mengen an Textdaten zu verstehen, zu generieren und zu manipulieren, standen im ersten Quartal 2024 im Mittelpunkt. Viele große Technologieunternehmen veröffentlichten ihre eigenen LLM-Modelle, jedes mit einzigartigen Fähigkeiten. Der unglaubliche Erfolg früherer LLMs wie GPT-3 inspirierte diesen Trend. Hier sind einige der bemerkenswertesten LLM-Veröffentlichungen vom Anfang des Jahres 2024.

Claude 3 von Anthropic

Anthropic veröffentlichte Claude 3 am 14. März 2024. Das Claude 3-Modell ist in drei Versionen erhältlich: Opus, Sonnet und Haiku, die jeweils unterschiedliche Märkte und Zwecke bedienen. Haiku, das schnellste Modell, ist für schnelle, einfache Antworten optimiert. Sonnet gleicht Geschwindigkeit mit Intelligenz aus und ist auf Unternehmensanwendungen ausgerichtet. Opus, die fortschrittlichste Version, bietet unübertroffene Intelligenz und Argumentation und ist ideal für komplexe Aufgaben und das Erreichen von Top-Benchmarks.

Claude 3 verfügt über viele erweiterte Funktionen und Verbesserungen:

  • Verbesserte mehrsprachige Konversationen: Verbesserte Fähigkeiten in Sprachen wie Spanisch, Japanisch und Französisch.
  • Erweiterte Vision-Funktionen: Kann verschiedene visuelle Formate verarbeiten.
  • Minimierte Ablehnungen: Zeigt mehr Verständnis mit weniger unnötigen Ablehnungen, was auf ein verbessertes kontextuelles Verständnis hindeutet.
  • Erweitertes Kontextfenster: Es bietet ein 200K-Kontextfenster, kann aber je nach Kundenbedürfnissen Eingaben über 1 Million Token verarbeiten.
__wf_reserved_inherit
Abb. 1. Claude 3 ist kontextbezogener als frühere Versionen.

DBRX von Databricks

Databricks DBRX ist ein offenes, universelles LLM, das am 27. März 2024 von Databricks veröffentlicht wurde. DBRX schneidet in verschiedenen Benchmarks sehr gut ab, darunter Sprachverständnis, Programmierung und Mathematik. Es übertrifft andere etablierte Modelle und ist dabei etwa 40 % kleiner als ähnliche Modelle.

__wf_reserved_inherit
Abb. 2. Vergleich von DBRX mit anderen Modellen.

DBRX wurde mithilfe der Next-Token-Prediction mit einer feingranularen Mixture-of-Experts (MoE)-Architektur trainiert, weshalb wir deutliche Verbesserungen in der Trainings- und Inferenzleistung feststellen können. Seine Architektur ermöglicht es dem Modell, das nächste Wort in einer Sequenz genauer vorherzusagen, indem es ein vielfältiges Set spezialisierter Submodelle (die "Experten") konsultiert. Diese Submodelle sind gut darin, verschiedene Arten von Informationen oder Aufgaben zu verarbeiten.

Googles Gemini 1.5

Google hat am 15. Februar 2024 Gemini 1.5 vorgestellt, ein recheneffizientes, multimodales KI-Modell, das umfangreiche Text-, Video- und Audiodaten analysieren kann. Das neueste Modell ist in Bezug auf Leistung, Effizienz und Fähigkeiten fortschrittlicher. Ein Hauptmerkmal von Gemini 1.5 ist sein Durchbruch im Verständnis langer Kontexte. Das Modell ist in der Lage, bis zu 1 Million Tokens konsistent zu verarbeiten. Die Fähigkeiten von Gemini 1.5 sind auch einer neuen MoE-basierten Architektur zu verdanken.

__wf_reserved_inherit
Abb. 3. Vergleich der Kontextlängen beliebter LLMs

Hier sind einige der interessantesten Funktionen von Gemini 1.5:

  • Verbesserte Datenverarbeitung: Ermöglicht das direkte Hochladen großer PDFs, Code-Repositories oder langer Videos als Prompts. Das Modell kann modalitätsübergreifend argumentieren und Text ausgeben.
  • Mehrere Datei-Uploads und Abfragen: Entwickler können jetzt mehrere Dateien hochladen und Fragen stellen.
  • Kann für verschiedene Aufgaben verwendet werden: Es ist für die Skalierung über verschiedene Aufgaben hinweg optimiert und zeigt Verbesserungen in Bereichen wie Mathematik, Naturwissenschaften, logisches Denken, Mehrsprachigkeit, Videoverständnis und Code.

Atemberaubende Bilder von KI

Das erste Quartal 2024 hat generative KI-Modelle hervorgebracht, die Bilder erzeugen können, die so real sind, dass sie Debatten über die Zukunft der sozialen Medien und den Fortschritt der KI ausgelöst haben. Tauchen wir ein in die Modelle, die für Gesprächsstoff sorgen.

OpenAIs Sora 

OpenAI, der Schöpfer von ChatGPT, kündigte am 15. Februar 2024 ein hochmodernes Text-zu-Video-Deep-Learning-Modell namens Sora an. Sora ist ein Text-zu-Video-Generator, der in der Lage ist, einminütige Videos mit hoher visueller Qualität basierend auf textuellen Benutzeranfragen zu generieren. 

Schauen Sie sich zum Beispiel den folgenden Prompt an. 

“Eine wunderschön gerenderte Papierbastelwelt eines Korallenriffs, voller bunter Fische und Meeresbewohner.” 

Und hier ist ein Frame aus dem Ausgabevideo. 

__wf_reserved_inherit
Abb. 4. Ein Frame aus einem von Sora generierten Video.

Die Architektur von Sora ermöglicht dies durch die Kombination von Diffusionsmodellen für die Texturerzeugung und Transformer-Modellen für die strukturelle Kohärenz. Bisher wurde der Zugriff auf Sora an Red Teams und eine ausgewählte Gruppe von bildenden Künstlern, Designern und Filmemachern gewährt, um die Risiken zu verstehen und Feedback zu erhalten. 

Stability AIs Stable Diffusion 3 

Stability AI kündigte am 22. Februar 2024 die Ankunft von Stable Diffusion 3 an, einem Text-zu-Bild-Generierungsmodell. Das Modell mischt Diffusion-Transformer-Architektur und Flow Matching. Es wurde noch kein technisches Paper veröffentlicht, aber es gibt ein paar wichtige Funktionen, auf die man achten sollte.

__wf_reserved_inherit
Abb. 5. Das Ausgabebild basierend auf dem Prompt: “Episches Anime-Artwork eines Zauberers auf einem Berg in der Nacht, der einen kosmischen Zauber in den dunklen Himmel wirkt, auf dem "Stable Diffusion 3" aus farbenfroher Energie steht”

Das neueste Modell von Stable Diffusion bietet verbesserte Leistung, Bildqualität und Genauigkeit bei der Erstellung von Bildern mit mehreren Objekten. Stable Diffusion 3 wird auch eine Vielzahl von Modellen anbieten, die von 800 Millionen bis 8 Milliarden Parametern reichen. Es ermöglicht Benutzern, je nach ihren spezifischen Anforderungen an Skalierbarkeit und Detailgenauigkeit zu wählen.

Googles Lumiere 

Am 23. Januar 2024 startete Google Lumiere, ein Text-zu-Video-Diffusionsmodell. Lumiere verwendet eine Architektur namens Space-Time-U-Net, oder kurz STUNet. Es hilft Lumiere zu verstehen, wo sich Dinge befinden und wie sie sich in einem Video bewegen. Auf diese Weise kann es flüssige und lebensechte Videos generieren.

__wf_reserved_inherit
Abb. 6. Ein Frame aus einem Video, das auf der Grundlage des Prompts generiert wurde: “Panda spielt zu Hause Ukulele.”

Mit der Fähigkeit, 80 Frames pro Video zu generieren, verschiebt Lumiere Grenzen und setzt neue Standards für die Videoqualität im KI-Bereich. Hier sind einige der Funktionen von Lumiere:

  • Image-to-Video: Ausgehend von einem Bild und einem Prompt kann Lumiere Bilder in Videos animieren.
  • Stilisierte Generierung: Lumiere kann Videos in bestimmten Stilen erstellen, indem es ein einzelnes Referenzbild verwendet.
  • Cinemagraphen: Lumiere kann bestimmte Regionen innerhalb eines Bildes animieren, um dynamische Szenen zu erzeugen, z. B. ein bestimmtes Objekt, das sich bewegt, während der Rest der Szene statisch bleibt.
  • Video-Inpainting: Es kann Teile eines Videos verändern, z. B. die Kleidung von Personen darin ändern oder Hintergrunddetails verändern.

Die Zukunft scheint hier zu sein

Der Beginn des Jahres 2024 hat auch viele KI-Innovationen mit sich gebracht, die sich wie aus einem Science-Fiction-Film anfühlen. An Dingen, von denen wir früher gesagt hätten, dass sie unmöglich sind, wird jetzt gearbeitet. Die Zukunft fühlt sich mit den folgenden Entdeckungen nicht mehr so fern an.

Elon Musks Neuralink

Elon Musks Neuralink implantierte am 29. Januar 2024 erfolgreich seinen drahtlosen Gehirnchip in einen Menschen. Dies ist ein großer Schritt zur Verbindung des menschlichen Gehirns mit Computern. Elon Musk teilte mit, dass das erste Produkt von Neuralink mit dem Namen ‘Telepathy’ in der Pipeline ist. 

__wf_reserved_inherit
Abb. 7. Das Neuralink-Implantat

Das Ziel ist es, Benutzern, insbesondere solchen, die die Funktionalität ihrer Gliedmaßen verloren haben, zu ermöglichen, Geräte mühelos durch ihre Gedanken zu steuern. Die potenziellen Anwendungen gehen über die Bequemlichkeit hinaus. Elon Musk stellt sich eine Zukunft vor, in der Menschen mit Lähmungen problemlos kommunizieren können.

Disneys HoloTile-Boden 

Am 18. Januar 2024 enthüllte Walt Disney Imagineering den HoloTile-Boden. Er wurde als die weltweit erste multidirektionale Mehrpersonen-Laufbandfläche bezeichnet. 

__wf_reserved_inherit
Abb. 8. Disney Imagineer Lanny Smoot posiert auf seiner neuesten Innovation, dem HoloTile-Boden.

Er kann sich wie Telekinese unter jeder Person oder jedem Objekt bewegen, um ein immersives Virtual- und Augmented-Reality-Erlebnis zu ermöglichen. Sie können in jede Richtung gehen und Kollisionen vermeiden, während Sie sich darauf befinden. Disneys HoloTile-Boden kann auch auf Theaterbühnen eingesetzt werden, um auf kreative Weise zu tanzen und sich zu bewegen.

Apples Vision Pro

Am 2. Februar 2024 kam Apples mit Spannung erwartetes Vision Pro Headset auf den Markt. Es verfügt über eine Reihe von Funktionen und Anwendungen, die das Virtual- und Augmented-Reality-Erlebnis neu definieren sollen. Das Vision Pro Headset richtet sich an ein vielfältiges Publikum, indem es Unterhaltung, Produktivität und Spatial Computing miteinander verbindet. Apple gab stolz bekannt, dass über 600 Apps, von Produktivitätstools bis hin zu Gaming- und Unterhaltungsdiensten, zum Start für die Vision Pro optimiert wurden.

Cognitions Devin

Am 12. März 2024 veröffentlichte Cognition einen Softwareentwicklungsassistenten namens Devin. Devin ist der weltweit erste Versuch eines autonomen KI-Softwareentwicklers. Im Gegensatz zu traditionellen Programmierassistenten, die Vorschläge machen oder bestimmte Aufgaben erledigen, ist Devin so konzipiert, dass er ganze Softwareentwicklungsprojekte vom ersten Konzept bis zur Fertigstellung abwickeln kann. 

Es kann neue Technologien erlernen, vollständige Apps erstellen und bereitstellen, Fehler finden und beheben, eigene Modelle trainieren, zu Open-Source- und Produktionscodebasen beitragen und sogar echte Entwicklungsaufträge von Websites wie Upwork übernehmen. 

__wf_reserved_inherit
Abb. 9. Vergleich von Devin mit anderen Modellen.

Devin wurde auf SWE-bench evaluiert, einem anspruchsvollen Benchmark, das von Agenten verlangt, reale GitHub-Probleme zu lösen, die in Open-Source-Projekten wie Django und scikit-learn gefunden wurden. Es löste 13,86 % der Probleme durchgängig korrekt, verglichen mit dem vorherigen Stand der Technik von 1,96 %.

Ehrenvolle Erwähnungen

Es ist so viel passiert, dass es nicht möglich ist, alles in diesem Artikel abzudecken. Aber hier sind noch einige ehrenvolle Erwähnungen. 

  • NVIDIAs LATTE3D, angekündigt am 21. März 2024, ist ein Text-zu-3D-KI-Modell, das sofort 3D-Darstellungen aus Textprompts erstellt.
  • Der neue Text-zu-Video-Generator von Midjourney, der von CEO David Holz angeteasert wurde, begann im Januar mit dem Training und wird voraussichtlich bald auf den Markt kommen.
  • Lenovo hat am 8. Januar 2024 den ThinkBook 13x mit E Ink Prism-Technologie und leistungsstarke KI-Laptops auf den Markt gebracht und damit die KI-PC-Revolution vorangetrieben.

Bleiben Sie mit uns auf dem Laufenden über KI-Trends!

Der Beginn des Jahres 2024 brachte bahnbrechende Fortschritte im Bereich der KI und viele wichtige technologische Meilensteine. Aber das ist erst der Anfang dessen, was KI leisten kann. Wenn Sie mehr über die neuesten KI-Entwicklungen erfahren möchten, sind Sie bei Ultralytics genau richtig.

Besuchen Sie unser GitHub-Repository, um unsere neuesten Beiträge in den Bereichen Computer Vision und KI zu sehen. Sie können sich auch unsere Lösungsseiten ansehen, um zu erfahren, wie KI in Branchen wie Fertigung und Gesundheitswesen eingesetzt wird. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert