X
Ultralytics YOLOv8.2 FreigabeUltralytics YOLOv8.2 FreigabeUltralytics YOLOv8.2 Pfeil loslassen
Grüner Scheck
Link in die Zwischenablage kopiert

2024 startet mit einer generativen KI-Welle

Ein Blick auf die spannenden KI-Innovationen aus dem ersten Quartal 2024. Wir werden über Durchbrüche wie Sora AI von OpenAI, den Gehirnchip von Neuralink und die neuesten LLMs berichten.

Facebook-LogoTwitter-LogoLinkedIn-LogoKopier-Link-Symbol

Die KI-Community scheint fast täglich Schlagzeilen zu machen. Die ersten Monate des Jahres 2024 waren aufregend und vollgepackt mit neuen KI-Innovationen. Von leistungsstarken neuen großen Sprachmodellen bis hin zu menschlichen Gehirnimplantaten – das Jahr 2024 verspricht erstaunlich zu werden.

Wir sehen, wie KI Branchen verändert, Informationen zugänglicher macht und sogar die ersten Schritte zur Verschmelzung unseres Geistes mit Maschinen unternimmt. Spulen wir das erste Quartal 2024 zurück und werfen einen genaueren Blick auf die Fortschritte, die in wenigen Monaten in der KI erzielt wurden.

LLMs liegen im Trend

Large Language Models (LLMs), die darauf ausgelegt sind, menschliche Sprache auf der Grundlage großer Mengen von Textdaten zu verstehen, zu generieren und zu manipulieren, standen im ersten Quartal 2024 im Mittelpunkt. Viele große Technologieunternehmen haben ihre eigenen LLM-Modelle auf den Markt gebracht, jedes mit einzigartigen Funktionen. Der unglaubliche Erfolg früherer LLMs wie GPT-3 hat diesen Trend inspiriert. Hier sind einige der bemerkenswertesten LLM-Veröffentlichungen von Anfang 2024.

Anthropic's Claude 3

Anthropic veröffentlichte Claude 3 am 14. März 2024. Das Modell Claude 3 gibt es in drei Versionen: Opus, Sonett und Haiku, die jeweils unterschiedliche Märkte und Zwecke bedienen. Haiku, das schnellste Modell, ist für schnelle, einfache Reaktionen optimiert. Sonnet balanciert Geschwindigkeit mit Intelligenz und ist auf Unternehmensanwendungen ausgerichtet. Opus, die fortschrittlichste Version, bietet unvergleichliche Intelligenz und Argumentation und ist ideal für komplexe Aufgaben und das Erreichen von Top-Benchmarks.

Claude 3 verfügt über viele erweiterte Funktionen und Verbesserungen:

  • Verbesserte mehrsprachige Konversationen: Verbesserte Fähigkeiten in Sprachen wie Spanisch, Japanisch und Französisch.
  • Erweiterte Bildverarbeitungsfunktionen: Kann verschiedene visuelle Formate verarbeiten
  • Minimierte Ablehnungen: Zeigt mehr Verständnis mit weniger unnötigen Ablehnungen, was auf ein verbessertes kontextuelles Verständnis hinweist
  • Erweitertes Kontextfenster: Es bietet ein 200K-Kontextfenster, ist aber in der Lage, Eingaben über 1 Million Token basierend auf den Kundenanforderungen zu verarbeiten.
Abb. 1. Claude 3 ist kontextbezogener als frühere Versionen.

DBRX von Databricks

Databricks DBRX ist ein offener, universeller LLM, der am 27. März 2024 von Databricks veröffentlicht wurde. DBRX schneidet in verschiedenen Benchmarks sehr gut ab, darunter Sprachverständnis, Programmierung und Mathematik. Es übertrifft andere etablierte Modelle und ist dabei etwa 40 % kleiner als ähnliche Modelle.

Abb. 2. Vergleich von DBRX mit anderen Modellen.

DBRX wurde mithilfe der Next-Token-Vorhersage mit einer feinkörnigen MoE-Architektur (Mixture-of-Experts) trainiert, weshalb wir erhebliche Verbesserungen bei der Trainings- und Inferenzleistung feststellen können. Seine Architektur ermöglicht es dem Modell, das nächste Wort in einer Sequenz genauer vorherzusagen, indem es eine Vielzahl von spezialisierten Teilmodellen (die "Experten") konsultiert. Diese Untermodelle eignen sich gut für den Umgang mit verschiedenen Arten von Informationen oder Aufgaben.

Googles Gemini 1.5

Google hat am 15. Februar 2024 Gemini 1.5 vorgestellt, ein recheneffizientes, multimodales KI-Modell, das umfangreiche Text-, Video- und Audiodaten analysieren kann. Das neueste Modell ist in Bezug auf Leistung, Effizienz und Fähigkeiten fortschrittlicher. Ein wesentliches Merkmal von Gemini 1.5 ist sein Durchbruch im Verständnis des langen Kontexts. Das Modell ist in der Lage, bis zu 1 Million Token konsistent zu verarbeiten. Die 1.5-Fähigkeiten von Gemini sind auch einer neuen MoE-basierten Architektur zu verdanken.

Abb. 3. Vergleich der Kontextlängen gängiger LLMs

Hier sind einige der 1.5 interessantesten Funktionen von Gemini:

  • Verbesserte Datenverarbeitung: Ermöglicht das direkte Hochladen von großen PDFs, Code-Repositories oder langen Videos als Eingabeaufforderungen. Das Modell kann modalitätsübergreifend argumentieren und Text ausgeben.
  • Mehrere Datei-Uploads und -Abfragen: Entwickler können jetzt mehrere Dateien hochladen und Fragen stellen.
  • Kann für verschiedene Aufgaben verwendet werden: Es ist für die Skalierung verschiedener Aufgaben optimiert und zeigt Verbesserungen in Bereichen wie Mathematik, Naturwissenschaften, logisches Denken, Mehrsprachigkeit, Videoverständnis und Code

Atemberaubende Grafik von KI

Im ersten Quartal 2024 wurden generative KI-Modelle vorgestellt, die so reale Bilder erzeugen können, dass sie Debatten über die Zukunft der sozialen Medien und den Fortschritt der KI ausgelöst haben. Lassen Sie uns einen Blick auf die Modelle werfen, die das Gespräch anregen.

Sora von OpenAI 

OpenAI, der Schöpfer von ChatGPTkündigte am 15. Februar 2024 ein hochmodernes Text-to-Video-Deep-Learning-Modell namens Sora an. Sora ist ein Text-zu-Video-Generator, der in der Lage ist, minutenlange Videos mit hoher visueller Qualität basierend auf textuellen Benutzeraufforderungen zu generieren. 

Sehen Sie sich zum Beispiel die folgende Eingabeaufforderung an. 

"Eine wunderschön gerenderte Papierwelt eines Korallenriffs, voller bunter Fische und Meerestiere." 

Und hier ist ein Bild aus dem Ausgabevideo. 

Abb. 4. Ein Frame aus einem Video, das von Sora generiert wurde.

Die Architektur von Sora macht dies möglich, indem sie Diffusionsmodelle für die Texturerzeugung und Transformermodelle für die strukturelle Kohärenz miteinander verbindet. Bisher wurde Red Teamer und einer ausgewählten Gruppe von bildenden Künstlern, Designern und Filmemachern Zugang zu Sora gewährt, um die Risiken zu verstehen und Feedback zu erhalten. 

Stability AI's Stabile Diffusion 3 

Stability AI kündigte am 22. Februar 2024 die Einführung von Stable Diffusion 3, einem Text-zu-Bild-Generierungsmodell, an. Das Modell kombiniert die Architektur des Diffusionstransformators und die Strömungsanpassung. Sie haben noch kein technisches Papier veröffentlicht, aber es gibt ein paar wichtige Funktionen, auf die Sie achten sollten.

Abb. 5. Das Ausgabebild basiert auf der Eingabeaufforderung: "Episches Anime-Kunstwerk eines Zauberers auf einem Berg in der Nacht, der einen kosmischen Zauber in den dunklen Himmel wirft, auf dem steht, dass "Stable Diffusion 3" aus bunter Energie besteht."

Das neueste Modell von Stable Diffusion bietet eine verbesserte Leistung, Bildqualität und Genauigkeit bei der Erstellung von Bildern mit mehreren Motiven. Stable Diffusion 3 wird auch eine Vielzahl von Modellen anbieten, die von 800 Millionen bis 8 Milliarden Parametern reichen. Es ermöglicht den Benutzern, basierend auf ihren spezifischen Anforderungen an Skalierbarkeit und Details zu wählen.

Googles Lumière 

Am 23. Januar 2024 hat Google Lumière auf den Markt gebracht, ein Text-zu-Video-Diffusionsmodell. Lumiere verwendet eine Architektur namens Space-Time-U-Net, kurz STUNet. Es hilft Lumière zu verstehen, wo sich die Dinge befinden und wie sie sich in einem Video bewegen. Auf diese Weise können flüssige und lebensechte Videos erstellt werden.

Abb. 6. Ein Frame aus einem Video, das basierend auf der Aufforderung "Panda spielt zu Hause Ukulele" generiert wurde.

Mit der Fähigkeit, 80 Bilder pro Video zu generieren, verschiebt Lumière die Grenzen und setzt neue Maßstäbe für die Videoqualität im KI-Bereich. Hier sind einige der Funktionen von Lumière:

  • Bild-zu-Video: Ausgehend von einem Bild und einer Eingabeaufforderung kann Lumière Bilder zu Videos animieren.
  • Stilisierte Generierung: Lumière kann Videos in bestimmten Stilen mit einem einzigen Referenzbild erstellen.
  • Cinemagramme: Lumière kann bestimmte Bereiche innerhalb eines Bildes animieren, um dynamische Szenen zu erstellen, z. B. wenn sich ein bestimmtes Objekt bewegt, während der Rest der Szene statisch bleibt.
  • Video Inpainting: Es kann Teile eines Videos ändern, z. B. die Kleidung der darin enthaltenen Personen ändern oder Hintergrunddetails ändern.

Die Zukunft scheint da zu sein

Der Beginn des Jahres 2024 hat auch viele KI-Innovationen hervorgebracht, die sich wie aus einem Science-Fiction-Film anfühlen. Dinge, von denen wir früher gesagt hätten, dass sie unmöglich sind, werden jetzt bearbeitet. Die Zukunft scheint mit den folgenden Entdeckungen gar nicht so weit weg zu sein.

Elon Musks Neuralink

Elon Musks Neuralink hat am 29. Januar 2024 erfolgreich seinen drahtlosen Gehirnchip in einen Menschen implantiert. Dies ist ein großer Schritt in Richtung der Verbindung des menschlichen Gehirns mit Computern. Elon Musk teilte mit, dass das erste Produkt von Neuralink mit dem Namen "Telepathy" in der Pipeline ist. 

Abb. 7. Das Neuralink-Implantat

Ziel ist es, Benutzern, insbesondere solchen, die die Funktionalität der Gliedmaßen verloren haben, die Möglichkeit zu geben, Geräte mühelos durch ihre Gedanken zu steuern. Die Anwendungsmöglichkeiten gehen über die Bequemlichkeit hinaus. Elon Musk stellt sich eine Zukunft vor, in der Menschen mit Lähmungen problemlos kommunizieren können.

Disneys HoloTile-Boden 

Am 18. Januar 2024 enthüllte Walt Disney Imagineering den HoloTile Floor. Es wurde als der weltweit erste omnidirektionale Laufbandboden für mehrere Personen bezeichnet. 

Abb. 8. Disney Imagineer Lanny Smoot posiert auf seiner neuesten Innovation, dem HoloTile-Boden.

Es kann sich wie Telekinese unter jeder Person oder jedem Objekt bewegen, um ein immersives Virtual- und Augmented-Reality-Erlebnis zu ermöglichen. Sie können in jede Richtung gehen und dabei Kollisionen vermeiden. Disneys HoloTile Floor kann auch auf Theaterbühnen gepflanzt werden, um auf kreative Weise zu tanzen und sich zu bewegen.

Apples Vision Pro

Am 2. Februar 2024 kam das mit Spannung erwartete Vision Pro Headset von Apple auf den Markt. Es verfügt über eine Reihe von Funktionen und Anwendungen, die entwickelt wurden, um das Virtual- und Augmented-Reality-Erlebnis neu zu definieren. Das Vision Pro-Headset richtet sich an ein vielfältiges Publikum, indem es Unterhaltung, Produktivität und räumliches Computing miteinander verbindet. Apple gab stolz bekannt, dass über 600 Apps, von Produktivitätstools bis hin zu Gaming- und Entertainment-Diensten, für die Vision Pro optimiert wurden.

Devin der Kognition

Am 12. März 2024 hat Cognition einen Software-Engineering-Assistenten namens Devin veröffentlicht. Devin ist der weltweit erste Versuch eines autonomen KI-Software-Ingenieurs. Im Gegensatz zu herkömmlichen Programmierassistenten, die Vorschläge machen oder bestimmte Aufgaben erledigen, ist Devin darauf ausgelegt, ganze Softwareentwicklungsprojekte vom ersten Konzept bis zur Fertigstellung abzuwickeln. 

Es kann neue Technologien erlernen, vollständige Apps erstellen und bereitstellen, Fehler finden und beheben, eigene Modelle trainieren, zu Open-Source- und Produktionscodebasen beitragen und sogar echte Entwicklungsaufträge von Websites wie Upwork übernehmen. 

Abb. 9. Vergleich von Devin mit anderen Modellen.

Devin wurde auf der SWE-Bench bewertet, einem anspruchsvollen Benchmark, bei dem Agenten aufgefordert werden, reale GitHub-Probleme zu lösen, die in Open-Source-Projekten wie Django und scikit-learn auftreten. 13,86 % der Probleme wurden von Anfang bis Ende korrekt gelöst, verglichen mit dem vorherigen Stand der Technik von 1,96 %.

Lobende Erwähnungen

Es ist so viel passiert, dass es nicht möglich ist, alles in diesem Artikel abzudecken. Aber hier sind einige weitere lobende Erwähnungen. 

  • NVIDIAs LATTE3D, das am 21. März 2024 angekündigt wurde, ist ein Text-zu-3D-KI-Modell, das sofort 3D-Darstellungen aus Textaufforderungen erstellt.
  • Der neue Text-zu-Video-Generator von Midjourney, der von CEO David Holz angeteasert wurde, begann im Januar mit der Schulung und wird voraussichtlich bald auf den Markt kommen.
  • Lenovo hat am 8. Januar 2024 das ThinkBook 13x mit E-Ink-Prisma-Technologie und leistungsstarken KI-Laptops auf den Markt gebracht.

Bleiben Sie mit uns über KI-Trends auf dem Laufenden!

Zu Beginn des Jahres 2024 gab es bahnbrechende Fortschritte in der KI und viele wichtige technologische Meilensteine. Aber das ist nur der Anfang dessen, was KI tun kann. Wenn Sie mehr über die neuesten KI-Entwicklungen erfahren möchten, Ultralytics hat alles für Sie.

Schauen Sie sich unser GitHub-Repository an, um unsere neuesten Beiträge zu Computer Vision und KI zu sehen. Sie können sich auch unsere Lösungsseiten ansehen, um zu sehen, wie KI in Branchen wie der Fertigung und dem Gesundheitswesen eingesetzt wird. 

Lass uns gemeinsam die Zukunft
der KI gestalten!

Beginne deine Reise in die Zukunft des maschinellen Lernens

Lies mehr in dieser Kategorie