Glossar

Multimodales Lernen

Entdecken Sie die Möglichkeiten des multimodalen Lernens in der KI! Erforschen Sie, wie Modelle verschiedene Datentypen integrieren, um Probleme in der realen Welt besser lösen zu können.

Multimodales Lernen ist ein Teilgebiet der Künstlichen Intelligenz (KI) und des maschinellen Lernens (ML), das sich mit der Entwicklung und dem Training von Modellen befasst, die Informationen aus mehreren unterschiedlichen Datentypen, den so genannten Modalitäten, verarbeiten und integrieren können. Zu den gängigen Modalitäten gehören Text, Bilder(Computer Vision (CV)), Audio(Spracherkennung), Video und Sensordaten (wie LiDAR oder Temperaturmessungen). Das Hauptziel des multimodalen Lernens besteht darin, KI-Systeme zu entwickeln, die in der Lage sind, komplexe Szenarien ganzheitlicher und menschenähnlicher zu verstehen, indem sie die komplementären Informationen aus verschiedenen Datenquellen nutzen.

Definition und Kernkonzepte

Beim multimodalen Lernen werden Algorithmen trainiert, um die Beziehungen und Korrelationen zwischen verschiedenen Arten von Daten zu verstehen. Anstatt jede Modalität isoliert zu analysieren, konzentriert sich der Lernprozess auf Techniken zur effektiven Kombination oder Verschmelzung von Informationen. Zu den Schlüsselkonzepten gehören:

  • Informationsfusion: Dies bezieht sich auf die Methoden, die zur Kombination von Informationen aus verschiedenen Modalitäten verwendet werden. Die Fusion kann in verschiedenen Stadien erfolgen: zu einem frühen Zeitpunkt (Kombination von Rohdaten), als Zwischenschritt (Kombination von Merkmalen, die aus jeder Modalität extrahiert wurden) oder zu einem späten Zeitpunkt (Kombination der Ergebnisse von separaten Modellen, die auf jeder Modalität trainiert wurden). Eine wirksame Informationsfusion ist entscheidend, um die Stärken der einzelnen Datentypen zu nutzen.
  • Modalübergreifendes Lernen: Hierbei geht es um das Erlernen von Darstellungen, bei denen Informationen aus einer Modalität verwendet werden können, um Informationen aus einer anderen Modalität abzuleiten oder abzurufen (z. B. das Erzeugen von Textbeschriftungen aus Bildern).
  • Datenabgleich: Sicherstellen, dass die entsprechenden Informationen in den verschiedenen Modalitäten korrekt aufeinander abgestimmt sind (z. B. Ausrichten von gesprochenen Wörtern in einer Audiospur mit den entsprechenden visuellen Bildern in einem Video). Ein korrekter Datenabgleich ist oft eine Voraussetzung für eine effektive Fusion.

Multimodales Lernen stützt sich stark auf Techniken des Deep Learning (DL), wobei Architekturen wie Transformers und Convolutional Neural Networks (CNNs) verwendet werden, die an die Verarbeitung verschiedener Eingaben angepasst sind und häufig Frameworks wie PyTorch(PyTorch official site) oder TensorFlow(TensorFlow official site) nutzen.

Relevanz und Anwendungen

Die Relevanz des multimodalen Lernens ergibt sich aus seiner Fähigkeit, robustere und vielseitigere KI-Systeme zu schaffen, die in der Lage sind, komplexe, reale Probleme zu lösen, bei denen Informationen von Natur aus vielschichtig sind. Viele fortschrittliche KI-Modelle, einschließlich großer Foundation-Modelle, nutzen heute multimodale Fähigkeiten.

Im Folgenden finden Sie einige konkrete Beispiele für die Anwendung des multimodalen Lernens:

Weitere wichtige Anwendungen sind das autonome Fahren(KI in selbstfahrenden Autos), bei dem Daten von Kameras, LiDAR und Radar von Unternehmen wie Waymo kombiniert werden, die medizinische Bildanalyse, bei der Bilddaten mit Patientenakten kombiniert werden, und KI-Anwendungen in der Robotik, bei denen Roboter visuelle, auditive und taktile Informationen integrieren, um mit ihrer Umgebung zu interagieren(Robotik).

Wichtigste Unterscheidungsmerkmale

Es ist hilfreich, das multimodale Lernen von verwandten Begriffen zu unterscheiden:

  • Multimodale Modelle: Multi-Modales Lernen ist der Prozess oder das Studiengebiet, das sich mit dem Training von KI unter Verwendung mehrerer Datentypen befasst. Multimodale Modelle sind die daraus resultierenden KI-Systeme oder -Architekturen, die mit diesen Techniken entwickelt und trainiert werden.
  • Computer Vision (CV): CV konzentriert sich ausschließlich auf die Verarbeitung und das Verständnis visueller Daten (Bilder, Videos). Multimodales Lernen geht über CV hinaus, indem visuelle Daten mit anderen Modalitäten wie Text oder Audio integriert werden.
  • Verarbeitung natürlicher Sprache (NLP): NLP befasst sich mit dem Verstehen und Erzeugen menschlicher Sprache (Text, Sprache). Beim multimodalen Lernen werden Sprachdaten mit anderen Modalitäten wie Bildern oder Sensormessungen kombiniert.
  • Grundlegende Modelle: Hierbei handelt es sich um groß angelegte Modelle, die mit großen Datenmengen trainiert wurden und oft so konzipiert sind, dass sie an verschiedene nachgelagerte Aufgaben angepasst werden können. Viele moderne Basismodelle, wie z. B. GPT-4, beinhalten multimodale Fähigkeiten, aber die Konzepte sind unterschiedlich; multimodales Lernen ist eine Methode, die häufig beim Aufbau dieser leistungsstarken Modelle eingesetzt wird.

Herausforderungen und zukünftige Wege

Multimodales Lernen ist mit einzigartigen Herausforderungen verbunden. Dazu gehören der effektive Abgleich von Daten aus verschiedenen Quellen, die Entwicklung optimaler Fusionsstrategien und der Umgang mit fehlenden oder verrauschten Daten in einer oder mehreren Modalitäten. Die Bewältigung dieser Herausforderungen beim multimodalen Lernen bleibt ein aktives Forschungsgebiet.

Das Feld entwickelt sich rasch weiter und verschiebt die Grenzen hin zu KI-Systemen, die die Welt mehr wie Menschen wahrnehmen und darüber nachdenken, was möglicherweise zur Entwicklung der allgemeinen künstlichen Intelligenz (Artificial General Intelligence, AGI) beiträgt. Während Plattformen wie Ultralytics HUB derzeit Arbeitsabläufe erleichtern, die sich in erster Linie auf Computer-Vision-Aufgaben konzentrieren und Modelle wie Ultralytics YOLO (z. B. Ultralytics YOLOv8) für die Objekterkennung verwenden, weist die breitere KI-Landschaft auf eine zunehmende Integration multimodaler Fähigkeiten hin. Behalten Sie den Ultralytics-Blog im Auge, um sich über neue Modellfunktionen und Anwendungen zu informieren. Für einen breiteren Überblick über das Gebiet bietet die Wikipedia-Seite über Multimodales Lernen weitere Informationen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert