Entdecken Sie Multimodale KI, das Feld, in dem Systeme verschiedene Daten wie Text, Bilder und Audio verarbeiten und verstehen. Erfahren Sie, wie es funktioniert, und erkunden Sie wichtige Anwendungen.
Multimodale KI bezieht sich auf einen anspruchsvollen Zweig der künstlichen Intelligenz (KI), die mehrere Datentypen gleichzeitig verarbeitet, interpretiert und begründet. Im Gegensatz zu traditionellen unimodalen Systemen die sich auf eine einzige Eingabequelle stützen - wie z. B. reine Text Large Language Models (LLMs) oder reine Bildklassifizierer Klassifikatoren - integrieren multimodale Systeme verschiedene Datenströme wie Text, Bilder, Audio, Video und Sensormessungen. Dieser Ansatz ahmt die menschliche Wahrnehmung nach, die auf natürliche Weise Sehen, Hören und Sprache kombiniert, um sich ein umfassendes ein umfassendes Verständnis der Umgebung. Durch die Synthese dieser verschiedenen Modalitäten erreichen diese Systeme eine höhere Genauigkeit und Kontextbewusstsein und nähern sich damit den Fähigkeiten der Künstliche allgemeine Intelligenz (AGI).
Die Architektur eines multimodalen Systems umfasst im Allgemeinen drei verschiedene Stufen: Kodierung, Fusion und Dekodierung. Zunächst werden separate neuronale Netze, wie z. B. Faltungsneuronale Netze (CNNs) für visuelle Daten und Transformers für textuelle Daten, Merkmale aus jedem Eingabetyp extrahieren. Diese Merkmale werden in numerische Vektoren umgewandelt, die als Einbettungen.
Die entscheidende Phase ist die Fusion, in der diese Einbettungen zu einem gemeinsamen Darstellungsraum kombiniert werden. Fortgeschrittene Fusionsverfahren nutzen Aufmerksamkeitsmechanismen zur Abwägung der Bedeutung der verschiedenen Modalitäten im Verhältnis zueinander zu gewichten. Bei einer Videoanalyseaufgabe könnte das Modell zum Beispiel Audiodaten den Vorrang geben, wenn eine Figur spricht, aber den Fokus auf visuelle Daten während einer Aktionssequenz verlagern. Frameworks wie PyTorch und TensorFlow bieten das rechnerische Rückgrat für den Aufbau dieser komplexen Architekturen.
Multimodale KI treibt Innovationen in verschiedenen Sektoren voran, indem sie Probleme löst, die eine ganzheitliche Sicht auf Daten erfordern.
Während vollständige multimodale Modelle komplex sind, handelt es sich bei ihren Komponenten oft um zugängliche Spezialmodelle. Zum Beispiel verwendet die Bildverarbeitungskomponente einer multimodalen Pipeline oft einen Hochgeschwindigkeits-Objektdetektor verwendet. Nachfolgend ein Beispiel mit Ultralytics YOLO11 zur Extraktion visueller Konzepte (Klassen) aus einem Bild zu extrahieren, die dann für weitere Schlussfolgerungen in ein Sprachmodell eingespeist werden können.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
Es ist hilfreich, multimodale KI von ähnlichen Begriffen abzugrenzen, um die Landschaft besser zu verstehen:
Das Feld entwickelt sich rasch hin zu Systemen, die nahtlos jede Modalität erzeugen und verstehen können. Forschung Forschungseinrichtungen wie Google DeepMind und OpenAI verschieben die Grenzen der Modelle, um Text und visuelle latente Räume besser abzugleichen latente Räume.
Bei Ultralytics entwickeln wir die Bildverarbeitungskomponente dieses Ökosystems kontinuierlich weiter. Das kommende YOLO26 wird entwickelt, um noch mehr Effizienz und und Genauigkeit und dient als robustes visuelles Rückgrat für zukünftige multimodale Anwendungen. Benutzer, die an der Nutzung von diese Fähigkeiten zu nutzen, können die Integration mit Tools wie LangChain um ihre eigenen komplexen logischen Systeme zu entwickeln.