Entdecken Sie Graph Neural Networks (GNNs) zur Verarbeitung nicht-euklidischer Daten. Erfahren Sie, wie GNNs zusammen mit Ultralytics das relationale Denken für fortschrittliche Vision AI verbessern.
Ein Graph Neural Network (GNN) ist eine spezielle Klasse von Deep-Learning-Architekturen, die für die Verarbeitung von Daten entwickelt wurden, die als Graphen dargestellt werden. Während traditionelle Modelle wie Convolutional Neural Networks (CNNs) für gitterartige Strukturen wie Bilder optimiert sind und Recurrent Neural Networks (RNNs) sich für sequenzielle Daten wie Text oder Zeitreihenanalysen, sind GNNs in einzigartiger Weise in der Lage, nicht-euklidische Daten zu verarbeiten. Das bedeutet, dass sie mit Datensätzen arbeiten, die durch Knoten (Entitäten) und Kanten (Beziehungen) definiert sind, wodurch sie aus den komplexen Wechselbeziehungen lernen können, die reale Netzwerke charakterisieren. Durch die Erfassung sowohl der Attribute einzelner Datenpunkte als auch der strukturellen Verbindungen zwischen ihnen erschließen GNNs wertvolle Erkenntnisse in Bereichen, in denen Beziehungen genauso wichtig sind wie die Entitäten selbst.
Der grundlegende Mechanismus hinter einem GNN ist ein Prozess, der oft als „Message Passing“ oder Nachbarschaftsaggregation bezeichnet wird . In diesem Rahmen aktualisiert jeder Knoten im Graphen seine eigene Darstellung, indem er Informationen von seinen unmittelbaren Nachbarn sammelt. Während des Modelltrainings lernt das Netzwerk, effektive Einbettungen– dichte Vektordarstellungen – zu erzeugen, die die Merkmale eines Knotens zusammen mit der Topologie seiner lokalen Nachbarschaft kodieren.
Durch mehrere Verarbeitungsschichten kann ein Knoten schließlich Informationen aus weiter entfernten Bereichen des Graphen einbeziehen und so sein „rezeptives Feld“ effektiv erweitern. Dadurch kann das Modell den Kontext eines Knotens innerhalb der größeren Struktur verstehen. Moderne Frameworks wie PyTorch und die Deep Graph Library (DGL) erleichtern die Implementierung dieser komplexen Nachrichtenübermittlungsschemata und ermöglichen es Entwicklern, anspruchsvolle graphbasierte Anwendungen zu erstellen, ohne bei Null anfangen zu müssen .
Um die besondere Rolle von GNNs zu verstehen, ist es hilfreich, sie von anderen gängigen Typen neuronaler Netze (NN) in der KI-Landschaft zu unterscheiden:
Die Fähigkeit, beliebige Beziehungen zu modellieren, macht GNNs in verschiedenen einflussreichen Branchen unverzichtbar:
Graph Neural Networks werden zunehmend in multimodale Pipelines integriert. Ein umfassendes System könnte beispielsweise Bildsegmentierung verwenden, um unterschiedliche Objekte in einer Szene zu identifizieren, und dann ein GNN einsetzen, um die räumlichen Beziehungen zwischen diesen Objekten zu erschließen – oft als „Szenengraph” bezeichnet. Dies schließt die Lücke zwischen visueller Wahrnehmung und logischem Denken.
Das folgende Python zeigt, wie Vision AI mit Graphstrukturen verbunden werden kann. Es verwendet die
Ultralytics YOLO26 Modell zum detect , die
als Knoten dienen, und erstellt eine grundlegende Graphstruktur unter Verwendung von torch.
import torch
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image to find entities (nodes)
results = model("https://ultralytics.com/images/bus.jpg")
# Extract box centers to serve as node features
# Format: [center_x, center_y] derived from xywh
boxes = results[0].boxes.xywh[:, :2].cpu()
x = torch.tensor(boxes.numpy(), dtype=torch.float)
# Create a hypothetical edge index connecting the first two objects
# In a real GNN, edges might be defined by distance or interaction
edge_index = torch.tensor([[0, 1], [1, 0]], dtype=torch.long)
print(f"Graph constructed: {x.size(0)} nodes (objects) and {edge_index.size(1)} edges.")
Entwickler, die die für diese komplexen Pipelines erforderlichen Datensätze verwalten möchten, können Ultralytics nutzen, die die Annotations- und Trainings-Workflows für die Bildverarbeitungskomponenten des Systems vereinfacht. Durch die Kombination robuster Bildverarbeitungsmodelle mit dem relationalen Schlussfolgern von GNNs können Ingenieure kontextbewusste autonome Systeme entwickeln, die ihre Umgebung besser verstehen.