Découvrez les réseaux neuronaux graphiques (GNN) pour traiter les données non euclidiennes. Découvrez comment les GNN améliorent le raisonnement relationnel avec Ultralytics pour une IA visuelle avancée.
Un réseau neuronal graphique (GNN) est une classe spécialisée d'architectures d'apprentissage profond conçues pour traiter des données représentées sous forme de graphiques. Alors que les modèles traditionnels tels que les réseaux neuronaux convolutifs (CNN) sont optimisés pour les structures de type grille telles que les images, et que les réseaux neuronaux récurrents (RNN) excellent dans le traitement de données séquentielles telles que le texte ou les l'analyse de séries chronologiques, les GNN sont les seuls capables de traiter des données non euclidiennes. Cela signifie qu'ils opèrent sur des ensembles de données définis par des nœuds (entités) et des arêtes (relations), ce qui leur permet d'apprendre à partir des interdépendances complexes qui caractérisent les réseaux du monde réel. En capturant à la fois les attributs des points de données individuels et les connexions structurelles entre eux, les GNN permettent d'obtenir des informations puissantes dans des domaines où les relations sont tout aussi importantes que les entités elles-mêmes.
Le mécanisme fondamental derrière un GNN est un processus souvent appelé « passage de message » ou agrégation de voisinage . Dans ce cadre, chaque nœud du graphe met à jour sa propre représentation en recueillant des informations auprès de ses voisins immédiats. Pendant l'entraînement du modèle, le réseau apprend à produire des plongementsefficaces — des représentations vectorielles denses — qui codent les caractéristiques d'un nœud ainsi que la topologie de son voisinage local.
Grâce à plusieurs couches de traitement, un nœud peut finalement intégrer des informations provenant de plus loin dans le graphe, élargissant ainsi efficacement son « champ réceptif ». Cela permet au modèle de comprendre le contexte d'un nœud au sein de la structure plus large. Les frameworks modernes tels que PyTorch et la Deep Graph Library (DGL) facilitent la mise en œuvre de ces schémas complexes de transmission de messages, permettant aux développeurs de créer des applications sophistiquées basées sur des graphes sans partir de zéro.
Pour apprécier le rôle distinct des GNN, il est utile de les différencier des autres types courants de réseaux neuronaux (NN) présents dans le paysage de l'IA :
La capacité à modéliser des relations arbitraires rend les GNN indispensables dans divers secteurs à fort impact :
Les réseaux neuronaux graphiques sont de plus en plus intégrés dans les pipelines multimodaux. Par exemple, un système complet peut utiliser la segmentation d'images pour identifier des objets distincts dans une scène, puis employer un GNN pour raisonner sur les relations spatiales entre ces objets, souvent appelées « graphe de scène ». Cela permet de combler le fossé entre la perception visuelle et le raisonnement logique .
Python suivant montre comment relier Vision AI à des structures graphiques. Il utilise le
Ultralytics YOLO26 modèle pour detect , qui
servent de nœuds, et prépare une structure graphique de base à l'aide de torch.
import torch
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image to find entities (nodes)
results = model("https://ultralytics.com/images/bus.jpg")
# Extract box centers to serve as node features
# Format: [center_x, center_y] derived from xywh
boxes = results[0].boxes.xywh[:, :2].cpu()
x = torch.tensor(boxes.numpy(), dtype=torch.float)
# Create a hypothetical edge index connecting the first two objects
# In a real GNN, edges might be defined by distance or interaction
edge_index = torch.tensor([[0, 1], [1, 0]], dtype=torch.long)
print(f"Graph constructed: {x.size(0)} nodes (objects) and {edge_index.size(1)} edges.")
Les développeurs qui souhaitent gérer les ensembles de données requis pour ces pipelines complexes peuvent utiliser Ultralytics , qui simplifie les workflows d'annotation et d'entraînement pour les composants visuels du système. En combinant des modèles visuels robustes avec le raisonnement relationnel des GNN, les ingénieurs peuvent créer des systèmes autonomes sensibles au contexte qui comprennent mieux le monde qui les entoure.