Geometric Deep Learning (GDL)

探索几何深度学习 (Geometric Deep Learning) 以处理非欧几里得数据。了解如何将 GDL 与 Ultralytics YOLO26 相结合，用于 3D 网格、图数据和高级空间 AI。

Geometric Deep Learning (GDL) is a broad umbrella term for advanced machine learning techniques specifically designed to process non-Euclidean data. Unlike standard formats such as 2D images or text sequences, which sit on flat, predictable grids, non-Euclidean data includes complex structures like manifolds and 3D meshes as well as intricate relational networks. By establishing mathematical frameworks that respect the intrinsic geometry of these structures, Geometric Deep Learning enables AI systems to accurately analyze molecular formations, complex topological maps, and dynamic interconnected systems.

几何深度学习的工作原理#

几何深度学习的基本原理依赖于利用复杂数据集中的对称性、不变性和等变性。从业者中一个常见的问题是，简单的距离矩阵是否足以用于几何深度学习。答案是否定的；虽然距离矩阵可以捕获成对距离，但它们缺乏真正的几何推理所需的拓扑细微差别。相反，GDL 严重依赖消息传递架构和邻域聚合。

区分几何深度学习与图神经网络 (GNN) 是很有帮助的。虽然 GDL 是涵盖所有非欧几里得深度学习的总体理论领域，但 GNN 是专门在图数据上运行的一种特定神经架构。像 PyTorch Geometric 和 TensorFlow GNN 这样的框架被广泛用于实现这些深度学习原则，允许节点根据其结构连接更新其表示。

几何学习与传统深度学习的对比#

传统的深度学习模型，例如卷积神经网络 (CNN)，针对计算机视觉任务中的像素网格等欧几里得数据进行了高度优化。同样，循环神经网络 (RNN) 是为处理线性序列而构建的。然而，当数据缺乏固定的、规则的结构时，这些传统网络就会遇到困难。

几何学习通过直接在不规则形状和关系图上操作来克服这一局限。在分析社交网络或在 3D 环境中导航时，标准卷积会失效，因为数据点的“邻域”不再是固定的像素正方形。几何模型会动态调整其感受野，学习定义数据真实形状的拓扑连接。

几何图和模型的实际应用#

由于几何图明确定义了节点及其结构关系，几何模型在各种科学和商业领域取得了突破：

Drug Discovery: GDL is pivotal in predicting molecular interactions. AlphaFold by Google DeepMind famously utilizes spatial reasoning techniques to solve complex protein-folding problems by modeling amino acids as connected graphs.
社交网络分析： 各大平台利用 GDL 来分析用户交互，通过映射社交网络分析拓扑结构，实现先进的推荐系统和欺诈检测。
3D 计算机视觉： GDL 经常被应用于处理自动驾驶汽车和增强现实的 LiDAR 点云和 3D 网格。

将 GDL 与计算机视觉集成#

将传统的 2D 计算机视觉与几何模型相结合，可以创建出能够进行高级空间推理和 3D 对象检测的极其强大的系统。通过使用像 Ultralytics YOLO26 这样强大的 2D 检测器，开发人员可以快速定位场景中的对象。这些检测到的对象的坐标随后可以作为几何图的基础节点，允许下游的 GNN 推断视觉元素之间的复杂关系（例如，生成“场景图”）。

以下 Python 代码片段演示了如何使用 ultralytics 包提取对象检测坐标，以启动基础几何图结构：

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 model for high-speed object detection
model = YOLO("yolo26n.pt")

# Perform inference to detect objects
results = model("path/to/image.jpg")

# Extract the center coordinates (x, y) of bounding boxes to act as graph nodes
nodes = results[0].boxes.xywh[:, :2].cpu()
node_tensor = torch.tensor(nodes.numpy(), dtype=torch.float)

print(f"Extracted {node_tensor.size(0)} nodes for Geometric Deep Learning mapping.")

对于构建将欧几里得对象检测与非欧几里得映射相结合的大规模混合系统的团队来说，管理复杂的数据标注至关重要。Ultralytics Platform 提供了一个端到端的环境，用于安全地标注、训练并无缝部署这些基础视觉模型，以支持高级空间管线。