Geometric Deep Learning (GDL)

Изучи геометрическое глубокое обучение (Geometric Deep Learning) для обработки неевклидовых данных. Узнай, как сочетать GDL с Ultralytics YOLO26 для работы с 3D-сетками, графами и передовым пространственным ИИ.

Геометрическое глубокое обучение (GDL) — это широкий обобщающий термин для передовых методов машинного обучения, специально разработанных для обработки неевклидовых данных. В отличие от стандартных форматов, таких как 2D-изображения или последовательности текста, которые располагаются на плоских предсказуемых сетках, неевклидовы данные включают сложные структуры, такие как многообразия и 3D-сетки, а также запутанные реляционные сети. Создавая математические основы, учитывающие внутреннюю геометрию этих структур, Geometric Deep Learning позволяет системам ИИ точно анализировать молекулярные образования, сложные топологические карты и динамические взаимосвязанные системы.

Как работает Geometric Deep Learning#

Фундаментальные принципы Geometric Deep Learning опираются на использование симметрии, инвариантности и эквивариантности, присутствующих в сложных наборах данных. Распространенный вопрос среди специалистов — достаточно ли простой матрицы расстояний для геометрического глубокого обучения. Ответ — нет; хотя матрицы расстояний фиксируют попарные расстояния, им не хватает топологических нюансов, необходимых для подлинного геометрического мышления. Вместо этого GDL в значительной степени полагается на архитектуры передачи сообщений и агрегацию соседних узлов.

Полезно отличать Geometric Deep Learning от графовых нейронных сетей (GNN). В то время как GDL — это всеобъемлющая теоретическая область, охватывающая всё неевклидово глубокое обучение, GNN — это специфический тип нейронной архитектуры, работающий исключительно с графовыми данными. Такие фреймворки, как PyTorch Geometric и TensorFlow GNN, широко используются для реализации этих принципов глубокого обучения, позволяя узлам обновлять свои представления на основе их структурных связей.

Геометрическое обучение против традиционного глубокого обучения#

Традиционные модели глубокого обучения, такие как сверточные нейронные сети (CNN), высокооптимизированы для евклидовых данных, таких как пиксельные сетки в задачах компьютерного зрения. Аналогичным образом рекуррентные нейронные сети (RNN) созданы для обработки линейных последовательностей. Однако этим традиционным сетям приходится нелегко, когда данные лишены фиксированной регулярной структуры.

Геометрическое обучение преодолевает это ограничение, работая непосредственно с нерегулярными формами и реляционными картами. При анализе социальной сети или навигации в 3D-среде стандартные свертки не работают, поскольку «окрестность» точки данных больше не является фиксированным квадратом пикселей. Геометрические модели динамически адаптируют свои рецептивные поля, изучая топологические связи, определяющие истинную форму данных.

Реальные применения геометрических графов и моделей#

Поскольку геометрические графы явно определяют узлы и их структурные отношения, геометрические модели открыли прорывы в различных научных и коммерческих областях:

Разработка лекарств: GDL играет ключевую роль в прогнозировании молекулярных взаимодействий. AlphaFold от Google DeepMind широко известен использованием методов пространственного мышления для решения сложных задач свертывания белков путем моделирования аминокислот в виде связных графов.
Анализ социальных сетей: Платформы используют GDL для анализа взаимодействий пользователей, обеспечивая работу продвинутых рекомендательных систем и обнаружение мошенничества путем отображения топологий анализа социальных сетей.
3D-компьютерное зрение: GDL часто применяется для обработки облаков точек LiDAR и 3D-сеток для автономных транспортных средств и дополненной реальности.

Интеграция GDL с компьютерным зрением#

Объединение традиционного 2D-компьютерного зрения с геометрическими моделями позволяет создавать высоконадежные системы, способные к продвинутому пространственному мышлению и детекции 3D-объектов. Используя мощный 2D-детектор, такой как Ultralytics YOLO26, ты можешь быстро находить объекты на сцене. Координаты этих обнаруженных объектов затем могут служить базовыми узлами для геометрического графа, позволяя последующей GNN выводить сложные отношения между визуальными элементами (например, генерируя «граф сцены»).

Следующий фрагмент кода на Python демонстрирует, как ты можешь извлечь координаты обнаруженных объектов с помощью пакета ultralytics для инициализации базовой структуры геометрического графа:

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 model for high-speed object detection
model = YOLO("yolo26n.pt")

# Perform inference to detect objects
results = model("path/to/image.jpg")

# Extract the center coordinates (x, y) of bounding boxes to act as graph nodes
nodes = results[0].boxes.xywh[:, :2].cpu()
node_tensor = torch.tensor(nodes.numpy(), dtype=torch.float)

print(f"Extracted {node_tensor.size(0)} nodes for Geometric Deep Learning mapping.")

Для команд, создающих крупномасштабные гибридные системы, сочетающие евклидову детекцию объектов с неевклидовым картированием, управление сложной разметкой данных имеет решающее значение. Ultralytics Platform предоставляет комплексную среду для безопасной разметки, обучения и бесшовного развертывания этих базовых моделей компьютерного зрения для поддержки сложных пространственных конвейеров.