グラフや3Dメッシュなどの非ユークリッドデータを処理するためのGeometric Deep Learning(GDL)について探求しましょう。高度なビジョンAIを実現するために、Ultralytics GDLと統合する方法について学びます。
幾何学的深層学習(GDL)は、 深層学習の一分野であり、従来のニューラル ネットワークの機能を拡張して、非ユークリッド幾何学で 構造化されたデータを処理するものです。 標準的な 畳み込みニューラルネットワークは 2次元画像のような格子状の表現に対して高度に最適化されていますが、GDLは、グラフ、3次元メッシュ、連続多様体といった複雑で不規則なデータ構造を 分析するために必要な数学的枠組みを提供します。
幾何学的深層学習(GDL)は、 グラフニューラルネットワーク(GNN)と混同されることがよくあります。これらの 用語は密接に関連していますが、同一ではありません。GDLは、 関係性に基づく帰納的バイアスに基づいた包括的な理論的枠組みであるのに対し、GNNは、 グラフ理論の構造上で動作するように明示的に設計された アーキテクチャの特定のサブセットです。
GDLは、モデルが関係性や形状を直接解釈できるようにすることで、現代の人工知能における最も重要なブレークスルーのいくつかを支えています。
応用コンピュータビジョンにおいて、空間認識を抽出するには、 多くの場合、2次元的な視覚的知覚と、 幾何学的ネットワークによる時空間的推論とを結びつける必要があります。 開発者は、こうしたシステムを構築するために、 PyTorch などのツールを頻繁に利用しています。 Ultralytics モデルを活用すれば、視覚的要素を迅速に 識別し、その空間座標をより大規模な幾何学的グラフの基礎となるノードとして利用することができます。
以下のPython 、標準的な 物体検出の出力を抽出し、幾何学的処理 パイプラインで利用可能な tensor 整形する方法を示しています:
import torch
from ultralytics import YOLO
# Load an Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")
# Run inference to extract bounding box coordinates
results = model("https://ultralytics.com/images/bus.jpg")
boxes = results[0].boxes.xywh[:, :2].cpu() # Extract x, y centers
# Format coordinates as feature nodes for a geometric graph
node_features = torch.tensor(boxes.numpy(), dtype=torch.float)
print(f"Extracted {node_features.shape[0]} object nodes for graph construction.")
ビジョンアーキテクチャと幾何学的データを組み合わせたパイプラインを効果的に拡張するため、チームは Ultralytics を使用して 画像セグメンテーションデータセットを管理できます。このエンドツーエンドのクラウドソリューションは、 初期の データアノテーションから最終的な モデルデプロイメントに至る開発ライフサイクルを簡素化し、エンジニアが 高度なマニフォールド学習戦略を 堅牢な本番環境に統合することに注力できるようにします。

未来の機械学習で、新たな一歩を踏み出しましょう。