Explore how Graph Neural Networks (GNNs) process complex relational data. Learn about message passing, real-world applications, and integration with YOLO26.
Mạng nơ-ron đồ thị (Graph Neural Network - GNN) là một lớp chuyên biệt của các kiến trúc học sâu được thiết kế để xử lý dữ liệu được biểu diễn dưới dạng đồ thị. Trong khi các mô hình truyền thống như Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) được tối ưu hóa cho các cấu trúc dạng lưới như hình ảnh, và Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) vượt trội trong việc xử lý dữ liệu tuần tự như văn bản hoặc phân tích chuỗi thời gian , thì GNN lại có khả năng xử lý dữ liệu phi Euclidean một cách độc đáo. Điều này có nghĩa là chúng hoạt động trên các tập dữ liệu được định nghĩa bởi các nút (thực thể) và các cạnh (mối quan hệ), cho phép chúng học hỏi từ các mối quan hệ phụ thuộc phức tạp đặc trưng cho các mạng lưới trong thế giới thực. Bằng cách nắm bắt cả các thuộc tính của từng điểm dữ liệu và các kết nối cấu trúc giữa chúng, GNN mở khóa những hiểu biết sâu sắc trong các lĩnh vực mà các mối quan hệ cũng quan trọng như chính các thực thể.
Cơ chế cơ bản đằng sau mạng nơron đồ thị (GNN) là một quá trình thường được gọi là "truyền thông điệp" hoặc tổng hợp lân cận. Trong khuôn khổ này, mỗi nút trong đồ thị cập nhật biểu diễn của chính nó bằng cách thu thập thông tin từ các nút lân cận trực tiếp. Trong quá trình huấn luyện mô hình , mạng học cách tạo ra các embedding hiệu quả — các biểu diễn vector dày đặc — mã hóa các đặc điểm của một nút cùng với cấu trúc topo của vùng lân cận cục bộ của nó.
Thông qua nhiều lớp xử lý, một nút cuối cùng có thể tích hợp thông tin từ các nút xa hơn trong đồ thị, mở rộng "phạm vi tiếp nhận" của nó một cách hiệu quả. Điều này cho phép mô hình hiểu được ngữ cảnh của một nút trong cấu trúc lớn hơn. Các framework hiện đại như PyTorch Geometric và Deep Graph Library (DGL) hỗ trợ việc triển khai các lược đồ truyền thông điệp phức tạp này, cho phép các nhà phát triển xây dựng các ứng dụng dựa trên đồ thị phức tạp mà không cần phải bắt đầu từ đầu.
Để hiểu rõ vai trò đặc biệt của GNN, cần phân biệt chúng với các loại mạng nơ-ron (NN) phổ biến khác trong lĩnh vực trí tuệ nhân tạo:
Khả năng mô hình hóa các mối quan hệ tùy ý khiến GNN trở nên không thể thiếu trong nhiều ngành công nghiệp có tác động lớn:
Mạng nơ-ron đồ thị (Graph Neural Networks - GNN) ngày càng được tích hợp vào các quy trình xử lý đa phương thức. Ví dụ, một hệ thống toàn diện có thể sử dụng phân đoạn hình ảnh để xác định các đối tượng riêng biệt trong một cảnh và sau đó sử dụng GNN để suy luận về mối quan hệ không gian giữa các đối tượng đó—thường được gọi là "Đồ thị cảnh". Điều này giúp thu hẹp khoảng cách giữa nhận thức thị giác và suy luận logic.
Sau đây Python Ví dụ này minh họa cách kết nối Trí tuệ nhân tạo thị giác (Vision AI) với cấu trúc đồ thị. Nó sử dụng...
Ultralytics YOLO26 mô hình tới detect các đối tượng, đóng vai trò là các nút, và chuẩn bị cấu trúc đồ thị cơ bản bằng cách sử dụng torch.
import torch
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image to find entities (nodes)
results = model("https://ultralytics.com/images/bus.jpg")
# Extract box centers to serve as node features
# Format: [center_x, center_y] derived from xywh
boxes = results[0].boxes.xywh[:, :2].cpu()
x = torch.tensor(boxes.numpy(), dtype=torch.float)
# Create a hypothetical edge index connecting the first two objects
# In a real GNN, edges might be defined by distance or interaction
edge_index = torch.tensor([[0, 1], [1, 0]], dtype=torch.long)
print(f"Graph constructed: {x.size(0)} nodes (objects) and {edge_index.size(1)} edges.")
Các nhà phát triển muốn quản lý các tập dữ liệu cần thiết cho các quy trình phức tạp này có thể sử dụng Nền tảng Ultralytics , giúp đơn giản hóa quy trình chú thích và huấn luyện cho các thành phần thị giác của hệ thống. Bằng cách kết hợp các mô hình thị giác mạnh mẽ với khả năng suy luận quan hệ của mạng nơ-ron đồ họa (GNN), các kỹ sư có thể xây dựng các hệ thống tự động nhận biết ngữ cảnh, hiểu rõ hơn về thế giới xung quanh.