Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng Nơ-ron Đồ Thị (GNN)

Explore how Graph Neural Networks (GNNs) process complex relational data. Learn about message passing, real-world applications, and integration with YOLO26.

Mạng nơ-ron đồ thị (Graph Neural Network - GNN) là một lớp chuyên biệt của các kiến ​​trúc học sâu được thiết kế để xử lý dữ liệu được biểu diễn dưới dạng đồ thị. Trong khi các mô hình truyền thống như Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) được tối ưu hóa cho các cấu trúc dạng lưới như hình ảnh, và Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) vượt trội trong việc xử lý dữ liệu tuần tự như văn bản hoặc phân tích chuỗi thời gian , thì GNN lại có khả năng xử lý dữ liệu phi Euclidean một cách độc đáo. Điều này có nghĩa là chúng hoạt động trên các tập dữ liệu được định nghĩa bởi các nút (thực thể) và các cạnh (mối quan hệ), cho phép chúng học hỏi từ các mối quan hệ phụ thuộc phức tạp đặc trưng cho các mạng lưới trong thế giới thực. Bằng cách nắm bắt cả các thuộc tính của từng điểm dữ liệu và các kết nối cấu trúc giữa chúng, GNN mở khóa những hiểu biết sâu sắc trong các lĩnh vực mà các mối quan hệ cũng quan trọng như chính các thực thể.

Mạng nơ-ron đồ thị hoạt động như thế nào

Cơ chế cơ bản đằng sau mạng nơron đồ thị (GNN) là một quá trình thường được gọi là "truyền thông điệp" hoặc tổng hợp lân cận. Trong khuôn khổ này, mỗi nút trong đồ thị cập nhật biểu diễn của chính nó bằng cách thu thập thông tin từ các nút lân cận trực tiếp. Trong quá trình huấn luyện mô hình , mạng học cách tạo ra các embedding hiệu quả — các biểu diễn vector dày đặc — mã hóa các đặc điểm của một nút cùng với cấu trúc topo của vùng lân cận cục bộ của nó.

Thông qua nhiều lớp xử lý, một nút cuối cùng có thể tích hợp thông tin từ các nút xa hơn trong đồ thị, mở rộng "phạm vi tiếp nhận" của nó một cách hiệu quả. Điều này cho phép mô hình hiểu được ngữ cảnh của một nút trong cấu trúc lớn hơn. Các framework hiện đại như PyTorch GeometricDeep Graph Library (DGL) hỗ trợ việc triển khai các lược đồ truyền thông điệp phức tạp này, cho phép các nhà phát triển xây dựng các ứng dụng dựa trên đồ thị phức tạp mà không cần phải bắt đầu từ đầu.

So sánh GNN với các kiến trúc mạng nơ-ron khác

Để hiểu rõ vai trò đặc biệt của GNN, cần phân biệt chúng với các loại mạng nơ-ron (NN) phổ biến khác trong lĩnh vực trí tuệ nhân tạo:

Các Ứng dụng Thực tế

Khả năng mô hình hóa các mối quan hệ tùy ý khiến GNN trở nên không thể thiếu trong nhiều ngành công nghiệp có tác động lớn:

  1. Khám phá thuốc và chăm sóc sức khỏe : Trong ngành dược phẩm, các phân tử hóa học thường được biểu diễn dưới dạng đồ thị, trong đó các nguyên tử là các nút và các liên kết là các cạnh. Mạng nơ-ron đồ thị (GNN) đang cách mạng hóa trí tuệ nhân tạo trong chăm sóc sức khỏe bằng cách dự đoán các thuộc tính phân tử và mô phỏng tương tác protein. Những đổi mới như AlphaFold của Google DeepMind làm nổi bật sức mạnh của học sâu hình học trong việc hiểu các cấu trúc sinh học.
  2. Phân tích và đề xuất trên mạng xã hội : Các nền tảng sử dụng mạng nơ-ron đồ thị (GNN) để phân tích mạng lưới tương tác người dùng khổng lồ. Bằng cách mô hình hóa người dùng như các nút và tình bạn hoặc lượt thích như các cạnh, các mạng lưới này cung cấp năng lượng cho các hệ thống đề xuất nội dung, sản phẩm hoặc kết nối. Cách tiếp cận này, tương tự như các phương pháp được sử dụng trong GraphSage của Pinterest , có khả năng mở rộng hiệu quả lên đến hàng tỷ tương tác.
  3. Dự đoán lưu lượng giao thông và hậu cần : Trong ứng dụng AI trong hậu cần , mạng lưới đường bộ được xem như đồ thị với các giao lộ là các nút và đường là các cạnh. Mạng nơ-ron đồ thị (GNN) có thể dự đoán lưu lượng giao thông và tối ưu hóa các tuyến đường giao hàng bằng cách phân tích sự phụ thuộc không gian giữa các đoạn đường khác nhau, vượt trội hơn hẳn so với các phương pháp thống kê đơn giản.

Tích hợp các khái niệm đồ thị với trí tuệ nhân tạo thị giác

Mạng nơ-ron đồ thị (Graph Neural Networks - GNN) ngày càng được tích hợp vào các quy trình xử lý đa phương thức. Ví dụ, một hệ thống toàn diện có thể sử dụng phân đoạn hình ảnh để xác định các đối tượng riêng biệt trong một cảnh và sau đó sử dụng GNN để suy luận về mối quan hệ không gian giữa các đối tượng đó—thường được gọi là "Đồ thị cảnh". Điều này giúp thu hẹp khoảng cách giữa nhận thức thị giác và suy luận logic.

Sau đây Python Ví dụ này minh họa cách kết nối Trí tuệ nhân tạo thị giác (Vision AI) với cấu trúc đồ thị. Nó sử dụng... Ultralytics YOLO26 mô hình tới detect các đối tượng, đóng vai trò là các nút, và chuẩn bị cấu trúc đồ thị cơ bản bằng cách sử dụng torch.

import torch
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image to find entities (nodes)
results = model("https://ultralytics.com/images/bus.jpg")

# Extract box centers to serve as node features
# Format: [center_x, center_y] derived from xywh
boxes = results[0].boxes.xywh[:, :2].cpu()
x = torch.tensor(boxes.numpy(), dtype=torch.float)

# Create a hypothetical edge index connecting the first two objects
# In a real GNN, edges might be defined by distance or interaction
edge_index = torch.tensor([[0, 1], [1, 0]], dtype=torch.long)

print(f"Graph constructed: {x.size(0)} nodes (objects) and {edge_index.size(1)} edges.")

Các nhà phát triển muốn quản lý các tập dữ liệu cần thiết cho các quy trình phức tạp này có thể sử dụng Nền tảng Ultralytics , giúp đơn giản hóa quy trình chú thích và huấn luyện cho các thành phần thị giác của hệ thống. Bằng cách kết hợp các mô hình thị giác mạnh mẽ với khả năng suy luận quan hệ của mạng nơ-ron đồ họa (GNN), các kỹ sư có thể xây dựng các hệ thống tự động nhận biết ngữ cảnh, hiểu rõ hơn về thế giới xung quanh.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay