Bảng chú giải thuật ngữ

Mạng Nơ-ron Đồ Thị (GNN)

Khám phá Mạng nơ-ron đồ thị (GNN) để xử lý dữ liệu phi Euclid. Tìm hiểu cách GNN tăng cường khả năng suy luận quan hệ. Ultralytics YOLO26 dành cho Trí tuệ nhân tạo thị giác nâng cao.

Mạng nơ-ron đồ thị (Graph Neural Network - GNN) là một lớp chuyên biệt của các kiến trúc học sâu được thiết kế để xử lý dữ liệu được biểu diễn dưới dạng đồ thị. Trong khi các mô hình truyền thống như Mạng nơ-ron tích chập (Convolutional Neural Network - CNN) được tối ưu hóa cho các cấu trúc dạng lưới như hình ảnh, và Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) vượt trội trong việc xử lý dữ liệu tuần tự như văn bản hoặc phân tích chuỗi thời gian , thì GNN lại có khả năng xử lý dữ liệu phi Euclidean một cách độc đáo. Điều này có nghĩa là chúng hoạt động trên các tập dữ liệu được định nghĩa bởi các nút (thực thể) và các cạnh (mối quan hệ), cho phép chúng học hỏi từ các mối quan hệ phụ thuộc phức tạp đặc trưng cho các mạng lưới trong thế giới thực. Bằng cách nắm bắt cả các thuộc tính của từng điểm dữ liệu và các kết nối cấu trúc giữa chúng, GNN mở khóa những hiểu biết sâu sắc trong các lĩnh vực mà các mối quan hệ cũng quan trọng như chính các thực thể.

Mạng nơ-ron đồ thị hoạt động như thế nào

Cơ chế cơ bản đằng sau mạng nơron đồ thị (GNN) là một quá trình thường được gọi là "truyền thông điệp" hoặc tổng hợp lân cận. Trong khuôn khổ này, mỗi nút trong đồ thị cập nhật biểu diễn của chính nó bằng cách thu thập thông tin từ các nút lân cận trực tiếp. Trong quá trình huấn luyện mô hình , mạng học cách tạo ra các embedding hiệu quả — các biểu diễn vector dày đặc — mã hóa các đặc điểm của một nút cùng với cấu trúc topo của vùng lân cận cục bộ của nó.

Thông qua nhiều lớp xử lý, một nút cuối cùng có thể tích hợp thông tin từ các nút xa hơn trong đồ thị, mở rộng "phạm vi tiếp nhận" của nó một cách hiệu quả. Điều này cho phép mô hình hiểu được ngữ cảnh của một nút trong cấu trúc lớn hơn. Các framework hiện đại như PyTorch Geometric và Deep Graph Library (DGL) hỗ trợ việc triển khai các lược đồ truyền thông điệp phức tạp này, cho phép các nhà phát triển xây dựng các ứng dụng dựa trên đồ thị phức tạp mà không cần phải bắt đầu từ đầu.

So sánh GNN với các kiến trúc mạng nơ-ron khác

Để hiểu rõ vai trò đặc biệt của GNN, cần phân biệt chúng với các loại mạng nơ-ron (NN) phổ biến khác trong lĩnh vực trí tuệ nhân tạo:

Mạng nơ-ron tích chập (CNN) : Đây là tiêu chuẩn vàng cho các tác vụ thị giác, chẳng hạn như phân loại hình ảnh hoặc phát hiện đối tượng . Các mô hình như Ultralytics YOLO26 dựa trên CNN để xử lý dữ liệu pixel lưới cố định. Tuy nhiên, CNN gặp khó khăn với các cấu trúc không đều, nơi số lượng láng giềng thay đổi đối với mỗi nút.
Mạng nơ-ron hồi quy (RNN) : RNN xử lý đầu vào theo một trình tự cụ thể, lý tưởng cho các tác vụ ngôn ngữ hoặc xử lý ngôn ngữ tự nhiên (NLP) . Ngược lại, mạng nơ-ron đồ thị (GNN) xử lý dữ liệu trong đó các mối quan hệ mang tính không gian hoặc quan hệ hơn là chỉ mang tính thời gian hoặc tuần tự.
Đồ thị tri thức : Đồ thị tri thức là một cơ sở dữ liệu có cấu trúc về các sự kiện (thực thể và mối quan hệ), trong khi mạng nơ-ron đồ thị (GNN) là mô hình tính toán được sử dụng để học hỏi từ các cấu trúc đó. GNN thường được triển khai trên nền tảng đồ thị tri thức để thực hiện các tác vụ như dự đoán liên kết, thường giúp tăng cường hiệu quả của các quy trình Tạo lập dựa trên truy xuất (RAG) .

Các Ứng dụng Thực tế

Khả năng mô hình hóa các mối quan hệ tùy ý khiến GNN trở nên không thể thiếu trong nhiều ngành công nghiệp có tác động lớn:

Khám phá thuốc và chăm sóc sức khỏe : Trong ngành dược phẩm, các phân tử hóa học thường được biểu diễn dưới dạng đồ thị, trong đó các nguyên tử là các nút và các liên kết là các cạnh. Mạng nơ-ron đồ thị (GNN) đang cách mạng hóa trí tuệ nhân tạo trong chăm sóc sức khỏe bằng cách dự đoán các thuộc tính phân tử và mô phỏng tương tác protein. Những đổi mới như AlphaFold của Google DeepMind làm nổi bật sức mạnh của học sâu hình học trong việc hiểu các cấu trúc sinh học.
Phân tích và đề xuất trên mạng xã hội : Các nền tảng sử dụng mạng nơ-ron đồ thị (GNN) để phân tích mạng lưới tương tác người dùng khổng lồ. Bằng cách mô hình hóa người dùng như các nút và tình bạn hoặc lượt thích như các cạnh, các mạng lưới này cung cấp năng lượng cho các hệ thống đề xuất nội dung, sản phẩm hoặc kết nối. Cách tiếp cận này, tương tự như các phương pháp được sử dụng trong GraphSage của Pinterest , có khả năng mở rộng hiệu quả lên đến hàng tỷ tương tác.
Dự đoán lưu lượng giao thông và hậu cần : Trong ứng dụng AI trong hậu cần , mạng lưới đường bộ được xem như đồ thị với các giao lộ là các nút và đường là các cạnh. Mạng nơ-ron đồ thị (GNN) có thể dự đoán lưu lượng giao thông và tối ưu hóa các tuyến đường giao hàng bằng cách phân tích sự phụ thuộc không gian giữa các đoạn đường khác nhau, vượt trội hơn hẳn so với các phương pháp thống kê đơn giản.

Tích hợp các khái niệm đồ thị với trí tuệ nhân tạo thị giác

Mạng nơ-ron đồ thị (Graph Neural Networks - GNN) ngày càng được tích hợp vào các quy trình xử lý đa phương thức. Ví dụ, một hệ thống toàn diện có thể sử dụng phân đoạn hình ảnh để xác định các đối tượng riêng biệt trong một cảnh và sau đó sử dụng GNN để suy luận về mối quan hệ không gian giữa các đối tượng đó—thường được gọi là "Đồ thị cảnh". Điều này giúp thu hẹp khoảng cách giữa nhận thức thị giác và suy luận logic.

Sau đây Python Ví dụ này minh họa cách kết nối Trí tuệ nhân tạo thị giác (Vision AI) với cấu trúc đồ thị. Nó sử dụng... Ultralytics YOLO26 mô hình tới detect các đối tượng, đóng vai trò là các nút, và chuẩn bị cấu trúc đồ thị cơ bản bằng cách sử dụng torch.

import torch
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image to find entities (nodes)
results = model("https://ultralytics.com/images/bus.jpg")

# Extract box centers to serve as node features
# Format: [center_x, center_y] derived from xywh
boxes = results[0].boxes.xywh[:, :2].cpu()
x = torch.tensor(boxes.numpy(), dtype=torch.float)

# Create a hypothetical edge index connecting the first two objects
# In a real GNN, edges might be defined by distance or interaction
edge_index = torch.tensor([[0, 1], [1, 0]], dtype=torch.long)

print(f"Graph constructed: {x.size(0)} nodes (objects) and {edge_index.size(1)} edges.")

Các nhà phát triển muốn quản lý các tập dữ liệu cần thiết cho các quy trình phức tạp này có thể sử dụng Nền tảng Ultralytics , giúp đơn giản hóa quy trình chú thích và huấn luyện cho các thành phần thị giác của hệ thống. Bằng cách kết hợp các mô hình thị giác mạnh mẽ với khả năng suy luận quan hệ của mạng nơ-ron đồ họa (GNN), các kỹ sư có thể xây dựng các hệ thống tự động nhận biết ngữ cảnh, hiểu rõ hơn về thế giới xung quanh.

Mạng Nơ-ron Đồ Thị (GNN)

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Mạng nơ-ron đồ thị hoạt động như thế nào

So sánh GNN với các kiến trúc mạng nơ-ron khác

Các Ứng dụng Thực tế

Tích hợp các khái niệm đồ thị với trí tuệ nhân tạo thị giác

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng