Khám phá Mạng Capsule (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội trong các hệ thống phân cấp không gian và quan hệ đặc trưng.
Mạng Capsule (CapsNet) đại diện cho một bước tiến hóa tinh vi trong lĩnh vực học sâu (DL), được thiết kế để giải quyết những hạn chế cụ thể của Mạng Nơ-ron Tích chập (CNN) truyền thống. Được giới thiệu lần đầu bởi nhà nghiên cứu nổi tiếng Geoffrey Hinton và các đồng nghiệp, kiến trúc này sắp xếp các nơ-ron thành các nhóm được gọi là "vỏ nang". Không giống như các nơ-ron tiêu chuẩn chỉ xuất ra một giá trị kích hoạt vô hướng duy nhất, một vỏ nang xuất ra một vectơ. Hướng và độ dài vectơ này cho phép mạng mã hóa thông tin phong phú hơn về một vật thể, chẳng hạn như vị trí, kích thước, hướng và kết cấu chính xác của nó. Khả năng này cho phép mô hình hiểu rõ hơn các mối quan hệ phân cấp giữa các đặc điểm, về cơ bản là thực hiện "đồ họa ngược" để phân tích một cảnh trực quan.
Đặc điểm nổi bật của CapsNet là khả năng bảo toàn mối quan hệ không gian giữa các phần khác nhau của một vật thể. Trong quy trình làm việc thị giác máy tính (CV) tiêu chuẩn sử dụng CNN, các lớp thường sử dụng các phép toán gộp để giảm chiều, thường loại bỏ dữ liệu không gian chính xác để đạt được tính bất biến. Tuy nhiên, CapsNet hướng đến "tính tương đương", nghĩa là nếu một vật thể di chuyển hoặc xoay trong ảnh, biểu diễn vectơ của capsule sẽ thay đổi theo tỷ lệ thay vì trở nên không thể nhận dạng.
Điều này đạt được thông qua một quy trình gọi là "định tuyến động" hoặc "định tuyến theo thỏa thuận". Thay vì chỉ chuyển tiếp tín hiệu đến tất cả các nơ-ron ở lớp tiếp theo, các capsule cấp thấp hơn gửi tín hiệu đầu ra của chúng đến các capsule cấp cao hơn "đồng ý" với dự đoán của chúng. Ví dụ, một capsule phát hiện mũi sẽ phát tín hiệu mạnh mẽ đến một capsule mặt nếu hướng không gian trùng khớp, củng cố sự hiểu biết về cấu trúc của quy trình trích xuất đặc điểm . Khái niệm này đã được trình bày chi tiết trong bài báo nghiên cứu về Định tuyến động giữa các capsule .
Mặc dù cả hai kiến trúc đều đóng vai trò quan trọng trong học máy (ML) , nhưng chúng lại khác nhau đáng kể về cách xử lý dữ liệu trực quan:
Mặc dù CapsNets đòi hỏi nhiều tính toán và ít được áp dụng rộng rãi hơn so với các kiến trúc được tối ưu hóa như YOLO11 , nhưng chúng đã cho thấy triển vọng trong các lĩnh vực cụ thể có rủi ro cao:
Mặc dù CapsNet mang lại những lợi thế về mặt lý thuyết, các tiêu chuẩn công nghiệp hiện đại thường ưu tiên các mô hình CNN hoặc Transformer được tối ưu hóa cao về mặt tốc độ. Tuy nhiên, bạn có thể thử nghiệm với các tác vụ phân loại—điểm chuẩn chính cho CapsNet—bằng cách sử dụng ultralytics thư viện. Ví dụ sau đây minh họa việc đào tạo một YOLO11
mô hình phân loại trên MNIST tập dữ liệu, một sân chơi chung để thử nghiệm nhận dạng tính năng phân cấp.
from ultralytics import YOLO
# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)
# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")
Nghiên cứu về Mạng Capsule tiếp tục ảnh hưởng đến sự phát triển của tính an toàn và khả năng diễn giải AI . Bằng cách mô hình hóa rõ ràng các mối quan hệ bộ phận-toàn thể, chúng mở ra một hướng đi hướng đến AI dễ giải thích hơn so với bản chất "hộp đen" của một số mạng sâu. Những tiến bộ trong tương lai có thể tập trung vào việc tích hợp các khái niệm này vào phát hiện vật thể 3D và giảm chi phí tính toán của các thuật toán định tuyến, có khả năng kết hợp hiệu quả của các mô hình như YOLO26 với khả năng hiểu biết không gian mạnh mẽ của capsule.