Khám phá Capsule Networks (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội về phân cấp không gian và mối quan hệ tính năng.
Capsule Networks, thường được viết tắt là CapsNets, đại diện cho một loại kiến trúc mạng nơ-ron (NN) sáng tạo được thiết kế như một giải pháp thay thế cho Convolutional Neural Networks (CNN) truyền thống. Được giới thiệu lần đầu tiên bởi nhà nghiên cứu AI Geoffrey Hinton và nhóm của ông, CapsNets hướng đến mục tiêu giải quyết những hạn chế cơ bản trong cách CNN xử lý các hệ thống phân cấp không gian và mối quan hệ giữa các đặc điểm trong một hình ảnh. Mặc dù CNN rất giỏi trong việc trích xuất đặc điểm , nhưng việc sử dụng các lớp gộp của chúng có thể dẫn đến mất thông tin không gian chính xác. CapsNets đề xuất một phương pháp tiếp cận khác bằng cách sử dụng "capsule"—nhóm nơ-ron tạo ra các vectơ thay vì các giá trị vô hướng đơn. Các vectơ này mã hóa thông tin phong phú hơn về các đặc điểm được phát hiện, bao gồm các thuộc tính như tư thế (vị trí, hướng, tỷ lệ) và xác suất xuất hiện của đặc điểm. Cấu trúc này cho phép CapsNets mô hình hóa tốt hơn các mối quan hệ bộ phận-toàn thể và duy trì nhận thức không gian, dẫn đến khả năng cải thiện độ mạnh mẽ trước những thay đổi về góc nhìn trong các tác vụ thị giác máy tính (CV) .
Yếu tố trung tâm của CapsNet là "capsule". Không giống như các neuron tiêu chuẩn, mỗi capsule phát hiện một thực thể cụ thể trong một vùng đầu vào và đưa ra một vector. Độ lớn (chiều dài) của vector biểu thị khả năng tồn tại của thực thể được phát hiện, trong khi hướng của nó biểu thị các tham số khởi tạo của thực thể, chẳng hạn như tư thế chính xác hoặc chi tiết kết cấu của nó. Đầu ra dựa trên vector này trái ngược hoàn toàn với kích hoạt vô hướng điển hình trong nhiều mô hình học sâu (DL) khác.
Capsules ở các lớp thấp hơn tạo ra các dự đoán cho đầu ra của capsule ở các lớp cao hơn bằng cách sử dụng ma trận chuyển đổi. Một cơ chế quan trọng được gọi là "routing-by-agreement" xác định động các kết nối giữa các lớp này. Nếu các dự đoán từ nhiều capsule cấp thấp hơn liên kết (đồng ý) về sự hiện diện và tư thế của một tính năng cấp cao hơn, thì capsule cấp cao hơn tương ứng sẽ trở nên hoạt động. Quá trình định tuyến động này cho phép mạng nhận dạng các bộ phận và hiểu cách chúng lắp ráp thành một tổng thể, bảo toàn hiệu quả các hệ thống phân cấp không gian. Các ý tưởng cơ bản được trình bày chi tiết trong bài báo " Dynamic Routing Between Capsules ". Phương pháp này giúp ích cho các tác vụ đòi hỏi sự hiểu biết sâu sắc về thành phần đối tượng, có khả năng cải thiện hiệu suất với ít nhu cầu tăng cường dữ liệu mở rộng hơn.
CapsNets cung cấp một mô hình khác so với CNN được sử dụng rộng rãi, đặc biệt là trong việc xử lý dữ liệu không gian và thể hiện các tính năng:
CapsNets mang lại một số lợi ích tiềm năng so với kiến trúc mạng nơ-ron thông thường:
Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai hơn so với các mô hình đã được thiết lập như Ultralytics YOLO hoặc YOLO11 , nhưng chúng đã chứng minh được triển vọng trong một số lĩnh vực:
Các ứng dụng tiềm năng khác bao gồm cải thiện khả năng phát hiện đối tượng , đặc biệt là đối với các cảnh lộn xộn, tăng cường khả năng hiểu cảnh trong robot và đóng góp vào các hệ thống nhận thức mạnh mẽ hơn cho xe tự hành . Trong khi nhu cầu tính toán vẫn là một thách thức, nghiên cứu đang diễn ra nhằm mục đích tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và khả năng tích hợp vào các khuôn khổ như PyTorch hoặc TensorFlow . Bạn có thể khám phá các so sánh giữa các mô hình phát hiện đối tượng khác nhau để hiểu CapsNet có thể phù hợp với bối cảnh tương lai như thế nào.