Khám phá Mạng Capsule (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội trong các hệ thống phân cấp không gian và quan hệ đặc trưng.
Mạng Capsule, thường được viết tắt là CapsNets, là một loại kiến trúc mạng nơ-ron (NN) được thiết kế để khắc phục một số hạn chế chính của Mạng nơ-ron tích chập (CNN). Được giới thiệu bởi Geoffrey Hinton và nhóm của ông, CapsNets hướng đến việc nhận dạng tốt hơn các mối quan hệ phân cấp giữa các đặc trưng trong một hình ảnh. Không giống như các nơ-ron trong một CNN tiêu chuẩn xuất ra một giá trị vô hướng duy nhất, các "capsule" trong CapsNet xuất ra một vectơ, cho phép chúng mã hóa thông tin chi tiết hơn về các thuộc tính của một đối tượng, chẳng hạn như tư thế của nó (vị trí, kích thước, hướng), biến dạng và kết cấu. Cấu trúc này làm cho chúng vốn dĩ mạnh mẽ hơn trước những thay đổi về quan điểm và hướng.
Đổi mới cốt lõi đằng sau CapsNets là khả năng bảo toàn hệ thống phân cấp không gian giữa các đặc trưng. Trong khi một CNN có thể nhận ra các thành phần của một khuôn mặt—như miệng, mũi và mắt—nó không hiểu rõ các mối quan hệ không gian của chúng. Tuy nhiên, CapsNets sử dụng các nhóm nơ-ron được gọi là capsule để xác định các bộ phận này và hướng tương đối của chúng. Điều này đạt được thông qua một quy trình gọi là "định tuyến động" (dynamic routing), trong đó các capsule cấp thấp hơn gửi đầu ra của chúng đến các capsule cấp cao hơn có thể giải thích tốt nhất các phát hiện của chúng. Cách tiếp cận này về cơ bản khác với các lớp pooling trong CNN, thường loại bỏ thông tin không gian quan trọng. Khái niệm ban đầu được trình bày chi tiết trong bài báo Dynamic Routing Between Capsules.
Sự khác biệt chính giữa CapsNet và CNN nằm ở cách chúng xử lý thông tin không gian và trừu tượng.
Mặc dù các mô hình như Ultralytics YOLO được tối ưu hóa cao về tốc độ và độ chính xác trong các tác vụ thị giác máy tính (CV) thực tế, CapsNets đại diện cho một triết lý kiến trúc thay thế tập trung vào việc cải thiện sự hiểu biết cơ bản về các cảnh trực quan. Bạn có thể khám phá so sánh giữa các mô hình nhận diện đối tượng khác nhau để hiểu bức tranh toàn cảnh hiện tại.
Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai phổ biến hơn so với các mô hình đã được thiết lập như YOLO11, nhưng chúng đã chứng minh được tiềm năng trong một số lĩnh vực:
Các ứng dụng tiềm năng khác bao gồm cải thiện phát hiện đối tượng, đặc biệt đối với các cảnh lộn xộn, tăng cường khả năng hiểu cảnh trong robot học và đóng góp vào các hệ thống nhận thức mạnh mẽ hơn cho xe tự hành. Mặc dù nhu cầu tính toán vẫn là một thách thức, nhưng nghiên cứu đang diễn ra nhằm mục đích tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và tích hợp tiềm năng vào các framework như PyTorch hoặc TensorFlow.