Khám phá Capsule Networks (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội về phân cấp không gian và mối quan hệ tính năng.
Mạng Capsule, thường được viết tắt là CapsNet, là một loại kiến trúc mạng nơ-ron (NN) được thiết kế để khắc phục một số hạn chế chính của Mạng Nơ-ron Tích chập (CNN) . Được Geoffrey Hinton và nhóm của ông giới thiệu, CapsNet hướng đến việc nhận dạng tốt hơn các mối quan hệ phân cấp giữa các đặc điểm trong một hình ảnh. Không giống như các nơ-ron trong CNN tiêu chuẩn chỉ xuất ra một giá trị vô hướng duy nhất, các "capsule" trong CapsNet xuất ra một vectơ, cho phép chúng mã hóa thông tin chi tiết hơn về các thuộc tính của vật thể, chẳng hạn như tư thế (vị trí, kích thước, hướng), biến dạng và kết cấu. Cấu trúc này giúp chúng vốn đã mạnh mẽ hơn trước những thay đổi về góc nhìn và hướng.
Cải tiến cốt lõi đằng sau CapsNet là khả năng bảo toàn hệ thống phân cấp không gian giữa các đặc điểm. Mặc dù CNN có thể nhận dạng các thành phần của khuôn mặt—như miệng, mũi và mắt—nhưng nó không hiểu rõ mối quan hệ không gian của chúng. Tuy nhiên, CapsNet sử dụng các nhóm nơ-ron gọi là capsule để xác định các bộ phận này và hướng tương đối của chúng. Điều này đạt được thông qua một quy trình gọi là "định tuyến động", trong đó các capsule cấp thấp hơn gửi đầu ra của chúng đến các capsule cấp cao hơn, nơi có thể xử lý tốt nhất các phát hiện của chúng. Cách tiếp cận này về cơ bản khác với các lớp gộp trong CNN, vốn thường loại bỏ thông tin không gian quan trọng. Khái niệm ban đầu đã được trình bày chi tiết trong bài báo Định tuyến động giữa các capsule .
Sự khác biệt chính giữa CapsNet và CNN nằm ở cách chúng xử lý thông tin không gian và sự trừu tượng hóa.
Trong khi các mô hình như Ultralytics YOLO được tối ưu hóa cao về tốc độ và độ chính xác trong các tác vụ thị giác máy tính (CV) thực tế, CapsNets đại diện cho một triết lý kiến trúc thay thế tập trung vào việc cải thiện khả năng hiểu cơ bản về các cảnh trực quan. Bạn có thể khám phá sự so sánh giữa các mô hình phát hiện đối tượng khác nhau để hiểu rõ bối cảnh hiện tại.
Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai hơn so với các mô hình đã được thiết lập như YOLO11 , nhưng chúng đã chứng tỏ được triển vọng trong một số lĩnh vực:
Các ứng dụng tiềm năng khác bao gồm cải thiện khả năng phát hiện vật thể , đặc biệt là đối với các cảnh hỗn loạn, nâng cao khả năng hiểu cảnh trong robot và góp phần xây dựng hệ thống nhận thức mạnh mẽ hơn cho xe tự hành . Mặc dù nhu cầu tính toán vẫn còn là một thách thức, các nghiên cứu đang được tiến hành nhằm tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và khả năng tích hợp vào các nền tảng như PyTorch hoặc TensorFlow .