Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Mạng Capsule (CapsNet)

Khám phá Mạng Capsule (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội trong các hệ thống phân cấp không gian và quan hệ đặc trưng.

Mạng Capsule, thường được viết tắt là CapsNets, là một loại kiến trúc mạng nơ-ron (NN) được thiết kế để khắc phục một số hạn chế chính của Mạng nơ-ron tích chập (CNN). Được giới thiệu bởi Geoffrey Hinton và nhóm của ông, CapsNets hướng đến việc nhận dạng tốt hơn các mối quan hệ phân cấp giữa các đặc trưng trong một hình ảnh. Không giống như các nơ-ron trong một CNN tiêu chuẩn xuất ra một giá trị vô hướng duy nhất, các "capsule" trong CapsNet xuất ra một vectơ, cho phép chúng mã hóa thông tin chi tiết hơn về các thuộc tính của một đối tượng, chẳng hạn như tư thế của nó (vị trí, kích thước, hướng), biến dạng và kết cấu. Cấu trúc này làm cho chúng vốn dĩ mạnh mẽ hơn trước những thay đổi về quan điểm và hướng.

Cách thức hoạt động của Mạng Capsule?

Đổi mới cốt lõi đằng sau CapsNets là khả năng bảo toàn hệ thống phân cấp không gian giữa các đặc trưng. Trong khi một CNN có thể nhận ra các thành phần của một khuôn mặt—như miệng, mũi và mắt—nó không hiểu rõ các mối quan hệ không gian của chúng. Tuy nhiên, CapsNets sử dụng các nhóm nơ-ron được gọi là capsule để xác định các bộ phận này và hướng tương đối của chúng. Điều này đạt được thông qua một quy trình gọi là "định tuyến động" (dynamic routing), trong đó các capsule cấp thấp hơn gửi đầu ra của chúng đến các capsule cấp cao hơn có thể giải thích tốt nhất các phát hiện của chúng. Cách tiếp cận này về cơ bản khác với các lớp pooling trong CNN, thường loại bỏ thông tin không gian quan trọng. Khái niệm ban đầu được trình bày chi tiết trong bài báo Dynamic Routing Between Capsules.

CapsNets so với Mạng nơ-ron tích chập

Sự khác biệt chính giữa CapsNet và CNN nằm ở cách chúng xử lý thông tin không gian và trừu tượng.

  • Tính bất biến không gian: CNN đạt được tính bất biến không gian thông qua các lớp pooling, điều này có thể dẫn đến mất dữ liệu vị trí chính xác. Ngược lại, CapsNet được thiết kế để "tương đương", có nghĩa là chúng có thể hiểu và bảo toàn thông tin về tư thế của một đối tượng khi nó di chuyển trên khung hình.
  • Hiệu quả dữ liệu (Data Efficiency): Do cấu trúc bên trong phức tạp, CapsNet thường có thể đạt được độ chính xác cao với dữ liệu huấn luyện ít hơn đáng kể so với các mô hình học sâu (DL) ngốn dữ liệu.
  • Biểu diễn phân cấp: CapsNets xây dựng một cây phân tích cú pháp rõ ràng về các thực thể trực quan, cho phép chúng hiểu toàn bộ như một thành phần của các bộ phận của nó. Đây là một cách trực quan hơn để thực hiện các tác vụ như phát hiện đối tượng so với những gì được cung cấp bởi CNN tiêu chuẩn.

Mặc dù các mô hình như Ultralytics YOLO được tối ưu hóa cao về tốc độ và độ chính xác trong các tác vụ thị giác máy tính (CV) thực tế, CapsNets đại diện cho một triết lý kiến trúc thay thế tập trung vào việc cải thiện sự hiểu biết cơ bản về các cảnh trực quan. Bạn có thể khám phá so sánh giữa các mô hình nhận diện đối tượng khác nhau để hiểu bức tranh toàn cảnh hiện tại.

Các Ứng dụng Thực tế

Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai phổ biến hơn so với các mô hình đã được thiết lập như YOLO11, nhưng chúng đã chứng minh được tiềm năng trong một số lĩnh vực:

  1. Nhận dạng ký tự: CapsNet đã đạt được kết quả vượt trội trên bộ dữ liệu MNIST về chữ số viết tay, thể hiện khả năng xử lý hiệu quả các biến thể về hướng và kiểu chữ, vượt trội hơn so với các phương pháp phân loại ảnh truyền thống trong một số thử nghiệm.
  2. Phân tích ảnh y tế: Điểm mạnh của chúng trong việc hiểu cấu hình không gian khiến chúng phù hợp để phân tích ảnh chụp y tế. Ví dụ, nghiên cứu đã khám phá việc sử dụng CapsNet cho các tác vụ như phân vùng khối u não, trong đó việc xác định hình dạng và vị trí chính xác của các bất thường là rất quan trọng. Điều này thuộc lĩnh vực rộng lớn hơn của phân tích ảnh y tế.

Các ứng dụng tiềm năng khác bao gồm cải thiện phát hiện đối tượng, đặc biệt đối với các cảnh lộn xộn, tăng cường khả năng hiểu cảnh trong robot học và đóng góp vào các hệ thống nhận thức mạnh mẽ hơn cho xe tự hành. Mặc dù nhu cầu tính toán vẫn là một thách thức, nhưng nghiên cứu đang diễn ra nhằm mục đích tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và tích hợp tiềm năng vào các framework như PyTorch hoặc TensorFlow.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard