Capsule Networks (CapsNet)

Khám phá các mạng Capsule (CapsNets) và cách chúng giải quyết các hạn chế của CNN. Tìm hiểu về định tuyến động, phân cấp không gian và so sánh CapsNets với YOLO26.

Mạng capsule, thường được viết tắt là CapsNets, đại diện cho một kiến trúc tiên tiến trong lĩnh vực học sâu được thiết kế để vượt qua các hạn chế cụ thể trong các mạng thần kinh truyền thống. Được giới thiệu bởi Geoffrey Hinton và nhóm của ông, CapsNets cố gắng mô phỏng cấu trúc thần kinh sinh học của não người sát hơn so với các mô hình tiêu chuẩn. Không giống như mạng thần kinh tích chập (CNN) điển hình, vốn vượt trội trong việc phát hiện các đặc trưng nhưng thường làm mất mối quan hệ không gian do quá trình lấy mẫu xuống (downsampling), Mạng capsule tổ chức các nơ-ron thành các nhóm gọi là "capsule". Các capsule này mã hóa không chỉ xác suất xuất hiện của một đối tượng mà còn cả các thuộc tính cụ thể của nó, chẳng hạn như hướng, kích thước và kết cấu, qua đó bảo tồn hiệu quả các mối quan hệ không gian phân cấp trong dữ liệu hình ảnh.

Link to this sectionHạn chế của các CNN truyền thống#

Để hiểu sự đổi mới của CapsNets, việc xem xét cách thức hoạt động của các mô hình thị giác máy tính tiêu chuẩn là rất hữu ích. Một CNN thông thường sử dụng các lớp trích xuất đặc trưng theo sau là các lớp gộp—đặc biệt là max pooling—để giảm tải tính toán và đạt được tính bất biến với phép dịch chuyển (translational invariance). Điều này có nghĩa là một CNN có thể nhận diện một con "mèo" bất kể nó nằm ở đâu trong hình ảnh.

Tuy nhiên, quá trình này thường loại bỏ dữ liệu vị trí chính xác, dẫn đến "vấn đề Picasso": một CNN có thể phân loại khuôn mặt một cách chính xác ngay cả khi miệng nằm trên trán, đơn giản vì tất cả các đặc trưng cần thiết đều hiện diện. CapsNets giải quyết vấn đề này bằng cách loại bỏ các lớp gộp và thay thế chúng bằng một quy trình tôn trọng các hệ thống phân cấp không gian của các đối tượng.

Link to this sectionCách thức hoạt động của Mạng capsule#

Khối xây dựng cốt lõi của kiến trúc này là capsule, một tập hợp các nơ-ron lồng nhau xuất ra một vectơ thay vì một giá trị vô hướng. Trong toán học vectơ, một vectơ có cả độ lớn và hướng. Trong một CapsNet:

Độ lớn (Chiều dài): Đại diện cho xác suất rằng một thực thể cụ thể tồn tại trong đầu vào hiện tại.
Hướng (Định hướng): Mã hóa các tham số thực thể, chẳng hạn như ước tính tư thế, tỷ lệ và độ xoay của đối tượng.

Các capsule ở lớp thấp hơn (phát hiện các hình dạng đơn giản như cạnh) dự đoán đầu ra của các capsule ở lớp cao hơn (phát hiện các đối tượng phức tạp như mắt hoặc lốp xe). Sự giao tiếp này được quản lý bởi một thuật toán gọi là "định tuyến động" (dynamic routing) hay "định tuyến theo sự đồng thuận" (routing by agreement). Nếu dự đoán của một capsule cấp thấp hơn phù hợp với trạng thái của capsule cấp cao hơn, kết nối giữa chúng sẽ được củng cố. Điều này cho phép mạng nhận diện đối tượng từ các góc nhìn 3D khác nhau mà không cần yêu cầu lượng lớn tăng cường dữ liệu thường cần thiết để dạy CNN về độ xoay và tỷ lệ.

Link to this sectionSự khác biệt chính: CapsNets so với CNNs#

Mặc dù cả hai kiến trúc đều là nền tảng cho thị giác máy tính (CV), chúng khác nhau ở cách xử lý và biểu diễn dữ liệu hình ảnh:

Vô hướng so với Vectơ: Các nơ-ron CNN sử dụng đầu ra vô hướng để biểu thị sự hiện diện của đặc trưng. CapsNets sử dụng vectơ để mã hóa sự hiện diện (độ dài) và các tham số tư thế (hướng).
Định tuyến so với Gộp: CNNs sử dụng gộp (pooling) để lấy mẫu dữ liệu xuống, thường làm mất chi tiết vị trí. CapsNets sử dụng định tuyến động để bảo tồn dữ liệu không gian, khiến chúng trở nên hiệu quả cao cho các tác vụ đòi hỏi theo dõi đối tượng chính xác.
Hiệu quả dữ liệu: Vì các capsule hiểu ngầm các góc nhìn 3D và phép biến đổi affine, chúng thường có thể khái quát hóa từ ít dữ liệu huấn luyện hơn so với CNN, vốn có thể yêu cầu nhiều ví dụ để học mọi hướng xoay có thể có của một đối tượng.

Link to this sectionCác ứng dụng trong thực tế#

Trong khi CapsNets thường tốn kém chi phí tính toán hơn các mô hình được tối ưu hóa như YOLO26, chúng mang lại những ưu điểm riêng biệt trong các lĩnh vực chuyên biệt:

Phân tích hình ảnh y tế: Trong chăm sóc sức khỏe, định hướng và hình dạng chính xác của một điểm bất thường là rất quan trọng. Các nhà nghiên cứu đã áp dụng CapsNets vào phân đoạn khối u não, nơi mô hình phải phân biệt khối u với các mô và xung quanh dựa trên các phân cấp không gian tinh tế mà các CNN tiêu chuẩn có thể làm mịn đi. Bạn có thể khám phá các nghiên cứu liên quan về Mạng capsule trong Hình ảnh Y tế.
Nhận diện chữ số chồng chéo: CapsNets đã đạt được kết quả tiên tiến trên tập dữ liệu MNIST đặc biệt trong các kịch bản các chữ số chồng chéo lên nhau. Vì mạng theo dõi "tư thế" của từng chữ số, nó có thể tách biệt hai con số chồng chéo (ví dụ: số '3' nằm trên số '5') thành các đối tượng riêng biệt thay vì hợp nhất chúng thành một bản đồ đặc trưng mơ hồ.

Link to this sectionBối cảnh thực tế và triển khai#

Mạng capsule chủ yếu là một kiến trúc phân loại. Mặc dù chúng cung cấp sự mạnh mẽ về mặt lý thuyết, các ứng dụng công nghiệp hiện đại thường ưu tiên các CNN hoặc Transformer tốc độ cao để đạt hiệu suất thời gian thực. Tuy nhiên, việc hiểu các chuẩn mực phân loại được sử dụng cho CapsNets, chẳng hạn như MNIST, vẫn rất hữu ích.

Ví dụ sau đây minh họa cách huấn luyện một mô hình phân loại YOLO hiện đại trên tập dữ liệu MNIST bằng cách sử dụng gói ultralytics. Điều này tương đương với tác vụ chuẩn mực chính được sử dụng để kiểm chứng Mạng capsule.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Link to this sectionTương lai của Capsule và AI thị giác#

Các nguyên tắc đằng sau Mạng capsule tiếp tục ảnh hưởng đến nghiên cứu về an toàn AI và khả năng diễn giải. Bằng cách mô hình hóa rõ ràng các mối quan hệ bộ phận-tổng thể, capsule cung cấp một giải pháp thay thế "hộp kính" (glass box) cho bản chất "hộp đen" (black box) của các mạng thần kinh sâu, giúp việc ra quyết định trở nên dễ giải thích hơn. Các phát triển trong tương lai hướng tới việc kết hợp sự mạnh mẽ không gian của capsule với tốc độ suy luận của các kiến trúc như YOLO11 hoặc YOLO26 mới hơn để cải thiện hiệu suất trong phát hiện đối tượng 3D và robotics. Các nhà nghiên cứu cũng đang khám phá Matrix Capsules với EM Routing để giảm thêm chi phí tính toán của thuật toán đồng thuận.

Đối với các nhà phát triển đang tìm cách quản lý dữ liệu và huấn luyện mô hình hiệu quả, Nền tảng Ultralytics cung cấp một môi trường thống nhất để chú thích dữ liệu, huấn luyện trên cloud và triển khai các mô hình cân bằng giữa tốc độ của CNN và độ chính xác cần thiết cho các tác vụ thị giác phức tạp.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Capsule Networks (CapsNet)

Link to this sectionHạn chế của các CNN truyền thống#

Link to this sectionCách thức hoạt động của Mạng capsule#

Link to this sectionSự khác biệt chính: CapsNets so với CNNs#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionBối cảnh thực tế và triển khai#

Link to this sectionTương lai của Capsule và AI thị giác#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!