Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Mạng Capsule (CapsNet)

Khám phá Mạng Capsule (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội trong các hệ thống phân cấp không gian và quan hệ đặc trưng.

Mạng Capsule (CapsNet) đại diện cho một bước tiến hóa tinh vi trong lĩnh vực học sâu (DL), được thiết kế để giải quyết những hạn chế cụ thể của Mạng Nơ-ron Tích chập (CNN) truyền thống. Được giới thiệu lần đầu bởi nhà nghiên cứu nổi tiếng Geoffrey Hinton và các đồng nghiệp, kiến trúc này sắp xếp các nơ-ron thành các nhóm được gọi là "vỏ nang". Không giống như các nơ-ron tiêu chuẩn chỉ xuất ra một giá trị kích hoạt vô hướng duy nhất, một vỏ nang xuất ra một vectơ. Hướng và độ dài vectơ này cho phép mạng mã hóa thông tin phong phú hơn về một vật thể, chẳng hạn như vị trí, kích thước, hướng và kết cấu chính xác của nó. Khả năng này cho phép mô hình hiểu rõ hơn các mối quan hệ phân cấp giữa các đặc điểm, về cơ bản là thực hiện "đồ họa ngược" để phân tích một cảnh trực quan.

Hiểu về cơ chế cốt lõi

Đặc điểm nổi bật của CapsNet là khả năng bảo toàn mối quan hệ không gian giữa các phần khác nhau của một vật thể. Trong quy trình làm việc thị giác máy tính (CV) tiêu chuẩn sử dụng CNN, các lớp thường sử dụng các phép toán gộp để giảm chiều, thường loại bỏ dữ liệu không gian chính xác để đạt được tính bất biến. Tuy nhiên, CapsNet hướng đến "tính tương đương", nghĩa là nếu một vật thể di chuyển hoặc xoay trong ảnh, biểu diễn vectơ của capsule sẽ thay đổi theo tỷ lệ thay vì trở nên không thể nhận dạng.

Điều này đạt được thông qua một quy trình gọi là "định tuyến động" hoặc "định tuyến theo thỏa thuận". Thay vì chỉ chuyển tiếp tín hiệu đến tất cả các nơ-ron ở lớp tiếp theo, các capsule cấp thấp hơn gửi tín hiệu đầu ra của chúng đến các capsule cấp cao hơn "đồng ý" với dự đoán của chúng. Ví dụ, một capsule phát hiện mũi sẽ phát tín hiệu mạnh mẽ đến một capsule mặt nếu hướng không gian trùng khớp, củng cố sự hiểu biết về cấu trúc của quy trình trích xuất đặc điểm . Khái niệm này đã được trình bày chi tiết trong bài báo nghiên cứu về Định tuyến động giữa các capsule .

Phân biệt CapsNet với CNN

Mặc dù cả hai kiến trúc đều đóng vai trò quan trọng trong học máy (ML) , nhưng chúng lại khác nhau đáng kể về cách xử lý dữ liệu trực quan:

  • Đầu ra vô hướng so với đầu ra vectơ : Các nơ-ron CNN cung cấp giá trị vô hướng biểu thị sự hiện diện của một đặc điểm. CapsNet sử dụng đầu ra vectơ để biểu diễn sự tồn tại của một thực thể và các thuộc tính của nó (tư thế, biến dạng, sắc thái).
  • Gộp nhóm so với Định tuyến : CNN sử dụng các lớp gộp nhóm (như gộp nhóm tối đa) để đạt được tính bất biến tịnh tiến, thường làm mất chi tiết vị trí. CapsNet sử dụng định tuyến động để bảo toàn hệ thống phân cấp không gian, khiến chúng có khả năng hiệu quả hơn cho các tác vụ như ước tính tư thế .
  • Hiệu quả dữ liệu : Vì CapsNets mã hóa các biến thể quan điểm bên trong nên chúng có thể yêu cầu ít dữ liệu đào tạo hơn để khái quát hóa so với các mô hình truyền thống, thường cần tăng cường dữ liệu mở rộng để học phép quay hoặc phép biến đổi affine.

Các Ứng dụng Thực tế

Mặc dù CapsNets đòi hỏi nhiều tính toán và ít được áp dụng rộng rãi hơn so với các kiến trúc được tối ưu hóa như YOLO11 , nhưng chúng đã cho thấy triển vọng trong các lĩnh vực cụ thể có rủi ro cao:

  1. Phân tích hình ảnh y tế : Khả năng xử lý phân cấp không gian giúp CapsNets trở nên hữu ích trong phân tích hình ảnh y tế . Ví dụ, các nhà nghiên cứu đã áp dụng chúng vào phân đoạn khối u não , trong đó việc phân biệt hình dạng và hướng chính xác của khối u với mô xung quanh là rất quan trọng để chẩn đoán chính xác.
  2. Nhận dạng chữ số viết tay : CapsNets đạt được hiệu suất tiên tiến trên tập dữ liệu MNIST , đặc biệt là trong các tình huống liên quan đến các chữ số chồng chéo, trong đó các mô hình phân loại hình ảnh tiêu chuẩn có thể gặp khó khăn trong việc phân biệt các đặc điểm.

Triển khai thực tế

Mặc dù CapsNet mang lại những lợi thế về mặt lý thuyết, các tiêu chuẩn công nghiệp hiện đại thường ưu tiên các mô hình CNN hoặc Transformer được tối ưu hóa cao về mặt tốc độ. Tuy nhiên, bạn có thể thử nghiệm với các tác vụ phân loại—điểm chuẩn chính cho CapsNet—bằng cách sử dụng ultralytics thư viện. Ví dụ sau đây minh họa việc đào tạo một YOLO11 mô hình phân loại trên MNIST tập dữ liệu, một sân chơi chung để thử nghiệm nhận dạng tính năng phân cấp.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Triển vọng tương lai

Nghiên cứu về Mạng Capsule tiếp tục ảnh hưởng đến sự phát triển của tính an toàn và khả năng diễn giải AI . Bằng cách mô hình hóa rõ ràng các mối quan hệ bộ phận-toàn thể, chúng mở ra một hướng đi hướng đến AI dễ giải thích hơn so với bản chất "hộp đen" của một số mạng sâu. Những tiến bộ trong tương lai có thể tập trung vào việc tích hợp các khái niệm này vào phát hiện vật thể 3D và giảm chi phí tính toán của các thuật toán định tuyến, có khả năng kết hợp hiệu quả của các mô hình như YOLO26 với khả năng hiểu biết không gian mạnh mẽ của capsule.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay