Thuật ngữ

Mạng lưới Capsule (CapsNet)

Khám phá Capsule Networks (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội về phân cấp không gian và mối quan hệ tính năng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Capsule Networks, thường được viết tắt là CapsNets, đại diện cho một loại kiến trúc mạng nơ-ron (NN) sáng tạo được thiết kế như một giải pháp thay thế cho Convolutional Neural Networks (CNN) truyền thống. Được giới thiệu lần đầu tiên bởi nhà nghiên cứu AI Geoffrey Hinton và nhóm của ông, CapsNets hướng đến mục tiêu giải quyết những hạn chế cơ bản trong cách CNN xử lý các hệ thống phân cấp không gian và mối quan hệ giữa các đặc điểm trong một hình ảnh. Mặc dù CNN rất giỏi trong việc trích xuất đặc điểm , nhưng việc sử dụng các lớp gộp của chúng có thể dẫn đến mất thông tin không gian chính xác. CapsNets đề xuất một phương pháp tiếp cận khác bằng cách sử dụng "capsule"—nhóm nơ-ron tạo ra các vectơ thay vì các giá trị vô hướng đơn. Các vectơ này mã hóa thông tin phong phú hơn về các đặc điểm được phát hiện, bao gồm các thuộc tính như tư thế (vị trí, hướng, tỷ lệ) và xác suất xuất hiện của đặc điểm. Cấu trúc này cho phép CapsNets mô hình hóa tốt hơn các mối quan hệ bộ phận-toàn thể và duy trì nhận thức không gian, dẫn đến khả năng cải thiện độ mạnh mẽ trước những thay đổi về góc nhìn trong các tác vụ thị giác máy tính (CV) .

Các khái niệm cốt lõi

Yếu tố trung tâm của CapsNet là "capsule". Không giống như các neuron tiêu chuẩn, mỗi capsule phát hiện một thực thể cụ thể trong một vùng đầu vào và đưa ra một vector. Độ lớn (chiều dài) của vector biểu thị khả năng tồn tại của thực thể được phát hiện, trong khi hướng của nó biểu thị các tham số khởi tạo của thực thể, chẳng hạn như tư thế chính xác hoặc chi tiết kết cấu của nó. Đầu ra dựa trên vector này trái ngược hoàn toàn với kích hoạt vô hướng điển hình trong nhiều mô hình học sâu (DL) khác.

Capsules ở các lớp thấp hơn tạo ra các dự đoán cho đầu ra của capsule ở các lớp cao hơn bằng cách sử dụng ma trận chuyển đổi. Một cơ chế quan trọng được gọi là "routing-by-agreement" xác định động các kết nối giữa các lớp này. Nếu các dự đoán từ nhiều capsule cấp thấp hơn liên kết (đồng ý) về sự hiện diện và tư thế của một tính năng cấp cao hơn, thì capsule cấp cao hơn tương ứng sẽ trở nên hoạt động. Quá trình định tuyến động này cho phép mạng nhận dạng các bộ phận và hiểu cách chúng lắp ráp thành một tổng thể, bảo toàn hiệu quả các hệ thống phân cấp không gian. Các ý tưởng cơ bản được trình bày chi tiết trong bài báo " Dynamic Routing Between Capsules ". Phương pháp này giúp ích cho các tác vụ đòi hỏi sự hiểu biết sâu sắc về thành phần đối tượng, có khả năng cải thiện hiệu suất với ít nhu cầu tăng cường dữ liệu mở rộng hơn.

Sự khác biệt chính so với Mạng nơ-ron tích chập (CNN)

CapsNets cung cấp một mô hình khác so với CNN được sử dụng rộng rãi, đặc biệt là trong việc xử lý dữ liệu không gian và thể hiện các tính năng:

  • Xử lý phân cấp không gian: CNN thường mất thông tin không gian thông qua các lớp gộp, tóm tắt sự hiện diện của tính năng trên các vùng. CapsNet được thiết kế để bảo toàn rõ ràng các mối quan hệ tư thế phân cấp giữa các tính năng, khiến chúng hiểu rõ hơn về cấu trúc của các đối tượng.
  • Biểu diễn tính năng: CNN thường sử dụng kích hoạt vô hướng để biểu diễn sự hiện diện của một tính năng. CapsNet sử dụng đầu ra vectơ (viên nang) mã hóa cả sự hiện diện và các thuộc tính (như tư thế và biến dạng) của một tính năng.
  • Sự tương đương của quan điểm: CapsNet hướng đến sự tương đương, nghĩa là biểu diễn thay đổi theo sự thay đổi của quan điểm, trong khi CNN thường yêu cầu lượng lớn dữ liệu đào tạo để tìm hiểu sự bất biến của quan điểm.
  • Cơ chế định tuyến: CNN sử dụng max-pooling hoặc các phương pháp pooling tĩnh khác. CapsNet sử dụng định tuyến động theo thỏa thuận, đánh giá kết nối dựa trên tính nhất quán của các dự đoán giữa các lớp capsule.

Ưu điểm của mạng Capsule

CapsNets mang lại một số lợi ích tiềm năng so với kiến trúc mạng nơ-ron thông thường:

  • Độ tin cậy của quan điểm được cải thiện: Cấu trúc của chúng cho phép chúng khái quát hóa tốt hơn các quan điểm mới mà không cần phải xem các quan điểm cụ thể đó trong quá trình đào tạo.
  • Mô hình hóa mối quan hệ giữa các bộ phận và toàn thể tốt hơn: Cơ chế định tuyến giúp CapsNets hiểu cách các bộ phận kết hợp để tạo thành các đối tượng, rất quan trọng đối với các tác vụ nhận dạng hình ảnh phức tạp.
  • Hiệu quả dữ liệu: Chúng có thể đạt được độ chính xác cao với các tập dữ liệu nhỏ hơn so với CNN, đặc biệt đối với các tác vụ nhạy cảm với mối quan hệ không gian.
  • Phân đoạn các đối tượng chồng chéo: Khả năng biểu diễn nhiều thực thể và tư thế của chúng trong một vùng có thể hỗ trợ các tác vụ như phân đoạn thể hiện khi các đối tượng chồng chéo đáng kể. Quản lý đào tạo và triển khai có thể được thực hiện bằng các nền tảng như Ultralytics HUB .

Ứng dụng trong thế giới thực

Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai hơn so với các mô hình đã được thiết lập như Ultralytics YOLO hoặc YOLO11 , nhưng chúng đã chứng minh được triển vọng trong một số lĩnh vực:

  1. Nhận dạng ký tự: CapsNets đã đạt được kết quả tiên tiến nhất trên tập dữ liệu MNIST về chữ số viết tay, cho thấy khả năng xử lý hiệu quả các biến thể về hướng và phong cách, vượt trội hơn các phương pháp phân loại hình ảnh truyền thống ở một số điểm chuẩn.
  2. Phân tích hình ảnh y tế: Điểm mạnh của chúng trong việc hiểu cấu hình không gian khiến chúng phù hợp để phân tích các bản quét y tế. Ví dụ, nghiên cứu đã khám phá việc sử dụng CapsNets cho các nhiệm vụ như phân đoạn khối u não , trong đó việc xác định hình dạng và vị trí chính xác của các bất thường là rất quan trọng. Điều này nằm trong lĩnh vực rộng hơn của phân tích hình ảnh y tế .

Các ứng dụng tiềm năng khác bao gồm cải thiện khả năng phát hiện đối tượng , đặc biệt là đối với các cảnh lộn xộn, tăng cường khả năng hiểu cảnh trong robot và đóng góp vào các hệ thống nhận thức mạnh mẽ hơn cho xe tự hành . Trong khi nhu cầu tính toán vẫn là một thách thức, nghiên cứu đang diễn ra nhằm mục đích tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và khả năng tích hợp vào các khuôn khổ như PyTorch hoặc TensorFlow . Bạn có thể khám phá các so sánh giữa các mô hình phát hiện đối tượng khác nhau để hiểu CapsNet có thể phù hợp với bối cảnh tương lai như thế nào.

Đọc tất cả