Thuật ngữ

Mạng lưới Capsule (CapsNet)

Khám phá Capsule Networks (CapsNets): Một kiến trúc mạng nơ-ron đột phá vượt trội về phân cấp không gian và mối quan hệ tính năng.

Mạng Capsule, thường được viết tắt là CapsNet, là một loại kiến trúc mạng nơ-ron (NN) được thiết kế để khắc phục một số hạn chế chính của Mạng Nơ-ron Tích chập (CNN) . Được Geoffrey Hinton và nhóm của ông giới thiệu, CapsNet hướng đến việc nhận dạng tốt hơn các mối quan hệ phân cấp giữa các đặc điểm trong một hình ảnh. Không giống như các nơ-ron trong CNN tiêu chuẩn chỉ xuất ra một giá trị vô hướng duy nhất, các "capsule" trong CapsNet xuất ra một vectơ, cho phép chúng mã hóa thông tin chi tiết hơn về các thuộc tính của vật thể, chẳng hạn như tư thế (vị trí, kích thước, hướng), biến dạng và kết cấu. Cấu trúc này giúp chúng vốn đã mạnh mẽ hơn trước những thay đổi về góc nhìn và hướng.

Mạng Capsule hoạt động như thế nào?

Cải tiến cốt lõi đằng sau CapsNet là khả năng bảo toàn hệ thống phân cấp không gian giữa các đặc điểm. Mặc dù CNN có thể nhận dạng các thành phần của khuôn mặt—như miệng, mũi và mắt—nhưng nó không hiểu rõ mối quan hệ không gian của chúng. Tuy nhiên, CapsNet sử dụng các nhóm nơ-ron gọi là capsule để xác định các bộ phận này và hướng tương đối của chúng. Điều này đạt được thông qua một quy trình gọi là "định tuyến động", trong đó các capsule cấp thấp hơn gửi đầu ra của chúng đến các capsule cấp cao hơn, nơi có thể xử lý tốt nhất các phát hiện của chúng. Cách tiếp cận này về cơ bản khác với các lớp gộp trong CNN, vốn thường loại bỏ thông tin không gian quan trọng. Khái niệm ban đầu đã được trình bày chi tiết trong bài báo Định tuyến động giữa các capsule .

CapsNets so với Mạng nơ-ron tích chập

Sự khác biệt chính giữa CapsNet và CNN nằm ở cách chúng xử lý thông tin không gian và sự trừu tượng hóa.

  • Bất biến không gian: CNN đạt được tính bất biến không gian thông qua việc gộp các lớp, điều này có thể dẫn đến mất dữ liệu vị trí chính xác. Ngược lại, CapsNet được thiết kế để "bất biến tương đương", nghĩa là chúng có thể hiểu và lưu giữ thông tin tư thế của vật thể khi nó di chuyển trên toàn khung hình.
  • Hiệu quả dữ liệu: Nhờ cấu trúc bên trong phức tạp, CapsNet thường có thể đạt được độ chính xác cao với lượng dữ liệu đào tạo ít hơn đáng kể so với các mô hình học sâu (DL) ngốn nhiều dữ liệu.
  • Biểu diễn phân cấp: CapsNets xây dựng một cây phân tích cú pháp rõ ràng của các thực thể trực quan, cho phép chúng hiểu tổng thể như một hợp phần của các thành phần. Đây là một cách trực quan hơn để thực hiện các tác vụ như phát hiện đối tượng so với các CNN tiêu chuẩn.

Trong khi các mô hình như Ultralytics YOLO được tối ưu hóa cao về tốc độ và độ chính xác trong các tác vụ thị giác máy tính (CV) thực tế, CapsNets đại diện cho một triết lý kiến trúc thay thế tập trung vào việc cải thiện khả năng hiểu cơ bản về các cảnh trực quan. Bạn có thể khám phá sự so sánh giữa các mô hình phát hiện đối tượng khác nhau để hiểu rõ bối cảnh hiện tại.

Ứng dụng trong thế giới thực

Mặc dù CapsNets vẫn chủ yếu là một lĩnh vực nghiên cứu tích cực và ít được triển khai hơn so với các mô hình đã được thiết lập như YOLO11 , nhưng chúng đã chứng tỏ được triển vọng trong một số lĩnh vực:

  1. Nhận dạng ký tự: CapsNets đã đạt được kết quả tiên tiến nhất trên tập dữ liệu MNIST về chữ số viết tay, cho thấy khả năng xử lý hiệu quả các biến thể về hướng và phong cách, vượt trội hơn các phương pháp phân loại hình ảnh truyền thống ở một số điểm chuẩn.
  2. Phân tích hình ảnh y tế: Điểm mạnh của chúng trong việc hiểu cấu hình không gian khiến chúng phù hợp để phân tích các bản quét y tế. Ví dụ, nghiên cứu đã khám phá việc sử dụng CapsNets cho các nhiệm vụ như phân đoạn khối u não , trong đó việc xác định hình dạng và vị trí chính xác của các bất thường là rất quan trọng. Điều này nằm trong lĩnh vực rộng hơn của phân tích hình ảnh y tế .

Các ứng dụng tiềm năng khác bao gồm cải thiện khả năng phát hiện vật thể , đặc biệt là đối với các cảnh hỗn loạn, nâng cao khả năng hiểu cảnh trong robot và góp phần xây dựng hệ thống nhận thức mạnh mẽ hơn cho xe tự hành . Mặc dù nhu cầu tính toán vẫn còn là một thách thức, các nghiên cứu đang được tiến hành nhằm tối ưu hóa hiệu quả của CapsNet cho các ứng dụng học máy (ML) rộng hơn và khả năng tích hợp vào các nền tảng như PyTorch hoặc TensorFlow .

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, cộng tác và phát triển với những nhà đổi mới toàn cầu

Tham gia ngay
Liên kết đã được sao chép vào clipboard