Khám phá Vision Mamba, một giải pháp thay thế cho Transformer với độ phức tạp tuyến tính. Tìm hiểu cách các mô hình không gian trạng thái (SSM) nâng cao hiệu quả cho thị giác máy tính độ phân giải cao.
Vision Mamba đại diện cho một sự thay đổi đáng kể trong kiến trúc học sâu dành cho thị giác máy tính, thoát khỏi sự thống trị của các cơ chế dựa trên cơ chế chú ý thường thấy trong Transformer. Nó là một sự điều chỉnh của kiến trúc Mamba—ban đầu được thiết kế để mô hình hóa chuỗi hiệu quả trong xử lý ngôn ngữ tự nhiên—được tùy chỉnh đặc biệt cho các tác vụ thị giác. Bằng cách tận dụng Mô hình Không gian Trạng thái (SSM), Vision Mamba cung cấp một giải pháp thay thế với độ phức tạp tuyến tính so với độ phức tạp bậc hai của các lớp tự chú ý truyền thống. Điều này cho phép nó xử lý hình ảnh độ phân giải cao hiệu quả hơn, khiến nó đặc biệt có giá trị đối với các ứng dụng mà tài nguyên tính toán bị hạn chế hoặc nơi cần nắm bắt các phụ thuộc tầm xa trong dữ liệu hình ảnh mà không gây ra gánh nặng bộ nhớ lớn như thường thấy ở Vision Transformer (ViT) .
Cốt lõi của Vision Mamba là khái niệm quét dữ liệu có chọn lọc. Các mạng nơ-ron tích chập (CNN) truyền thống xử lý hình ảnh bằng cách sử dụng các cửa sổ trượt cục bộ, rất tốt trong việc phát hiện kết cấu và cạnh nhưng gặp khó khăn với ngữ cảnh toàn cục. Ngược lại, Transformer sử dụng cơ chế chú ý toàn cục để liên kết mọi pixel (hoặc mảng) với mọi pixel khác, cung cấp ngữ cảnh tuyệt vời nhưng trở nên tốn kém về mặt tính toán khi độ phân giải hình ảnh tăng lên. Vision Mamba khắc phục khoảng cách này bằng cách làm phẳng hình ảnh thành các chuỗi và xử lý chúng bằng cách sử dụng không gian trạng thái có chọn lọc. Điều này cho phép mô hình nén thông tin hình ảnh vào một trạng thái có kích thước cố định, giữ lại các chi tiết liên quan trên khoảng cách dài trong chuỗi hình ảnh đồng thời loại bỏ nhiễu không liên quan.
Kiến trúc này thường bao gồm cơ chế quét hai chiều. Vì hình ảnh là cấu trúc 2D và không có tính tuần tự như văn bản, Vision Mamba quét các mảng hình ảnh theo hướng tiến và lùi (và đôi khi theo các đường dẫn khác nhau) để đảm bảo rằng các mối quan hệ không gian được hiểu bất kể thứ tự quét. Cách tiếp cận này cho phép mô hình đạt được trường tiếp nhận toàn cục tương tự như Transformer nhưng với tốc độ suy luận nhanh hơn và mức sử dụng bộ nhớ thấp hơn, thường sánh ngang với các kết quả tiên tiến nhất trên các bộ dữ liệu chuẩn như ImageNet .
Hiệu quả hoạt động của Vision Mamba khiến nó trở nên rất phù hợp với môi trường hạn chế tài nguyên và các tác vụ đòi hỏi độ phân giải cao.
Mặc dù cả hai kiến trúc đều hướng đến việc nắm bắt bối cảnh toàn cầu, nhưng chúng khác biệt về cơ bản trong cách thức hoạt động.
Mặc dù Vision Mamba là một kiến trúc đặc thù, nhưng các nguyên tắc về hiệu quả của nó phù hợp với mục tiêu của các mô hình thời gian thực hiện đại như... Ultralytics YOLO26Người dùng đang tìm kiếm các tác vụ xử lý hình ảnh được tối ưu hóa có thể tận dụng... Ultralytics Nền tảng để huấn luyện và triển khai. Dưới đây là một ví dụ sử dụng ultralytics Gói này được sử dụng để chạy suy luận, chứng minh tính dễ dàng khi sử dụng các mô hình thị giác được tối ưu hóa cao.
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt") # 'n' for nano, emphasizing efficiency
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Display the results
results[0].show()
Việc ứng dụng các kiến trúc dựa trên Mamba vào thị giác máy tính báo hiệu một bước tiến hướng tới trí tuệ nhân tạo (AI) nhạy bén hơn với phần cứng. Bằng cách giảm thiểu chi phí tính toán liên quan đến cơ chế chú ý toàn cục , các nhà nghiên cứu đang mở ra cơ hội triển khai các tác nhân AI tiên tiến trên các thiết bị nhỏ hơn.
Các nghiên cứu gần đây, chẳng hạn như bài báo về VMamba và những phát triển trong học sâu hiệu quả , đã làm nổi bật tiềm năng của các mô hình này trong việc thay thế các kiến trúc mạng truyền thống trong các nhiệm vụ từ hiểu video đến phát hiện vật thể 3D . Khi cộng đồng tiếp tục tinh chỉnh các chiến lược quét và tích hợp với các lớp tích chập , Vision Mamba đang có tiềm năng trở thành một thành phần tiêu chuẩn trong bộ công cụ học sâu, bên cạnh CNN và Transformer.