Masked Autoencoders (MAE)
Khám phá cách các Masked Autoencoders (MAE) cách mạng hóa việc tự học (self-supervised learning). Tìm hiểu cách việc tái tạo MAE cải thiện hiệu suất và hiệu quả của Ultralytics YOLO26.
Masked Autoencoders (MAE) đại diện cho một phương pháp hiệu quả và có khả năng mở rộng cao cho học tự giám sát trong lĩnh vực rộng lớn hơn là thị giác máy tính. Được giới thiệu như một phương pháp để huấn luyện các mạng thần kinh có nhiều tham số mà không cần các tập dữ liệu được gán nhãn chuyên sâu, MAE hoạt động bằng cách cố tình che đi một phần lớn, ngẫu nhiên của hình ảnh đầu vào và huấn luyện mô hình để tái tạo các điểm ảnh bị thiếu. Bằng cách dự đoán thành công thông tin hình ảnh bị ẩn, mạng lưới về cơ bản học được sự hiểu biết sâu sắc, có tính ngữ nghĩa về hình dạng, kết cấu và các mối quan hệ không gian.
Kỹ thuật này chịu ảnh hưởng lớn từ thành công của mô hình ngôn ngữ được che (masked language modeling) trong các hệ thống dựa trên văn bản, nhưng được điều chỉnh cho tính chất đa chiều của dữ liệu hình ảnh. Kiến trúc này dựa trên khung Transformer vô cùng phổ biến, sử dụng cấu trúc bộ mã hóa-giải mã bất đối xứng.
Link to this sectionMasked Autoencoders hoạt động như thế nào#
Cải tiến cốt lõi của MAE nằm ở hiệu quả xử lý. Trong quá trình huấn luyện, hình ảnh đầu vào được chia thành một lưới các bản vá (patch). Một tỷ lệ lớn các bản vá này (thường lên tới 75%) được che ngẫu nhiên và loại bỏ. Bộ mã hóa, thường là Vision Transformer (ViT), chỉ xử lý các bản vá hiển thị, không bị che. Vì bộ mã hóa bỏ qua hoàn toàn các phần bị che, nó yêu cầu ít tài nguyên tính toán và bộ nhớ hơn đáng kể, làm cho quá trình huấn luyện diễn ra cực kỳ nhanh chóng.
Sau khi bộ mã hóa tạo ra các biểu diễn tiềm ẩn của các bản vá hiển thị, một bộ giải mã nhẹ sẽ tiếp quản. Bộ giải mã nhận các bản vá hiển thị đã được mã hóa cùng với các "mask token" (trình giữ chỗ cho dữ liệu bị thiếu) và cố gắng xây dựng lại hình ảnh gốc. Vì bộ giải mã chỉ được sử dụng trong giai đoạn tiền huấn luyện này, nó có thể được giữ rất nhỏ, giúp giảm thêm chi phí tính toán. Sau khi tiền huấn luyện hoàn tất, bộ giải mã bị loại bỏ và bộ mã hóa mạnh mẽ được giữ lại cho các ứng dụng hạ nguồn.
Link to this sectionPhân biệt các thuật ngữ liên quan#
Để nắm bắt đầy đủ về MAE, sẽ rất hữu ích nếu hiểu cách chúng khác biệt với các khái niệm học sâu cũ hơn hoặc rộng hơn:
- Autoencoder: Một autoencoder truyền thống nén toàn bộ đầu vào thành một không gian tiềm ẩn nhỏ hơn và sau đó tái tạo nó để học các mã hóa dữ liệu hiệu quả. Tuy nhiên, MAE buộc mạng lưới phải dự đoán dữ liệu bị thiếu thay vì chỉ nén và giải nén toàn bộ đầu vào.
- Học tự giám sát: Đây là mô hình huấn luyện bao quát, nơi một mô hình học hỏi từ chính dữ liệu mà không cần nhãn do con người chú thích. MAE là một triển khai kiến trúc cụ thể của khái niệm này.
- Mô hình nền tảng: MAE thường được sử dụng để tiền huấn luyện các mô hình nền tảng thị giác, sau đó được tinh chỉnh cho các tác vụ chuyên biệt.
Link to this sectionCác ứng dụng trong thực tế#
Vì MAE học được các biểu diễn cực kỳ mạnh mẽ của dữ liệu hình ảnh, chúng là điểm khởi đầu lý tưởng cho các hệ thống AI phức tạp, trong thế giới thực.
- Tiền huấn luyện cho Phát hiện đối tượng nâng cao: Các khả năng trích xuất tính năng phong phú thu được thông qua tiền huấn luyện MAE có thể cải thiện đáng kể hiệu suất của các hệ thống phát hiện đối tượng hạ nguồn. Ví dụ, các tính năng được học thông qua MAE có thể được sử dụng khi huấn luyện các mô hình như Ultralytics YOLO26 trên các tập dữ liệu tùy chỉnh, chuyên biệt nơi dữ liệu được gán nhãn khan hiếm.
- Phân tích hình ảnh y tế: Trong các lĩnh vực như chẩn đoán hình ảnh, việc thu thập các tập dữ liệu khổng lồ gồm các bản quét MRI hoặc CT được chú thích rất đắt đỏ và bị hạn chế bởi luật riêng tư. Các nhà nghiên cứu sử dụng MAE để tiền huấn luyện các mô hình trên các nhóm lớn hình ảnh y tế không được gắn nhãn, được công bố trong tài liệu học thuật gần đây trên arXiv, trước khi tinh chỉnh chúng để phát hiện khối u hoặc các bất thường với rất ít ví dụ được gắn nhãn.
Link to this sectionQuản lý dữ liệu và triển khai#
Sau khi backbone được tiền huấn luyện bằng phương pháp MAE, bước tiếp theo bao gồm tinh chỉnh và triển khai mô hình cho các tác vụ cụ thể như phân loại hình ảnh hoặc phân đoạn hình ảnh. Các hệ sinh thái đám mây hiện đại giúp quá trình chuyển đổi này trở nên liền mạch. Ví dụ, các nhóm có thể tận dụng Ultralytics Platform để dễ dàng chú thích các tập dữ liệu dành riêng cho tác vụ, điều phối huấn luyện trên đám mây và triển khai các mô hình sẵn sàng sản xuất thu được tới các thiết bị biên hoặc máy chủ. Điều này loại bỏ phần lớn công việc cơ sở hạ tầng rập khuôn thường liên quan đến vận hành học máy (MLOps).
Link to this sectionVí dụ mã: Mô phỏng che bản vá#
Mặc dù việc huấn luyện một MAE hoàn chỉnh đòi hỏi một kiến trúc Transformer đầy đủ, khái niệm cốt lõi về che bản vá có thể được trực quan hóa dễ dàng bằng cách sử dụng các thao tác tensor của PyTorch. Đoạn mã đơn giản này minh họa cách một người có thể chọn ngẫu nhiên các bản vá hiển thị từ một tensor đầu vào.
import torch
def create_random_mask(batch_size, num_patches, mask_ratio=0.75):
"""Generates a random mask to simulate MAE patch dropping."""
# Calculate how many patches to keep visible
num_keep = int(num_patches * (1 - mask_ratio))
# Generate random noise to determine patch shuffling
noise = torch.rand(batch_size, num_patches)
# Sort noise to get random indices
ids_shuffle = torch.argsort(noise, dim=1)
# Select the indices of the patches that remain visible
ids_keep = ids_shuffle[:, :num_keep]
return ids_keep
# Simulate a batch of 4 images, each divided into 196 patches
visible_patches = create_random_mask(batch_size=4, num_patches=196)
print(f"Visible patch indices shape: {visible_patches.shape}")Đối với các nhà phát triển đang tìm cách tích hợp các khả năng thị giác mạnh mẽ, đã được tiền huấn luyện vào quy trình công việc của họ mà không cần viết kiến trúc từ đầu, việc khám phá tài liệu của Ultralytics cung cấp các điểm khởi đầu tuyệt vời để áp dụng các mô hình thị giác hiện đại nhất vào những thách thức độc đáo của bạn. Hơn nữa, các framework lớn như TensorFlow cũng cung cấp các hệ sinh thái mạnh mẽ để triển khai các nghiên cứu học máy tiên tiến vào các môi trường sản xuất có thể mở rộng.






