Longformer
Khám phá kiến trúc Longformer để xử lý hiệu quả các chuỗi dữ liệu dài. Tìm hiểu cách sparse attention vượt qua giới hạn bộ nhớ cho NLP và Computer Vision.
Longformer là một loại kiến trúc Deep Learning chuyên dụng được thiết kế để xử lý các chuỗi dữ liệu dài một cách hiệu quả, vượt qua những hạn chế của các mô hình truyền thống. Ban đầu được giới thiệu để giải quyết các ràng buộc của các Transformers tiêu chuẩn, vốn thường gặp khó khăn với các chuỗi dài hơn 512 token do giới hạn bộ nhớ, Longformer sử dụng một cơ chế chú ý đã được sửa đổi. Bằng cách giảm độ phức tạp tính toán từ bậc hai xuống tuyến tính, kiến trúc này cho phép các hệ thống AI phân tích toàn bộ tài liệu, bản ghi dài hoặc chuỗi di truyền phức tạp trong một lần truyền duy nhất mà không cần cắt bớt dữ liệu đầu vào.
Link to this sectionVấn đề thắt nút cổ chai của cơ chế chú ý (Attention Bottleneck)#
Để hiểu tầm quan trọng của Longformer, cần phải xem xét hạn chế của các mô hình tiền nhiệm như BERT và các mô hình GPT-3 thời kỳ đầu. Các Transformer tiêu chuẩn sử dụng thao tác "self-attention" (tự chú ý), trong đó mọi token (từ hoặc một phần của từ) đều chú ý đến mọi token khác trong chuỗi. Điều này tạo ra chi phí tính toán bậc hai; việc tăng gấp đôi độ dài chuỗi sẽ làm tăng gấp bốn lần bộ nhớ yêu cầu trên GPU. Do đó, hầu hết các mô hình tiêu chuẩn đều áp đặt giới hạn nghiêm ngặt đối với kích thước đầu vào, thường buộc các nhà khoa học dữ liệu phải chia nhỏ tài liệu thành các phân đoạn rời rạc, dẫn đến mất mát ngữ cảnh.
Longformer giải quyết vấn đề này bằng cách giới thiệu Sparse Attention (Cơ chế chú ý thưa). Thay vì kết nối đầy đủ tất cả với tất cả, nó sử dụng sự kết hợp giữa chú ý cục bộ theo cửa sổ và chú ý toàn cục:
- Sliding Window Attention (Chú ý theo cửa sổ trượt): Mỗi token chỉ chú ý đến các token lân cận ngay lập tức của nó. Điều này nắm bắt ngữ cảnh cục bộ và cấu trúc cú pháp, tương tự như cách một Convolutional Neural Network (CNN) xử lý hình ảnh.
- Dilated Sliding Window (Cửa sổ trượt giãn cách): Để tăng receptive field mà không làm tăng khối lượng tính toán, cửa sổ có thể kết hợp các khoảng trống, cho phép mô hình nhìn "xa hơn" trong văn bản.
- Global Attention (Chú ý toàn cục): Các token được chọn trước cụ thể (như token phân loại
[CLS]) chú ý đến tất cả các token khác trong chuỗi, và tất cả các token đều chú ý đến chúng. Điều này đảm bảo mô hình giữ được sự hiểu biết cấp cao về toàn bộ dữ liệu đầu vào cho các tác vụ như text summarization.
Link to this sectionCác ứng dụng trong thực tế#
Khả năng xử lý hàng ngàn token cùng lúc mở ra những khả năng mới cho Natural Language Processing (NLP) và xa hơn nữa.
Link to this sectionPhân tích tài liệu pháp lý và y tế#
Trong các ngành như luật và chăm sóc sức khỏe, tài liệu hiếm khi ngắn. Một hợp đồng pháp lý hoặc hồ sơ bệnh án của bệnh nhân có thể dài hàng chục trang. Các Large Language Models (LLMs) truyền thống sẽ yêu cầu các tài liệu này phải được phân mảnh, có khả năng bỏ sót các phụ thuộc quan trọng giữa một điều khoản ở trang 1 và một định nghĩa ở trang 30. Longformer cho phép thực hiện Named Entity Recognition (NER) và phân loại trên toàn bộ tài liệu cùng một lúc, đảm bảo rằng ngữ cảnh toàn cục ảnh hưởng đến việc diễn giải các thuật ngữ cụ thể.
Link to this sectionTrả lời câu hỏi (QA) với văn bản dài#
Các hệ thống Question Answering tiêu chuẩn thường gặp khó khăn khi câu trả lời cho một câu hỏi đòi hỏi phải tổng hợp thông tin được phân bổ khắp một bài viết dài. Bằng cách giữ toàn bộ văn bản trong bộ nhớ, các mô hình dựa trên Longformer có thể thực hiện suy luận đa bước, kết nối các sự kiện được tìm thấy trong các đoạn văn khác nhau để tạo ra câu trả lời toàn diện. Điều này rất quan trọng đối với các hệ thống hỗ trợ kỹ thuật tự động và các công cụ nghiên cứu học thuật.
Link to this sectionPhân biệt các thuật ngữ chính#
- Longformer so với Transformer: Transformer tiêu chuẩn sử dụng cơ chế chú ý toàn bộ $N^2$, giúp nó chính xác nhưng lại tốn kém về mặt tính toán đối với dữ liệu đầu vào dài. Longformer sử dụng cơ chế chú ý thưa $N$, đánh đổi một lượng nhỏ năng lực lý thuyết để đạt được mức tăng hiệu quả khổng lồ, cho phép đầu vào từ 4.096 token trở lên.
- Longformer so với Transformer-XL: Mặc dù cả hai đều xử lý các chuỗi dài, Transformer-XL dựa vào cơ chế đệ quy (lưu trữ các trạng thái trước đó) để ghi nhớ các phân đoạn cũ. Longformer xử lý chuỗi dài một cách tự nhiên trong một lần, điều này giúp đơn giản hóa việc đào tạo song song trên các nền tảng như Ultralytics Platform.
- Longformer so với BigBird: Đây là các kiến trúc rất giống nhau được phát triển cùng thời điểm. Cả hai đều sử dụng cơ chế chú ý thưa để đạt được khả năng mở rộng tuyến tính. BigBird giới thiệu một thành phần chú ý ngẫu nhiên cụ thể ngoài các cửa sổ trượt.
Link to this sectionCác khái niệm triển khai#
Mặc dù Longformer là một kiến trúc thay vì một hàm cụ thể, việc hiểu cách chuẩn bị dữ liệu cho các mô hình ngữ cảnh dài là rất quan trọng. Trong các framework hiện đại như PyTorch, điều này thường bao gồm việc quản lý các embeddings vượt quá giới hạn tiêu chuẩn.
Ví dụ sau đây minh họa cách tạo một tensor đầu vào giả lập cho một kịch bản ngữ cảnh dài, đối chiếu nó với kích thước thông thường được sử dụng trong các mô hình phát hiện chuẩn như YOLO26.
import torch
# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))
# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))
print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")
# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.Link to this sectionSự liên quan đến Thị giác máy tính (Computer Vision)#
Mặc dù ban đầu được thiết kế cho văn bản, các nguyên tắc đằng sau Longformer đã ảnh hưởng đến Computer Vision. Khái niệm giới hạn sự chú ý vào một vùng lân cận cục bộ tương tự như các thao tác cục bộ trong các tác vụ thị giác. Vision Transformers (ViT) đối mặt với các vấn đề mở rộng quy mô tương tự với hình ảnh độ phân giải cao vì số lượng pixel (hoặc các bản vá) có thể rất lớn. Các kỹ thuật bắt nguồn từ cơ chế chú ý thưa của Longformer được sử dụng để cải thiện hiệu quả image classification và object detection, giúp các mô hình như YOLO26 duy trì tốc độ cao trong khi xử lý dữ liệu hình ảnh chi tiết.
Để đọc thêm về các đặc điểm kỹ thuật của kiến trúc, tài liệu Longformer gốc của AllenAI cung cấp các điểm chuẩn và lý giải lý thuyết chuyên sâu. Ngoài ra, việc đào tạo hiệu quả các mô hình lớn như vậy thường được hưởng lợi từ các kỹ thuật như mixed precision và các optimization algorithms nâng cao.






