Khám phá Longformer, mô hình biến đổi được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, nghiên cứu bộ gen và phân tích video.
Longformer là một loại mô hình Transformer được thiết kế riêng để xử lý hiệu quả các chuỗi văn bản rất dài. Được phát triển bởi Viện Allen về AI (AI2) , nó giải quyết một hạn chế chính của các mô hình Transformer chuẩn như BERT và GPT , có yêu cầu về bộ nhớ và tính toán tăng theo cấp số nhân với độ dài chuỗi. Điều này khiến các Transformer chuẩn trở nên không thực tế đối với các tác vụ liên quan đến hàng nghìn mã thông báo, chẳng hạn như xử lý toàn bộ tài liệu, sách hoặc các cuộc hội thoại dài. Longformer sử dụng cơ chế chú ý được tối ưu hóa để xử lý các chuỗi dài này, giúp khả thi khi áp dụng sức mạnh của Transformer vào nhiều tác vụ Xử lý ngôn ngữ tự nhiên (NLP) hơn.
Sự đổi mới cốt lõi của Longformer nằm ở mô hình tự chú ý hiệu quả của nó. Standard Transformers sử dụng cơ chế tự chú ý "đầy đủ" trong đó mọi mã thông báo đều chú ý đến mọi mã thông báo khác trong chuỗi. Mặc dù mạnh mẽ, nhưng điều này dẫn đến nút thắt cổ chai phức tạp bậc hai. Longformer thay thế điều này bằng sự kết hợp của các mô hình chú ý:
[CLS]
được sử dụng cho các tác vụ phân loại) được phép xử lý toàn bộ chuỗi và toàn bộ chuỗi có thể xử lý chúng. Điều này đảm bảo rằng thông tin cụ thể của tác vụ có thể được tích hợp trên toàn cầu.Sự kết hợp này cho phép Longformer xây dựng các biểu diễn theo ngữ cảnh kết hợp cả thông tin cục bộ và toàn cục, tương tự như Transformers chuẩn, nhưng có độ phức tạp tính toán tăng theo tuyến tính, không phải theo bậc hai, với độ dài chuỗi. Điều này giúp xử lý chuỗi hàng chục nghìn mã thông báo trở nên khả thi, so với giới hạn mã thông báo 512 hoặc 1024 thông thường của các mô hình như BERT. Các triển khai có sẵn trong các thư viện như Hugging Face Transformers .
Khả năng xử lý chuỗi dài của Longformer mở ra nhiều khả năng trong nhiều lĩnh vực khác nhau:
Longformer đại diện cho một bước tiến đáng kể trong việc cho phép các mô hình học sâu hiểu và lý luận trên văn bản dài. Bằng cách khắc phục tình trạng tắc nghẽn phức tạp bậc hai của Transformers chuẩn, nó cho phép các Mô hình ngôn ngữ lớn (LLM) giải quyết các nhiệm vụ liên quan đến tài liệu, sách và các cuộc đối thoại mở rộng hiệu quả hơn. Khả năng này rất cần thiết cho các ứng dụng đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh, mở rộng ranh giới của những gì trí tuệ nhân tạo (AI) có thể đạt được trong việc xử lý ngôn ngữ của con người được tìm thấy ở các định dạng dài.
Trong khi các mô hình như Ultralytics YOLO11 vượt trội trong các tác vụ thị giác máy tính (CV) như phát hiện đối tượng và phân đoạn hình ảnh , Longformer cung cấp các tiến bộ tương tự để xử lý dữ liệu văn bản dài, phức tạp trong miền NLP. Các công cụ như Ultralytics HUB hợp lý hóa việc triển khai và quản lý nhiều mô hình AI khác nhau, có khả năng bao gồm các mô hình NLP như Longformer đã được tinh chỉnh cho các tác vụ cụ thể bằng cách sử dụng các khuôn khổ như PyTorch hoặc TensorFlow .