Thuật ngữ

Người dài

Khám phá Longformer, mô hình biến đổi được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, nghiên cứu bộ gen và phân tích video.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Longformer là một loại mô hình Transformer được thiết kế riêng để xử lý hiệu quả các chuỗi văn bản rất dài. Được phát triển bởi Viện Allen về AI (AI2) , nó giải quyết một hạn chế chính của các mô hình Transformer chuẩn như BERTGPT , có yêu cầu về bộ nhớ và tính toán tăng theo cấp số nhân với độ dài chuỗi. Điều này khiến các Transformer chuẩn trở nên không thực tế đối với các tác vụ liên quan đến hàng nghìn mã thông báo, chẳng hạn như xử lý toàn bộ tài liệu, sách hoặc các cuộc hội thoại dài. Longformer sử dụng cơ chế chú ý được tối ưu hóa để xử lý các chuỗi dài này, giúp khả thi khi áp dụng sức mạnh của Transformer vào nhiều tác vụ Xử lý ngôn ngữ tự nhiên (NLP) hơn.

Longformer hoạt động như thế nào

Sự đổi mới cốt lõi của Longformer nằm ở mô hình tự chú ý hiệu quả của nó. Standard Transformers sử dụng cơ chế tự chú ý "đầy đủ" trong đó mọi mã thông báo đều chú ý đến mọi mã thông báo khác trong chuỗi. Mặc dù mạnh mẽ, nhưng điều này dẫn đến nút thắt cổ chai phức tạp bậc hai. Longformer thay thế điều này bằng sự kết hợp của các mô hình chú ý:

  1. Cửa sổ trượt Lưu ý: Mỗi mã thông báo chỉ quan tâm đến một cửa sổ có kích thước cố định của các mã thông báo lân cận xung quanh nó. Điều này nắm bắt ngữ cảnh cục bộ một cách hiệu quả và mở rộng tuyến tính theo chiều dài chuỗi.
  2. Cửa sổ trượt giãn nở Lưu ý: Để tăng trường tiếp nhận mà không cần thêm phép tính, cửa sổ có thể được "giãn nở", nghĩa là nó bỏ qua một số mã thông báo trong tầm nhìn của nó, cho phép nó thu thập thông tin từ các mã thông báo ở xa hơn trong khi vẫn chỉ chú ý đến một số cố định.
  3. Sự chú ý toàn cầu: Một số mã thông báo được chọn trước (ví dụ: mã thông báo đặc biệt như [CLS] được sử dụng cho các tác vụ phân loại) được phép xử lý toàn bộ chuỗi và toàn bộ chuỗi có thể xử lý chúng. Điều này đảm bảo rằng thông tin cụ thể của tác vụ có thể được tích hợp trên toàn cầu.

Sự kết hợp này cho phép Longformer xây dựng các biểu diễn theo ngữ cảnh kết hợp cả thông tin cục bộ và toàn cục, tương tự như Transformers chuẩn, nhưng có độ phức tạp tính toán tăng theo tuyến tính, không phải theo bậc hai, với độ dài chuỗi. Điều này giúp xử lý chuỗi hàng chục nghìn mã thông báo trở nên khả thi, so với giới hạn mã thông báo 512 hoặc 1024 thông thường của các mô hình như BERT. Các triển khai có sẵn trong các thư viện như Hugging Face Transformers .

Các tính năng và lợi ích chính

  • Hiệu quả: Khả năng mở rộng tuyến tính của tính toán và bộ nhớ theo độ dài chuỗi, cho phép xử lý các tài liệu dài hơn nhiều.
  • Khả năng mở rộng: Có thể xử lý các chuỗi có độ dài bị giới hạn chủ yếu bởi bộ nhớ phần cứng (ví dụ: 4096 mã thông báo trở lên, so với 512 đối với BERT tiêu chuẩn).
  • Hiệu suất: Duy trì hiệu suất mạnh mẽ trên nhiều tác vụ NLP khác nhau, thường vượt trội hơn các mô hình giới hạn trong bối cảnh ngắn hơn khi các phụ thuộc tầm xa là quan trọng.
  • Tính linh hoạt: Có thể được sử dụng để thay thế cho các lớp Transformer tiêu chuẩn trong nhiều kiến trúc học sâu .
  • Đào tạo trước và tinh chỉnh: Có thể được đào tạo trước trên các tập hợp văn bản lớn và sau đó tinh chỉnh cho các tác vụ hạ nguồn cụ thể, tương tự như các mô hình Transformer khác.

Ứng dụng trong thế giới thực

Khả năng xử lý chuỗi dài của Longformer mở ra nhiều khả năng trong nhiều lĩnh vực khác nhau:

  • Tóm tắt tài liệu: Tóm tắt các bài viết dài, bài nghiên cứu hoặc báo cáo trong đó thông tin quan trọng có thể được trải rộng trên toàn bộ văn bản. Các mô hình chuẩn có thể bỏ sót ngữ cảnh do bị cắt bớt.
  • Trả lời câu hỏi trên các tài liệu dài: Trả lời các câu hỏi dựa trên thông tin có trong các tài liệu dài như hợp đồng pháp lý, hướng dẫn kỹ thuật hoặc sách, mà không cần phải chia tài liệu thành các phần nhỏ hơn, có khả năng phá vỡ ngữ cảnh. Ví dụ, AI pháp lý có thể sử dụng Longformer để tìm các điều khoản có liên quan trong hợp đồng dài 100 trang.
  • Phân tích tài liệu khoa học: Xử lý và hiểu các mối quan hệ và phát hiện phức tạp trong các bài báo khoa học dài cho các nhiệm vụ như trích xuất thông tin hoặc xây dựng biểu đồ kiến thức.
  • Hệ thống đối thoại: Phân tích lịch sử hội thoại dài trong chatbot hoặc trợ lý ảo để duy trì ngữ cảnh và tính mạch lạc tốt hơn trong các tương tác kéo dài.

Ý nghĩa trong AI/ML

Longformer đại diện cho một bước tiến đáng kể trong việc cho phép các mô hình học sâu hiểu và lý luận trên văn bản dài. Bằng cách khắc phục tình trạng tắc nghẽn phức tạp bậc hai của Transformers chuẩn, nó cho phép các Mô hình ngôn ngữ lớn (LLM) giải quyết các nhiệm vụ liên quan đến tài liệu, sách và các cuộc đối thoại mở rộng hiệu quả hơn. Khả năng này rất cần thiết cho các ứng dụng đòi hỏi sự hiểu biết sâu sắc về ngữ cảnh, mở rộng ranh giới của những gì trí tuệ nhân tạo (AI) có thể đạt được trong việc xử lý ngôn ngữ của con người được tìm thấy ở các định dạng dài.

Trong khi các mô hình như Ultralytics YOLO11 vượt trội trong các tác vụ thị giác máy tính (CV) như phát hiện đối tượngphân đoạn hình ảnh , Longformer cung cấp các tiến bộ tương tự để xử lý dữ liệu văn bản dài, phức tạp trong miền NLP. Các công cụ như Ultralytics HUB hợp lý hóa việc triển khai và quản lý nhiều mô hình AI khác nhau, có khả năng bao gồm các mô hình NLP như Longformer đã được tinh chỉnh cho các tác vụ cụ thể bằng cách sử dụng các khuôn khổ như PyTorch hoặc TensorFlow .

So sánh với các thuật ngữ liên quan

  • Standard Transformer: Longformer là một sửa đổi của kiến trúc Transformer chuẩn. Sự khác biệt chính là cơ chế chú ý hiệu quả của Longformer (cửa sổ trượt + chú ý toàn cục) được thiết kế cho các chuỗi dài, trong khi Transformer chuẩn sử dụng sự chú ý tự thân hoàn toàn, tốn kém về mặt tính toán cho các đầu vào dài.
  • Reformer: Một biến thể hiệu quả khác của Transformer, Reformer , sử dụng các kỹ thuật như chú ý băm nhạy cảm với vị trí (LSH) và các lớp dư có thể đảo ngược để giảm bộ nhớ và chi phí tính toán. Mặc dù cả hai đều nhắm mục tiêu vào các chuỗi dài, nhưng chúng sử dụng các phương pháp kỹ thuật khác nhau để đạt được hiệu quả.
  • Transformer-XL: Transformer-XL giới thiệu sự lặp lại và nhúng vị trí tương đối để xử lý các ngữ cảnh dài hơn so với Transformers tiêu chuẩn, đặc biệt hữu ích trong mô hình ngôn ngữ hồi quy tự động. Longformer tập trung nhiều hơn vào các ngữ cảnh hai chiều trong một chuỗi dài duy nhất bằng cách sử dụng mẫu chú ý cụ thể của nó.
Đọc tất cả