Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Longformer

Khám phá Longformer, mô hình transformer được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, bộ gen và phân tích video.

Longformer là một mô hình dựa trên Transformer tiên tiến được thiết kế để xử lý hiệu quả các tài liệu rất dài. Được phát triển bởi các nhà nghiên cứu tại Viện Allen về AI, sự đổi mới chính của nó là một cơ chế attention (chú ý) có thể mở rộng tuyến tính với độ dài chuỗi, không giống như tỷ lệ bậc hai của các mô hình Transformer tiêu chuẩn như BERT. Hiệu quả này giúp có thể thực hiện các tác vụ Xử lý ngôn ngữ tự nhiên (NLP) phức tạp trên các văn bản chứa hàng nghìn hoặc thậm chí hàng chục nghìn token, điều này là quá tốn kém về mặt tính toán đối với các kiến trúc trước đó.

Cách thức hoạt động của Longformer

Cốt lõi hiệu quả của Longformer nằm ở mô hình attention độc đáo của nó, thay thế cơ chế self-attention đầy đủ của một Transformer tiêu chuẩn. Thay vì mọi token chú ý đến mọi token khác, Longformer kết hợp hai loại attention:

  • Cơ chế chú ý cửa sổ trượt ( cục bộ ): Hầu hết các token chỉ chú ý đến một số lượng token lân cận cố định ở hai bên. Điều này nắm bắt ngữ cảnh cục bộ, tương tự như cách một người đọc hiểu các từ dựa trên các từ xung quanh chúng. Cách tiếp cận này được lấy cảm hứng từ sự thành công của Mạng nơ-ron tích chập (CNN) trong việc tận dụng các mẫu cục bộ.
  • Chú trọng toàn cầu: Một số lượng nhỏ các token được chọn trước được chỉ định có sự chú ý toàn cục, có nghĩa là chúng có thể chú ý đến tất cả các token khác trong toàn bộ chuỗi. Các token "toàn cục" này hoạt động như những người thu thập thông tin cấp cao từ toàn bộ tài liệu. Cho nhiệm vụ cụ thể tinh chỉnh, các token toàn cục này thường được chọn một cách chiến lược, chẳng hạn như [CLS] token cho các tác vụ phân loại.

Sự kết hợp này mang lại sự cân bằng giữa hiệu quả tính toán và nắm bắt các phụ thuộc tầm xa cần thiết để hiểu các tài liệu phức tạp. Nghiên cứu ban đầu được trình bày chi tiết trong bài báo "Longformer: The Long-Document Transformer".

Các ứng dụng trong AI và học máy

Khả năng xử lý các chuỗi dài của Longformer mở ra những khả năng cho nhiều ứng dụng mà trước đây không thực tế.

  • Phân tích tài liệu dài: Nó có thể thực hiện các tác vụ như tóm tắt văn bản hoặc trả lời câu hỏi trên toàn bộ sách, các bài nghiên cứu dài hoặc các tài liệu pháp lý phức tạp. Ví dụ: một công ty công nghệ pháp lý có thể sử dụng mô hình dựa trên Longformer để tự động quét hàng nghìn trang tài liệu khám phá để tìm bằng chứng liên quan.
  • Hệ thống Hội thoại và Chatbot: Trong ngữ cảnh chatbot hoặc trợ lý ảo, Longformer có thể duy trì lịch sử hội thoại dài hơn nhiều, dẫn đến các tương tác mạch lạc và nhận biết ngữ cảnh hơn trong thời gian dài.
  • Tin Sinh Học và Hệ Gen (Genomics and Bioinformatics): Kiến trúc của nó rất phù hợp để phân tích các chuỗi DNA hoặc protein dài, giúp các nhà nghiên cứu xác định các mẫu và chức năng trong các tập dữ liệu di truyền rộng lớn. Một phòng thí nghiệm nghiên cứu có thể áp dụng nó để tìm các chuỗi gen cụ thể trong toàn bộ nhiễm sắc thể.

Các mô hình Longformer được huấn luyện trước có sẵn rộng rãi trên các nền tảng như Hugging Face, cho phép các nhà phát triển điều chỉnh chúng cho các tác vụ khác nhau.

So sánh với các thuật ngữ liên quan

Longformer là một trong số các mô hình được thiết kế để khắc phục những hạn chế của Transformer tiêu chuẩn đối với các chuỗi dài.

  • Transformer Tiêu chuẩn: Sự khác biệt chính là cơ chế attention. Mô hình attention hiệu quả của Longformer được thiết kế cho các chuỗi dài, trong khi self-attention đầy đủ trong Transformer tiêu chuẩn tốn quá nhiều bộ nhớ và tính toán cho các đầu vào dài.
  • Reformer: Một Transformer hiệu quả khác, Reformer sử dụng các kỹ thuật như locality-sensitive hashing (LSH) attention và các lớp обратимый để giảm mức sử dụng tài nguyên. Mặc dù cả hai đều nhắm mục tiêu đến các chuỗi dài, nhưng chúng sử dụng các chiến lược kỹ thuật khác nhau để đạt được hiệu quả.
  • Transformer-XL: Mô hình này giới thiệu cơ chế lặp lại và các embedding vị trí tương đối để quản lý các ngữ cảnh dài hơn, làm cho nó đặc biệt hiệu quả cho các tác vụ tự hồi quy như tạo văn bản. Ngược lại, Longformer được thiết kế để xử lý một tài liệu dài duy nhất với một ngữ cảnh hai chiều trong một lần.

Mặc dù các mô hình NLP này khác với các mô hình computer vision (CV) - thị giác máy tính như Ultralytics YOLO, vốn vượt trội trong các tác vụ như object detection (phát hiện đối tượng), thì động lực để đạt được hiệu quả tính toán là một chủ đề chung. Những đổi mới giúp giảm độ phức tạp, như trong Longformer, là rất quan trọng để làm cho các mô hình deep learning (học sâu) mạnh mẽ trở nên thiết thực cho suy luận theo thời gian thực (real-time inference)triển khai mô hình (model deployment) trên các phần cứng khác nhau. Việc quản lý các mô hình tiên tiến như vậy có thể được sắp xếp hợp lý bằng cách sử dụng các nền tảng như Ultralytics HUB.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard