Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Longformer

Khám phá Longformer, mô hình transformer được tối ưu hóa cho các chuỗi dài, mang lại hiệu quả có thể mở rộng cho NLP, bộ gen và phân tích video.

Longformer là một kiến trúc Transformer được cải tiến, được thiết kế để xử lý hiệu quả các chuỗi dữ liệu dài, khắc phục những hạn chế về độ dài đầu vào của các mô hình truyền thống như BERT . Mặc dù Transformer tiêu chuẩn rất mạnh mẽ, nhưng mức sử dụng bộ nhớ của chúng lại tăng theo bình phương độ dài chuỗi, khiến chúng tốn kém về mặt tính toán đối với các tài liệu dài hơn vài trăm từ. Longformer giải quyết vấn đề này bằng cách sử dụng cơ chế chú ý thưa thớt có khả năng tăng tuyến tính, cho phép xử lý các tài liệu bao gồm hàng nghìn mã thông báo. Khả năng này biến nó thành công nghệ nền tảng cho các tác vụ Xử lý Ngôn ngữ Tự nhiên (NLP) hiện đại liên quan đến các văn bản dài, chẳng hạn như phân tích hợp đồng pháp lý, tóm tắt sách hoặc xử lý dữ liệu bộ gen.

Kiến trúc: Sự chú ý thưa thớt

Điểm đổi mới quan trọng đằng sau Longformer là sự khác biệt so với cơ chế tự động hoàn toàn thường thấy trong các mô hình Học Sâu (DL) tiêu chuẩn. Trong thiết lập truyền thống, mỗi token sẽ phụ thuộc vào mỗi token khác, tạo ra một mạng lưới kết nối dày đặc, nhanh chóng làm cạn kiệt bộ nhớ. Longformer thay thế điều này bằng một phương pháp hiệu quả hơn, thưa thớt hơn, duy trì hiệu suất cao đồng thời giảm độ phức tạp tính toán .

  • Lưu ý: Lấy cảm hứng từ kết nối cục bộ của Mạng Nơ-ron Tích chập (CNN) , Longformer sử dụng cửa sổ trượt, trong đó mỗi mã thông báo chỉ quan tâm đến các mã thông báo lân cận. Điều này nắm bắt được ngữ cảnh cục bộ cần thiết để hiểu cú pháp và cấu trúc câu.
  • Chú ý toàn cục: Để hiểu bối cảnh rộng hơn của một tài liệu, các mã thông báo cụ thể được chỉ định để chú ý đến toàn bộ chuỗi. Điều này cho phép mô hình thực hiện các tác vụ như trả lời câu hỏi hoặc phân loại bằng cách tổng hợp thông tin từ toàn bộ dữ liệu đầu vào, thu hẹp khoảng cách giữa các chi tiết cục bộ và hiểu biết toàn cục.

Cơ chế kết hợp này cho phép các nhà nghiên cứu xử lý chuỗi lên đến 4.096 mã thông báo hoặc nhiều hơn trên phần cứng tiêu chuẩn, mở rộng đáng kể cửa sổ ngữ cảnh có sẵn để phân tích.

Các Ứng dụng Thực tế

Khả năng phân tích chuỗi dài mà không bị cắt bớt đã mở ra những khả năng mới trong nhiều lĩnh vực mà tính liên tục của dữ liệu là rất quan trọng.

  • Tóm tắt Pháp lý và Tài chính: Các chuyên gia thường cần trích xuất thông tin chi tiết từ các thỏa thuận dài dòng hoặc báo cáo thường niên. Longformer cung cấp các công cụ tóm tắt văn bản tiên tiến, có thể tóm tắt toàn bộ tài liệu chỉ trong một lần, đảm bảo các điều khoản quan trọng gần cuối hợp đồng được xem xét cùng với phần giới thiệu.
  • Nghiên cứu bộ gen: Trong lĩnh vực tin sinh học, các nhà khoa học phân tích các chuỗi DNA hoạt động như những chuỗi văn bản sinh học cực dài. Longformer giúp xác định chức năng gen và dự đoán cấu trúc protein bằng cách mô hình hóa các mối quan hệ phụ thuộc tầm xa vốn có trong mã di truyền, một nhiệm vụ trước đây khó khăn đối với các Mô hình Ngôn ngữ Lớn (LLM) tiêu chuẩn.

Phân biệt Longformer với các khái niệm liên quan

Việc so sánh Longformer với các kiến trúc khác sẽ hữu ích để chọn công cụ phù hợp cho các dự án Trí tuệ nhân tạo (AI) cụ thể.

  • Transformer : Kiến trúc gốc cung cấp khả năng kết nối đầy đủ ($O(n^2)$) và lý tưởng cho các câu ngắn nhưng lại gây hạn chế bộ nhớ cho các đầu vào dài. Longformer xấp xỉ điều này với độ phức tạp $O(n)$.
  • Reformer : Giống như Longformer, Reformer hướng đến hiệu quả nhưng đạt được điều này bằng cách sử dụng Băm Nhạy Cảm Địa Phương (LSH) để nhóm các mã thông báo tương tự và các lớp dư có thể đảo ngược. Longformer thường được ưu tiên cho các tác vụ yêu cầu ngữ cảnh cục bộ được xác định chặt chẽ (các từ lân cận), trong khi Reformer hữu ích khi bộ nhớ là nút thắt cổ chai tuyệt đối.
  • Transformer-XL : Mô hình này xử lý độ dài thông qua phép hồi quy, lưu giữ các đoạn trước đó. Longformer xử lý toàn bộ chuỗi dài đồng thời, điều này có thể có lợi cho các tác vụ không tự hồi quy như phân loại tài liệu.

Ví dụ về suy luận hiệu quả

Cũng giống như Longformer tối ưu hóa xử lý văn bản về tốc độ và bộ nhớ, các mô hình thị giác hiện đại cũng tối ưu hóa xử lý hình ảnh. Ví dụ sau đây sử dụng Ultralytics YOLO11 để chứng minh khả năng suy luận hiệu quả. Điều này tương tự như khái niệm sử dụng kiến trúc được tối ưu hóa để xử lý dữ liệu đầu vào phức tạp mà không làm quá tải tài nguyên phần cứng.

from ultralytics import YOLO

# Load a YOLO11 model, optimized for efficiency similar to Longformer's design goals
model = YOLO("yolo11n.pt")

# Perform inference on an image URL
# The model processes the input effectively in a single pass
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Output the detection summary
for result in results:
    print(f"Detected {len(result.boxes)} objects.")

Bằng cách giảm thiểu dung lượng bộ nhớ cần thiết để xử lý các dữ liệu đầu vào lớn, Longformer cho phép các nhà phát triển xây dựng các tác nhân AI và công cụ phân tích tinh vi hơn. Sự chuyển dịch sang khả năng mở rộng tuyến tính này là yếu tố thiết yếu cho tương lai của việc triển khai mô hình , đảm bảo AI mạnh mẽ vẫn dễ tiếp cận và hiệu quả.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay