Thuật ngữ

Máy biến áp-XL

Khám phá cách Transformer-XL cách mạng hóa mô hình trình tự với những cải tiến như tái diễn cấp phân đoạn và xử lý ngữ cảnh tầm xa.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Transformer-XL (Transformer-Extra Long) là một bước tiến đáng kể so với kiến trúc Transformer ban đầu, chủ yếu được thiết kế để xử lý các phụ thuộc tầm xa trong dữ liệu tuần tự hiệu quả hơn. Được phát triển bởi các nhà nghiên cứu tại Google AI và Đại học Carnegie Mellon, kiến trúc này giải quyết hạn chế phân mảnh ngữ cảnh vốn có trong Transformers chuẩn khi xử lý các chuỗi rất dài, điều này rất quan trọng đối với các tác vụ trong Xử lý ngôn ngữ tự nhiên (NLP) và hơn thế nữa. Không giống như Transformers vani xử lý các phân đoạn có độ dài cố định một cách độc lập, Transformer-XL giới thiệu các cơ chế để tái sử dụng thông tin trên các phân đoạn, cho phép mô hình xây dựng sự hiểu biết mạch lạc trên các ngữ cảnh dài hơn nhiều.

Các khái niệm cốt lõi của Transformer-XL

Transformer-XL giới thiệu hai cải tiến quan trọng để khắc phục những hạn chế của Transformer tiêu chuẩn khi xử lý các chuỗi dài:

  1. Sự lặp lại ở cấp độ phân đoạn: Các bộ chuyển đổi chuẩn xử lý các chuỗi dài bằng cách chia chúng thành các phân đoạn có kích thước cố định. Tuy nhiên, thông tin không thể truyền giữa các phân đoạn này, dẫn đến phân mảnh ngữ cảnh. Transformer-XL giới thiệu một cơ chế lặp lại trong đó các trạng thái ẩn được tính toán cho một phân đoạn trước đó được lưu vào bộ nhớ đệm và được sử dụng lại dưới dạng ngữ cảnh khi xử lý phân đoạn hiện tại. Điều này cho phép thông tin lan truyền qua các phân đoạn, tạo ra ngữ cảnh hiệu quả vượt xa độ dài của một phân đoạn duy nhất. Về mặt khái niệm, điều này tương tự như cách Mạng nơ-ron hồi quy (RNN) duy trì trạng thái nhưng được tích hợp trong khuôn khổ tự chú ý của Transformer.
  2. Mã hóa vị trí tương đối: Transformer gốc sử dụng mã hóa vị trí tuyệt đối để thông báo cho mô hình về vị trí của các mã thông báo trong một chuỗi. Khi áp dụng lặp lại ở cấp độ phân đoạn, việc sử dụng lại mã hóa tuyệt đối trở nên có vấn đề vì cùng một chỉ số vị trí sẽ xuất hiện ở các phân đoạn khác nhau, gây ra sự mơ hồ. Transformer-XL sử dụng mã hóa vị trí tương đối, xác định vị trí dựa trên khoảng cách giữa các mã thông báo thay vì vị trí tuyệt đối của chúng. Điều này làm cho thông tin vị trí nhất quán trên các phân đoạn khác nhau và cho phép mô hình tổng quát hóa tốt hơn đối với các độ dài chuỗi khác nhau trong quá trình suy luận .

Transformer-XL hoạt động như thế nào

Trong quá trình đào tạo và suy luận, Transformer-XL xử lý chuỗi đầu vào theo từng phân đoạn. Đối với mỗi phân đoạn mới, nó tính toán điểm chú ý không chỉ dựa trên các mã thông báo trong phân đoạn đó mà còn sử dụng các trạng thái ẩn được lưu trong bộ nhớ đệm từ các phân đoạn trước đó. Thông tin được lưu trong bộ nhớ đệm này cung cấp bối cảnh lịch sử. Việc sử dụng mã hóa vị trí tương đối đảm bảo rằng cơ chế chú ý diễn giải chính xác các vị trí tương đối của các mã thông báo, ngay cả khi chú ý đến các mã thông báo từ phân đoạn trước đó được lưu trong bộ nhớ đệm. Phương pháp này làm tăng đáng kể độ dài phụ thuộc tối đa có thể mà mô hình có thể nắm bắt, thường lớn hơn nhiều so với độ dài của phân đoạn, đồng thời vẫn duy trì hiệu quả tính toán so với việc xử lý toàn bộ chuỗi cùng một lúc bằng Transformer tiêu chuẩn. Phương pháp này giúp ngăn ngừa các vấn đề như vấn đề độ dốc biến mất trên các phụ thuộc dài.

Transformer-XL so với Transformer tiêu chuẩn và các mô hình liên quan

Sự khác biệt chính nằm ở cách xử lý độ dài chuỗi và ngữ cảnh:

  • Độ dài ngữ cảnh: Các Transformers chuẩn có độ dài ngữ cảnh tối đa cố định được xác định bởi kích thước phân đoạn. Transformer-XL có thể nắm bắt các phụ thuộc có độ dài lên tới hàng nghìn mã thông báo nhờ cơ chế lặp lại của nó.
  • Tính toán: Transformer-XL có thể nhanh hơn đáng kể so với Transformers tiêu chuẩn trong quá trình đánh giá trên các chuỗi dài vì các phép tính cho các phân đoạn trước đó được sử dụng lại.
  • Bộ nhớ: Việc lưu trữ trạng thái ẩn yêu cầu thêm bộ nhớ nhưng tránh phải tính toán lại các biểu diễn cho các phần trước đó của chuỗi.
  • Các mô hình liên quan: Trong khi các mô hình như BERTGPT (Generative Pre-trained Transformer) cũng dựa trên kiến trúc Transformer, chúng thường sử dụng phương pháp tiếp cận ngữ cảnh có độ dài cố định tiêu chuẩn. Transformer-XL nhắm mục tiêu cụ thể vào giới hạn ngữ cảnh dài. Các mô hình khác như LongformerReformer cũng giải quyết các chuỗi dài nhưng sử dụng các kỹ thuật khác nhau như các mẫu chú ý thưa thớt hoặc băm nhạy cảm với vị trí.

Sự liên quan và ứng dụng

Khả năng mô hình hóa các mối phụ thuộc tầm xa của Transformer-XL giúp nó cực kỳ hiệu quả đối với nhiều tác vụ tuần tự khác nhau, đặc biệt là trong NLP.

  • Mô hình hóa ngôn ngữ: Nó đạt được kết quả tiên tiến nhất về các chuẩn mực mô hình hóa ngôn ngữ ở cấp độ ký tự và cấp độ từ như enwik8WikiText-103 bằng cách nắm bắt ngữ cảnh dài hơn so với các mô hình trước đó. Sự hiểu biết được cải thiện này về cấu trúc ngôn ngữ rất quan trọng để tạo ra văn bản mạch lạc và có liên quan theo ngữ cảnh.
  • Xử lý tài liệu dài: Các tác vụ liên quan đến tài liệu dài, chẳng hạn như tóm tắt ( Tóm tắt văn bản), trả lời câu hỏi qua các bài viết dài hoặc phân tích toàn bộ sách hoặc cơ sở mã, được hưởng lợi đáng kể từ cửa sổ ngữ cảnh mở rộng của Transformer-XL. Ví dụ, một mô hình Transformer-XL có khả năng tạo ra các câu chuyện hư cấu dài một chương hoặc viết các mô-đun phần mềm mở rộng ( Tạo văn bản ).
  • Học tăng cường: Khả năng ghi nhớ được cải thiện của nó cũng được ứng dụng trong các nhiệm vụ học tăng cường đòi hỏi phải lập kế hoạch dài hạn.

Trong khi Transformer-XL chủ yếu được biết đến với NLP, các nguyên tắc xử lý chuỗi dài hiệu quả có liên quan đến Machine Learning (ML) , có khả năng ảnh hưởng đến các kiến trúc để phân tích chuỗi thời gian hoặc thậm chí các khía cạnh của thị giác máy tính (CV) xử lý dữ liệu video. Các cải tiến về kiến trúc thường thụ phấn chéo; ví dụ, bản thân Transformers đã truyền cảm hứng cho Vision Transformers (ViT) được sử dụng trong phân tích hình ảnh. Các nền tảng như Hugging Face lưu trữ các triển khai và mô hình được đào tạo trước , tạo điều kiện thuận lợi cho nghiên cứu và phát triển ứng dụng. Bạn có thể khám phá nghiên cứu ban đầu trong bài báo "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context" . Hiểu được các kiến trúc tiên tiến như vậy giúp cung cấp thông tin cho việc phát triển và tinh chỉnh các mô hình trên nhiều miền khác nhau, bao gồm cả những miền được quản lý và triển khai thông qua các nền tảng như Ultralytics HUB .

Đọc tất cả