Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Transformer-XL

Khám phá cách Transformer-XL vượt qua những hạn chế của ngữ cảnh cố định bằng cách sử dụng segment -đệ quy cấp độ. Tìm hiểu cách kiến ​​trúc này hỗ trợ AI dạng dài và [LLM](https://www. ultralytics .com/glossary/large-language-model-llm).

Transformer-XL (Transformer-Extra Long) là một kiến ​​trúc mạng nơ-ron chuyên dụng được thiết kế để giải quyết một hạn chế quan trọng trong các mô hình Transformer tiêu chuẩn: khả năng xử lý các phụ thuộc tầm xa trong dữ liệu tuần tự. Được giới thiệu bởi Google Theo các nhà nghiên cứu AI, kiến ​​trúc này cho phép các mô hình ngôn ngữ nhìn xa hơn nhiều so với các cửa sổ ngữ cảnh có độ dài cố định vốn hạn chế các phương pháp truyền thống như BERT hoặc Transformer ban đầu. Bằng cách giới thiệu một segment Với cơ chế lặp lại nhiều cấp và sơ đồ mã hóa vị trí mới, Transformer-XL có thể xử lý các chuỗi văn bản cực dài mà không làm mất dữ liệu. track về mặt ngữ cảnh, nó trở thành một khái niệm nền tảng cho các Mô hình Ngôn ngữ Lớn (LLM) hiện đại và các ứng dụng Trí tuệ Nhân tạo tạo sinh.

Vượt qua những hạn chế về bối cảnh

Động lực chính đằng sau Transformer-XL là "vấn đề ngữ cảnh cố định". Các Transformer tiêu chuẩn xử lý dữ liệu theo các phân đoạn có kích thước cố định (ví dụ: 512 token). Thông tin thường không truyền tải xuyên suốt các phân đoạn này, có nghĩa là mô hình quên những gì đã xảy ra ở phân đoạn trước đó. segment Điều này phá vỡ tính mạch lạc trong các tài liệu dài.

Transformer-XL giải quyết vấn đề này bằng hai cải tiến quan trọng:

  1. Tính lặp lại ở cấp độ phân đoạn: Không giống như một Transformer thông thường xử lý từng phân đoạn riêng lẻ. segment Một cách độc lập, Transformer-XL lưu trữ các trạng thái ẩn từ trước đó. segment trong bộ nhớ. Khi xử lý hiện tại segment Nhờ đó, mô hình có thể chú ý đến các trạng thái được lưu trữ này. Điều này giúp kết nối hiệu quả các phân đoạn, cho phép thông tin lan truyền trên khoảng cách xa hơn nhiều, tương tự như Mạng thần kinh hồi quy (RNN) nhưng với lợi ích song song hóa của cơ chế chú ý.
  2. Mã hóa vị trí tương đối: Vì cơ chế lặp lại tái sử dụng các trạng thái từ các phân đoạn trước đó, nên các mã hóa vị trí tuyệt đối tiêu chuẩn (gán một ID duy nhất cho mỗi vị trí) sẽ bị nhầm lẫn. Transformer-XL sử dụng mã hóa tương đối, giúp mô hình hiểu được khoảng cách giữa các token (ví dụ: "từ A cách từ B 5 bước") thay vì vị trí tuyệt đối của chúng trong tài liệu.

Kiến trúc này cải thiện đáng kể điểm số độ phức tạp trong các tác vụ mô hình hóa ngôn ngữ so với các thế hệ tiền nhiệm như RNN và Transformer tiêu chuẩn.

Điểm khác biệt so với máy biến áp tiêu chuẩn

Việc phân biệt Transformer-XL với Vision Transformer (ViT) tiêu chuẩn hoặc các Transformer xử lý văn bản là rất hữu ích. Trong khi Transformer tiêu chuẩn đặt lại trạng thái của nó sau mỗi lần... segment Không gây ra hiện tượng "phân mảnh ngữ cảnh", Transformer-XL duy trì bộ nhớ về các kích hoạt trước đó. Điều này cho phép nó mô hình hóa các mối quan hệ phụ thuộc dài hơn hàng trăm lần so với các mô hình ngữ cảnh cố định. Điều này đặc biệt quan trọng đối với các tác vụ yêu cầu hiểu ngôn ngữ tự nhiên sâu sắc (NLU), nơi câu trả lời cho một câu hỏi có thể nằm cách xa câu hỏi hàng đoạn văn.

Các Ứng dụng Thực tế

Khả năng duy trì bối cảnh dài hạn khiến Transformer-XL trở nên có giá trị trong một số lĩnh vực quan trọng:

  • Tạo văn bản dài: Trong các ứng dụng tạo văn bản , chẳng hạn như viết tiểu thuyết hoặc tạo báo cáo dài, việc duy trì tính nhất quán về chủ đề rất khó. Transformer-XL cho phép AI ghi nhớ tên nhân vật, các điểm cốt truyện hoặc các định nghĩa kỹ thuật được giới thiệu sớm trong văn bản, đảm bảo đầu ra luôn mạch lạc xuyên suốt.
  • Phân tích trình tự DNA: Kiến trúc này không chỉ giới hạn ở ngôn ngữ con người. Trong tin sinh học, các nhà nghiên cứu sử dụng các biến thể của Transformer-XL để phân tích các chuỗi DNA dài. Hiểu được mối quan hệ giữa các trình tự gen xa nhau giúp xác định các dấu ấn di truyền và dự đoán cấu trúc protein, tương tự như cách trí tuệ nhân tạo trong chăm sóc sức khỏe hỗ trợ phân tích hình ảnh y tế.
  • Chatbot và Trợ lý ảo: Các chatbot hiện đại cần ghi nhớ các tùy chọn và chi tiết của người dùng được đề cập ở đầu cuộc trò chuyện. Cơ chế Transformer-XL giúp mở rộng cửa sổ ngữ cảnh , ngăn chặn trải nghiệm khó chịu khi trợ lý quên chủ đề đã được thảo luận chỉ vài phút trước đó.

Bộ nhớ và hiệu quả

Mặc dù Transformer-XL mang lại hiệu suất vượt trội trên các chuỗi dài, nhưng nó lại đặt ra những vấn đề cần lưu trữ cụ thể. Việc lưu trữ trạng thái ẩn đòi hỏi thêm bộ nhớ. GPU Bộ nhớ, nếu không được quản lý đúng cách, có thể ảnh hưởng đến độ trễ suy luận . Tuy nhiên, đối với các ứng dụng mà độ chính xác trong ngữ cảnh dài là tối quan trọng, sự đánh đổi này thường được chấp nhận.

Các mô hình phát hiện đối tượng hiện đại như YOLO26 tập trung vào tốc độ và hiệu quả xử lý dữ liệu hình ảnh. Ngược lại, các kiến ​​trúc như Transformer-XL ưu tiên khả năng lưu trữ bộ nhớ cho dữ liệu tuần tự. Điều thú vị là lĩnh vực này đang phát triển theo hướng trí tuệ nhân tạo đa phương thức , nơi các hệ thống xử lý hình ảnh hiệu quả (như trong YOLO26) có thể được kết hợp với các bộ giải mã ngôn ngữ ngữ cảnh dài để phân tích các video dài và trả lời các câu hỏi phức tạp về các sự kiện xảy ra theo thời gian.

Ví dụ: Quản lý ngữ cảnh trong suy luận

Mặc dù cơ chế hoạt động bên trong của Transformer-XL khá phức tạp, việc sử dụng các mô hình tiên tiến thường liên quan đến việc quản lý đầu vào để tuân thủ các giới hạn ngữ cảnh. Tiếp theo là... Python ví dụ sử dụng torch Nó minh họa khái niệm truyền "bộ nhớ" (các trạng thái ẩn) cho một mô hình để duy trì ngữ cảnh xuyên suốt các bước, mô phỏng hành vi lặp lại được tìm thấy trong các kiến ​​trúc như Transformer-XL.

import torch
import torch.nn as nn

# Define a simple RNN to demonstrate passing hidden states (memory)
# This mimics the core concept of recurrence used in Transformer-XL
rnn = nn.RNN(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Initial input: Batch size 1, sequence length 5, feature size 10
input_seq1 = torch.randn(1, 5, 10)

# Run first segment, receiving output and the hidden state (memory)
output1, memory = rnn(input_seq1)

# Run second segment, PASSING the memory from the previous step
# This connects the two segments, allowing context to flow
input_seq2 = torch.randn(1, 5, 10)
output2, new_memory = rnn(input_seq2, memory)

print(f"Output shape with context: {output2.shape}")

Đối với các nhóm muốn đào tạo và triển khai các mô hình tiên tiến một cách hiệu quả, Nền tảng Ultralytics cung cấp các công cụ để quản lý tập dữ liệu và tối ưu hóa quy trình đào tạo mô hình , cho dù bạn đang làm việc với các mô hình thị giác hay tích hợp các kiến ​​trúc tuần tự phức tạp.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay