Transformer
Khám phá kiến trúc Transformer và cơ chế tự chú ý (self-attention). Tìm hiểu cách chúng hỗ trợ các mô hình AI như RT-DETR và Ultralytics YOLO26 để đạt độ chính xác vượt trội.
Transformer là một kiến trúc học sâu (deep learning) dựa trên một cơ chế gọi là self-attention để xử lý dữ liệu đầu vào tuần tự, ví dụ như ngôn ngữ tự nhiên hoặc các đặc trưng thị giác. Được giới thiệu lần đầu bởi các nhà nghiên cứu của Google trong bài báo mang tính cột mốc Attention Is All You Need, Transformer đã cách mạng hóa lĩnh vực trí tuệ nhân tạo (AI) bằng cách loại bỏ các hạn chế về xử lý tuần tự của các Mạng thần kinh tái phát (RNNs) trước đây. Thay vào đó, Transformers phân tích toàn bộ chuỗi dữ liệu cùng một lúc, cho phép song song hóa quy mô lớn và thời gian huấn luyện nhanh hơn đáng kể trên phần cứng hiện đại như GPUs.
Link to this sectionCách thức hoạt động của Transformers#
Đổi mới cốt lõi của Transformer là cơ chế self-attention. Cơ chế này cho phép mô hình đánh giá tầm quan trọng của các phần khác nhau trong dữ liệu đầu vào so với nhau. Ví dụ, trong một câu, mô hình có thể học được rằng từ "bank" liên quan chặt chẽ hơn đến "money" (tiền bạc) thay vì "river" (con sông) dựa trên ngữ cảnh xung quanh.
Kiến trúc này thường bao gồm hai thành phần chính:
- Encoder: Xử lý dữ liệu đầu vào thành một biểu diễn số học phong phú hoặc embedding.
- Decoder: Sử dụng kết quả đầu ra của encoder để tạo ra kết quả cuối cùng, chẳng hạn như một câu đã dịch hoặc một khung bao (bounding box) được dự đoán.
Trong lĩnh vực thị giác máy tính (CV), các mô hình thường sử dụng một biến thể gọi là Vision Transformer (ViT). Thay vì xử lý các token văn bản, hình ảnh được chia thành các phân đoạn (patch) có kích thước cố định (ví dụ: 16x16 pixel). Các phân đoạn này được làm phẳng và xử lý như một chuỗi, cho phép mô hình nắm bắt "ngữ cảnh toàn cục"—hiểu được mối quan hệ giữa các phần xa nhau của một hình ảnh—hiệu quả hơn so với Mạng thần kinh tích chập (CNN) tiêu chuẩn.
Link to this sectionTransformers so với các khái niệm liên quan#
Điều quan trọng là phải phân biệt kiến trúc Transformer với các thuật ngữ liên quan:
- Cơ chế Attention: Đây là khái niệm chung về việc tập trung vào các phần cụ thể của dữ liệu. Transformer là một kiến trúc cụ thể được xây dựng hoàn toàn dựa trên các lớp attention, trong khi các mô hình khác có thể chỉ sử dụng attention như một phần bổ sung nhỏ.
- Mô hình ngôn ngữ lớn (LLM): Các thuật ngữ như "GPT" đề cập đến các mô hình cụ thể được huấn luyện trên lượng lớn văn bản. Hầu hết các LLM hiện đại đều sử dụng kiến trúc Transformer làm công cụ nền tảng của chúng.
Link to this sectionCác ứng dụng trong thực tế#
Tính linh hoạt của Transformers đã dẫn đến việc áp dụng chúng trong nhiều ngành công nghiệp:
-
Chẩn đoán hình ảnh y tế: Trong AI trong chăm sóc sức khỏe, Transformers được sử dụng cho các tác vụ phức tạp như phân tích hình ảnh y tế. Khả năng hiểu các mối quan hệ không gian toàn cục của chúng giúp phát hiện các bất thường tinh vi trong các bản quét MRI hoặc CT độ phân giải cao mà các CNN tập trung vào đặc trưng cục bộ có thể bỏ sót.
-
Hệ thống tự hành: Đối với phương tiện tự hành, việc hiểu quỹ đạo của người đi bộ và các phương tiện khác là rất quan trọng. Transformers vượt trội trong việc hiểu video bằng cách theo dõi các đối tượng qua các khung hình, dự đoán các chuyển động trong tương lai để đảm bảo điều hướng an toàn.
Link to this sectionPhát hiện đối tượng với Transformers#
Mặc dù CNN truyền thống đã thống trị lĩnh vực phát hiện đối tượng, các mô hình dựa trên Transformer như Real-Time Detection Transformer (RT-DETR) đã nổi lên như những giải pháp thay thế mạnh mẽ. RT-DETR kết hợp tốc độ của các backbone CNN với độ chính xác của các đầu giải mã Transformer.
Tuy nhiên, các mô hình Transformer thuần túy có thể tiêu tốn nhiều tài nguyên tính toán. Đối với nhiều ứng dụng biên (edge), các mô hình lai được tối ưu hóa cao như YOLO26—tích hợp các cơ chế attention hiệu quả với xử lý tích chập nhanh—cung cấp sự cân bằng vượt trội giữa tốc độ và độ chính xác. Bạn có thể quản lý việc huấn luyện và triển khai các mô hình này một cách dễ dàng thông qua Ultralytics Platform, giúp hợp lý hóa quy trình từ chú thích tập dữ liệu đến xuất mô hình.
Link to this sectionVí dụ Python: Sử dụng RT-DETR#
Ví dụ sau đây minh họa cách thực hiện suy luận (inference) bằng cách sử dụng mô hình dựa trên Transformer trong gói ultralytics. Mã này tải một mô hình RT-DETR đã được huấn luyện trước và phát hiện các đối tượng trong một hình ảnh.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Để đọc thêm về nền tảng toán học, tài liệu PyTorch về các lớp Transformer cung cấp độ sâu kỹ thuật, trong khi hướng dẫn về Transformers của IBM đưa ra quan điểm kinh doanh ở cấp độ cao.






