Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy những đột phá trong NLP, thị giác máy tính và các tác vụ ML nâng cao.
Transformer là một kiến trúc mạng nơ-ron đột phá sử dụng cơ chế tự chú ý để xử lý dữ liệu đầu vào song song, tạo nên cuộc cách mạng đáng kể trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP) và Thị giác máy tính (CV) . Được giới thiệu lần đầu bởi Google Theo các nhà nghiên cứu trong bài báo quan trọng năm 2017 "Attention Is All You Need" , Transformer đã thoát khỏi quy trình xử lý tuần tự được sử dụng bởi các kiến trúc cũ. Thay vào đó, nó phân tích toàn bộ chuỗi dữ liệu đồng thời, cho phép nắm bắt các mối quan hệ phụ thuộc tầm xa và các mối quan hệ theo ngữ cảnh với hiệu quả chưa từng có. Kiến trúc này đóng vai trò là nền tảng cho Trí tuệ nhân tạo (AI) hiện đại và các Mô hình Ngôn ngữ Lớn (LLM) mạnh mẽ như GPT-4.
Đặc điểm nổi bật của Transformer là sự phụ thuộc vào cơ chế chú ý , cụ thể là tự chú ý. Không giống như Mạng Nơ-ron Hồi quy (RNN) , xử lý dữ liệu từng bước (ví dụ: từng từ một), Transformer tiếp nhận toàn bộ dữ liệu đầu vào cùng một lúc. Để hiểu thứ tự của dữ liệu, chúng sử dụng mã hóa vị trí , được thêm vào các nhúng đầu vào để lưu giữ thông tin về cấu trúc chuỗi.
Kiến trúc thường bao gồm các ngăn xếp mã hóa và giải mã:
Cấu trúc song song này cho phép khả năng mở rộng lớn, cho phép các nhà nghiên cứu đào tạo các mô hình trên các tập dữ liệu lớn bằng cách sử dụng GPU hiệu suất cao.
Mặc dù ban đầu được thiết kế cho văn bản, kiến trúc này đã được điều chỉnh thành công cho các tác vụ thị giác thông qua Vision Transformer (ViT) . Với phương pháp này, một hình ảnh được chia thành một chuỗi các mảng có kích thước cố định (tương tự như các từ trong câu). Sau đó, mô hình sử dụng tính năng tự chú ý để cân nhắc tầm quan trọng của các mảng khác nhau so với nhau, nắm bắt bối cảnh tổng thể mà Mạng Nơ-ron Tích chập (CNN) truyền thống có thể bỏ sót.
Ví dụ, Bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ) sử dụng kiến trúc này để thực hiện phát hiện đối tượng với độ chính xác cao. Không giống như các mô hình dựa trên CNN dựa trên các đặc điểm cục bộ, RT-DETR có thể hiểu được mối quan hệ giữa các vật thể ở xa trong một cảnh. Tuy nhiên, cần lưu ý rằng mặc dù Transformers vượt trội trong bối cảnh toàn cục, các mô hình dựa trên CNN như Ultralytics YOLO11 thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác cho các ứng dụng biên thời gian thực. Các mô hình cộng đồng như YOLO12 đã cố gắng tích hợp các lớp chú ý nặng nhưng thường gặp phải tình trạng không ổn định khi huấn luyện và tốc độ suy luận chậm so với kiến trúc CNN được tối ưu hóa của YOLO11 .
Tính linh hoạt của kiến trúc Transformer đã dẫn đến việc nó được áp dụng trong nhiều ngành công nghiệp khác nhau.
Bạn có thể thử nghiệm trực tiếp với các mô hình thị giác máy tính dựa trên Transformer bằng cách sử dụng ultralytics gói. Ví dụ sau đây minh họa cách tải RT-DETR mô hình phát hiện đối tượng.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
Điều quan trọng là phải phân biệt Transformers với các kiến trúc học sâu (DL) phổ biến khác:
Nghiên cứu đang liên tục cải thiện hiệu quả của Transformers. Những cải tiến như FlashAttention đang giảm chi phí tính toán, cho phép mở rộng cửa sổ ngữ cảnh. Hơn nữa, các hệ thống AI đa phương thức đang kết hợp Transformers với các kiến trúc khác để xử lý văn bản, hình ảnh và âm thanh đồng thời. Khi các công nghệ này phát triển, Nền tảng Ultralytics sắp ra mắt sẽ cung cấp một môi trường thống nhất để đào tạo, triển khai và giám sát các mô hình tinh vi này cùng với các tác vụ thị giác máy tính tiêu chuẩn.