Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy những đột phá trong NLP, thị giác máy tính và các tác vụ ML nâng cao.
Transformer là một kiến trúc học sâu đột phá đã thay đổi căn bản cách máy tính xử lý dữ liệu tuần tự. Lần đầu tiên được giới thiệu bởi Google Trong bài báo mang tính đột phá năm 2017 "Attention Is All You Need" , các nhà nghiên cứu đã chỉ ra rằng Transformer đã thay thế các mô hình tuần tự cũ hơn như Mạng thần kinh hồi quy (RNN) bằng một cơ chế gọi là tự chú ý (self-attention). Sự đổi mới này cho phép mô hình xử lý toàn bộ chuỗi dữ liệu—chẳng hạn như một câu hoặc một hình ảnh—đồng thời thay vì từng bước một. Bằng cách phân tích mối quan hệ giữa tất cả các phần của đầu vào cùng một lúc, Transformer vượt trội trong việc nắm bắt các phụ thuộc tầm xa và ngữ cảnh, khiến chúng trở thành xương sống cấu trúc của Trí tuệ nhân tạo tạo sinh hiện đại và các Mô hình ngôn ngữ lớn (LLM) như GPT-4.
Đặc điểm nổi bật của Transformer là sự phụ thuộc vào cơ chế chú ý , cụ thể là một quá trình được gọi là tự chú ý. Trong các mô hình chuỗi truyền thống, mạng xử lý thông tin một cách tuyến tính, điều này thường dẫn đến vấn đề suy giảm độ dốc, trong đó thông tin ban đầu bị mất đi trong các chuỗi dài.
Transformer giải quyết vấn đề này bằng cách cân nhắc tầm quan trọng của các yếu tố đầu vào khác nhau so với nhau. Ví dụ, trong câu "Con vật không băng qua đường vì nó quá mệt", mô hình phải hiểu rằng "nó" ở đây đề cập đến "con vật" chứ không phải "con đường". Cơ chế tự chú ý sẽ gán "trọng số" cao hơn cho các từ có liên quan, tạo ra một bản đồ các mối quan hệ bất kể khoảng cách giữa các từ.
Kiến trúc này thường bao gồm hai tầng chính:
Vì Transformer xử lý đầu vào song song, chúng được tối ưu hóa cao cho phần cứng hiện đại, cho phép các nhà nghiên cứu mở rộng quy mô huấn luyện trên các tập dữ liệu khổng lồ bằng cách sử dụng GPU hiệu năng cao.
Ban đầu nổi tiếng nhờ cách mạng hóa Xử lý Ngôn ngữ Tự nhiên (NLP) , Transformer đã có những bước tiến đáng kể trong các tác vụ xử lý hình ảnh. Trong lĩnh vực này, chúng thường được gọi là Vision Transformer (ViT). Thay vì phân tách từ thành các token, mô hình này chia hình ảnh thành các mảng có kích thước cố định (ví dụ: 16x16 pixel), làm phẳng chúng và xử lý chúng theo chuỗi.
Cách tiếp cận này cho phép nhận thức ngữ cảnh toàn cầu trong các tác vụ như phân loại hình ảnh và phát hiện đối tượng. Ví dụ, bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ) sử dụng kiến trúc này để detect Các đối tượng được nhận dạng với độ chính xác cao. Trong khi Mạng nơ-ron tích chập (CNN) tập trung vào các đặc điểm cục bộ như cạnh và kết cấu, Transformer lại nhìn thấy "toàn cảnh" ngay lập tức.
Tuy nhiên, các mô hình Transformer thuần túy có thể đòi hỏi nhiều tài nguyên tính toán. Ultralytics Cung cấp các mô hình dựa trên CNN được tối ưu hóa cao như YOLO11 và YOLO26 tiên tiến, thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác cho các ứng dụng biên thời gian thực so với các kiến trúc dựa trên cơ chế chú ý phức tạp.
Tính linh hoạt của kiến trúc Transformer là nền tảng cho nhiều công cụ trí tuệ nhân tạo được sử dụng hiện nay:
Bạn có thể dễ dàng thử nghiệm với tính năng phát hiện đối tượng dựa trên Transformer bằng cách sử dụng... ultralytics Python gói. Ví dụ sau đây minh họa cách tải gói. RT-DETR Xây dựng mô hình và thực hiện suy luận trên hình ảnh.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the first result
results[0].show()
Việc phân biệt Transformer với các kiến trúc học sâu (DL) phổ biến khác sẽ giúp hiểu rõ khi nào nên sử dụng chúng:
Lĩnh vực này đang phát triển nhanh chóng để giải quyết chi phí tính toán của Transformer. Các kỹ thuật như lượng tử hóa mô hình và những cải tiến như FlashAttention đang giúp các mô hình này hoạt động nhanh hơn và hiệu quả hơn. Hơn nữa, sự trỗi dậy của Trí tuệ nhân tạo đa phương thức (Multimodal AI) đang kết hợp Transformer với các loại mạng khác để xử lý dữ liệu văn bản, âm thanh và hình ảnh đồng thời. Khi các công nghệ này trưởng thành, Nền tảng Ultralytics sẽ cung cấp một môi trường thống nhất để huấn luyện và triển khai các mô hình phức tạp này cho bất kỳ nhiệm vụ thị giác máy tính nào.