Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024
Bảng chú giải thuật ngữ

Transformer

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy những đột phá trong NLP, thị giác máy tính và các tác vụ ML nâng cao.

Transformer là một kiến trúc mạng nơ-ron mang tính cách mạng, đã trở thành nền tảng của Trí tuệ Nhân tạo (AI) hiện đại, đặc biệt trong Xử lý Ngôn ngữ Tự nhiên (NLP) và gần đây hơn là Thị giác Máy tính (CV). Được giới thiệu bởi các nhà nghiên cứu của Google trong bài báo năm 2017 "Attention Is All You Need", đổi mới chính của nó là cơ chế tự chú ý (self-attention mechanism), cho phép mô hình cân nhắc tầm quan trọng của các từ hoặc các phần khác nhau của một chuỗi đầu vào. Điều này cho phép nó nắm bắt các phụ thuộc tầm xa và các mối quan hệ ngữ cảnh hiệu quả hơn so với các kiến trúc trước đây. Thiết kế này cũng cho phép song song hóa trên quy mô lớn, giúp có thể huấn luyện các mô hình lớn hơn nhiều trên các bộ dữ liệu khổng lồ, dẫn đến sự trỗi dậy của Mô hình Ngôn ngữ Lớn (LLM).

Cách Transformers Hoạt Động

Không giống như các mô hình tuần tự như Mạng nơ-ron hồi quy (RNN), Transformer xử lý toàn bộ chuỗi dữ liệu cùng một lúc. Ý tưởng cốt lõi là xử lý tất cả các phần tử song song, giúp tăng tốc đáng kể quá trình huấn luyện trên phần cứng hiện đại như GPU.

Để hiểu thứ tự chuỗi mà không cần đệ quy, Transformers sử dụng một kỹ thuật gọi là mã hóa vị trí (positional encoding), kỹ thuật này thêm thông tin về vị trí của mỗi phần tử (ví dụ: một từ trong một câu) vào embedding của nó. Sau đó, các lớp self-attention xử lý các embedding này, cho phép mọi phần tử "nhìn vào" mọi phần tử khác trong chuỗi và xác định những phần tử nào phù hợp nhất để hiểu ý nghĩa của nó. Nhận thức ngữ cảnh toàn cầu này là một lợi thế lớn cho các tác vụ phức tạp. Các framework như PyTorchTensorFlow cung cấp hỗ trợ mở rộng để xây dựng các mô hình dựa trên Transformer.

Ứng dụng của Transformers

Tác động của Transformers trải rộng trên nhiều lĩnh vực, thúc đẩy sự tiến bộ trong cả nhiệm vụ ngôn ngữ và thị giác.

  1. Dịch và tạo ngôn ngữ (Language Translation and Generation): Các dịch vụ như Google Dịch sử dụng các mô hình dựa trên Transformer để có dịch máy (machine translation) chất lượng cao. Mô hình có thể xem xét toàn bộ câu nguồn để tạo ra một bản dịch trôi chảy và chính xác hơn. Tương tự, các mô hình như GPT-4 vượt trội trong việc tạo văn bản (text generation) bằng cách hiểu ngữ cảnh để tạo ra các đoạn văn mạch lạc, viết bài báo hoặc cung cấp năng lượng cho chatbot tiên tiến.
  2. Computer Vision: Vision Transformer (ViT) điều chỉnh kiến trúc cho các tác vụ dựa trên hình ảnh. Nó coi một hình ảnh như một chuỗi các vùng (patch) và sử dụng cơ chế tự chú ý để mô hình hóa các mối quan hệ giữa chúng. Cách tiếp cận này được sử dụng trong các mô hình như RT-DETR cho nhận diện đối tượng, nơi việc hiểu bối cảnh toàn cục của một cảnh có thể giúp xác định các đối tượng chính xác hơn, đặc biệt là trong môi trường lộn xộn. Bạn có thể xem so sánh giữa RT-DETR và YOLOv8 để hiểu sự khác biệt về kiến trúc của chúng.

So sánh Transformer với các kiến trúc khác

Việc phân biệt Transformers với các kiến trúc mạng nơ-ron phổ biến khác sẽ rất hữu ích:

  • Transformers so với RNN: RNN xử lý dữ liệu tuần tự, điều này làm cho chúng vốn chậm và dễ bị vanishing gradient problem (mất đạo hàm), khiến chúng quên thông tin trước đó trong các chuỗi dài. Transformer khắc phục điều này bằng cách xử lý song song và tự chú ý, nắm bắt các phụ thuộc tầm xa hiệu quả hơn nhiều.
  • Transformers so với CNN: Mạng nơ-ron tích chập (CNN) có hiệu quả cao đối với các tác vụ thị giác, sử dụng các bộ lọc tích chập để xác định các mẫu cục bộ trong dữ liệu dạng lưới như pixel. Chúng là nền tảng cho các mô hình như họ Ultralytics YOLO. Ngược lại, Transformer nắm bắt các mối quan hệ toàn cục nhưng thường yêu cầu nhiều dữ liệu hơn và tài nguyên tính toán. Các mô hình kết hợp, kết hợp backbone (mạng nền) CNN với các lớp Transformer, nhằm mục đích tận dụng tốt nhất cả hai.

Các Biến Thể Transformer Hiệu Quả

Chi phí tính toán của cơ chế self-attention đầy đủ của Transformer ban đầu tăng theo cấp số nhân với độ dài chuỗi, gây khó khăn cho các chuỗi rất dài. Điều này đã dẫn đến sự phát triển của các biến thể hiệu quả hơn.

  • Longformer: Sử dụng cơ chế attention cửa sổ trượt kết hợp với attention toàn cục trên các token cụ thể để giảm độ phức tạp tính toán.
  • Reformer: Sử dụng các kỹ thuật như locality-sensitive hashing để xấp xỉ full attention, làm cho nó tiết kiệm bộ nhớ hơn.
  • Transformer-XL: Giới thiệu một cơ chế lặp lại cho phép mô hình học các phụ thuộc vượt quá một độ dài cố định, điều này đặc biệt hữu ích cho mô hình hóa ngôn ngữ tự hồi quy.

Những tiến bộ này tiếp tục mở rộng khả năng ứng dụng của Transformer vào các bài toán mới. Các công cụ và nền tảng như Hugging FaceUltralytics HUB giúp các nhà phát triển dễ dàng truy cập và triển khai các mô hình mạnh mẽ này hơn.

Tham gia cộng đồng Ultralytics

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay
Đã sao chép liên kết vào clipboard