Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Transformer

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy những đột phá trong NLP, thị giác máy tính và các tác vụ ML nâng cao.

Transformer là một kiến trúc mạng nơ-ron đột phá sử dụng cơ chế tự chú ý để xử lý dữ liệu đầu vào song song, tạo nên cuộc cách mạng đáng kể trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP)Thị giác máy tính (CV) . Được giới thiệu lần đầu bởi Google Theo các nhà nghiên cứu trong bài báo quan trọng năm 2017 "Attention Is All You Need" , Transformer đã thoát khỏi quy trình xử lý tuần tự được sử dụng bởi các kiến trúc cũ. Thay vào đó, nó phân tích toàn bộ chuỗi dữ liệu đồng thời, cho phép nắm bắt các mối quan hệ phụ thuộc tầm xa và các mối quan hệ theo ngữ cảnh với hiệu quả chưa từng có. Kiến trúc này đóng vai trò là nền tảng cho Trí tuệ nhân tạo (AI) hiện đại và các Mô hình Ngôn ngữ Lớn (LLM) mạnh mẽ như GPT-4.

Kiến trúc và cơ chế cốt lõi

Đặc điểm nổi bật của Transformer là sự phụ thuộc vào cơ chế chú ý , cụ thể là tự chú ý. Không giống như Mạng Nơ-ron Hồi quy (RNN) , xử lý dữ liệu từng bước (ví dụ: từng từ một), Transformer tiếp nhận toàn bộ dữ liệu đầu vào cùng một lúc. Để hiểu thứ tự của dữ liệu, chúng sử dụng mã hóa vị trí , được thêm vào các nhúng đầu vào để lưu giữ thông tin về cấu trúc chuỗi.

Kiến trúc thường bao gồm các ngăn xếp mã hóa và giải mã:

  • Bộ mã hóa: Xử lý dữ liệu đầu vào để tạo ra sự hiểu biết theo ngữ cảnh.
  • Bộ giải mã: Sử dụng thông tin chi tiết của bộ mã hóa để tạo ra đầu ra, chẳng hạn như văn bản đã dịch hoặc pixel hình ảnh được dự đoán.

Cấu trúc song song này cho phép khả năng mở rộng lớn, cho phép các nhà nghiên cứu đào tạo các mô hình trên các tập dữ liệu lớn bằng cách sử dụng GPU hiệu suất cao.

Máy biến áp trong thị giác máy tính

Mặc dù ban đầu được thiết kế cho văn bản, kiến trúc này đã được điều chỉnh thành công cho các tác vụ thị giác thông qua Vision Transformer (ViT) . Với phương pháp này, một hình ảnh được chia thành một chuỗi các mảng có kích thước cố định (tương tự như các từ trong câu). Sau đó, mô hình sử dụng tính năng tự chú ý để cân nhắc tầm quan trọng của các mảng khác nhau so với nhau, nắm bắt bối cảnh tổng thể mà Mạng Nơ-ron Tích chập (CNN) truyền thống có thể bỏ sót.

Ví dụ, Bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ) sử dụng kiến trúc này để thực hiện phát hiện đối tượng với độ chính xác cao. Không giống như các mô hình dựa trên CNN dựa trên các đặc điểm cục bộ, RT-DETR có thể hiểu được mối quan hệ giữa các vật thể ở xa trong một cảnh. Tuy nhiên, cần lưu ý rằng mặc dù Transformers vượt trội trong bối cảnh toàn cục, các mô hình dựa trên CNN như Ultralytics YOLO11 thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác cho các ứng dụng biên thời gian thực. Các mô hình cộng đồng như YOLO12 đã cố gắng tích hợp các lớp chú ý nặng nhưng thường gặp phải tình trạng không ổn định khi huấn luyện và tốc độ suy luận chậm so với kiến trúc CNN được tối ưu hóa của YOLO11 .

Các Ứng dụng Thực tế

Tính linh hoạt của kiến trúc Transformer đã dẫn đến việc nó được áp dụng trong nhiều ngành công nghiệp khác nhau.

  • Phân tích hình ảnh y tế: Trong chăm sóc sức khỏe, Máy biến áp hỗ trợ phân tích hình ảnh y tế bằng cách liên kết các tính năng trên các bản quét có độ phân giải cao (ví dụ: MRI hoặc CT) với detect những bất thường như khối u. Khả năng hiểu bối cảnh toàn cầu của chúng đảm bảo rằng các mô hình tinh vi không bị bỏ qua.
  • Điều hướng tự động: Xe tự lái sử dụng các mô hình dựa trên Transformer để xử lý dữ liệu video từ nhiều camera. Điều này giúp hiểu video và dự đoán quỹ đạo bằng cách theo dõi cách các vật thể động (người đi bộ, phương tiện khác) tương tác theo thời gian.
  • Chatbot nâng cao: Trợ lý ảo và nhân viên hỗ trợ khách hàng dựa vào Transformers để duy trì ngữ cảnh trong các cuộc trò chuyện dài, cải thiện đáng kể trải nghiệm của người dùng so với các chatbot cũ.

Sử dụng Transformers với Ultralytics

Bạn có thể thử nghiệm trực tiếp với các mô hình thị giác máy tính dựa trên Transformer bằng cách sử dụng ultralytics gói. Ví dụ sau đây minh họa cách tải RT-DETR mô hình phát hiện đối tượng.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Máy biến áp so với các kiến trúc khác

Điều quan trọng là phải phân biệt Transformers với các kiến trúc học sâu (DL) phổ biến khác:

  • Transformers so với RNN/LSTM: RNN gặp phải vấn đề về gradient biến mất , khiến chúng quên mất thông tin ban đầu trong các chuỗi dài. Transformers giải quyết vấn đề này bằng cách tự chú ý, duy trì quyền truy cập vào toàn bộ lịch sử của chuỗi.
  • Transformers so với CNN: CNN bất biến tịnh tiến và rất hiệu quả trong việc phát hiện các mẫu cục bộ (cạnh, kết cấu) bằng cách sử dụng xương sống , khiến chúng cực kỳ hiệu quả cho các tác vụ hình ảnh. Transformers học các mối quan hệ toàn cục nhưng thường đòi hỏi nhiều dữ liệu và sức mạnh tính toán hơn để hội tụ. Các phương pháp tiếp cận hiện đại thường tạo ra các mô hình lai hoặc sử dụng các CNN hiệu quả như YOLO11 , vượt trội hơn Transformers thuần túy trong các môi trường hạn chế.

Triển vọng tương lai

Nghiên cứu đang liên tục cải thiện hiệu quả của Transformers. Những cải tiến như FlashAttention đang giảm chi phí tính toán, cho phép mở rộng cửa sổ ngữ cảnh. Hơn nữa, các hệ thống AI đa phương thức đang kết hợp Transformers với các kiến trúc khác để xử lý văn bản, hình ảnh và âm thanh đồng thời. Khi các công nghệ này phát triển, Nền tảng Ultralytics sắp ra mắt sẽ cung cấp một môi trường thống nhất để đào tạo, triển khai và giám sát các mô hình tinh vi này cùng với các tác vụ thị giác máy tính tiêu chuẩn.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay