Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Transformer

Khám phá cách kiến trúc Transformer cách mạng hóa AI, thúc đẩy những đột phá trong NLP, thị giác máy tính và các tác vụ ML nâng cao.

Transformer là một kiến trúc học sâu đột phá đã thay đổi căn bản cách máy tính xử lý dữ liệu tuần tự. Lần đầu tiên được giới thiệu bởi Google Trong bài báo mang tính đột phá năm 2017 "Attention Is All You Need" , các nhà nghiên cứu đã chỉ ra rằng Transformer đã thay thế các mô hình tuần tự cũ hơn như Mạng thần kinh hồi quy (RNN) bằng một cơ chế gọi là tự chú ý (self-attention). Sự đổi mới này cho phép mô hình xử lý toàn bộ chuỗi dữ liệu—chẳng hạn như một câu hoặc một hình ảnh—đồng thời thay vì từng bước một. Bằng cách phân tích mối quan hệ giữa tất cả các phần của đầu vào cùng một lúc, Transformer vượt trội trong việc nắm bắt các phụ thuộc tầm xa và ngữ cảnh, khiến chúng trở thành xương sống cấu trúc của Trí tuệ nhân tạo tạo sinh hiện đại và các Mô hình ngôn ngữ lớn (LLM) như GPT-4.

Các cơ chế cốt lõi: Sự chú ý và tính song song

Đặc điểm nổi bật của Transformer là sự phụ thuộc vào cơ chế chú ý , cụ thể là một quá trình được gọi là tự chú ý. Trong các mô hình chuỗi truyền thống, mạng xử lý thông tin một cách tuyến tính, điều này thường dẫn đến vấn đề suy giảm độ dốc, trong đó thông tin ban đầu bị mất đi trong các chuỗi dài.

Transformer giải quyết vấn đề này bằng cách cân nhắc tầm quan trọng của các yếu tố đầu vào khác nhau so với nhau. Ví dụ, trong câu "Con vật không băng qua đường vì nó quá mệt", mô hình phải hiểu rằng "nó" ở đây đề cập đến "con vật" chứ không phải "con đường". Cơ chế tự chú ý sẽ gán "trọng số" cao hơn cho các từ có liên quan, tạo ra một bản đồ các mối quan hệ bất kể khoảng cách giữa các từ.

Kiến trúc này thường bao gồm hai tầng chính:

  • Bộ mã hóa : Đọc và xử lý dữ liệu đầu vào để xây dựng một biểu diễn ngữ cảnh phong phú.
  • Bộ giải mã : Sử dụng đầu ra của bộ mã hóa để tạo ra các dự đoán hoặc chuỗi, chẳng hạn như văn bản đã dịch hoặc pixel tiếp theo trong hình ảnh.

Vì Transformer xử lý đầu vào song song, chúng được tối ưu hóa cao cho phần cứng hiện đại, cho phép các nhà nghiên cứu mở rộng quy mô huấn luyện trên các tập dữ liệu khổng lồ bằng cách sử dụng GPU hiệu năng cao.

Máy biến áp trong thị giác máy tính

Ban đầu nổi tiếng nhờ cách mạng hóa Xử lý Ngôn ngữ Tự nhiên (NLP) , Transformer đã có những bước tiến đáng kể trong các tác vụ xử lý hình ảnh. Trong lĩnh vực này, chúng thường được gọi là Vision Transformer (ViT). Thay vì phân tách từ thành các token, mô hình này chia hình ảnh thành các mảng có kích thước cố định (ví dụ: 16x16 pixel), làm phẳng chúng và xử lý chúng theo chuỗi.

Cách tiếp cận này cho phép nhận thức ngữ cảnh toàn cầu trong các tác vụ như phân loại hình ảnh và phát hiện đối tượng. Ví dụ, bộ chuyển đổi phát hiện thời gian thực ( RT-DETR ) sử dụng kiến trúc này để detect Các đối tượng được nhận dạng với độ chính xác cao. Trong khi Mạng nơ-ron tích chập (CNN) tập trung vào các đặc điểm cục bộ như cạnh và kết cấu, Transformer lại nhìn thấy "toàn cảnh" ngay lập tức.

Tuy nhiên, các mô hình Transformer thuần túy có thể đòi hỏi nhiều tài nguyên tính toán. Ultralytics Cung cấp các mô hình dựa trên CNN được tối ưu hóa cao như YOLO11YOLO26 tiên tiến, thường mang lại sự cân bằng tốt hơn giữa tốc độ và độ chính xác cho các ứng dụng biên thời gian thực so với các kiến trúc dựa trên cơ chế chú ý phức tạp.

Các Ứng dụng Thực tế

Tính linh hoạt của kiến trúc Transformer là nền tảng cho nhiều công cụ trí tuệ nhân tạo được sử dụng hiện nay:

  • Chẩn đoán y khoa: Trong lĩnh vực Trí tuệ nhân tạo ứng dụng trong chăm sóc sức khỏe , Transformer phân tích các hình ảnh quét 3D phức tạp (MRI hoặc CT) để xác định các bất thường. Bằng cách hiểu mối quan hệ không gian giữa các lớp mô khác nhau, chúng hỗ trợ các bác sĩ X quang trong việc phát hiện khối u sớm.
  • Tạo mã tự động: Các công cụ như GitHub Copilot sử dụng mô hình ngôn ngữ tự nhiên (LLM) dựa trên Transformer để hiểu các lời nhắc bằng ngôn ngữ tự nhiên và tạo ra mã lập trình chức năng, giúp tăng tốc đáng kể quá trình phát triển phần mềm.
  • Lái xe tự động: Xe sử dụng mô hình hiểu video để dự đoán quỹ đạo của người đi bộ và các xe khác. Bộ chuyển đổi (Transformers) giúp hệ thống hiểu cách các vật thể chuyển động khác nhau tương tác theo thời gian.

Triển khai Transformer với Ultralytics

Bạn có thể dễ dàng thử nghiệm với tính năng phát hiện đối tượng dựa trên Transformer bằng cách sử dụng... ultralytics Python gói. Ví dụ sau đây minh họa cách tải gói. RT-DETR Xây dựng mô hình và thực hiện suy luận trên hình ảnh.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based architecture)
model = RTDETR("rtdetr-l.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the first result
results[0].show()

Máy biến áp so với các kiến trúc khác

Việc phân biệt Transformer với các kiến trúc học sâu (DL) phổ biến khác sẽ giúp hiểu rõ khi nào nên sử dụng chúng:

  • Transformer so với RNN/LSTM: Mạng nơ-ron hồi quy truyền thống (RNN) xử lý dữ liệu tuần tự, khiến chúng chậm trong quá trình huấn luyện và dễ quên các dữ liệu đầu vào. Transformer xử lý dữ liệu song song, giải quyết được vấn đề tắc nghẽn bộ nhớ nhưng lại yêu cầu nhiều bộ nhớ hơn cho ma trận chú ý.
  • Transformer so với CNN: Mạng nơ-ron tích chập (CNN) sử dụng các bộ lọc để nắm bắt các mẫu cục bộ và có tính bất biến tịnh tiến (nhận dạng đối tượng bất kể vị trí của nó). Transformer học các mối quan hệ toàn cục nhưng thường thiếu thiên kiến quy nạp này, nghĩa là chúng cần nhiều dữ liệu huấn luyện hơn để khái quát hóa tốt. Các mô hình lai thường kết hợp phần xương sống của CNN với phần đầu của Transformer để tận dụng những ưu điểm của cả hai.

Triển vọng tương lai

Lĩnh vực này đang phát triển nhanh chóng để giải quyết chi phí tính toán của Transformer. Các kỹ thuật như lượng tử hóa mô hình và những cải tiến như FlashAttention đang giúp các mô hình này hoạt động nhanh hơn và hiệu quả hơn. Hơn nữa, sự trỗi dậy của Trí tuệ nhân tạo đa phương thức (Multimodal AI) đang kết hợp Transformer với các loại mạng khác để xử lý dữ liệu văn bản, âm thanh và hình ảnh đồng thời. Khi các công nghệ này trưởng thành, Nền tảng Ultralytics sẽ cung cấp một môi trường thống nhất để huấn luyện và triển khai các mô hình phức tạp này cho bất kỳ nhiệm vụ thị giác máy tính nào.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay