Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tự Chú Ý

Khám phá những nguyên tắc cơ bản của cơ chế tự chú ý trong học sâu. Tìm hiểu cách các vectơ Truy vấn, Khóa và Giá trị vận hành Transformer và... Ultralytics YOLO26 cho AI vượt trội.

Tự chú ý là một cơ chế nền tảng trong học sâu, cho phép các mô hình đánh giá tầm quan trọng của các yếu tố khác nhau trong một chuỗi đầu vào so với nhau. Không giống như các kiến ​​trúc truyền thống xử lý dữ liệu theo trình tự hoặc chỉ tập trung vào các vùng lân cận cục bộ, tự chú ý cho phép mạng nơ-ron kiểm tra toàn bộ ngữ cảnh cùng một lúc. Khả năng này giúp các hệ thống xác định các mối quan hệ phức tạp giữa các phần dữ liệu ở xa nhau, chẳng hạn như các từ trong một câu hoặc các vùng riêng biệt trong một hình ảnh. Nó đóng vai trò là khối xây dựng cốt lõi cho kiến ​​trúc Transformer , đã thúc đẩy những tiến bộ vượt bậc trong trí tuệ nhân tạo tạo sinh và các hệ thống nhận thức hiện đại.

Cách Tự Chú Ý Hoạt Động

Cơ chế này mô phỏng sự tập trung nhận thức bằng cách gán một trọng số, thường được gọi là "điểm chú ý", cho mỗi đặc trưng đầu vào. Để tính toán các điểm số này, mô hình chuyển đổi dữ liệu đầu vào — thường được biểu diễn dưới dạng embedding — thành ba vectơ riêng biệt: Query , KeyValue .

  • Truy vấn (Q): Đại diện cho mục hiện tại đang tìm kiếm ngữ cảnh liên quan từ phần còn lại của chuỗi.
  • Khóa (K): Hoạt động như một nhãn hoặc mã định danh cho mỗi mục trong chuỗi mà truy vấn được so khớp.
  • Giá trị (V): Chứa nội dung thông tin thực tế của mục sẽ được tổng hợp.

Mô hình so sánh truy vấn của một phần tử với các khóa của tất cả các phần tử khác để xác định tính tương thích. Các điểm tương thích này được chuẩn hóa bằng hàm softmax để tạo ra các trọng số giống như xác suất. Sau đó, các trọng số này được áp dụng cho các giá trị, tạo ra một biểu diễn giàu ngữ cảnh. Quá trình này cho phép các mô hình ngôn ngữ lớn (LLM) và hệ thống thị giác ưu tiên thông tin quan trọng đồng thời lọc bỏ nhiễu.

Các Ứng dụng Thực tế

Tính linh hoạt của cơ chế tự chú ý đã dẫn đến việc ứng dụng rộng rãi nó trong nhiều lĩnh vực khác nhau của Trí tuệ Nhân tạo (AI) .

  • Xử lý ngôn ngữ tự nhiên (NLP) : Trong các tác vụ như dịch máy , cơ chế tự chú ý giải quyết sự mơ hồ bằng cách liên kết các đại từ với đối tượng mà chúng tham chiếu. Ví dụ, trong câu "Con vật không băng qua đường vì nó quá mệt", mô hình sử dụng cơ chế tự chú ý để liên kết mạnh mẽ "nó" với "con vật" thay vì "đường phố". Khả năng nhận thức ngữ cảnh này là nền tảng của các công cụ như Google Translate .
  • Ngữ cảnh hình ảnh toàn cục: Trong Thị giác máy tính (CV) , các kiến ​​trúc như Vision Transformer (ViT) chia hình ảnh thành các mảng nhỏ và áp dụng cơ chế tự chú ý để hiểu toàn bộ khung cảnh. Điều này rất quan trọng đối với việc phát hiện đối tượng trong môi trường phức tạp, nơi việc xác định một đối tượng phụ thuộc vào việc hiểu môi trường xung quanh nó.

Phân biệt các thuật ngữ liên quan

Mặc dù thường được thảo luận cùng với các khái niệm tương tự, những thuật ngữ này có định nghĩa kỹ thuật riêng biệt:

  • Cơ chế chú ý : Là nhóm kỹ thuật rộng cho phép các mô hình tập trung vào các phần dữ liệu cụ thể. Nó bao gồm cơ chế chú ý chéo (Cross-Attention), trong đó mô hình sử dụng một chuỗi (như đầu ra của bộ giải mã) để truy vấn một chuỗi khác (như đầu vào của bộ mã hóa).
  • chế tự chú ý (Self-Attention): Một loại cơ chế chú ý đặc biệt, trong đó truy vấn, khóa và giá trị đều xuất phát từ cùng một chuỗi đầu vào. Nó được thiết kế để học các mối quan hệ phụ thuộc nội bộ trong một tập dữ liệu duy nhất.
  • Flash Attention : Một thuật toán tối ưu hóa được phát triển bởi các nhà nghiên cứu tại Đại học Stanford , giúp tính toán cơ chế tự chú ý nhanh hơn đáng kể và tiết kiệm bộ nhớ hơn trên GPU mà không làm thay đổi kết quả toán học.

Ví dụ mã

Sau đây Python Đoạn mã này minh họa cách sử dụng. RTDETR, một bộ dò đối tượng dựa trên Transformer được tích hợp trong ultralytics gói. Không giống như các mạng tích chập tiêu chuẩn, mô hình này dựa nhiều vào cơ chế tự chú ý để xử lý các đặc điểm hình ảnh.

from ultralytics import RTDETR

# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")

Sự tiến hóa và tác động trong tương lai

Cơ chế tự chú ý đã giải quyết hiệu quả vấn đề suy giảm độ dốc , một vấn đề cản trở các mạng nơ-ron hồi quy (RNN) trước đây, cho phép huấn luyện các mô hình nền tảng quy mô lớn. Mặc dù rất hiệu quả, chi phí tính toán của cơ chế tự chú ý tiêu chuẩn tăng theo bình phương độ dài chuỗi. Để giải quyết vấn đề này, nghiên cứu hiện nay tập trung vào các cơ chế chú ý tuyến tính hiệu quả.

Ultralytics Nền tảng này tích hợp những tiến bộ đó vào các mô hình hiện đại như YOLO26 , kết hợp tốc độ của mạng nơ-ron tích chập (CNN) với sức mạnh ngữ cảnh của cơ chế chú ý để suy luận thời gian thực vượt trội. Các mô hình được tối ưu hóa này có thể dễ dàng được huấn luyện và triển khai thông qua Nền tảng Ultralytics , giúp đơn giản hóa quy trình làm việc cho các nhà phát triển xây dựng thế hệ ứng dụng thông minh tiếp theo.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay