Khám phá những nguyên tắc cơ bản của cơ chế tự chú ý trong học sâu. Tìm hiểu cách các vectơ Truy vấn, Khóa và Giá trị vận hành Transformer và... Ultralytics YOLO26 cho AI vượt trội.
Tự chú ý là một cơ chế nền tảng trong học sâu, cho phép các mô hình đánh giá tầm quan trọng của các yếu tố khác nhau trong một chuỗi đầu vào so với nhau. Không giống như các kiến trúc truyền thống xử lý dữ liệu theo trình tự hoặc chỉ tập trung vào các vùng lân cận cục bộ, tự chú ý cho phép mạng nơ-ron kiểm tra toàn bộ ngữ cảnh cùng một lúc. Khả năng này giúp các hệ thống xác định các mối quan hệ phức tạp giữa các phần dữ liệu ở xa nhau, chẳng hạn như các từ trong một câu hoặc các vùng riêng biệt trong một hình ảnh. Nó đóng vai trò là khối xây dựng cốt lõi cho kiến trúc Transformer , đã thúc đẩy những tiến bộ vượt bậc trong trí tuệ nhân tạo tạo sinh và các hệ thống nhận thức hiện đại.
Cơ chế này mô phỏng sự tập trung nhận thức bằng cách gán một trọng số, thường được gọi là "điểm chú ý", cho mỗi đặc trưng đầu vào. Để tính toán các điểm số này, mô hình chuyển đổi dữ liệu đầu vào — thường được biểu diễn dưới dạng embedding — thành ba vectơ riêng biệt: Query , Key và Value .
Mô hình so sánh truy vấn của một phần tử với các khóa của tất cả các phần tử khác để xác định tính tương thích. Các điểm tương thích này được chuẩn hóa bằng hàm softmax để tạo ra các trọng số giống như xác suất. Sau đó, các trọng số này được áp dụng cho các giá trị, tạo ra một biểu diễn giàu ngữ cảnh. Quá trình này cho phép các mô hình ngôn ngữ lớn (LLM) và hệ thống thị giác ưu tiên thông tin quan trọng đồng thời lọc bỏ nhiễu.
Tính linh hoạt của cơ chế tự chú ý đã dẫn đến việc ứng dụng rộng rãi nó trong nhiều lĩnh vực khác nhau của Trí tuệ Nhân tạo (AI) .
Mặc dù thường được thảo luận cùng với các khái niệm tương tự, những thuật ngữ này có định nghĩa kỹ thuật riêng biệt:
Sau đây Python Đoạn mã này minh họa cách sử dụng. RTDETR, một bộ dò đối tượng dựa trên Transformer được tích hợp trong ultralytics gói. Không giống như các mạng tích chập tiêu chuẩn, mô hình này dựa nhiều vào cơ chế tự chú ý để xử lý các đặc điểm hình ảnh.
from ultralytics import RTDETR
# Load the RT-DETR model which utilizes self-attention for detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
# Self-attention helps the model understand relationships between distant objects
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of objects detected
print(f"Detected {len(results[0].boxes)} objects using Transformer attention.")
Cơ chế tự chú ý đã giải quyết hiệu quả vấn đề suy giảm độ dốc , một vấn đề cản trở các mạng nơ-ron hồi quy (RNN) trước đây, cho phép huấn luyện các mô hình nền tảng quy mô lớn. Mặc dù rất hiệu quả, chi phí tính toán của cơ chế tự chú ý tiêu chuẩn tăng theo bình phương độ dài chuỗi. Để giải quyết vấn đề này, nghiên cứu hiện nay tập trung vào các cơ chế chú ý tuyến tính hiệu quả.
Ultralytics Nền tảng này tích hợp những tiến bộ đó vào các mô hình hiện đại như YOLO26 , kết hợp tốc độ của mạng nơ-ron tích chập (CNN) với sức mạnh ngữ cảnh của cơ chế chú ý để suy luận thời gian thực vượt trội. Các mô hình được tối ưu hóa này có thể dễ dàng được huấn luyện và triển khai thông qua Nền tảng Ultralytics , giúp đơn giản hóa quy trình làm việc cho các nhà phát triển xây dựng thế hệ ứng dụng thông minh tiếp theo.