Explore the [attention mechanism](https://www.ultralytics.com/glossary/attention-mechanism) in AI. Learn how it enhances models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and [RT-DETR](https://docs.ultralytics.com/models/rtdetr/) for superior accuracy.
Cơ chế chú ý là một kỹ thuật nền tảng trong trí tuệ nhân tạo (AI) mô phỏng khả năng nhận thức của con người trong việc tập trung vào các chi tiết cụ thể đồng thời bỏ qua thông tin không liên quan. Trong bối cảnh học sâu (DL) , cơ chế này cho phép mạng nơ-ron (NN) tự động gán các mức độ quan trọng khác nhau, hay "trọng số", cho các phần khác nhau của dữ liệu đầu vào. Thay vì xử lý toàn bộ hình ảnh hoặc câu với sự nhấn mạnh như nhau, mô hình học cách chú ý đến các đặc điểm quan trọng nhất—chẳng hạn như một từ cụ thể trong câu để hiểu ngữ cảnh, hoặc một đối tượng riêng biệt trong một cảnh hình ảnh phức tạp. Bước đột phá này là động lực thúc đẩy kiến trúc Transformer , đã cách mạng hóa các lĩnh vực từ xử lý ngôn ngữ tự nhiên (NLP) đến thị giác máy tính (CV) tiên tiến.
Ban đầu được thiết kế để giải quyết các hạn chế về bộ nhớ trong Mạng thần kinh hồi quy (RNN) , cơ chế chú ý giải quyết vấn đề suy giảm độ dốc bằng cách tạo ra các kết nối trực tiếp giữa các phần xa nhau của một chuỗi dữ liệu. Quá trình này thường được mô tả bằng cách sử dụng phép tương tự về truy xuất dữ liệu bao gồm ba thành phần: Truy vấn, Khóa và Giá trị.
Bằng cách so sánh truy vấn với nhiều khóa khác nhau, mô hình tính toán điểm chú ý. Điểm số này xác định mức độ giá trị được truy xuất và sử dụng để tạo ra đầu ra. Điều này cho phép các mô hình xử lý hiệu quả các phụ thuộc tầm xa , hiểu được mối quan hệ giữa các điểm dữ liệu bất kể khoảng cách giữa chúng.
Các cơ chế chú ý đã tạo điều kiện cho một số tiến bộ rõ rệt nhất trong công nghệ hiện đại.
Điều quan trọng là phải phân biệt cơ chế chú ý với Mạng nơ-ron tích chập (CNN) . Trong khi CNN xử lý dữ liệu cục bộ bằng cách sử dụng một cửa sổ (kernel) cố định để... detect Các cạnh và kết cấu, bộ xử lý chú ý xử lý dữ liệu trên toàn cầu, liên kết mọi phần của dữ liệu đầu vào với mọi phần khác.
Trong khi các mô hình tiên tiến như Ultralytics YOLO26 được tối ưu hóa cho suy luận thời gian thực bằng cách sử dụng cấu trúc CNN hiện đại, các kiến trúc lai như RT-DETR (Real-Time Detection Transformer) lại sử dụng cơ chế chú ý (attention) để đạt được độ chính xác cao. Cả hai loại mô hình này đều có thể dễ dàng được huấn luyện và triển khai bằng Nền tảng Ultralytics .
Sau đây Python Ví dụ này minh họa cách thực hiện suy luận bằng cách sử dụng RT-DETR, một kiến trúc mô hình về cơ bản dựa trên các cơ chế chú ý cho
phát hiện đối tượng.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")