Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Cơ chế chú ý

Explore the [attention mechanism](https://www.ultralytics.com/glossary/attention-mechanism) in AI. Learn how it enhances models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and [RT-DETR](https://docs.ultralytics.com/models/rtdetr/) for superior accuracy.

Cơ chế chú ý là một kỹ thuật nền tảng trong trí tuệ nhân tạo (AI) mô phỏng khả năng nhận thức của con người trong việc tập trung vào các chi tiết cụ thể đồng thời bỏ qua thông tin không liên quan. Trong bối cảnh học sâu (DL) , cơ chế này cho phép mạng nơ-ron (NN) tự động gán các mức độ quan trọng khác nhau, hay "trọng số", cho các phần khác nhau của dữ liệu đầu vào. Thay vì xử lý toàn bộ hình ảnh hoặc câu với sự nhấn mạnh như nhau, mô hình học cách chú ý đến các đặc điểm quan trọng nhất—chẳng hạn như một từ cụ thể trong câu để hiểu ngữ cảnh, hoặc một đối tượng riêng biệt trong một cảnh hình ảnh phức tạp. Bước đột phá này là động lực thúc đẩy kiến ​​trúc Transformer , đã cách mạng hóa các lĩnh vực từ xử lý ngôn ngữ tự nhiên (NLP) đến thị giác máy tính (CV) tiên tiến.

Cách Attention hoạt động

Ban đầu được thiết kế để giải quyết các hạn chế về bộ nhớ trong Mạng thần kinh hồi quy (RNN) , cơ chế chú ý giải quyết vấn đề suy giảm độ dốc bằng cách tạo ra các kết nối trực tiếp giữa các phần xa nhau của một chuỗi dữ liệu. Quá trình này thường được mô tả bằng cách sử dụng phép tương tự về truy xuất dữ liệu bao gồm ba thành phần: Truy vấn, Khóa và Giá trị.

  • Truy vấn (Q): Biểu thị những gì mô hình hiện đang tìm kiếm (ví dụ: chủ ngữ của một câu).
  • Khóa (K): Đóng vai trò là mã định danh cho thông tin có sẵn trong dữ liệu đầu vào.
  • Giá trị (V): Chứa nội dung thông tin thực tế.

Bằng cách so sánh truy vấn với nhiều khóa khác nhau, mô hình tính toán điểm chú ý. Điểm số này xác định mức độ giá trị được truy xuất và sử dụng để tạo ra đầu ra. Điều này cho phép các mô hình xử lý hiệu quả các phụ thuộc tầm xa , hiểu được mối quan hệ giữa các điểm dữ liệu bất kể khoảng cách giữa chúng.

Các Ứng dụng Thực tế

Các cơ chế chú ý đã tạo điều kiện cho một số tiến bộ rõ rệt nhất trong công nghệ hiện đại.

  • Dịch máy : Các hệ thống như Google Dịch thuật dựa vào sự chú ý để căn chỉnh từ ngữ giữa các ngôn ngữ. Khi dịch "Con mèo đen" ( English ) thành "Le chat noir" (tiếng Pháp), mô hình phải đảo ngược thứ tự tính từ-danh từ. Cơ chế chú ý cho phép bộ giải mã tập trung vào "đen" khi tạo ra "noir" và "mèo" khi tạo ra "chat", đảm bảo tính chính xác về ngữ pháp.
  • Phân tích hình ảnh y tế : Trong lĩnh vực chăm sóc sức khỏe, bản đồ chú ý giúp các bác sĩ X quang làm nổi bật các vùng đáng ngờ trong ảnh chụp X-quang hoặc MRI. Ví dụ, khi chẩn đoán các bất thường trong bộ dữ liệu khối u não , mô hình tập trung sức mạnh xử lý vào mô khối u trong khi lọc bỏ các mô não khỏe mạnh, giúp cải thiện độ chính xác chẩn đoán.
  • Xe tự lái : Xe tự lái sử dụng khả năng quan sát thị giác để ưu tiên các yếu tố quan trọng trên đường. Trên một con phố đông đúc, hệ thống tập trung mạnh vào người đi bộ và đèn giao thông—coi chúng là các tín hiệu ưu tiên cao—trong khi ít chú ý hơn đến các yếu tố tĩnh trong nền như bầu trời hoặc các tòa nhà.

Cơ chế chú ý so với cơ chế tích chập

Điều quan trọng là phải phân biệt cơ chế chú ý với Mạng nơ-ron tích chập (CNN) . Trong khi CNN xử lý dữ liệu cục bộ bằng cách sử dụng một cửa sổ (kernel) cố định để... detect Các cạnh và kết cấu, bộ xử lý chú ý xử lý dữ liệu trên toàn cầu, liên kết mọi phần của dữ liệu đầu vào với mọi phần khác.

  • Tự chú ý : Một loại chú ý đặc biệt trong đó mô hình tự quan sát bản thân để hiểu ngữ cảnh trong một chuỗi duy nhất.
  • Hiệu quả: Các mô hình chú ý thuần túy có thể tốn kém về mặt tính toán (độ phức tạp bậc hai). Các kỹ thuật tối ưu hóa hiện đại như Flash Attention sử dụng phần cứng GPU hiệu quả hơn để tăng tốc quá trình huấn luyện.

Trong khi các mô hình tiên tiến như Ultralytics YOLO26 được tối ưu hóa cho suy luận thời gian thực bằng cách sử dụng cấu trúc CNN hiện đại, các kiến ​​trúc lai như RT-DETR (Real-Time Detection Transformer) lại sử dụng cơ chế chú ý (attention) để đạt được độ chính xác cao. Cả hai loại mô hình này đều có thể dễ dàng được huấn luyện và triển khai bằng Nền tảng Ultralytics .

Ví dụ mã

Sau đây Python Ví dụ này minh họa cách thực hiện suy luận bằng cách sử dụng RT-DETR, một kiến ​​trúc mô hình về cơ bản dựa trên các cơ chế chú ý cho phát hiện đối tượng.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay