Khám phá sức mạnh của cơ chế tự chú ý (self-attention) trong AI, một cuộc cách mạng hóa NLP, thị giác máy tính và nhận dạng giọng nói với độ chính xác dựa trên ngữ cảnh.
Tự chú ý là một cơ chế trong các mô hình học sâu cho phép chúng cân nhắc tầm quan trọng của các yếu tố khác nhau trong chuỗi đầu vào so với nhau. Không giống như các kiến trúc truyền thống xử lý dữ liệu theo trình tự hoặc cục bộ, tự chú ý cho phép mô hình xem xét toàn bộ chuỗi cùng một lúc và xác định phần nào có liên quan nhất đến việc hiểu phần tử hiện tại. Khả năng này là tính năng xác định của kiến trúc Transformer , đã cách mạng hóa các lĩnh vực từ Xử lý ngôn ngữ tự nhiên (NLP) đến Thị giác máy tính nâng cao (CV) . Bằng cách tính toán mối quan hệ giữa mọi cặp mục trong một tập dữ liệu, tự chú ý cung cấp sự hiểu biết toàn diện về ngữ cảnh, điều khó đạt được với các phương pháp cũ hơn như Mạng nơ-ron hồi quy (RNN) .
Về mặt khái niệm, sự tự chú ý mô phỏng cách con người xử lý thông tin bằng cách tập trung vào các chi tiết cụ thể và bỏ qua các yếu tố nhiễu không liên quan. Khi xử lý một câu hoặc một hình ảnh, mô hình sẽ gán "điểm chú ý" cho từng yếu tố. Điểm số này xác định mức độ tập trung vào các phần khác của dữ liệu đầu vào khi mã hóa một từ hoặc điểm ảnh cụ thể.
Quá trình này thường bao gồm việc tạo ba vectơ cho mỗi phần tử đầu vào: Truy vấn , Khóa và Giá trị .
Mô hình so sánh Truy vấn của một phần tử với Khóa của tất cả các phần tử khác để tính toán khả năng tương thích. Các điểm tương thích này được chuẩn hóa bằng hàm softmax để tạo trọng số. Cuối cùng, các trọng số này được áp dụng cho các Giá trị để tạo ra một biểu diễn mới, có nhận thức ngữ cảnh. Quá trình xử lý song song hiệu quả này cho phép đào tạo các Mô hình Ngôn ngữ Lớn (LLM) đồ sộ và các mô hình thị giác mạnh mẽ bằng GPU hiện đại. Để tìm hiểu sâu hơn về trực quan, các tài nguyên như Illustrated Transformer của Jay Alammar cung cấp trực giác tuyệt vời.
Mặc dù các thuật ngữ này thường được sử dụng gần nhau, nhưng việc phân biệt sự chú ý bản thân với cơ chế chú ý rộng hơn sẽ rất hữu ích.
Khả năng nắm bắt các mối phụ thuộc từ xa đã khiến sự tự chú ý trở nên phổ biến trong Trí tuệ nhân tạo (AI) hiện đại.
Sau đây là Python đoạn trích minh họa cách tải và sử dụng mô hình dựa trên Transformer dựa vào sự chú ý của bản thân để suy luận bằng cách sử dụng ultralytics bưu kiện.
from ultralytics import RTDETR
# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class probabilities
results[0].show()
Sự tự chú ý đã được giới thiệu trong bài báo quan trọng "Sự chú ý là tất cả những gì bạn cần" của Google các nhà nghiên cứu. Nó giải quyết vấn đề độ dốc biến mất từng gây khó khăn cho các kiến trúc học sâu trước đó, cho phép tạo ra các mô hình nền tảng như GPT-4.
Mặc dù các mô hình dựa trên sự chú ý rất mạnh mẽ, nhưng chúng có thể tốn kém về mặt tính toán. Đối với nhiều ứng dụng thời gian thực, các mô hình dựa trên CNN hiệu quả như YOLO11 vẫn là lựa chọn được khuyến nghị nhờ tốc độ và dung lượng bộ nhớ thấp. Tuy nhiên, các phương pháp lai và các Transformers được tối ưu hóa tiếp tục mở rộng ranh giới của học máy . Nhìn về tương lai, các kiến trúc sắp ra mắt như YOLO26 hướng đến việc tích hợp những điểm tốt nhất của cả hai, cung cấp khả năng toàn diện trên Nền tảng Ultralytics . Các nền tảng như PyTorch và TensorFlow cung cấp nền tảng cho các nhà phát triển thử nghiệm các lớp tự chú ý tiên tiến này.