Khám phá sức mạnh của sự tự chú ý trong AI, cách mạng hóa NLP, thị giác máy tính và nhận dạng giọng nói với độ chính xác theo ngữ cảnh.
Tự chú ý là một cơ chế cho phép mô hình cân nhắc tầm quan trọng của các yếu tố khác nhau trong một chuỗi đầu vào duy nhất. Thay vì xử lý mọi phần của đầu vào một cách bình đẳng, nó cho phép mô hình tập trung chọn lọc vào các phần quan trọng nhất khi xử lý một yếu tố cụ thể. Khả năng này rất quan trọng để hiểu ngữ cảnh, các mối quan hệ phụ thuộc tầm xa và các mối quan hệ trong dữ liệu, tạo thành nền tảng cho nhiều kiến trúc Trí tuệ Nhân tạo (AI) hiện đại, đặc biệt là Transformer . Nó được giới thiệu nổi tiếng trong bài báo quan trọng "Attention Is All You Need" , một cuộc cách mạng trong lĩnh vực Xử lý Ngôn ngữ Tự nhiên (NLP) .
Về cơ bản, tính năng tự chú ý hoạt động bằng cách gán một "điểm chú ý" cho mỗi phần tử khác trong chuỗi đầu vào tương ứng với phần tử hiện đang được xử lý. Điều này đạt được bằng cách tạo ba vectơ cho mỗi phần tử đầu vào: Truy vấn (Q), Khóa (K) và Giá trị (V).
Đối với một Truy vấn nhất định, cơ chế này sẽ tính toán độ tương đồng của nó với tất cả các Khóa trong chuỗi. Các điểm tương đồng này sau đó được chuyển đổi thành trọng số (thường sử dụng hàm softmax ), xác định mức độ tập trung vào Giá trị của từng phần tử. Đầu ra cuối cùng của Truy vấn là tổng trọng số của tất cả các Giá trị, tạo ra một biểu diễn mới của phần tử đó, được bổ sung ngữ cảnh từ toàn bộ chuỗi. Quá trình này là một phần quan trọng trong cách thức hoạt động của Mô hình Ngôn ngữ Lớn (LLM) . Bạn có thể tìm thấy giải thích trực quan tuyệt vời về quy trình QKV này trên các nguồn như blog của Jay Alammar .
Tự chú ý là một loại cơ chế chú ý cụ thể. Sự khác biệt chính nằm ở nguồn gốc của các vectơ Truy vấn, Khóa và Giá trị.
Mặc dù ban đầu được phổ biến trong NLP cho các nhiệm vụ như tóm tắt và dịch văn bản, nhưng sự chú ý vào bản thân cũng đã được chứng minh là rất hiệu quả trong thị giác máy tính (CV) .
Nghiên cứu tiếp tục cải tiến các cơ chế tự chú ý, hướng đến hiệu suất tính toán cao hơn (ví dụ: các phương pháp như FlashAttention và các biến thể chú ý thưa thớt) và khả năng ứng dụng rộng rãi hơn. Khi các mô hình AI ngày càng phức tạp, tự chú ý được kỳ vọng sẽ vẫn là công nghệ nền tảng, thúc đẩy sự tiến bộ trong các lĩnh vực từ các ứng dụng AI chuyên biệt như robot đến việc theo đuổi Trí tuệ Nhân tạo Tổng quát (AGI) . Các công cụ và nền tảng như Ultralytics HUB hỗ trợ việc đào tạo và triển khai các mô hình kết hợp các kỹ thuật tiên tiến này, thường có sẵn thông qua các kho lưu trữ như Hugging Face và được phát triển với các nền tảng như PyTorch và TensorFlow .