Khám phá cách cơ chế chú ý cách mạng hóa AI bằng cách tăng cường các tác vụ NLP và thị giác máy tính như dịch thuật, phát hiện đối tượng, v.v.!
Cơ chế chú ý là một kỹ thuật được sử dụng trong mạng nơ-ron mô phỏng sự chú ý nhận thức của con người. Nó cho phép một mô hình tập trung động vào các phần liên quan nhất của dữ liệu đầu vào khi tạo ra một đầu ra. Thay vì xử lý tất cả các phần của đầu vào một cách bình đẳng, mô hình học cách gán các điểm "chú ý" khác nhau cho mỗi phần, khuếch đại ảnh hưởng của thông tin quan trọng và giảm tác động của dữ liệu không liên quan. Khả năng này đã góp phần cải thiện hiệu suất của các mô hình trên nhiều lĩnh vực khác nhau, từ Xử lý ngôn ngữ tự nhiên (NLP) đến Thị giác máy tính (CV).
Về cốt lõi, một cơ chế attention tính toán một tập hợp các trọng số attention cho đầu vào. Các trọng số này xác định mô hình nên tập trung bao nhiêu vào mỗi phần tử của chuỗi hoặc hình ảnh đầu vào. Ví dụ: khi dịch một câu dài, mô hình cần tập trung vào các từ nguồn cụ thể để tạo ra từ tiếp theo chính xác trong bản dịch. Trước các cơ chế attention, các mô hình như Mạng nơ-ron hồi quy (RNN) truyền thống gặp khó khăn với các chuỗi dài, thường "quên" các phần trước đó của đầu vào—một vấn đề được gọi là vấn đề vanishing gradient. Attention khắc phục điều này bằng cách cung cấp kết nối trực tiếp đến tất cả các phần của đầu vào, cho phép mô hình nhìn lại bất kỳ phần nào của chuỗi khi cần, bất kể độ dài của nó. Khả năng xử lý các phụ thuộc tầm xa này là một bước đột phá quan trọng, được trình bày chi tiết trong bài báo "Attention Is All You Need."
Mặc dù thường được sử dụng thay thế cho nhau, điều quan trọng là phải phân biệt giữa cơ chế attention (chú ý) tổng quát và self-attention (tự chú ý).
Cơ chế attention (chú ý) là không thể thiếu đối với nhiều ứng dụng AI hiện đại:
Các nền tảng như Ultralytics HUB cho phép người dùng huấn luyện, xác thực và triển khai các mô hình nâng cao, bao gồm cả những mô hình kết hợp cơ chế chú ý. Các mô hình như vậy thường tận dụng trọng số mô hình đã được huấn luyện trước có sẵn trên các nền tảng như Hugging Face và được xây dựng bằng các framework mạnh mẽ như PyTorch và TensorFlow. Sự phát triển của cơ chế chú ý đã đẩy lùi các giới hạn của những gì có thể trong học máy, biến nó thành một nền tảng quan trọng của nghiên cứu và phát triển AI hiện đại tại các tổ chức như DeepMind.