Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Tự Chú Ý

Khám phá sức mạnh của cơ chế tự chú ý (self-attention) trong AI, một cuộc cách mạng hóa NLP, thị giác máy tính và nhận dạng giọng nói với độ chính xác dựa trên ngữ cảnh.

Tự chú ý là một cơ chế trong các mô hình học sâu cho phép chúng cân nhắc tầm quan trọng của các yếu tố khác nhau trong chuỗi đầu vào so với nhau. Không giống như các kiến trúc truyền thống xử lý dữ liệu theo trình tự hoặc cục bộ, tự chú ý cho phép mô hình xem xét toàn bộ chuỗi cùng một lúc và xác định phần nào có liên quan nhất đến việc hiểu phần tử hiện tại. Khả năng này là tính năng xác định của kiến trúc Transformer , đã cách mạng hóa các lĩnh vực từ Xử lý ngôn ngữ tự nhiên (NLP) đến Thị giác máy tính nâng cao (CV) . Bằng cách tính toán mối quan hệ giữa mọi cặp mục trong một tập dữ liệu, tự chú ý cung cấp sự hiểu biết toàn diện về ngữ cảnh, điều khó đạt được với các phương pháp cũ hơn như Mạng nơ-ron hồi quy (RNN) .

Cách Tự Chú Ý Hoạt Động

Về mặt khái niệm, sự tự chú ý mô phỏng cách con người xử lý thông tin bằng cách tập trung vào các chi tiết cụ thể và bỏ qua các yếu tố nhiễu không liên quan. Khi xử lý một câu hoặc một hình ảnh, mô hình sẽ gán "điểm chú ý" cho từng yếu tố. Điểm số này xác định mức độ tập trung vào các phần khác của dữ liệu đầu vào khi mã hóa một từ hoặc điểm ảnh cụ thể.

Quá trình này thường bao gồm việc tạo ba vectơ cho mỗi phần tử đầu vào: Truy vấn , KhóaGiá trị .

  • Truy vấn : Biểu thị mục hiện tại yêu cầu thông tin có liên quan.
  • Khóa : Hoạt động như một mã định danh cho các mục khác trong chuỗi.
  • Giá trị : Chứa nội dung thông tin thực tế.

Mô hình so sánh Truy vấn của một phần tử với Khóa của tất cả các phần tử khác để tính toán khả năng tương thích. Các điểm tương thích này được chuẩn hóa bằng hàm softmax để tạo trọng số. Cuối cùng, các trọng số này được áp dụng cho các Giá trị để tạo ra một biểu diễn mới, có nhận thức ngữ cảnh. Quá trình xử lý song song hiệu quả này cho phép đào tạo các Mô hình Ngôn ngữ Lớn (LLM) đồ sộ và các mô hình thị giác mạnh mẽ bằng GPU hiện đại. Để tìm hiểu sâu hơn về trực quan, các tài nguyên như Illustrated Transformer của Jay Alammar cung cấp trực giác tuyệt vời.

Sự chú ý bản thân so với sự chú ý chung

Mặc dù các thuật ngữ này thường được sử dụng gần nhau, nhưng việc phân biệt sự chú ý bản thân với cơ chế chú ý rộng hơn sẽ rất hữu ích.

  • Tự chú ý : Truy vấn, Khóa và Giá trị đều đến từ cùng một chuỗi đầu vào. Mục tiêu là tìm hiểu các mối quan hệ nội tại, chẳng hạn như cách các từ trong câu liên quan với nhau (ví dụ: hiểu "it" ám chỉ điều gì trong một đoạn văn).
  • Chú ý chéo : Thường được sử dụng trong các mô hình chuỗi-sang-chuỗi , Truy vấn đến từ một chuỗi (như bộ giải mã) trong khi Khóa và Giá trị đến từ một chuỗi khác (như bộ mã hóa). Điều này phổ biến trong dịch máy, khi đầu ra ngôn ngữ đích phụ thuộc vào đầu vào ngôn ngữ nguồn.

Các Ứng dụng Thực tế

Khả năng nắm bắt các mối phụ thuộc từ xa đã khiến sự tự chú ý trở nên phổ biến trong Trí tuệ nhân tạo (AI) hiện đại.

  1. Phân tích Văn bản Theo Ngữ cảnh : trong NLP, sự tự chú ý giải quyết sự mơ hồ. Hãy xem xét từ "ngân hàng". Trong câu "Anh ấy câu cá ở ngân hàng", mô hình sử dụng sự tự chú ý để liên kết "ngân hàng" với "câu cá" và "sông", phân biệt ngân hàng với một tổ chức tài chính. Điều này hỗ trợ các công cụ như Google Dịch và chatbot được xây dựng trên Trí tuệ Nhân tạo (AI) .
  2. Hiểu biết về hình ảnh toàn cục : Trong thị giác máy tính, các mô hình như Vision Transformer (ViT) chia hình ảnh thành các mảng và sử dụng khả năng tự chú ý để liên hệ các phần xa của một cảnh. Điều này rất quan trọng để phát hiện vật thể trong môi trường phức tạp. Ultralytics RT-DETR (Real-Time Detection Transformer) tận dụng điều này để đạt được độ chính xác cao bằng cách quản lý hiệu quả bối cảnh toàn cục, không giống như các Mạng Nơ-ron Tích chập (CNN) tiêu chuẩn chỉ tập trung vào các đặc điểm cục bộ.

Ví dụ mã

Sau đây là Python đoạn trích minh họa cách tải và sử dụng mô hình dựa trên Transformer dựa vào sự chú ý của bản thân để suy luận bằng cách sử dụng ultralytics bưu kiện.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

Tầm quan trọng trong kiến trúc hiện đại

Sự tự chú ý đã được giới thiệu trong bài báo quan trọng "Sự chú ý là tất cả những gì bạn cần" của Google các nhà nghiên cứu. Nó giải quyết vấn đề độ dốc biến mất từng gây khó khăn cho các kiến trúc học sâu trước đó, cho phép tạo ra các mô hình nền tảng như GPT-4.

Mặc dù các mô hình dựa trên sự chú ý rất mạnh mẽ, nhưng chúng có thể tốn kém về mặt tính toán. Đối với nhiều ứng dụng thời gian thực, các mô hình dựa trên CNN hiệu quả như YOLO11 vẫn là lựa chọn được khuyến nghị nhờ tốc độ và dung lượng bộ nhớ thấp. Tuy nhiên, các phương pháp lai và các Transformers được tối ưu hóa tiếp tục mở rộng ranh giới của học máy . Nhìn về tương lai, các kiến trúc sắp ra mắt như YOLO26 hướng đến việc tích hợp những điểm tốt nhất của cả hai, cung cấp khả năng toàn diện trên Nền tảng Ultralytics . Các nền tảng như PyTorchTensorFlow cung cấp nền tảng cho các nhà phát triển thử nghiệm các lớp tự chú ý tiên tiến này.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay