Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Flash Attention

Khám phá cách Flash Attention tối ưu hóa bộ nhớ và tăng tốc các mô hình Transformer. Tìm hiểu cách nó tăng cường thị giác máy tính và lý do tại sao Ultralytics YOLO26 là lựa chọn hàng đầu.

Flash Attention là một thuật toán được tối ưu hóa cao, được thiết kế để tăng tốc độ huấn luyện và suy luận (inference) cho các mô hình Transformer bằng cách quản lý việc truy cập bộ nhớ hiệu quả hơn. Trong học sâu (DL) hiện đại, đặc biệt là với các mô hình lớn, điểm nghẽn chính thường không nằm ở tốc độ tính toán của bộ xử lý mà nằm ở thời gian cần thiết để di chuyển dữ liệu giữa bộ nhớ lưu trữ và các đơn vị tính toán. Flash Attention giải quyết "bức tường bộ nhớ" (memory wall) này bằng cách tổ chức lại cách cơ chế chú ý (attention mechanisms) xử lý dữ liệu, dẫn đến hiệu suất nhanh hơn và mức tiêu thụ bộ nhớ thấp hơn mà không làm giảm độ chính xác (accuracy).

Link to this sectionFlash Attention hoạt động như thế nào#

Để hiểu về Flash Attention, cần xem xét kiến trúc của một GPU (Graphics Processing Unit). GPU có bộ nhớ băng thông cao (HBM) dung lượng lớn nhưng tốc độ chậm và bộ nhớ SRAM trên chip dung lượng thấp nhưng cực kỳ nhanh. Các triển khai cơ chế chú ý tiêu chuẩn thường xuyên đọc và ghi các ma trận lớn vào HBM chậm, tạo ra tình trạng tồn đọng.

Flash Attention sử dụng một kỹ thuật gọi là "tiling" (phân mảnh) để chia ma trận chú ý lớn thành các khối nhỏ hơn vừa vặn hoàn toàn bên trong SRAM nhanh. Bằng cách giữ các khối này trong bộ nhớ nhanh và thực hiện nhiều tính toán hơn tại đó trước khi ghi kết quả ngược trở lại, thuật toán giúp giảm đáng kể số lượng thao tác đọc/ghi vào HBM. Cải tiến này, do các nhà nghiên cứu tại Đại học Stanford giới thiệu, làm cho quy trình trở nên "IO-aware" (nhận biết IO), nghĩa là nó tính toán rõ ràng chi phí di chuyển dữ liệu. Bạn có thể khám phá các chi tiết kỹ thuật trong bài báo nghiên cứu gốc.

Link to this sectionPhân biệt với các thuật ngữ liên quan#

Điều quan trọng là phải phân biệt Flash Attention với các khái niệm tương tự trong bảng thuật ngữ trí tuệ nhân tạo (AI):

  • Standard Attention: Triển khai truyền thống tính toán toàn bộ ma trận chú ý. Nó giống hệt Flash Attention về mặt toán học trong đầu ra nhưng thường chậm hơn và tốn nhiều bộ nhớ vì không tối ưu hóa IO bộ nhớ.
  • Flash Attention: Một phiên bản tối ưu hóa chính xác của cơ chế chú ý tiêu chuẩn. Nó không xấp xỉ; nó cung cấp kết quả số chính xác giống hệt, chỉ là nhanh hơn đáng kể.
  • Sparse Attention: Một kỹ thuật xấp xỉ bỏ qua một số kết nối nhất định để tiết kiệm năng lượng tính toán. Không giống như Flash Attention, các phương pháp sparse attention đánh đổi một phần độ chính xác để lấy tốc độ.

Link to this sectionMức độ liên quan trong thị giác máy tính và YOLO#

Mặc dù ban đầu được phát triển cho Xử lý ngôn ngữ tự nhiên (NLP) để xử lý các chuỗi văn bản dài, Flash Attention đã trở nên quan trọng trong thị giác máy tính (CV). Hình ảnh độ phân giải cao tạo ra các chuỗi dữ liệu khổng lồ khi được xử lý bởi Vision Transformers (ViT).

Công nghệ này ảnh hưởng đến sự phát triển của các bộ phát hiện đối tượng. Ví dụ, một số mô hình thử nghiệm như YOLO12 do cộng đồng phát triển đã giới thiệu các lớp chú ý tận dụng các nguyên tắc này. Tuy nhiên, các kiến trúc dựa hoàn toàn vào cơ chế chú ý có thể gặp vấn đề về tính ổn định khi huấn luyện và tốc độ CPU chậm. Đối với hầu hết các ứng dụng chuyên nghiệp, Ultralytics YOLO26 là tiêu chuẩn được khuyến nghị. YOLO26 sử dụng kiến trúc được tối ưu hóa cao giúp cân bằng giữa tốc độ và độ chính xác cho việc phát hiện đối tượngphân đoạn ảnh từ đầu đến cuối, tránh được gánh nặng thường thấy với các lớp chú ý nặng trên các thiết bị biên.

Link to this sectionCác ứng dụng trong thực tế#

Những cải thiện về hiệu suất từ Flash Attention cho phép thực hiện các ứng dụng mà trước đây quá đắt đỏ hoặc quá chậm để vận hành.

  1. AI tạo sinh với ngữ cảnh dài (Long-Context Generative AI): Trong thế giới của Mô hình ngôn ngữ lớn (LLM) như GPT-4, Flash Attention cho phép mô hình "ghi nhớ" một lượng thông tin khổng lồ. Điều này tạo điều kiện cho cửa sổ ngữ cảnh (context window) lớn, cho phép người dùng tải lên toàn bộ sách hoặc các cơ sở mã nguồn pháp lý để tóm tắt văn bản mà không làm mô hình bị treo do giới hạn bộ nhớ.

  2. Chẩn đoán y tế độ phân giải cao: Trong phân tích hình ảnh y tế, chi tiết là yếu tố quan trọng. Các nhà bệnh học phân tích các bản quét gigapixel của các mẫu mô. Flash Attention cho phép các mô hình xử lý những hình ảnh khổng lồ này ở độ phân giải gốc, xác định các điểm bất thường nhỏ như u não giai đoạn đầu mà không cần giảm tỷ lệ hình ảnh và làm mất dữ liệu quan trọng.

Link to this sectionVí dụ về mã#

Mặc dù Flash Attention thường là một tối ưu hóa nội bộ trong các thư viện như PyTorch, bạn có thể tận dụng các mô hình dựa trên cơ chế chú ý một cách dễ dàng với Ultralytics. Đoạn mã sau đây cho thấy cách tải mô hình RT-DETR, vốn sử dụng các cơ chế chú ý, để thực hiện suy luận trên một hình ảnh.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes transformer attention
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

Sử dụng các công cụ như Nền tảng Ultralytics (Ultralytics Platform), các nhà phát triển có thể huấn luyện và triển khai các mô hình tinh vi này mà không cần phải triển khai thủ công các GPU kernel phức tạp. Nền tảng xử lý phần hạ tầng, cho phép các nhóm tập trung vào việc quản lý các tập dữ liệu chất lượng cao và diễn giải kết quả.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning