Thuật ngữ

Chú ý

Khám phá cách Ring Attention mở rộng quy mô Transformer lên độ dài chuỗi vô hạn. Tìm hiểu cách kỹ thuật này nâng cao hiệu quả của LLM và Vision Transformer cho các tác vụ dữ liệu khổng lồ.

Ring Attention là một kỹ thuật học máy (ML) tiên tiến được thiết kế để mở rộng cửa sổ ngữ cảnh của kiến trúc Transformer lên độ dài chuỗi gần như vô hạn. Bằng cách phân tán quá trình tính toán chú ý phức tạp trên một cụm GPU được kết nối theo cấu trúc vòng, nó chồng chéo hiệu quả giữa giao tiếp và tính toán. Bước đột phá về kiến trúc này cho phép các Mô hình Ngôn ngữ Lớn (LLM) và Transformer Thị giác (ViT) xử lý các đầu vào khổng lồ—chẳng hạn như toàn bộ cuốn sách hoặc hàng giờ video liên tục—vượt xa dung lượng bộ nhớ của bất kỳ thiết bị phần cứng đơn lẻ nào.

Vượt qua rào cản cửa sổ ngữ cảnh

Trong các cơ chế tự chú ý tiêu chuẩn, mức tiêu thụ bộ nhớ tăng theo bình phương độ dài của chuỗi đầu vào. Điều này tạo ra một nút thắt cổ chai nghiêm trọng đối với các mô hình học sâu (DL) đang cố gắng phân tích dữ liệu dạng dài. Để tìm hiểu thêm về cách cộng đồng AI giải quyết vấn đề này, bạn có thể tìm hiểu công trình nghiên cứu của Berkeley AI Research về các mô hình ngữ cảnh lớn .

Giao thức Ring Attention giải quyết nút thắt cổ chai bậc hai này bằng cách chia nhỏ các truy vấn, khóa và giá trị thành các khối nhỏ hơn. Mỗi khối nhỏ này GPU Trong mạng phân tán, thiết bị tính toán một khối và sau đó truyền các khóa và giá trị đến thiết bị lân cận trong vòng. Quá trình truyền tải tuần hoàn này tiếp tục cho đến khi toàn bộ cơ chế chú ý được tính toán xong. Việc sử dụng các công cụ như gói giao tiếp phân tán PyTorch cho phép các nhà phát triển xây dựng các quy trình huấn luyện đa thiết bị phức tạp này.

Chế độ chú ý bằng chuông báo so với chế độ chú ý bằng đèn flash

Mặc dù cả hai kỹ thuật đều tối ưu hóa bộ nhớ, nhưng chúng hoạt động ở các cấp độ khác nhau. Flash Attention là một thuật toán nhận biết phần cứng, giúp giảm thiểu các thao tác đọc và ghi bộ nhớ tốn kém trong một chu kỳ duy nhất. GPU SRAM của 's. Ngược lại, Ring Attention là một thuật toán phân tán tập trung vào việc mở rộng khả năng tính toán trên nhiều GPU. Trong các quy trình AI tạo sinh hiện đại, hai kỹ thuật này thường được kết hợp để đạt được cả hiệu quả phần cứng cục bộ và khả năng mở rộng đa thiết bị mạnh mẽ, như được trình bày chi tiết trong bài báo nghiên cứu gốc về Ring Attention trên arXiv .

Các Ứng dụng Thực tế

Khả năng xử lý hàng triệu token cùng lúc mở ra những năng lực mạnh mẽ trong trí tuệ nhân tạo hiện đại:

Phân tích tài liệu và mã nguồn toàn diện: Cơ chế chú ý vòng (Ring Attention) cho phép các mô hình tiếp nhận hàng triệu dòng mã hoặc các thư viện pháp lý phức tạp chỉ trong một lần nhắc. Điều này cải thiện đáng kể các hệ thống dựa trên cơ chế tạo ngữ cảnh tăng cường bằng truy xuất (Retrieval Augmented Generation - RAG) , cho phép chúng tổng hợp ngữ cảnh mà không làm mất đi thông tin quan trọng. Khái niệm này là nền tảng cho các mô hình ngữ cảnh quy mô lớn như kiến trúc Gemini của Google .
Hiểu video mở rộng: Trong thị giác máy tính (CV) , xử lý các chuỗi video độ phân giải cao thường yêu cầu giảm độ phân giải mạnh mẽ. Cơ chế chú ý vòng (Ring Attention) cho phép các mô hình phân tích các luồng video không nén, dài hàng giờ. Điều này giúp tăng cường khả năng nhận diện hành động và theo dõi đối tượng liên tục trong các hệ thống an ninh và lái xe tự động, duy trì nhận thức về thời gian trong thời gian dài.

Xử lý chuỗi hình ảnh

Trong khi các mô hình chú ý phân tán quy mô lớn xử lý vô số ngữ cảnh, các ứng dụng thực tiễn ưu tiên xử lý tại biên đòi hỏi kiến trúc được tối ưu hóa cao. Đối với suy luận thời gian thực và xử lý chuỗi hình ảnh, Ultralytics YOLO26 cung cấp hiệu suất hàng đầu trong ngành mà không cần đến gánh nặng tính toán cực lớn của các bộ chuyển đổi chỉ dựa trên cơ chế chú ý.

from ultralytics import YOLO

# Load the recommended YOLO26 model for high-speed object tracking
model = YOLO("yolo26n.pt")

# Perform robust multi-object tracking on a long video sequence
results = model.track(source="long_surveillance_feed.mp4", stream=True)

# Iterate through the stream to process temporal tracking data
for frame_result in results:
    print(f"Tracked {len(frame_result.boxes)} objects in current frame.")

Khi xây dựng và mở rộng các giải pháp phát hiện đối tượng và phân đoạn hình ảnh phức tạp này, việc quản lý điều phối phần cứng là vô cùng quan trọng. Nền tảng Ultralytics đơn giản hóa hoàn toàn quy trình này, cung cấp các công cụ để huấn luyện trên đám mây liền mạch, chú thích tập dữ liệu tự động và triển khai mô hình chỉ bằng một cú nhấp chuột trên nhiều môi trường phần cứng. Việc tận dụng các nền tảng này đảm bảo rằng các kỹ thuật mở rộng quy mô tiên tiến được chuyển đổi suôn sẻ từ nghiên cứu sang các quy trình AI có khả năng mở rộng và sẵn sàng cho sản xuất.

Chú ý

Xuất ra hơn 17 định dạng. Triển khai tại 43 khu vực toàn cầu.

Huấn luyện YOLO26 trên GPU H100 với giá 2,39 đô la/giờ.

Giấy phép doanh nghiệp linh hoạt để thúc đẩy các dự án AI thị giác của bạn.

Giấy phép doanh nghiệp được thiết kế để hỗ trợ dự án tiếp theo của bạn.

Gán nhãn nhanh hơn tới 10 lần với tính năng gán nhãn thông minh

Ghi chú. Đào tạo. Triển khai. Tất cả trong một nền tảng.

Vượt qua rào cản cửa sổ ngữ cảnh

Chế độ chú ý bằng chuông báo so với chế độ chú ý bằng đèn flash

Các Ứng dụng Thực tế

Xử lý chuỗi hình ảnh

Đọc thêm trong danh mục này

Cách xuấtYOLO Ultralytics bằng Ultralytics

Phát hiện việc xếp pallet không an toàn bằng Ultralytics

Hướng dẫn về cách chú thích đa giác với Ultralytics Nền tảng

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!