Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Chú ý biến dạng

Khám phá cách Deformable Attention tối ưu hóa quá trình xử lý dữ liệu không gian. Tìm hiểu cách cơ chế thưa thớt này nâng cao hiệu quả các tác vụ thị giác máy tính và Ultralytics Các mẫu YOLO26.

Cơ chế chú ý biến dạng (Deformable Attention) là một cơ chế chú ý tiên tiến được thiết kế để tối ưu hóa cách mạng nơ-ron xử lý dữ liệu không gian, đặc biệt là trong các tác vụ thị giác máy tính (CV) . Các mô-đun chú ý truyền thống đánh giá sự tương tác giữa tất cả các điểm có thể có trong một hình ảnh, dẫn đến chi phí tính toán khổng lồ khi xử lý đầu vào có độ phân giải cao. Cơ chế chú ý biến dạng giải quyết vấn đề này bằng cách chỉ tập trung vào một tập hợp nhỏ, động các điểm lấy mẫu chính xung quanh một pixel tham chiếu. Bằng cách cho phép mạng học chính xác vị trí cần tìm kiếm thay vì chỉ quét toàn bộ lưới, nó làm giảm đáng kể mức sử dụng bộ nhớ và tăng tốc độ huấn luyện trong khi vẫn duy trì khả năng học sâu mạnh mẽ.

Phân biệt các phương thức chú ý

Để hiểu cách kỹ thuật này phù hợp với các kiến ​​trúc hiện đại, cần phải phân biệt nó với các khái niệm liên quan. Trong khi cơ chế chú ý tiêu chuẩn tính toán một bản đồ toàn cục, dày đặc của tất cả các pixel, cơ chế chú ý biến dạng (Deformable Attention) dựa trên các cơ chế chú ý thưa thớt để lấy mẫu có chọn lọc các vùng quan tâm. Hơn nữa, nó khác với Flash Attention . Flash Attention là một tối ưu hóa ở cấp độ phần cứng giúp tăng tốc cơ chế chú ý chính xác tiêu chuẩn bằng cách giảm thiểu... GPU Đọc/ghi bộ nhớ. Ngược lại, Deformable Attention về cơ bản thay đổi phép toán bằng cách thay đổi các đặc điểm hình ảnh mô hình chú ý đến.

Những khái niệm này đang được tích cực nghiên cứu trong các dự án tiên tiến Google DeepMindcác phát triển về thị giác máy tính của OpenAI , cũng như được triển khai trực tiếp trong hệ sinh thái PyTorchkiến ​​trúc TensorFlow . Tuy nhiên, các mô hình chỉ dựa trên cơ chế chú ý đôi khi có thể gặp khó khăn trong việc triển khai. Đối với các dự án yêu cầu suy luận tốc độ cao mà không cần đến các lớp transformer phức tạp, Ultralytics YOLO26 vẫn là tiêu chuẩn được khuyến nghị cho việc phát hiện đối tượng ưu tiên thiết bị biên.

Các Ứng dụng Thực tế

Tính chất gọn nhẹ và hiệu quả của khái niệm này đã tạo điều kiện cho những đột phá đáng kể trong các ngành công nghiệp đòi hỏi phân tích hình ảnh dày đặc theo thời gian thực.

Ví dụ mã

Bạn có thể dễ dàng thử nghiệm các mô hình sử dụng các cơ chế chú ý này, chẳng hạn như RT-DETR (Bộ chuyển đổi phát hiện thời gian thực), sử dụng ultralytics gói. Ví dụ sau đây minh họa cách tải mô hình và thực hiện suy luận trên ảnh có độ phân giải cao.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes specialized attention mechanisms
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect and locate objects
results = model("https://ultralytics.com/images/bus.jpg")

# Print the bounding box coordinates for the detected objects
for box in results[0].boxes:
    print(f"Object found at coordinates: {box.xyxy[0].tolist()}")

Để tối ưu hóa quy trình làm việc học máy của bạn, Nền tảng Ultralytics cung cấp các công cụ trực quan để đào tạo và triển khai trên nền tảng đám mây . Nó đơn giản hóa toàn bộ quy trình—từ chú thích tập dữ liệu đến xuất các mô hình được tối ưu hóa cao—đảm bảo các nhà phát triển có thể tập trung vào xây dựng giải pháp thay vì quản lý cơ sở hạ tầng phức tạp.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy