YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Hợp nhất Token (ToMe)

Tìm hiểu cách Token Merging (ToMe) tối ưu hóa các mô hình Transformer và ViT. Khám phá cách giảm FLOPs, tăng tốc suy luận thời gian thực và nâng cao tốc độ Trí tuệ nhân tạo tạo sinh.

Ghép Token (ToMe) là một kỹ thuật tiên tiến được thiết kế để tối ưu hóa hiệu suất và hiệu quả của kiến ​​trúc Transformer bằng cách giảm số lượng token được xử lý trong các lượt truyền tiến. Ban đầu được phát triển để tăng tốc các mô hình Vision Transformer (ViT) , ToMe hoạt động bằng cách xác định và kết hợp một cách có hệ thống các token dư thừa trong mạng mà không cần bất kỳ quá trình huấn luyện bổ sung nào. Bởi vì độ phức tạp tính toán của cơ chế tự chú ý tăng theo bình phương số lượng token, việc ghép các token tương tự làm giảm đáng kể tổng số phép toán dấu phẩy động (FLOP), cho phép suy luận thời gian thực nhanh hơn đáng kể.

Hiểu về quy trình hợp nhất token

ToMe về cơ bản khác với tokenization , vốn là bước tiền xử lý ban đầu bằng cách chia nhỏ hình ảnh hoặc văn bản thành các token riêng lẻ. Trong khi tokenization tạo ra các phần tử rời rạc, Token Merging hoạt động như một cơ chế giảm mẫu động trong quá trình thực thi mô hình.

Thuật toán này thường sử dụng phương pháp so khớp hai phía để đánh giá độ tương đồng của các token, thường tính toán độ tương đồng cosine giữa các khóa của token trong các lớp chú ý. Các token có thông tin hình ảnh hoặc ngữ nghĩa rất giống nhau sẽ được hợp nhất với nhau—thường bằng cách lấy trung bình các đặc trưng của chúng. Điều này đảm bảo rằng thông tin không gian hoặc ngữ cảnh thiết yếu được bảo toàn trong khi giảm tải tính toán không cần thiết, cho phép các framework như PyTorch xử lý các mô hình thị giác phức tạp nhanh hơn nhiều.

Ứng dụng thực tiễn của việc hợp nhất token

Ghép token đã trở thành một chiến lược tối ưu hóa quan trọng để triển khai các kiến ​​trúc dựa trên cơ chế chú ý phức tạp trong môi trường có hạn chế về khả năng tính toán.

  1. Trí tuệ nhân tạo tạo sinh và tổng hợp hình ảnh : Trong các mô hình khuếch tán chuyển đổi văn bản thành hình ảnh phổ biến, ToMe thường được sử dụng để tăng tốc quá trình tạo hình ảnh. Bằng cách hợp nhất các token nền hoặc token có độ chi tiết thấp, quá trình tạo hình ảnh yêu cầu ít bước hơn, tiết kiệm được rất nhiều thời gian và công sức. GPU tài nguyên và giảm độ trễ cho người dùng cuối dựa vào các mô hình tạo sinh. Bạn có thể tìm hiểu thêm về các quá trình khuếch tán trong nghiên cứu nền tảng trên arXiv .
  2. Triển khai AI trên thiết bị biên : Việc triển khai các mô hình khổng lồ như Segment Anything Model ( SAM ) lên thiết bị di động rất khó khăn do hạn chế về bộ nhớ. ToMe giúp thu nhỏ dung lượng bộ nhớ một cách linh hoạt, cho phép các tác vụ phân đoạn hình ảnh phức tạp chạy trên phần cứng biên. Đối với các trường hợp mà tốc độ là yếu tố quan trọng, các kỹ sư thường chuyển sang các kiến ​​trúc được tối ưu hóa nguyên bản, không cần cơ chế chú ý như Ultralytics YOLO26 để có được khả năng suy luận biên nhanh hơn, từ đầu đến cuối.

Python Ví dụ: Tính toán độ tương đồng giữa các token

Mặc dù việc tích hợp ToMe vào một kiến ​​trúc hoàn chỉnh đòi hỏi phải sửa đổi các khối chú ý, nhưng khái niệm cốt lõi dựa trên việc tìm kiếm các token tương tự. Tiếp theo là... PyTorch Đoạn mã này minh họa cách tính độ tương đồng cosine giữa một tập hợp các token để xác định những token nào là ứng cử viên để hợp nhất.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Các quy trình học máy hiện đại đòi hỏi sự cân bằng cẩn thận giữa độ chính xác và tốc độ. Cho dù bạn đang sử dụng Token Merging để tối ưu hóa ViT tùy chỉnh hay dựa vào hiệu quả tiên tiến của YOLO26, việc quản lý các quy trình dữ liệu phức tạp này được đơn giản hóa đáng kể nhờ Nền tảng Ultralytics . Nền tảng này cung cấp một hệ sinh thái trực quan cho việc chú thích dữ liệu tự động, huấn luyện đám mây liền mạch và triển khai mô hình mạnh mẽ trên nhiều môi trường phần cứng điện toán biên khác nhau. Các tổ chức đang mở rộng các sáng kiến ​​về thị giác máy tính của họ dựa vào các công cụ này để đưa các mô hình tiên tiến vào sản xuất một cách đáng tin cậy và hiệu quả.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy