YOLO Vision Thâm Quyến
Thâm Quyến
Tham gia ngay
Thuật ngữ

Mô hình tự hồi quy trực quan (VAR)

Khám phá Mô hình Tự hồi quy Trực quan (VAR). Tìm hiểu cách dự đoán ở quy mô tiếp theo cải thiện tốc độ và chất lượng tạo ảnh so với các phương pháp truyền thống và khuếch tán.

Mô hình tự hồi quy hình ảnh (Visual Autoregressive Modeling - VAR) là một mô hình thị giác máy tính tiên tiến, áp dụng các chiến lược học tự hồi quy được phổ biến bởi các mô hình ngôn ngữ lớn (Large Language Models - LLMs) vào các nhiệm vụ tạo ảnh . Các phương pháp tự hồi quy hình ảnh truyền thống mã hóa một hình ảnh thành một chuỗi 1D và dự đoán từng token một theo thứ tự quét raster , điều này tốn kém về mặt tính toán và bỏ qua cấu trúc 2D tự nhiên của dữ liệu hình ảnh. Ngược lại, VAR giới thiệu một phương pháp "dự đoán ở quy mô tiếp theo" từ thô đến tinh. Nó tạo ra hình ảnh bằng cách dự đoán dần dần các bản đồ đặc trưng hoặc quy mô có độ phân giải cao hơn, thay vì dự đoán từng token riêng lẻ theo từng hàng. Phương pháp này bảo toàn tính toàn vẹn cấu trúc trong khi cải thiện đáng kể cả chất lượng hình ảnh và tốc độ suy luận .

Cách thức hoạt động của mô hình tự hồi quy trực quan

Về bản chất, VAR thay thế phương pháp dự đoán token tiếp theo truyền thống bằng phương pháp dự đoán theo tỷ lệ. Đầu tiên, một hình ảnh được nén thành các bản đồ token rời rạc đa tỷ lệ bằng cách sử dụng kiến ​​trúc tương tự như Vector Quantized Variational AutoEncoder (VQ-VAE) . Trong giai đoạn tạo ảnh, một mô hình transformer dự đoán các bản đồ token này theo trình tự, bắt đầu từ độ phân giải nhỏ nhất (như lưới 1x1) đến độ phân giải mục tiêu (như lưới 16x16 hoặc 32x32). Bởi vì nó xử lý các cấu trúc không gian đồng thời ở mỗi tỷ lệ, VAR bảo toàn thành công các mối tương quan hai chiều vốn có trong hình ảnh 2D.

Phương pháp tiếp cận mới này cho phép các mô hình VAR thiết lập các quy luật mở rộng có thể dự đoán được, tương đương với các kiến ​​trúc dựa trên văn bản như OpenAI GPT-4 . Khi các nhà nghiên cứu mở rộng các tham số của mô hình, hiệu suất được cải thiện một cách nhất quán. Theo bài báo NeurIPS 2024 về Mô hình Tự hồi quy Trực quan (Visual Autoregressive Modeling) , VAR đã vượt trội hơn các kiến ​​trúc cạnh tranh trên bộ dữ liệu chuẩn ImageNet đầy thách thức. Nó đạt được các chỉ số tốt hơn cả về Khoảng cách Khởi tạo Frechet (FID) và điểm số khởi tạo trong khi thực thi nhanh hơn nhiều.

Mô hình VAR so với mô hình khuếch tán

Điều quan trọng là phải phân biệt VAR với Trí tuệ nhân tạo tạo sinh dựa trên khuếch tán. Các mô hình khuếch tán học cách tạo ra hình ảnh bằng cách loại bỏ lặp đi lặp lại nhiễu liên tục từ một khung hình ban đầu. Tuy nhiên, VAR hoạt động trên các token rời rạc. Thay vì khử nhiễu, nó tự hồi quy xây dựng độ phân giải hình ảnh từng bước một. Mặc dù Bộ chuyển đổi khuếch tán (DiT) đã là tiêu chuẩn hàng đầu cho tổng hợp hình ảnh, nhưng phương pháp dựa trên token của VAR được hưởng lợi trực tiếp từ nghiên cứu tối ưu hóa được đầu tư vào các mô hình bộ chuyển đổi, cho phép nó vượt trội hơn DiT cả về khả năng mở rộng và hiệu quả dữ liệu.

Các Ứng dụng Thực tế

Bằng cách kết hợp khả năng suy luận của LLM với thị giác có độ chính xác cao, Mô hình Tự hồi quy Trực quan mở khóa một số khả năng thực tiễn:

Triển khai quy trình tự hồi quy

Trong khi các mô hình VAR tập trung vào việc tạo nội dung, chúng có thể được kết hợp với các mô hình nhận thức mạnh mẽ như Ultralytics YOLO26 để tạo ra các quy trình đa phương thức toàn diện. Ví dụ, bạn có thể sử dụng YOLO26 để phát hiện đối tượng chính xác nhằm cô lập chủ thể, sau đó chuyển các vùng cụ thể đó cho một mô hình tự hồi quy để cải thiện hoặc chỉnh sửa lại hình ảnh.

Dưới đây là một đoạn mã PyTorch mang tính khái niệm minh họa cách một vòng lặp tự hồi quy đa thang đo dự đoán thang đo tiếp theo của bản đồ token một cách lặp đi lặp lại, mô phỏng logic cơ bản của VAR bằng cách sử dụng các mô-đun Transformer tiêu chuẩn PyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Đối với các nhà nghiên cứu muốn xây dựng các quy trình xử lý hình ảnh hoàn chỉnh – từ việc chọn lọc tập dữ liệu đến đánh giá các kiến ​​trúc phức tạp – Nền tảng Ultralytics cung cấp các công cụ mạnh mẽ để tự động chú thích, theo dõi và triển khai trên đám mây. Cho dù tối ưu hóa Mô hình Ngôn ngữ Hình ảnh (VLM) hay thử nghiệm dự đoán ở quy mô tiếp theo, hệ sinh thái trí tuệ hình ảnh thống nhất sẽ thúc đẩy sự đổi mới trong các trường hợp sử dụng thực tế.

Hãy cùng nhau xây dựng tương lai của trí tuệ nhân tạo!

Bắt đầu hành trình của bạn với tương lai của học máy