词汇表

视觉自回归建模（VAR）

探索视觉自回归建模（VAR）。了解下一代预测技术如何在图像生成速度和质量方面超越传统方法和扩散模型。

视觉自回归建模（VAR）是一种先进的计算机视觉范式，它将由大型语言模型（LLMs）普及的自回归学习策略应用于图像生成任务。传统的视觉自回归方法将图像编码为一维序列，并按光栅扫描顺序逐个令牌进行预测，这种方法计算成本高昂，且忽略了视觉数据的自然二维结构。相比之下，VAR引入了从粗到细的“下一尺度预测”方法。它通过逐步预测更高分辨率的特征图或尺度来生成图像，而非逐行预测单个令牌。该方法在保持结构完整性的同时，显著提升了图像质量和推理速度。

视觉自回归建模的工作原理

从本质上讲，VAR 将传统的“下一个令牌”预测替换为“下一尺度”预测。首先，图像会被压缩成多尺度的离散令牌图，所采用的架构类似于向量量化变分自编码器（VQ-VAE）。在生成阶段，transformer 会按顺序预测这些标记图，从最低分辨率（如1x1网格）开始，直至目标分辨率（如16x16或32x32网格）。由于它在每个尺度上同时处理空间结构， VAR成功地保留了二维图像固有的双向相关性。

这种创新方法使VAR模型能够建立可预测的扩展规律，其表现可与OpenAI GPT-4等基于文本的架构相媲美。随着研究人员增加模型参数，性能也随之持续提升。根据 NeurIPS 2024年关于视觉自回归建模的论文，VAR在严苛ImageNet 中成功超越了所有竞争架构。它在弗雷谢-Inception距离（FID）和 Inception评分两项指标上均表现更优，同时运行速度也快得多。

VAR 与扩散模型

区分VAR与基于扩散的生成式人工智能至关重要。扩散模型通过从初始画布中迭代去除连续噪声来学习生成图像。然而，VAR 处理的是离散令牌。它并非通过去噪，而是通过自回归方式逐层构建图像分辨率。尽管 Transformer DiT）一直是视觉合成的领先标准，但 VAR 的令牌化方法直接受益于投入transformer 优化研究，使其在可扩展性和数据效率方面均优于 DiT。

实际应用

通过将大型语言模型（LLM）的推理能力与高保真视觉技术相结合，视觉自回归建模释放了多项实用功能：

零样本图像编辑与图像修复：VAR 原生支持零样本图像处理。通过遮罩特定尺度或区域，开发者无需重新训练或微调基础架构，即可无缝编辑或扩展图像。
面向零售的可扩展资产生成：VAR 极快的推理速度支持实时、高质量的图像合成，从而能够大规模生成动态产品背景及个性化营销素材。

实现自回归工作流

虽然VAR模型侧重于生成内容，但它们可以与Ultralytics 等强大的感知模型结合，构建全面的多模态处理管道。例如，您可以使用YOLO26进行精确的物体检测以隔离主体，然后将这些特定区域传递给自回归模型进行增强或重塑。

以下是一个概念性的 PyTorch 代码片段，演示了如何通过多尺度自回归循环迭代预测令牌映射的下一层，利用标准的 PyTorch Transformer 模拟 VAR 的底层逻辑：

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

对于希望构建端到端视觉管道的研究人员——从数据集整理到复杂架构评估Ultralytics 提供了强大的工具，用于自动标注、跟踪和云部署。无论是优化视觉语言模型（VLM），还是尝试下一代预测技术，统一的视觉智能生态系统都能加速各类实际应用场景中的创新。

视觉自回归建模（VAR）

导出至17+种格式。部署至全球43个区域。

以每小时2.39美元的价格在H100 GPU上训练YOLO26。

灵活的企业级许可，为您的视觉AI项目赋能。

专为赋能您的下一个项目而设计的企业级许可

智能标注可将标注速度提升高达10倍

标注。训练。部署。一站式平台。

视觉自回归建模的工作原理

VAR 与扩散模型

实际应用

实现自回归工作流

阅读更多此类别的内容

Ultralytics中国社区聚会：全球对机器学习关注度最高的国家。

Ultralytics AMD 上海开发者日：本地 AI 与代理系统相遇

Ultralytics 2026年嵌入式视觉Ultralytics 呈现的亮点

让我们一起共建AI的未来！