用語集

視覚的自己回帰モデル（VAR）

ビジュアル自己回帰モデリング（VAR）について詳しく見ていきましょう。従来の方法やディフュージョンと比較して、次世代の予測技術がいかにして画像生成の速度と品質を向上させるのかを学びます。

視覚的自己回帰モデリング（VAR）は、大規模言語モデル（LLM）によって普及した自己回帰学習戦略を画像生成タスクに応用した、高度なコンピュータビジョン手法である。従来の視覚的自己回帰手法は、画像を1次元シーケンスとして符号化し、ラスタースキャン順にトークン単位で予測を行うが、これは計算コストが高く、視覚データの自然な2次元構造を無視している。これに対し、VARは粗から細への「次スケール予測」アプローチを導入しています。これは、個々のトークンを行ごとに予測するのではなく、より高解像度の特徴マップやスケールを段階的に予測することで画像を生成します。この手法は、構造的整合性を維持しつつ、画像の品質と推論速度の両方を大幅に向上させます。

視覚的自己回帰モデリングの仕組み

本質的に、VARは従来の「次のトークン予測」を「次のスケール予測」に置き換えます。画像はまず、ベクトル量子化変分オートエンコーダー（VQ-VAE）に類似したアーキテクチャを用いて、マルチスケールの離散トークンマップに圧縮されます。生成フェーズでは、トランスフォーマーモデルが、最小解像度（1x1グリッドなど）から目標解像度（16x16や32x32グリッドなど）に至るまで、これらのトークンマップを順次予測します。各スケールで空間構造を同時に処理するため、VARは2次元画像に固有の双方向相関を効果的に保持することができます。

この斬新なアプローチにより、VARモデルは、 OpenAI GPT-4のようなテキストベースのアーキテクチャに匹敵する、予測可能なスケーリング則を確立できるようになります。研究者がモデルパラメータを拡大するにつれて、性能は着実に向上します。「Visual Autoregressive Modeling」に関する NeurIPS 2024の論文によると、VARは要求のImageNet において、競合するアーキテクチャを見事に上回っています。また、フレシェ・インセプション距離（FID）とインセプションスコアの両方でより優れた指標を達成しつつ、処理速度も大幅に高速化されています。

VAR対拡散モデル

VARと拡散型生成AIを区別することが重要です。拡散モデルは、初期のキャンバスから連続的なノイズを反復的に除去することで、画像を生成することを学習します。一方、VARは離散的なトークンを扱います。ノイズ除去を行う代わりに、解像度ごとに自己回帰的に画像を構築します。 Diffusion Transformer（DiT）が視覚的合成の主要な標準となっている一方で、VARのトークンベースのアプローチは、トランスフォーマーモデルに注がれてきた最適化研究の成果を直接活用しており、スケーラビリティとデータ効率の両面でDiTを上回る性能を発揮します。

実際のアプリケーション

LLMの推論能力と高精細な視覚情報を融合させることで、視覚的自己回帰モデリングはいくつかの実用的な機能を実現します：

ゼロショット画像編集とインペインティング：VAR は、ゼロショット操作をネイティブにサポートしています。特定のスケールや領域をマスクすることで、開発者はベースアーキテクチャの再学習や微調整を行うことなく、画像をシームレスに編集または拡張することができます。
小売向けスケーラブルなアセット生成：VARの極めて高速な推論処理により、リアルタイムで高品質な画像合成が可能となり、動的な商品背景の生成や、パーソナライズされたマーケティング用アセットを大規模に作成できます。

自己回帰ワークフローの実装

VARモデルはコンテンツ生成に重点を置いていますが、 Ultralytics 高性能な認識モデルと組み合わせることで、包括的なマルチモーダルパイプラインを構築できます。例えば、YOLO26を用いて正確な物体検出を行い被写体を切り出し、その特定領域を自己回帰モデルに渡して、強調やリスタイリングを行うことができます。

以下は概念図です PyTorch スニペットです。これは、マルチスケール自己回帰ループがトークンマップの次のスケールを反復的に予測し、標準的な PyTorch を使用して VARの基礎となるロジックをシミュレートする方法を示しています：

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

データセットのキュレーションから複雑なアーキテクチャの評価に至るまで、エンドツーエンドのビジョンパイプラインの構築を目指す研究者にとって、Ultralytics 、自動アノテーション、トラッキング、クラウド展開のための堅牢なツールを提供します。ビジョン言語モデル（VLM）の最適化であれ、次世代レベルの予測技術の実験であれ、統合されたビジュアルインテリジェンスエコシステムは、実世界のユースケースにおけるイノベーションを加速させます。

視覚的自己回帰モデル（VAR）

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

視覚的自己回帰モデリングの仕組み

VAR対拡散モデル

実際のアプリケーション

自己回帰ワークフローの実装

このカテゴリの関連記事

Ultralytics中国コミュニティ・ミートアップ：機械学習への関心が世界で最も高い国。

Ultralytics AMD Dev Day ShanghaiUltralytics ：ローカルAIとエージェント型システムの融合

Ultralytics Embedded Vision Summit 2026Ultralytics 主な見どころ

共にAIの未来を築きましょう！

視覚的自己回帰モデル（VAR）

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

視覚的自己回帰モデリングの仕組み

VAR対拡散モデル

実際のアプリケーション

自己回帰ワークフローの実装

このカテゴリの関連記事

Ultralytics中国コミュニティ・ミートアップ：機械学習への関心が世界で最も高い国。

Ultralytics AMD Dev Day ShanghaiUltralytics ：ローカルAIとエージェント型システムの融合

Ultralytics Embedded Vision Summit 2026Ultralytics 主な見どころ

共にAIの未来を築きましょう！

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。