ビジュアル自己回帰モデリング(VAR)について詳しく見ていきましょう。従来の方法やディフュージョンと比較して、次世代の予測技術がいかにして画像生成の速度と品質を向上させるのかを学びます。
視覚的自己回帰モデリング(VAR)は、 大規模言語モデル(LLM)によって普及した 自己回帰学習戦略を 画像生成タスクに応用した、 高度なコンピュータビジョン手法である。 従来の視覚的自己回帰手法は、画像を1次元シーケンスとして符号化し、 ラスタースキャン順にトークン単位で予測を行うが、これは計算コストが高く、 視覚データの自然な2次元構造を無視している。 これに対し、VARは粗から細への「次スケール 予測」アプローチを導入しています。これは、個々のトークンを 行ごとに予測するのではなく、より高解像度の 特徴マップやスケールを段階的に予測することで画像を生成します。この手法は、構造的整合性を維持しつつ、画像の 品質と推論速度の両方を大幅に向上させます。
本質的に、VARは従来の「次のトークン予測」を「次のスケール予測」に置き換えます。画像はまず、 ベクトル量子化変分オートエンコーダー(VQ-VAE)に類似したアーキテクチャを用いて、 マルチスケールの離散トークンマップに圧縮されます。 生成フェーズでは、 トランスフォーマーモデルが、最小解像度 (1x1グリッドなど)から目標解像度(16x16や32x32グリッドなど)に至るまで、これらのトークンマップを順次予測します。各スケールで空間構造を 同時に処理するため、VARは2次元画像に固有の双方向相関を効果的に保持することができます。
この斬新なアプローチにより、VARモデルは、 OpenAI GPT-4のようなテキストベースのアーキテクチャに匹敵する、 予測可能なスケーリング則を確立できるようになります。研究者がモデルパラメータを拡大するにつれて、 性能は着実に向上します。「Visual Autoregressive Modeling」に関する NeurIPS 2024の論文によると、VARは要求のImageNet において、競合するアーキテクチャを 見事に上回っています。また、 フレシェ・インセプション距離(FID)と インセプションスコアの両方でより優れた指標を達成しつつ、 処理速度も大幅に高速化されています。
VARと拡散型 生成AIを区別することが重要です。 拡散モデルは、初期のキャンバスから連続的なノイズを 反復的に除去することで、画像を生成することを学習します。 一方、VARは離散的なトークンを扱います。ノイズ除去を行う代わりに、 解像度ごとに自己回帰的に画像を構築します。 Diffusion Transformer(DiT)が視覚的合成の 主要な標準となっている一方で、VARのトークンベースのアプローチは、トランスフォーマーモデルに注がれてきた最適化研究の成果を直接活用しており、 スケーラビリティとデータ効率の両面でDiTを上回る性能を発揮します。
LLMの推論能力と高精細な視覚情報を融合させることで、視覚的自己回帰モデリングは いくつかの実用的な機能を実現します:
VARモデルはコンテンツ生成に重点を置いていますが、 Ultralytics 高性能な認識モデルと組み合わせることで、 包括的なマルチモーダルパイプラインを構築できます。例えば、YOLO26を用いて 正確な物体検出を行い被写体を切り出し、 その特定領域を自己回帰モデルに渡して、強調やリスタイリングを行うことができます。
以下は概念図です PyTorch スニペットです。これは、 マルチスケール自己回帰ループがトークンマップの次のスケールを反復的に予測し、標準的な PyTorch を使用して VARの基礎となるロジックをシミュレートする方法を示しています:
import torch
import torch.nn as nn
# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
def __init__(self):
super().__init__()
# Simulated transformer to predict next resolution token map
self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)
def forward(self, initial_scale_token):
current_tokens = initial_scale_token
# Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
for scale in [1, 2, 4]:
# Model predicts the structural layout for the higher resolution
next_scale_tokens = self.transformer(current_tokens)
# Expand and update tokens for the next iteration
current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
return current_tokens
model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256) # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")
データセットのキュレーションから複雑な アーキテクチャの評価に至るまで、エンドツーエンドのビジョンパイプラインの構築を目指す研究者にとって、Ultralytics 、 自動アノテーション、トラッキング、クラウド展開のための堅牢なツールを提供します。 ビジョン言語モデル(VLM)の最適化であれ、 次世代レベルの予測技術の実験であれ、統合されたビジュアルインテリジェンスエコシステムは、 実世界のユースケースにおけるイノベーションを加速させます。
未来の機械学習で、新たな一歩を踏み出しましょう。