Rectified Flow
高精度なデータ生成のための効率的な生成モデリング技術であるRectified Flowについて解説します。Ultralytics YOLO26モデルで合成データを使用する方法を学びましょう。
Rectified Flowは、シンプルでサンプリングが容易なノイズ分布を、直線的な軌道を用いて複雑なデータ分布へマッピングする学習を行う高度な生成モデリング技術です。従来の生成フレームワークに代わる極めて効率的な手法として注目されており、純粋なノイズからターゲットとなる画像、音声、ビデオへデータポイントを直接輸送する常微分方程式(ODE)を解くことで動作します。これらの経路は可能な限り直線になるよう学習されるため、モデルは高品質な出力を生成するために必要なステップ数が大幅に少なくなり、推論時の計算オーバーヘッドが劇的に削減されます。
Link to this sectionRectified Flowと拡散モデルの比較#
両技術とも広義の生成AIファミリーに属しますが、Rectified Flowは標準的な拡散モデルに見られる主要な非効率性のいくつかに対処しています。拡散モデルは通常、ノイズ分布と最終的なデータ分布との間に曲線的でノイズの多い経路を構築するため、明確な出力を生成するために数十回から数百回の反復的なデノイズ処理ステップを必要とします。対照的に、Rectified Flowは輸送経路が直線になるよう明示的に最適化します。この「直線化」により、精度を損なうことなく大幅に大きなステップを踏むことが可能になり、わずか数回の反復で高精度な生成を実現します。
Link to this section実際の応用例#
Rectified Flowの効率性と安定性は、現代のコンピュータビジョンおよびメディア生成パイプラインの礎となっています。
- 高精度な合成データ生成:組織はRectified Flowモデルを使用して、大規模で多様なコンピュータビジョンデータセットを迅速に生成しています。この合成データは希少なエッジケースをシミュレートでき、手動でのデータ収集という高コストをかけることなく、堅牢な物体検出アーキテクチャを学習させるために不可欠です。
- 高度なテキストから画像への変換システム:Google DeepMindやOpenAIを含む主要なAI研究組織は、直線的なパスを用いた生成技術をますます探求しています。これらのモデルは、スムーズなユーザー体験のために低い推論レイテンシが不可欠な、高速で消費者向けの画像および動画生成ツールを支えています。
Link to this sectionコンピュータビジョンワークフローの強化#
In practice, the high-quality synthetic images produced by Rectified Flow models are frequently used to pre-train or fine-tune downstream vision models. For example, developers can generate targeted images of manufacturing defects and use the Ultralytics Platform to annotate this new data effortlessly in the cloud. Once annotated, the dataset can be used to train an Ultralytics YOLO26 model for highly accurate, real-time object detection.
ultralyticsパッケージを使用して、カスタムデータセット(Rectified Flowで生成された合成データを含む可能性があるもの)でYOLO26モデルを学習させる方法を示す簡潔な例を以下に示します:
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model on your synthetic/real dataset mix
results = model.train(data="custom_synthetic_data.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX for fast deployment
model.export(format="onnx")効率的な生成モデルとYOLO26のような強力な識別ツールとの間のギャップを埋めることで、機械学習の実践者は極めて回復力の高いAIシステムを構築できます。モデルのパフォーマンス指標の評価や、TensorRTを介したエッジデバイスへのエクスポートなど、合成データと最先端の検出技術の組み合わせは、CVプロジェクトのステップを加速させ、モデルの精度と速度を両立させます。






