YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

確率的勾配降下法(SGD)

確率的勾配降下法が、機械学習モデルを最適化し、大規模データセットと深層学習タスクのための効率的なトレーニングをどのように可能にするかを発見してください。

確率的勾配降下法(SGD)は、機械学習(ML)における基本的かつ広く使用されている最適化アルゴリズムです。これは、重みやバイアスなどの内部パラメータを調整して損失関数を最小化することにより、モデルをトレーニングするために使用される反復的な手法です。各更新でデータセット全体を処理する従来の勾配降下法とは異なり、SGDはランダムに選択された単一のトレーニングサンプルのみを使用してパラメータを更新します。この「確率的」なアプローチにより、トレーニングプロセスが大幅に高速化され、スケーラブルになります。これは、ビッグデータを扱う場合に特に重要です。ノイズの多い更新は、モデルがエラーランドスケープ内の不適切な局所的最小値から抜け出し、より良い全体的なソリューションを見つけるのにも役立ちます。

確率的勾配降下法はどのように機能するか

SGDの基本的な考え方は、データセット全体で計算される損失関数の真の勾配を、単一のサンプルの損失の勾配を使用して近似することです。この単一サンプル勾配はノイズの多い推定値ですが、計算コストが安く、平均して正しい方向を指します。このプロセスには、各トレーニングサンプルに対して単純な2ステップのサイクルを繰り返すことが含まれます。

  1. 勾配の計算: 単一のトレーニング例について、モデルのパラメータに関する損失関数の勾配を計算します。
  2. パラメータの更新: 勾配とは逆の方向に、学習率でスケールされたパラメータを調整します。これにより、モデルはその特定のサンプルに対して誤差がより小さい状態に近づきます。

このサイクルは、エポックと呼ばれるデータセット全体に対して何度も繰り返され、モデルのパフォーマンスを徐々に向上させます。SGDの効率性により、最新の深層学習(DL)の基礎となり、PyTorchTensorFlowのような主要なフレームワークすべてでサポートされています。

Sgdと他のオプティマイザーの比較

SGDは、いくつかの勾配ベースの最適化手法の1つであり、それぞれに独自のトレードオフがあります。

  • バッチ勾配降下法: この手法は、トレーニングデータセット全体を使用して勾配を計算します。最小値への安定した直接的なパスを提供しますが、大規模なデータセットでは非常に遅く、メモリを大量に消費するため、最新のアプリケーションのほとんどでは非現実的です。
  • Mini-Batch Gradient Descent (ミニバッチ勾配降下法): これは、Batch GD と SGD の妥協案です。データの小さいランダムなサブセット(「ミニバッチ」)を使用してパラメータを更新します。Batch GD の安定性と SGD の効率のバランスを取り、実際には最も一般的なアプローチです。
  • Adamオプティマイザー: Adamは、各パラメーターに個別の学習率を維持し、学習の進行に合わせて調整する適応最適化アルゴリズムです。多くの場合、SGDよりも高速に収束しますが、SGDはより良い最小値を見つけ、過学習を防ぐのに役立つ、より優れた汎化を提供する場合があります。

実際のアプリケーション

SGDとそのバリアントは、さまざまなドメインにわたる幅広いAIモデルのトレーニングに不可欠です。

  • リアルタイム物体検出のトレーニング:Ultralytics YOLOのようなリアルタイム推論向けに設計されたモデルでは、トレーニングの効率が重要です。SGDを使用すると、開発者はCOCOや、Ultralytics HUBのようなプラットフォームで管理されるカスタムデータセットなどの大規模な画像データセットでこれらのモデルをトレーニングできます。迅速な更新により、モデル開発やハイパーパラメータ調整における迅速な反復処理に不可欠な、Batch GDよりも高速な収束が可能になります。この効率性は、自動運転車ロボティクスなどの分野でのアプリケーションをサポートします。
  • 大規模言語モデル(LLM)のトレーニング: 自然言語処理(NLP)のモデルのトレーニングでは、多くの場合、大規模なテキストデータセットが使用されます。SGDとそのバリアントは、このデータを効率的に反復処理するために不可欠であり、GPT-4Hugging Faceにあるようなモデルが文法、コンテキスト、セマンティクスを学習できるようにします。確率的な性質は、大規模なニューラルネットワークのトレーニングにおける共通の課題である、複雑な損失ランドスケープにおける不適切な局所的極小から脱出するのに役立ちます。このプロセスは、機械翻訳感情分析などのタスクの基礎となります。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました