用語集

ディープ強化学習

AIが複雑な行動を学習し、ゲーム、ロボット工学、ヘルスケアなどの課題を解決する、深層強化学習のパワーをご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

深層強化学習(Deep Reinforcement Learning:DRL)は、強化学習(Reinforcement Learning:RL)の原理と深層学習(Deep Learning:DL)のパワーを組み合わせたものです。これにより、ソフトウェア・エージェントは、複雑でしばしば高次元の環境において、試行錯誤を繰り返しながら最適な行動を学習することができる。膨大な状態空間(カメラからの生ピクセルデータのような)を苦手とする従来のRLとは異なり、DRLはディープ・ニューラル・ネットワーク(NN)を利用して、価値関数(将来の報酬の予測)やポリシー(状態と行動の対応付け)といった学習に必要な関数を近似します。これによりDRLエージェントは、画像やセンサーの読み取り値のような複雑な感覚入力から直接学習することで、これまで困難だった問題に取り組むことができます。

深層強化学習の仕組み

DRLの核心は、エージェントが離散的な時間ステップで環境と相互作用することである。このプロセスは通常、以下のように展開される:

  1. 観察:エージェントは現在の環境状態を観察する。DRLでは、この状態を畳み込みニューラルネットワーク(CNN)で処理された画像ピクセルのような高次元データで表現することができます。
  2. 行動選択:観測された状態に基づいて、エージェントはディープニューラルネットワークで表現されるポリシーを使用してアクションを選択する。
  3. 相互作用:エージェントは選択したアクションを実行し、環境を新しい状態に遷移させる。
  4. フィードバック(報酬):環境はスカラー報酬信号を提供し、前の状態での行動の良し悪しを示す。
  5. 学習:エージェントは報酬信号と状態遷移を使用して、バックプロパゲーションや 勾配降下のようなアルゴリズムを介してニューラルネットワーク(ポリシーまたは値関数)を更新します。目標は、ネットワークの重みを調整して、時間の経過とともに将来の累積報酬を最大化することである。この学習ループが繰り返されることで、エージェントは意思決定戦略を徐々に改善していく。

DRLのキーコンセプト

DRLを理解するには、ディープラーニング技術を使ってスケールアップされた強化学習のコアとなるいくつかのアイデアに精通する必要がある:

  • エージェント:意思決定を行うために学習するアルゴリズムまたはモデル。
  • 環境:エージェントが相互作用する世界やシステム(ゲームシミュレーションや物理的なロボットの周囲など)。研究のための標準化された環境は、Gymnasium(旧OpenAI Gym)のようなツールキットによって提供されることが多い。
  • 状態:特定の時点における環境の表現。DRLは画像やセンサーアレイのような大量のデータで表現される状態の扱いに優れています。
  • 行動:環境に影響を与えるエージェントによる決定。
  • 報酬:環境からの数値的なフィードバックで、その状態での行動の当面の望ましさを示す。
  • 方針:エージェントの戦略で、状態をアクションにマッピングする。DRLでは通常、ディープ・ニューラル・ネットワークを使用する。
  • 価値関数:与えられた状態または状態-アクションのペアから期待される長期累積報酬を推定する。これもディープニューラルネットワークで表現されることが多い。
  • 探索対探索:エージェントは、より良い戦略を発見するために新しい行動を試すこと(探索)と、既知の良い行動に固執すること(搾取)のバランスを取らなければならない基本的なトレードオフ。

DRLと他の機械学習パラダイムとの比較

DRLは、他の主要な機械学習(ML)アプローチとは大きく異なります:

  • 教師あり学習ラベル付けされた例(入出力ペア)を含むデータセットから学習する。画像分類や 物体検出のようなタスクでは、以下のようなモデルを使用する。 Ultralytics YOLOのようなモデルを使った画像分類や物体検出のようなタスクがこのカテゴリーに入る。これに対してDRLは、各状態に対する明示的な正解を持たない報酬信号から学習する。
  • 教師なし学習ラベル付けされていないデータからパターンや構造を学習する(例:クラスタリング)。DRLは、相互作用とフィードバックを通じて目標指向の行動を学習することに重点を置く。
  • 強化学習(RL)DRLはディープ・ニューラル・ネットワークを採用した特殊なRLである。従来のRLでは、テーブル(Qテーブル)のような単純な表現がよく使われますが、DRLが得意とする非常に大きな状態空間や連続的な状態空間を持つ問題では実行不可能です。

実世界での応用

DRLは様々な複雑な領域でブレークスルーをもたらしてきた:

  • ロボット工学物体の操作、移動、組み立てなどの複雑なタスクを実行するロボットを訓練することで、多くの場合、カメラ入力やセンサーデータから直接学習する。これは、「ロボット工学におけるAIの役割」などのリソースで検討されている。
  • ゲームプレイ:囲碁(DeepMindのAlphaGo)や様々なビデオゲーム(OpenAI Five for Dota 2)などの複雑なゲームで超人的なパフォーマンスを達成する。
  • 自律走行車 自動運転車のAIで議論されているように、動的な交通シナリオにおけるナビゲーション、進路計画、意思決定のための高度な制御ポリシーを開発する。
  • 資源の最適化:エネルギー・グリッド(再生可能エネルギーのAI)、交通信号制御(交通管理のAI)、化学反応の最適化などの複雑なシステムを管理する。
  • レコメンデーションシステムユーザーの長期的なエンゲージメントや満足度を最大化するために、レコメンデーションのシーケンスを最適化する。
  • ヘルスケア患者の状態や転帰に基づいて最適な治療方針や投薬量を発見し、医療におけるAIのような分野に貢献する。

AIエコシステムにおける関連性

深層強化学習は、人工知能(AI)研究の重要な分野を代表し、機械の自律性と意思決定の限界を押し広げています。Ultralytics ような企業は、主に教師あり学習を使った物体検出や 画像分割などのタスクのために、Ultralytics YOLO ような最先端の視覚モデルに焦点を当てていますが、このような知覚システムの出力は、しばしばDRLエージェントにとって重要な入力となります。例えば、ロボットはDRLポリシーが次の行動を決定する前に、Ultralytics HUBを介して配置されたUltralytics YOLO モデルを使用して環境(状態表現)を認識するかもしれません。DRLを理解することは、GymnasiumのようなツールキットやPyTorchのようなフレームワークを用いてAIコミュニティが取り組んでいる、より広範な自律システムや複雑な制御の問題に、高度な知覚がどのように適合するのかという文脈を提供します。 PyTorchPyTorch ホームページ)や TensorFlowTensorFlow ホームページ)のようなフレームワークを使用している。DeepMindのような研究組織や人工知能推進協会(AAAI)のような学術団体は、このエキサイティングな分野の進歩を推進し続けている。

すべて読む