用語集

ディープ強化学習

AIが複雑な行動を学習し、ゲーム、ロボット工学、ヘルスケアなどの課題を解決する、深層強化学習のパワーをご覧ください。

深層強化学習(Deep Reinforcement Learning:DRL)は、強化学習(Reinforcement Learning:RL)の原理と深層学習(Deep Learning:DL)のパワーを組み合わせた機械学習(Machine Learning:ML)のサブ分野である。複雑で高次元の環境における試行錯誤を通じて、AIエージェントが最適な意思決定戦略を学習することを可能にします。ディープ・ニューラル・ネットワークを使用することで、DRLモデルは画像やセンサーデータのピクセルのような生の感覚入力を、手作業による特徴工学を必要とせずに処理することができます。これにより、従来のRL手法では困難であった問題に取り組むことができます。

深層強化学習の仕組み

典型的なDRLの設定では、エージェントは一連の時間ステップを通じて環境と相互作用します。各ステップでエージェントは環境の状態を観察し、行動を起こし、報酬やペナルティを受け取ります。目標は、時間の経過とともに累積報酬の合計を最大化する行動選択戦略(ポリシー)を学習することです。DRLの "ディープ "な部分は、ディープ・ニューラル・ネットワークを使用して、方針そのもの、または状態や行動の望ましさを推定する価値関数を近似することにある。このネットワークは勾配降下のようなアルゴリズムを使って訓練され、受け取った報酬に基づいてモデルの重みを調整する。このプロセス全体はマルコフ決定過程(MDP)を用いて定式化され、逐次的な意思決定をモデル化するための数学的基礎を提供する。

他の概念との区別

DRLを関連用語と区別することは重要である:

  • 強化学習(RL)DRLは現代的で高度なRLである。従来のRLは、状態をアクションにマッピングするために表や一次関数に依存することが多いが、大規模な状態空間(例えば、画面上のすべての可能なピクセルの組み合わせ)に苦戦する。DRLは、ディープニューラルネットワークを強力な関数近似器として使用することで、この制限を克服しています。
  • ディープラーニング(DL)ディープラーニングは、複雑な入力を処理するDRLの能力を支える技術です。DLは一般的に、モデルがラベル付きデータセットから学習する教師あり学習と関連していますが、DRLは報酬の疎なフィードバックから学習するため、最適化や制御タスクに適しています。
  • 教師あり学習この学習パラダイムでは、予測モデルを学習させるためにラベル付けされたデータセットを必要とする。一方、DRLはラベル付けされたデータを必要とせず、報酬シグナルに導かれながら環境との相互作用を通じて自らデータを生成する。そのため、ラベル付けされたデータが乏しい、あるいは入手できないような問題に非常に効果的です。

実世界での応用

DRLは様々な複雑な領域でブレークスルーをもたらしてきた:

  • ゲームプレイ:最も有名な例として、世界トップの囲碁棋士を破ったディープマインドのアルファ碁がある。このDRLエージェントは、自分自身と何百万もの対局を行うことで学習し、碁盤の視覚的な状態を利用して戦略的な意思決定を行った。同様に、オープンAIファイブは、複雑なビデオゲームDota 2を超人的なレベルでプレイすることを学んだ
  • ロボット工学DRLは、物体の操作や移動、組み立てなどの複雑な作業を行うロボットの訓練に使用されます。例えば、ロボットはカメラからの入力を直接処理することで、不慣れな物体を手に取ることを学習し、把持に成功すると報酬を受け取ることができます
  • 自律走行車DRLは、自動運転車のAIに関する記事で詳述されているように、ダイナミックな交通シナリオにおけるナビゲーション、進路計画、意思決定のための高度な制御ポリシーの開発を支援します。
  • 資源管理:DRLは、エネルギーグリッド、交通信号制御、化学反応最適化などの複雑なシステムを最適化することができます。例えば、スマートシティの交通流管理にDRLを使用することが挙げられます。
  • レコメンデーションシステムDRLは、長期的なエンゲージメントや満足度を最大化するために、ユーザーに表示されるレコメンデーションの順序を最適化することができます。
  • ヘルスケアDRLは、患者の状態に基づいて最適な治療方針と薬剤投与量を発見するために研究されており、ヘルスケアにおけるAIの広範な分野に貢献しています。

AIエコシステムにおける妥当性

ディープ強化学習はAI研究の最前線にあり、機械の自律性の限界を押し広げています。Ultralyticsのような企業は、物体検出や 画像セグメンテーションなどのタスクのために、主にUltralyticsYOLOのような最先端の視覚モデルに焦点を当てていますが、これらの知覚システムの出力は、しばしばDRLエージェントにとって重要な入力となります。例えば、ロボットはDRLポリシーが次の行動を決定する前に、Ultralytics HUBを介して配置されたUltralytics YOLOモデルを使用して環境(状態表現)を認識するかもしれません。DRLを理解することで、高度な知覚がより広範な自律システムにどのように適合するかを理解することができます。この開発は、PyTorch(PyTorchホームページ)やTensorFlow(TensorFlowホームページ)のようなフレームワークによって促進され、Gymnasiumのようなシミュレーション環境でテストされることが多い。DeepMindのような一流の研究組織や、人工知能推進協会(AAAI)のような学術団体は、このエキサイティングな分野の進歩を推進し続けている。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク