AIが複雑な行動を学習し、ゲーム、ロボット工学、ヘルスケアなどの課題を解決する、深層強化学習のパワーをご覧ください。
深層強化学習(Deep Reinforcement Learning:DRL)は、強化学習(Reinforcement Learning:RL)の原理と深層学習(Deep Learning:DL)のパワーを組み合わせた機械学習(Machine Learning:ML)のサブ分野である。複雑で高次元の環境における試行錯誤を通じて、AIエージェントが最適な意思決定戦略を学習することを可能にします。ディープ・ニューラル・ネットワークを使用することで、DRLモデルは画像やセンサーデータのピクセルのような生の感覚入力を、手作業による特徴工学を必要とせずに処理することができます。これにより、従来のRL手法では困難であった問題に取り組むことができます。
典型的なDRLの設定では、エージェントは一連の時間ステップを通じて環境と相互作用します。各ステップでエージェントは環境の状態を観察し、行動を起こし、報酬やペナルティを受け取ります。目標は、時間の経過とともに累積報酬の合計を最大化する行動選択戦略(ポリシー)を学習することです。DRLの "ディープ "な部分は、ディープ・ニューラル・ネットワークを使用して、方針そのもの、または状態や行動の望ましさを推定する価値関数を近似することにある。このネットワークは勾配降下のようなアルゴリズムを使って訓練され、受け取った報酬に基づいてモデルの重みを調整する。このプロセス全体はマルコフ決定過程(MDP)を用いて定式化され、逐次的な意思決定をモデル化するための数学的基礎を提供する。
DRLを関連用語と区別することは重要である:
DRLは様々な複雑な領域でブレークスルーをもたらしてきた:
ディープ強化学習はAI研究の最前線にあり、機械の自律性の限界を押し広げています。Ultralyticsのような企業は、物体検出や 画像セグメンテーションなどのタスクのために、主にUltralyticsYOLOのような最先端の視覚モデルに焦点を当てていますが、これらの知覚システムの出力は、しばしばDRLエージェントにとって重要な入力となります。例えば、ロボットはDRLポリシーが次の行動を決定する前に、Ultralytics HUBを介して配置されたUltralytics YOLOモデルを使用して環境(状態表現)を認識するかもしれません。DRLを理解することで、高度な知覚がより広範な自律システムにどのように適合するかを理解することができます。この開発は、PyTorch(PyTorchホームページ)やTensorFlow(TensorFlowホームページ)のようなフレームワークによって促進され、Gymnasiumのようなシミュレーション環境でテストされることが多い。DeepMindのような一流の研究組織や、人工知能推進協会(AAAI)のような学術団体は、このエキサイティングな分野の進歩を推進し続けている。