エージェントが試行錯誤を通じてアクションを最適化し、報酬を最大化する強化学習をご覧ください。概念、アプリケーション、および利点を探求しましょう。
強化学習(RL)は、インテリジェントエージェントが試行錯誤を通じて最適な意思決定を学習する機械学習(ML)の領域です。他の学習パラダイムとは異なり、エージェントはどのような行動を取るべきかを指示されません。代わりに、環境と相互作用し、報酬またはペナルティの形でフィードバックを受け取ります。エージェントの基本的な目標は、時間の経過とともに累積報酬を最大化する方策(ポリシー)を学習することです。このアプローチは行動心理学に触発されたものであり、SuttonとBartoによる基礎的なテキストで概説されているように、逐次的な意思決定問題を解決するのに特に強力です。
強化学習(RL)プロセスは、いくつかの主要なコンポーネントを含む連続的なフィードバックループとしてモデル化されます。
エージェントは、環境の現在の状態を観察し、アクションを実行し、次の状態とともに報酬を受け取ります。このサイクルが繰り返され、この経験を通して、エージェントはより長期的な報酬につながるアクションを優先するようにポリシーを徐々に改善していきます。この問題の形式的な枠組みは、マルコフ決定過程(MDP)によって記述されることがよくあります。一般的な強化学習アルゴリズムには、Q学習やPolicy Gradientsなどがあります。
強化学習(RL)は、他の主要な機械学習タイプとは異なります。
強化学習(RL)は、さまざまな複雑な分野で目覚ましい成功を収めています。
強化学習は、特に自律型システムを構築する上で、より広範な人工知能(AI)の状況において重要な要素です。Ultralyticsのような企業は、教師あり学習を使用した物体検出やインスタンスセグメンテーションなどのタスク向けに、Ultralytics YOLOのようなビジョンAIモデルを専門としていますが、これらのモデルの知覚能力はRLエージェントにとって不可欠な入力となります。
例えば、ロボットは、周囲の状況(「状態」)を理解するために、Ultralytics HUBを介してデプロイされたYOLOモデルを知覚に利用するかもしれません。次に、RLポリシーはこの情報を使用して、次の動きを決定します。知覚のためのコンピュータビジョン(CV)と意思決定のためのRLとの間のこの相乗効果は、インテリジェントなシステムを構築するための基本です。これらのシステムは、PyTorchやTensorFlowなどのフレームワークを使用して開発されることが多く、Gymnasium(旧OpenAI Gym)のような標準化されたシミュレーション環境で頻繁にテストされます。人間の好みに合わせたモデルの整合性を向上させるために、人間のフィードバックからの強化学習(RLHF)のような手法も、この分野でますます重要になっています。RLの進歩は、DeepMindのような組織や、NeurIPSのような学術会議によって継続的に推進されています。