YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

強化学習

エージェントが試行錯誤を通じてアクションを最適化し、報酬を最大化する強化学習をご覧ください。概念、アプリケーション、および利点を探求しましょう。

強化学習(RL)は、インテリジェントエージェントが試行錯誤を通じて最適な意思決定を学習する機械学習(ML)の領域です。他の学習パラダイムとは異なり、エージェントはどのような行動を取るべきかを指示されません。代わりに、環境と相互作用し、報酬またはペナルティの形でフィードバックを受け取ります。エージェントの基本的な目標は、時間の経過とともに累積報酬を最大化する方策(ポリシー)を学習することです。このアプローチは行動心理学に触発されたものであり、SuttonとBartoによる基礎的なテキストで概説されているように、逐次的な意思決定問題を解決するのに特に強力です。

強化学習はどのように機能するか

強化学習(RL)プロセスは、いくつかの主要なコンポーネントを含む連続的なフィードバックループとしてモデル化されます。

  • エージェント: ロボットやゲームプログラムなど、学習および意思決定を行う主体。
  • 環境:エージェントが相互作用する外部世界。
  • 状態: 特定の瞬間の環境のスナップショットであり、エージェントが意思決定を行うために必要な情報を提供します。
  • アクション: エージェントが可能なオプションのセットから選択した動き。
  • 報酬: 各アクションの後、環境からエージェントに送信される数値シグナルで、アクションがどれほど望ましいかを示します。

エージェントは、環境の現在の状態を観察し、アクションを実行し、次の状態とともに報酬を受け取ります。このサイクルが繰り返され、この経験を通して、エージェントはより長期的な報酬につながるアクションを優先するようにポリシーを徐々に改善していきます。この問題の形式的な枠組みは、マルコフ決定過程(MDP)によって記述されることがよくあります。一般的な強化学習アルゴリズムには、Q学習やPolicy Gradientsなどがあります。

他の学習パラダイムとの比較

強化学習(RL)は、他の主要な機械学習タイプとは異なります。

  • Supervised Learning: 教師あり学習では、モデルは正解が完全にラベル付けされたデータセットから学習します。たとえば、画像分類モデルは、明示的なラベル付きの画像でトレーニングされます。対照的に、強化学習(RL)は、各ステップで最適なアクションが何であるかという明示的な教師なしに、報酬シグナルから学習します。教師あり学習と教師なし学習の詳細な比較をご覧ください。
  • 教師なし学習: このパラダイムは、ラベルなしデータに隠されたパターンや構造を見つけることを伴います。その目標は、報酬を最大化するための意思決定ではなく、k-meansクラスタリングを使用するなど、データ探索です。
  • 深層強化学習(DRL): DRLは異なるパラダイムではなく、複雑な高次元の状態空間と行動空間を処理するために深層ニューラルネットワークを使用するRLの高度な形式です。これにより、RLは、自動運転車のためにカメラからの生のピクセルデータを処理するなど、以前は扱いにくいと考えられていた問題に拡張できます。

実際のアプリケーション

強化学習(RL)は、さまざまな複雑な分野で目覚ましい成功を収めています。

  • ゲームプレイ: 強化学習エージェントは、複雑なゲームで人間を超えるパフォーマンスを達成しています。代表的な例は、世界最高の囲碁プレイヤーを打ち負かすことを学習したDeepMindのAlphaGoです。もう1つは、エージェントが複雑なチーム戦略を学習したOpenAIのDota 2に関する研究です。
  • ロボティクス: RLは、オブジェクトの操作、組み立て、移動などの複雑なタスクを実行するようにロボットをトレーニングするために使用されます。明示的にプログラムされる代わりに、ロボットはシミュレートされた環境または実際の環境での試行が成功した場合に報酬を得ることで、歩いたりオブジェクトをつかんだりすることを学習できます。これは、バークレー人工知能研究所(BAIR)ラボなどの機関での主要な研究分野です。
  • Resource Management: 都市の交通流の管理、エネルギーグリッドの負荷分散、化学反応の最適化など、複雑なシステムにおけるオペレーションを最適化します。
  • レコメンデーションシステム: RLを使用して、目先のクリックだけでなく、長期的なエンゲージメントと満足度を最大化するために、ユーザーに推奨されるアイテムのシーケンスを最適化できます。

AIエコシステムにおける関連性

強化学習は、特に自律型システムを構築する上で、より広範な人工知能(AI)の状況において重要な要素です。Ultralyticsのような企業は、教師あり学習を使用した物体検出インスタンスセグメンテーションなどのタスク向けに、Ultralytics YOLOのようなビジョンAIモデルを専門としていますが、これらのモデルの知覚能力はRLエージェントにとって不可欠な入力となります。

例えば、ロボットは、周囲の状況(「状態」)を理解するために、Ultralytics HUBを介してデプロイされたYOLOモデルを知覚に利用するかもしれません。次に、RLポリシーはこの情報を使用して、次の動きを決定します。知覚のためのコンピュータビジョン(CV)と意思決定のためのRLとの間のこの相乗効果は、インテリジェントなシステムを構築するための基本です。これらのシステムは、PyTorchTensorFlowなどのフレームワークを使用して開発されることが多く、Gymnasium(旧OpenAI Gym)のような標準化されたシミュレーション環境で頻繁にテストされます。人間の好みに合わせたモデルの整合性を向上させるために、人間のフィードバックからの強化学習(RLHF)のような手法も、この分野でますます重要になっています。RLの進歩は、DeepMindのような組織や、NeurIPSのような学術会議によって継続的に推進されています。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました