Yolo 深圳
深セン
今すぐ参加
用語集

深層強化学習

深層強化学習の力を発見しましょう。AIが、ゲーム、ロボット工学、ヘルスケアなどの課題を解決するために、複雑な行動を学習する場所です。

深層強化学習(Deep Reinforcement Learning:DRL)は、機械学習(Machine Learning:ML)の高度なサブ分野である。 機械学習(ML)の高度なサブフィールドであり 強化学習の意思決定フレームワークと ディープラーニング(DL)の強力な知覚能力と ディープラーニング(DL)の強力な知覚能力を組み合わせた先進的な機械学習(ML)分野である。 従来の強化学習が単純な環境での行動を最適化するために試行錯誤に頼っていたのに対し、DRLは多層のニューラルネットワークを統合しています。 は多層のニューラルネットワークを統合し ビデオフレームや複雑なセンサーの読み取り値など、高次元の感覚データを解釈します。この統合により AIエージェントが高度な戦略を学習し ダイナミックで非構造的な環境における難解な問題を解決するための高度な戦略を学習することができます。 プレイを可能にする。

ディープ強化学習のメカニズム

DRLの核となるのは、エージェントとその環境との相互作用であり、しばしば数学的にモデル化されるのが マルコフ決定過程(MDP)として数学的にモデル化されることが多い。教師あり学習とは異なり 教師あり学習とは異なり DRLエージェントは探索によって学習します。 は探索によって学習する。現在の状態を観察し、行動を起こし、「報酬」として知られるフィードバック信号を受け取る。 "報酬"

複雑な入力を処理するために、DRLは畳み込みニューラルネットワーク(CNN)を採用している。 畳み込みニューラルネットワーク(CNN) などのディープアーキテクチャを採用し、特定のアクションの値を近似する。バックプロパゲーションや バックプロパゲーションや バックプロパゲーションや勾配降下などの処理により、ネットワークはモデルの重みを調整する。 モデルの重みを調整する。 を最大化する。以下のようなアルゴリズム ディープQネットワーク(DQN)や プロキシマル・ポリシー最適化(PPO) などのアルゴリズムは、この学習プロセスを安定化させるのに役立つ。 を可能にする。

実際のアプリケーション

DRLの多用途性により、さまざまな産業で革新的な用途が生み出されている:

  • 高度なロボット工学ロボット工学における ロボット工学におけるAIの分野では、DRLは機械が複雑な運動技能を習得することを可能にする。 複雑な運動技能の習得を可能にする。例えば、ロボットは以下のような物理シミュレーション環境に基づいて動作を継続的に改善することで、物体の操作や不整地での歩行を学習することができます。 のような物理シミュレーション環境に基づいて動作を継続的に改善することで、物体の操作や起伏のある地形での歩行を学習することができます。 NVIDIA
  • 自律走行システム: 自律走行車はDRLを活用して を活用して、予測不可能な交通状況下でリアルタイムの意思決定を行います。LiDARやカメラからの入力を処理することで、これらのシステムは車線合流や交差点ナビゲーションの安全運転方針を学習する。 車線合流や交差点ナビゲーションの安全運転方針を学習する。 コンピュータ・ビジョン(CV)を活用することが多い。 シーンを解析します。
  • 戦略的ゲーム:DRLが世界的に有名になったのは DeepMindのAlphaGoのようなシステムが人間の世界チャンピオンを破ったことで、DRLは世界的に有名になった。これらの エージェントはシミュレーションで何百万もの潜在的戦略を探索し、人間の直感を凌駕する斬新な戦術を発見する。 を発見する。

状態監視としてのコンピュータ・ビジョンの統合

多くのDRLアプリケーションにおいて、「状態」は視覚情報を表す。高速 高速オブジェクト検出モデルは、エージェントの目 生のピクセルを構造化されたデータに変換し、ポリシー・ネットワークがそれを基に行動できるようにします。

次の例は YOLO11が DRL エージェントの状態観察を抽出する方法を示します:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRLと関連概念の区別

ディープ強化学習を類似の用語と区別することは、そのユニークな位置づけを理解するのに役立つ。 を理解するのに役立つ:

  • 強化学習(RL) 標準的なRLは基礎となる概念だが、しばしば(Qテーブルのような)ルックアップテーブルに依存する。 に依存することが多い。DRLはこれを解決するために ディープ・ラーニング(深層学習)を用いてポリシーを近似することで、これを解決する。 画像のような複雑な入力を扱うことができる。
  • 人間のフィードバックからの強化学習(RLHF) DRLは通常、数学的に定義された報酬関数(ゲームのポイントなど)を最適化するのに対し、RLHFは以下のようなモデルを改良します。 モデルを改良する。 ラージ・ランゲージ・モデル(LLM)は、人間の主観的な嗜好を用いて 人間の主観的な嗜好を利用して、AIの行動を人間の価値観に合わせる。
  • 教師なし学習 教師なし学習法は、明示的なフィードバックなしにデータの隠れたパターンを探す。対照的に、DRLは目標指向型である、 特定の目的に向かってエージェントを導く報酬信号によって駆動される。

ツールとフレームワーク

DRLシステムの開発には、堅牢なソフトウェア・エコシステムが必要です。研究者は以下のようなフレームワークに依存している。 PyTorchTensorFlowなどを使用して、基礎となるニューラルネットワークを構築する。 これらは多くの場合、以下のような標準的なインターフェース・ライブラリと組み合わされている。 Gymnasium(旧OpenAI Gym)のような標準的なインターフェイスライブラリと組み合わされることが多い。 アルゴリズムをテストし、ベンチマークするための環境を提供する。これらのモデルのトレーニングは計算集約的で、多くの場合 高性能GPUが必要となる。 が必要となることが多い。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加