Yolo 深圳
深セン
今すぐ参加
用語集

深層強化学習

深層強化学習(DRL)を探求し、AI意思決定と深層学習を組み合わせる方法を学びましょう。Ultralytics を知覚層として活用する方法を今すぐ習得しましょう。

深層強化学習(DRL)は、 人工知能(AI)の高度なサブセットであり、 強化学習の意思決定能力と 深層学習(DL)の知覚能力を 組み合わせたものである。従来の強化学習は状況と行動を対応付けるために表形式の手法に依存するが、 環境が複雑または視覚的である場合にはこれらの手法は苦戦する。 DRLはニューラルネットワークを用いて 動画フレームやセンサー読み取り値などの高次元入力データを解釈することでこの課題を克服し、 明示的な人間の指示なしに機械が生の経験から直接効果的な戦略を学習することを可能にする。

DRLの中核メカニズム

DRLシステムでは、AIエージェントが離散的な時間ステップで環境と相互作用する。各ステップにおいて、エージェントは現在の「状態」を観察し、ポリシーに基づいて行動を選択し、その行動の成功または失敗を示す報酬信号を受け取る。主な目標は、時間の経過に伴う累積報酬を最大化することである。

「深層」という要素は、深層ニューラルネットワークを用いてポリシー(行動戦略)または価値関数(推定される将来の報酬)を近似することを指します。これによりエージェントは構造化されていないデータを処理でき、コンピュータビジョン(CV)を活用して人間のように環境を「見る」ことが可能になります。この機能はPyTorchなどのフレームワークによって実現されています。 PyTorchTensorFlowといったフレームワークによって実現され、 これらの複雑なネットワークの学習を容易にします。

実際のアプリケーション

DRLは理論研究の域を超え、様々な産業分野において実践的で影響力の大きい応用へと発展しています:

  • 高度なロボティクス: ロボティクスにおけるAIの分野において、DRL(深層強化学習)機械がハードコーディングが困難な複雑な運動技能を習得することを可能にします。ロボットは、NVIDIA Simのような物理エンジン内で動作を洗練させることで、不規則な物体の把持や起伏のある地形を移動することを学習できます。これは多くの場合、ポリシーを物理ハードウェアに展開する前に合成データを用いたトレーニングを伴います。
  • 自動運転: 自動運転車はDRLを活用し、予測不可能な交通状況において リアルタイムの意思決定を行う。物体検出モデルが歩行者や 標識を識別する一方、DRLアルゴリズムはその情報を活用し、 車線合流、交差点通過、速度制御における安全な運転方針を決定。 安全に必要な推論遅延を効果的に管理する。

国家オブザーバーとしてのビジョン

多くのDRLアプリケーションにおいて、「状態」は視覚的である。高速モデルはエージェントの眼として機能し、 生の画像データを構造化データに変換することで、ポリシーネットワークが処理できるようにする。以下の例は、 YOLO26モデルがエージェントの知覚層として機能し、 環境から観測値(例:障害物数)を抽出する方法を示している。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRLと関連概念の区別

ディープ強化学習を類似の用語と区別することは、そのユニークな位置づけを理解するのに役立つ。 を理解するのに役立つ:

  • 強化学習(RL) 標準的なRLは基礎概念であるが、通常はルックアップテーブル(Qテーブルなど)に依存しており、 状態空間が大きい場合には非現実的となる。DRLは深層学習を用いて関数を近似することでこの問題を解決し、 画像のような複雑な入力の処理を可能にする。
  • 人間からのフィードバックを用いた強化学習(RLHF) DRLが通常、数学的に定義された報酬関数(例:ゲーム内の得点)を最適化するのに対し、RLHFは 主観的な人間の選好を用いてモデル(特に大規模言語モデル(LLM))を洗練させ、 AIの行動を人間の価値観に整合させる。この手法はOpenAIなどの研究グループによって普及した。
  • 教師なし学習 教師なし手法は、明示的なフィードバックなしにデータ内の隠れたパターンを探索する。これに対し、DRLは目標指向型であり、 サットンとバルトの基礎文献で論じられているように、報酬信号によって駆動され、エージェントを特定の目標に向けて積極的に導く。

DRLシステムの知覚層に必要なデータセットを管理したい開発者は、 アノテーションとクラウドトレーニングのワークフローを簡素化する Ultralytics を利用できます。さらに、研究者は確立されたベースラインに対して DRLアルゴリズムをベンチマークするため、Gymnasiumなどの標準化された環境を 頻繁に利用します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加