YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

深層強化学習

深層強化学習(DRL)と、それがAIの意思決定と深層学習をどのように組み合わせるかを探ります。今日からUltralytics YOLO26を知覚層として使用する方法を学びましょう。

深層強化学習 (DRL) は、人工知能 (AI)の高度なサブセットであり、強化学習の意思決定能力と深層学習 (DL)の知覚能力を組み合わせたものです。従来の強化学習は、状況を行動にマッピングするために表形式の手法に依存していますが、これらの手法は、環境が複雑であったり視覚的であったりする場合に課題を抱えます。DRLは、ニューラルネットワークを使用して、ビデオフレームやセンサーの読み取り値などの高次元の入力データを解釈することでこれを克服し、機械が明示的な人間の指示なしに、生の経験から直接効果的な戦略を学習できるようにします。

DRLの核となるメカニズム

DRLシステムでは、AIエージェントが離散的なタイムステップで環境と相互作用します。各ステップで、エージェントは現在の「状態」を観測し、ポリシーに基づいてアクションを選択し、そのアクションの成功または失敗を示す報酬シグナルを受け取ります。主な目標は、時間経過に伴う累積報酬を最大化することです。

「ディープ」コンポーネントは、ディープニューラルネットワークを使用して、ポリシー(行動戦略)または価値関数(推定される将来の報酬)を近似することを指します。これにより、エージェントは非構造化データを処理し、コンピュータービジョン(CV)を利用して人間が行うのと非常によく似た方法で環境を「見る」ことができます。この機能は、PyTorchTensorFlowのようなフレームワークによって支えられており、これらの複雑なネットワークのトレーニングを容易にします。

実際のアプリケーション

DRLは理論的な研究を超え、さまざまな業界で実用的で影響力の大きいアプリケーションへと移行しました。

  • 高度なロボティクス: ロボティクスにおけるAIの分野では、深層強化学習(DRL)により、ハードコードが困難な複雑な運動スキルを機械が習得できるようになります。ロボットは、NVIDIA Isaac Simのような物理エンジン内で動きを洗練させることで、不規則な物体を掴んだり、不均一な地形を横断することを学習できます。これは多くの場合、物理ハードウェアにポリシーを展開する前に合成データでトレーニングすることを伴います。
  • 自動運転: 自律走行車は、予測不可能な交通シナリオでリアルタイムの意思決定を行うためにDRLを活用します。object detectionモデルが歩行者や標識を識別する一方で、DRLアルゴリズムはその情報を利用して、車線合流、交差点ナビゲーション、速度制御のための安全な運転ポリシーを決定し、安全性に必要な推論レイテンシを効果的に管理します。

国家オブザーバーとしてのビジョン

多くのDRLアプリケーションにおいて、「状態」は視覚的です。高速モデルはエージェントの目として機能し、生の画像をポリシーネットワークが作用できる構造化データに変換します。以下の例は、YOLO26モデルがエージェントの知覚層として機能し、環境から観測値(例:障害物数)を抽出する方法を示しています。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRLと関連概念の区別

ディープ強化学習を類似の用語と区別することは、そのユニークな位置づけを理解するのに役立つ。 を理解するのに役立つ:

  • Reinforcement Learning (RL): 標準的なRLは基礎的な概念ですが、通常はルックアップテーブル(Qテーブルなど)に依存しており、大規模な状態空間では非現実的になります。DRLは、ディープラーニングを使用して関数を近似することでこれを解決し、画像のような複雑な入力を処理することを可能にします。
  • Reinforcement Learning from Human Feedback (RLHF): DRLが通常、数学的に定義された報酬関数(例:ゲームのポイント)を最適化するのに対し、RLHFは、主観的な人間の好みを活用してモデル、特に大規模言語モデル(LLM)を洗練し、AIの行動を人間の価値観に合わせる手法であり、OpenAIのような研究グループによって普及しました。
  • 教師なし学習 教師なし手法は、明示的なフィードバックなしにデータ内の隠れたパターンを探索する。これに対し、DRLは目標指向型であり、 サットンとバルトの基礎文献で論じられているように、報酬信号によって駆動され、エージェントを特定の目標に向けて積極的に導く。

DRLシステムの知覚層に必要なデータセットを管理したい開発者は、アノテーションとクラウドトレーニングのワークフローを簡素化するUltralytics Platformを利用できます。さらに、研究者は確立されたベースラインに対してDRLアルゴリズムをベンチマークするために、Gymnasiumのような標準化された環境をよく使用します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。