深層強化学習(DRL)と、それがAIの意思決定と深層学習をどのように組み合わせるかを探ります。今日からUltralytics YOLO26を知覚層として使用する方法を学びましょう。
深層強化学習 (DRL) は、人工知能 (AI)の高度なサブセットであり、強化学習の意思決定能力と深層学習 (DL)の知覚能力を組み合わせたものです。従来の強化学習は、状況を行動にマッピングするために表形式の手法に依存していますが、これらの手法は、環境が複雑であったり視覚的であったりする場合に課題を抱えます。DRLは、ニューラルネットワークを使用して、ビデオフレームやセンサーの読み取り値などの高次元の入力データを解釈することでこれを克服し、機械が明示的な人間の指示なしに、生の経験から直接効果的な戦略を学習できるようにします。
DRLシステムでは、AIエージェントが離散的なタイムステップで環境と相互作用します。各ステップで、エージェントは現在の「状態」を観測し、ポリシーに基づいてアクションを選択し、そのアクションの成功または失敗を示す報酬シグナルを受け取ります。主な目標は、時間経過に伴う累積報酬を最大化することです。
「ディープ」コンポーネントは、ディープニューラルネットワークを使用して、ポリシー(行動戦略)または価値関数(推定される将来の報酬)を近似することを指します。これにより、エージェントは非構造化データを処理し、コンピュータービジョン(CV)を利用して人間が行うのと非常によく似た方法で環境を「見る」ことができます。この機能は、PyTorchやTensorFlowのようなフレームワークによって支えられており、これらの複雑なネットワークのトレーニングを容易にします。
DRLは理論的な研究を超え、さまざまな業界で実用的で影響力の大きいアプリケーションへと移行しました。
多くのDRLアプリケーションにおいて、「状態」は視覚的です。高速モデルはエージェントの目として機能し、生の画像をポリシーネットワークが作用できる構造化データに変換します。以下の例は、YOLO26モデルがエージェントの知覚層として機能し、環境から観測値(例:障害物数)を抽出する方法を示しています。
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
ディープ強化学習を類似の用語と区別することは、そのユニークな位置づけを理解するのに役立つ。 を理解するのに役立つ:
DRLシステムの知覚層に必要なデータセットを管理したい開発者は、アノテーションとクラウドトレーニングのワークフローを簡素化するUltralytics Platformを利用できます。さらに、研究者は確立されたベースラインに対してDRLアルゴリズムをベンチマークするために、Gymnasiumのような標準化された環境をよく使用します。
未来の機械学習で、新たな一歩を踏み出しましょう。