YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Deep Reinforcement Learning

ディープ強化学習 (DRL) を探索し、AIの意思決定とディープラーニングをどのように組み合わせるかを学びましょう。Ultralytics YOLO26を知覚レイヤーとして使用する方法を解説します。

ディープ強化学習(DRL)は、人工知能 (AI) の高度なサブセットであり、強化学習 の意思決定能力と ディープラーニング (DL) の知覚能力を組み合わせたものです。従来の強化学習は表形式の手法を用いて状況をアクションにマッピングしていましたが、環境が複雑な場合や視覚的な場合にはこれらの手法では対応が困難です。DRLは ニューラルネットワーク を使用してビデオフレームやセンサー値などの高次元入力データを解釈することでこれを克服し、人間による明示的な指示がなくても、機械が生の経験から直接効果的な戦略を学習できるようにします。

Link to this sectionDRLの核心的なメカニズム#

DRLシステムでは、AIエージェントが離散的なタイムステップで環境と相互作用します。各ステップで、エージェントは現在の「状態」を観察し、ポリシーに基づいて行動を選択し、その行動の成否を示す報酬シグナルを受け取ります。主な目的は、時間をかけて累積報酬を最大化することです。

「深層(deep)」という要素は、ポリシー(行動するための戦略)や価値関数(将来の推定報酬)を近似するために深層ニューラルネットワークを使用することを指します。これによりエージェントは非構造化データを処理できるようになり、コンピュータビジョン(CV)を活用して人間のように環境を「見る」ことが可能になります。この機能は、複雑なネットワークのトレーニングを容易にするPyTorchTensorFlowのようなフレームワークによって支えられています。

Link to this section実社会での応用#

DRLは理論研究の枠を超え、様々な業界で大きな影響力を持つ実用的なアプリケーションへと進化しています。

  • 高度なロボティクス: ロボティクスにおけるAIの分野では、DRLにより機械はコード化が困難な複雑な運動スキルを習得できます。ロボットはNVIDIA Isaac Simのような物理エンジン内で動きを洗練させることで、不規則な物体を掴んだり、起伏のある地形を移動したりすることを学習できます。これには多くの場合、ポリシーを物理ハードウェアにデプロイする前に、合成データを用いてトレーニングを行うプロセスが含まれます。
  • 自動運転: 自動運転車はDRLを活用し、予測不可能な交通シナリオでリアルタイムの意思決定を行います。物体検出モデルが歩行者や標識を識別する一方で、DRLアルゴリズムはその情報を使用して車線合流、交差点のナビゲーション、速度制御のための安全な運転ポリシーを決定し、安全性に必要な推論レイテンシを効果的に管理します。

Link to this section状態観察者としてのビジョン#

多くのDRLアプリケーションにおいて、「状態」は視覚的なものです。高速モデルがエージェントの目として機能し、生の画像をポリシーネットワークが処理可能な構造化データに変換します。以下の例は、YOLO26モデルがどのようにして環境から観測結果(障害物の数など)を抽出し、エージェントの知覚レイヤーとして機能するかを示しています。

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionDRLと関連概念の区別#

AI環境におけるDRLの独自の立ち位置を理解するため、類似の用語と区別することが役立ちます。

  • 強化学習(RL): 標準的なRLは基礎的な概念ですが、通常はルックアップテーブル(Qテーブルなど)に依存しており、状態空間が大きくなると実用的ではありません。DRLは深層学習を用いて関数を近似することでこれを解決し、画像のような複雑な入力を扱うことを可能にしています。
  • 人間のフィードバックによる強化学習(RLHF): DRLは通常、数学的に定義された報酬関数(ゲームのポイントなど)の最適化を目指しますが、RLHFは大規模言語モデル(LLM)に焦点を当て、主観的な人間の好みを使用してAIの動作を人間の価値観に合わせるようにモデルを改良します。この手法はOpenAIのような研究グループによって普及しました。
  • 教師なし学習: 教師なし学習の手法は、明示的なフィードバックなしでデータ内の隠れたパターンを探します。対照的に、DRLは目標指向型であり、Sutton and Barto による基礎的な文献で論じられているように、エージェントを特定の目的に向かって能動的に導く報酬信号によって駆動されます。

DRLシステムの知覚レイヤーに必要なデータセットを管理したい開発者は、アノテーションやクラウドトレーニングのワークフローを簡素化できるUltralytics Platformを利用できます。さらに、研究者はGymnasiumのような標準化された環境を使用して、自身のDRLアルゴリズムを確立されたベースラインと比較評価するのが一般的です。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう