YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Reinforcement Learning

強化学習(RL)の核心概念を探ります。エージェントがフィードバックを利用してタスクを習得する仕組みと、Ultralytics YOLO26がRLビジョンシステムをどのように支えるかを学びましょう。

強化学習(RL)は、機械学習(ML)における目的指向型のサブセットであり、エージェントと呼ばれる自律システムが、アクションを実行し、環境からフィードバックを受け取ることで意思決定を学習します。正解がラベル付けされた静的なデータセットに依存する教師あり学習とは異なり、RLアルゴリズムは試行錯誤という動的なプロセスを通じて学習します。エージェントはシミュレーションや現実世界と相互作用し、行動の結果を観察することで、どの戦略が長期的に最大の報酬をもたらすかを判断します。このアプローチは、オペラント条件付けという心理学の概念に近く、時間の経過とともにポジティブな強化(報酬)とネガティブな強化(罰)によって行動が形成されます。

Link to this sectionRLループの核心概念#

RLがどのように機能するかを理解するには、それを連続的な相互作用のサイクルとして視覚化するのが役立ちます。このフレームワークは、結果が部分的にランダムであり、かつ意思決定者によって制御される状況での意思決定を構造化するマルコフ決定過程(MDP)として数学的に定式化されることがよくあります。

この学習ループの主要なコンポーネントには以下が含まれます:

  • AIエージェント 学習と意思決定を担う主体。環境を認識し、累積的な成功を最大化するためのアクションをとります。
  • 環境: エージェントが動作する外部世界。これは複雑なビデオゲーム、金融市場のシミュレーション、あるいはAI in logisticsにおける物理的な倉庫などが該当します。
  • 状態: 現状のスナップショットや表現。視覚アプリケーションでは、多くの場合、コンピュータビジョン(CV)を使用してカメラフィードを処理し、物体や障害物を検出することに関わります。
  • アクション: エージェントが行う特定の動きや選択。可能なすべてのアクションの完全なセットは、アクションスペースと呼ばれます。
  • 報酬: アクションの後に環境からエージェントに送られる数値信号。適切に設計された報酬関数は、有益なアクションには正の値を、有害なアクションにはペナルティを割り当てます。
  • ポリシー: エージェントが現在の状態に基づいて次のアクションを決定するために使用する戦略やルールセット。Q学習のようなアルゴリズムは、このポリシーがどのように更新され最適化されるかを定義します。

Link to this section実社会での応用#

強化学習は理論研究の枠を超え、さまざまな産業において実践的でインパクトの大きい展開を見せています。

  • 高度なロボティクス: AI in roboticsの分野において、RLはハードコーディングが困難な複雑な運動スキルをマシンに習得させます。ロボットは、NVIDIA Isaac Simのような物理エンジン内でトレーニングすることで、現実世界に展開する前に、不規則な物体を掴んだり、起伏のある地形を移動したりすることを学習できます。
  • 自律システム: 自律走行車は、予測不可能な交通シナリオでリアルタイムの意思決定を行うためにRLを活用します。物体検出モデルが歩行者や標識を識別する一方で、RLアルゴリズムは車線の合流や交差点の通行において安全な運転ポリシーを決定するのに役立ちます。
  • 戦略的最適化: Google DeepMind's AlphaGoのようなシステムが複雑なボードゲームで人間の世界チャンピオンを破った際、RLは世界的な注目を集めました。ゲーム以外でも、これらのエージェントは産業物流を最適化しており、例えばデータセンターの冷却システムを制御してエネルギー消費を削減するなどの応用が行われています。

Link to this sectionビジョンとRLの統合#

多くの現代的なアプリケーションでは、エージェントが観察する「状態」は視覚的なものです。YOLO26のような高性能モデルは、RLエージェントの知覚層として機能し、生の画像を構造化されたデータに変換します。この処理された情報(物体の位置やクラスなど)は、RLポリシーがアクションを選択するために使用する状態になります。

次の例は、ultralyticsパッケージを使用して環境フレームを処理し、理論上のRLループのための状態表現(例:物体の数)を作成する方法を示しています。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this section関連用語の区別#

強化学習を他の機械学習パラダイムと区別することが重要です:

  • vs. 教師あり学習 教師あり学習には、ラベル付けされたトレーニングデータ(例:「この画像には猫が写っている」)を提供する知識豊富な外部の教師が必要です。これに対し、RLは明示的なラベルなしで自らの行動の結果から学習し、探索を通じて最適な経路を発見します。
  • vs. 教師なし学習 教師なし学習は、ラベル付けされていないデータ内の隠れた構造やパターンを見つけること(顧客のクラスタリングなど)に焦点を当てます。RLは、データ構造を記述するだけでなく、報酬信号を最大化することに重点を置く目的指向型であるという点で異なります。

計算能力の向上に伴い、人間のフィードバックによる強化学習(RLHF)のような手法は、エージェントがどのように学習するかをさらに洗練させ、その目的を複雑な人間の価値観や安全基準により密接に整合させています。研究者は、これらのアルゴリズムをベンチマークし改善するために、Gymnasiumのような標準化された環境をよく使用します。これらのエージェントの知覚層に必要なデータセットを管理しようとするチーム向けに、Ultralytics Platformはアノテーションとモデル管理のための包括的なツールを提供しています。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう