エージェントが試行錯誤を通じてアクションを最適化し、報酬を最大化する強化学習をご覧ください。概念、アプリケーション、および利点を探求しましょう。
強化学習(RL)は、機械学習(ML)の動的なサブセットである。 機械学習(ML)のダイナミックなサブセットである。 自律的なAIエージェントに、試行錯誤を通じて最適な意思決定を行う方法を教えることに焦点を当てた動的な機械学習(ML)のサブセットである。 試行錯誤を行う。静的なデータセットに依存する他の学習パラダイムとは異なり、RLではエージェントが特定の目標を達成するために動的な環境と相互作用する。 特定の目標を達成するために、エージェントは動的な環境と相互作用する。エージェントは、その行動に基づいて、報酬や罰則という形でフィードバックを受ける。 エージェントは、その行動に基づいて報酬や罰則という形でフィードバックを受け取り、時間の経過とともに累積報酬を最大化する戦略を徐々に洗練させていく。このプロセスは 行動心理学における このプロセスは、行動が結果によって強化されるという、行動心理学におけるオペラント条件付けの概念を反映している。
強化学習の枠組みは、しばしば数学的に次のように記述される。 マルコフ決定過程(MDP)と呼ばれる。このサイクルがどのように機能するかを理解するには このサイクルがどのように機能するかを理解するためには、学習ループに関わる主要な構成要素を分解することが役に立つ:
RLは理論的な研究の域を超え、今やさまざまな業界の複雑な実世界システムを動かしている。
RLは他の機械学習アプローチと区別することが重要である。 と区別することが重要である。
多くのアプリケーションにおいて、エージェントが観察する「状態」は視覚的なものである。高性能な視覚モデル YOLO11のような高性能な視覚モデルは、RL エージェントの知覚層としてよく使われる。ビジョンモデルはシーンを処理して物体をdetect し、この構造化された情報をRLエージェントに渡して次の行動を決定する。 エージェントに渡される。
次の例は、YOLO モデルを使用して、YOLO 意思決定ループに供給できる状態(検出されたオブジェクト)を生成する方法を示している。 を生成する方法を示します。
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
このような概念がどのようにスケールするのかを探るために、研究者はしばしば次のような環境を利用する。 OpenAI Gym(現Gymnasium)のような環境を利用して、RLアルゴリズムのテストを標準化している。計算能力が高まるにつれて 計算能力が向上すると 人間のフィードバックからの強化学習(RLHF) のような技術は、エージェントが人間の価値観にどのように合致するかをさらに洗練させている。


