強化学習(RL)のコアコンセプトを探求しましょう。エージェントがフィードバックを使用してタスクを習得する方法、そしてUltralytics YOLO26がRLビジョンシステムをどのように強化するかをご覧ください。
強化学習 (RL) は、機械学習 (ML)の目標指向型サブセットであり、エージェントとして知られる自律システムが、行動を実行し、環境からフィードバックを受け取ることで意思決定を学習します。正解がラベル付けされた静的データセットに依存する教師あり学習とは異なり、RLアルゴリズムは試行錯誤の動的なプロセスを通じて学習します。エージェントはシミュレーションまたは現実世界と相互作用し、その行動の結果を観察して、どの戦略が最も高い長期的な報酬をもたらすかを決定します。このアプローチは、行動が時間の経過とともに正の強化 (報酬) と負の強化 (罰) によって形成されるオペラント条件付けという心理学的概念を密接に模倣しています。
強化学習(RL)がどのように機能するかを理解するためには、それを継続的な相互作用のサイクルとして視覚化することが役立ちます。このフレームワークは、結果が部分的にランダムであり、部分的に意思決定者によって制御される状況での意思決定を構造化するマルコフ決定プロセス(MDP)としてしばしば数学的に定式化されます。
この学習ループの主要なコンポーネントは次のとおりです。
強化学習は理論研究を超えて、様々な産業における実用的で影響の大きい展開へと移行しました。
多くの現代のアプリケーションでは、エージェントが観測する「状態」は視覚的です。YOLO26のような高性能モデルは、RLエージェントの知覚層として機能し、生画像を構造化データに変換します。この処理された情報(オブジェクトの位置やクラスなど)が、RLポリシーがアクションを選択するために使用する状態となります。
次の例は ultralytics 環境フレームを処理するパッケージ。
理論的な強化学習ループのための状態表現(例:オブジェクトの数)を作成する。
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
強化学習と他の機械学習パラダイムを区別することが重要です。
計算能力が向上するにつれて、人間のフィードバックからの強化学習 (RLHF)のような技術は、エージェントの学習方法をさらに洗練させ、その目標を複雑な人間の価値観や安全基準により密接に合わせるようになっています。研究者は、これらのアルゴリズムをベンチマークし改善するために、Gymnasiumのような標準化された環境をよく使用します。これらのエージェントの知覚層に必要なデータセットを管理しようとしているチームにとって、Ultralytics Platformはアノテーションとモデル管理のための包括的なツールを提供します。

未来の機械学習で、新たな一歩を踏み出しましょう。