YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

強化学習

強化学習(RL)のコアコンセプトを探求しましょう。エージェントがフィードバックを使用してタスクを習得する方法、そしてUltralytics YOLO26がRLビジョンシステムをどのように強化するかをご覧ください。

強化学習 (RL) は、機械学習 (ML)の目標指向型サブセットであり、エージェントとして知られる自律システムが、行動を実行し、環境からフィードバックを受け取ることで意思決定を学習します。正解がラベル付けされた静的データセットに依存する教師あり学習とは異なり、RLアルゴリズムは試行錯誤の動的なプロセスを通じて学習します。エージェントはシミュレーションまたは現実世界と相互作用し、その行動の結果を観察して、どの戦略が最も高い長期的な報酬をもたらすかを決定します。このアプローチは、行動が時間の経過とともに正の強化 (報酬) と負の強化 (罰) によって形成されるオペラント条件付けという心理学的概念を密接に模倣しています。

RLループの主要概念

強化学習(RL)がどのように機能するかを理解するためには、それを継続的な相互作用のサイクルとして視覚化することが役立ちます。このフレームワークは、結果が部分的にランダムであり、部分的に意思決定者によって制御される状況での意思決定を構造化するマルコフ決定プロセス(MDP)としてしばしば数学的に定式化されます。

この学習ループの主要なコンポーネントは次のとおりです。

  • AIエージェント: 学習と意思決定を担当するエンティティです。環境を認識し、累積的な成功を最大化するための行動を取ります。
  • 環境: エージェントが動作する外部世界。これは、複雑なビデオゲーム、金融市場シミュレーション、または物流AIにおける物理的な倉庫であり得ます。
  • 状態: 現在の状況のスナップショットまたは表現。視覚アプリケーションでは、これは多くの場合、コンピュータビジョン(CV)を使用してカメラフィードを処理し、オブジェクトや障害物をdetectすることを含みます。
  • アクション: エージェントが行う特定の動きまたは選択です。可能なすべての動きの完全な集合は行動空間と呼ばれます。
  • 報酬: アクションの後、環境からエージェントに送られる数値信号。よく設計された報酬関数は、有益な行動には正の値を割り当て、有害な行動にはペナルティを割り当てます。
  • 方策: エージェントが現在の状態に基づいて次のアクションを決定するために使用する戦略またはルールセットです。Q学習のようなアルゴリズムは、この方策がどのように更新され、最適化されるかを定義します。

実際のアプリケーション

強化学習は理論研究を超えて、様々な産業における実用的で影響の大きい展開へと移行しました。

  • 高度なロボティクス: ロボティクスにおけるAIの分野では、強化学習(RL)により、ハードコードが困難な複雑な運動スキルを機械が習得できるようになります。ロボットは、NVIDIA Isaac Simのような物理エンジン内でトレーニングすることで、不規則な物体を掴んだり、不均一な地形をナビゲートすることを学習し、実世界に展開する前にその能力を磨きます。
  • 自律システム: 自動運転車は、予測不可能な交通シナリオでリアルタイムの意思決定を行うためにRLを活用します。オブジェクト検出モデルが歩行者や標識を識別する一方で、RLアルゴリズムは車線合流や交差点ナビゲーションのための安全な運転ポリシーを決定するのに役立ちます。
  • 戦略的最適化: RLは、Google DeepMindのAlphaGoのようなシステムが複雑なボードゲームで人間の世界チャンピオンを破ったときに世界的な注目を集めました。ゲーム以外にも、これらのエージェントは、データセンターの冷却システムを制御してエネルギー消費を削減するなど、産業ロジスティクスを最適化します。

視覚と強化学習の統合

多くの現代のアプリケーションでは、エージェントが観測する「状態」は視覚的です。YOLO26のような高性能モデルは、RLエージェントの知覚層として機能し、生画像を構造化データに変換します。この処理された情報(オブジェクトの位置やクラスなど)が、RLポリシーがアクションを選択するために使用する状態となります。

次の例は ultralytics 環境フレームを処理するパッケージ。 理論的な強化学習ループのための状態表現(例:オブジェクトの数)を作成する。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

関連用語の区別

強化学習と他の機械学習パラダイムを区別することが重要です。

  • vs. 教師あり学習: 教師あり学習は、知識豊富な外部の教師がラベル付き訓練データ(例:「この画像には猫が含まれています」)を提供する必要があります。対照的に、RLは明示的なラベルなしに自身の行動の結果から学習し、探索を通じて最適な経路を発見します。
  • vs. 教師なし学習: 教師なし学習は、ラベルなしデータ内の隠れた構造やパターンを見つけること(顧客のクラスタリングなど)に焦点を当てます。RLは、データ構造を記述するだけでなく、報酬信号を最大化することに焦点を当てた、明確な目標指向である点で異なります。

計算能力が向上するにつれて、人間のフィードバックからの強化学習 (RLHF)のような技術は、エージェントの学習方法をさらに洗練させ、その目標を複雑な人間の価値観や安全基準により密接に合わせるようになっています。研究者は、これらのアルゴリズムをベンチマークし改善するために、Gymnasiumのような標準化された環境をよく使用します。これらのエージェントの知覚層に必要なデータセットを管理しようとしているチームにとって、Ultralytics Platformはアノテーションとモデル管理のための包括的なツールを提供します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。