Yolo 深圳
深セン
今すぐ参加
用語集

強化学習

強化学習(RL)の核心概念を探求しましょう。エージェントがフィードバックを活用してタスクを習得する方法を学び、Ultralytics が強化学習ビジョンシステムをどのように支えているかをご覧ください。

強化学習(RL)は、機械学習(ML)の目標指向型サブセットであり、自律システム(エージェント)が行動を実行し環境からのフィードバックを受け取ることで意思決定を学習する。 正解がラベル付けされた静的データセットに依存する教師あり学習とは異なり、RLアルゴリズムは動的な試行錯誤プロセスを通じて学習する。 エージェントはシミュレーションまたは現実世界と相互作用し、自らの行動の結果を観察することで、 どの戦略が長期的に最も高い報酬をもたらすかを判断する。このアプローチは、 行動が時間をかけて正の強化(報酬)と負の強化(罰)によって形成されるという オペラント条件付けの心理学的概念を忠実に模倣している。

強化学習ループの核心概念

強化学習の機能を理解するには、それを相互作用の連続的なサイクルとして視覚化すると役立つ。この枠組みは しばしば数学的に マルコフ決定過程(MDP)として形式化され、 結果が部分的にランダムで部分的に意思決定者によって制御される状況における意思決定を構造化する。

この学習ループの主要な構成要素には以下が含まれます:

  • AIエージェント学習と意思決定を担う主体。環境を認識し、累積的な成功を最大化するために行動を起こす。
  • 環境:エージェントが動作する外部世界。これは複雑なビデオゲーム、金融市場シミュレーション、あるいは物流におけるAIの物理的な倉庫などである。
  • 状態:現在の状況のスナップショットまたは表現。視覚アプリケーションでは、これにはしばしば コンピュータビジョン(CV)を用いてカメラ映像を処理し、 detect 障害物をdetect 含まれる。
  • 行動:エージェントが取る特定の動きや選択。すべての可能な動きの完全な集合は 行動空間と呼ばれる。
  • 報酬:行動後に環境からエージェントへ送られる数値信号。適切に設計された報酬関数は、有益な行動には正の値を、有害な行動にはペナルティを割り当てる。
  • ポリシー:エージェントが現在の状態に基づいて次の行動を決定するために使用する戦略またはルールセット。Q学習などのアルゴリズムは、このポリシーがどのように更新され最適化されるかを定義する。

実際のアプリケーション

強化学習は理論的研究の域を超え、様々な産業分野において実用的で影響力の大きい導入段階へと移行している。

  • 高度なロボティクス: ロボティクスにおけるAI分野では、 強化学習(RL)により機械はハードコーディングが困難な 複雑な運動技能を習得可能となる。NVIDIA Simなどの物理エンジン内で訓練することで、 不規則な物体の把持や起伏のある地形での移動を学習し、 実世界へ展開できる。
  • 自律システム: 自律走行車は、予測不可能な交通状況においてリアルタイムの意思決定を行うために強化学習(RL)を活用する。物体検出モデルが歩行者や標識を識別する一方で、強化学習アルゴリズムは車線合流や交差点通過における安全な運転方針の決定を支援する。
  • 戦略的最適化: Google システム複雑なボードゲームで人間の世界チャンピオンを破ったことで、強化学習は世界的な注目を集めた。ゲーム分野を超えて、これらのエージェントは産業物流の最適化にも活用されており、例えばデータセンターの冷却システム制御によるエネルギー消費削減などが挙げられる。

視覚と強化学習の統合

多くの現代的なアプリケーションでは、エージェントが観察する「状態」は視覚的である。 YOLO26のような高性能モデルは、強化学習エージェントの知覚層として機能し、 生画像を構造化データに変換する。この処理済み情報——物体の位置や分類など——が、 強化学習ポリシーが行動を選択するために使用する状態となる。

次の例は ultralytics 環境フレームを処理するパッケージ。 理論的な強化学習ループのための状態表現(例:オブジェクトの数)を作成する。

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

関連用語の区別

強化学習を他の機械学習パラダイムと区別することが重要です:

  • 教師あり学習との比較 教師あり学習では、知識を持つ外部監督者がラベル付き訓練データ(例:「この画像には猫が含まれている」)を提供する必要がある。これに対し、RLは明示的なラベルなしに自身の行動の結果から学習し、探索を通じて最適な経路を発見する。
  • vs.非監督学習: 非監督学習は、ラベル付けされていないデータ(顧客のクラスタリングなど)内の隠れた構造やパターンを発見することに焦点を当てています。 RL(強化学習)は、単にデータ構造を記述するのではなく、報酬信号を最大化することに焦点を当てた、明示的に目標指向である点で異なります。

計算能力の向上に伴い、 人間からのフィードバックに基づく強化学習(RLHF) といった技術がエージェントの学習方法をさらに洗練させ、その目的を複雑な人間の価値観や安全基準とより密接に整合させている。 研究者は、これらのアルゴリズムのベンチマークと改善のために、 Gymnasiumのような標準化された環境を頻繁に利用します。 これらのエージェントの知覚層に必要なデータセットを管理しようとするチームには、 Ultralytics アノテーションとモデル管理のための包括的なツールを提供します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加