Yolo 深圳
深セン
今すぐ参加
用語集

強化学習

エージェントが試行錯誤を通じてアクションを最適化し、報酬を最大化する強化学習をご覧ください。概念、アプリケーション、および利点を探求しましょう。

強化学習(RL)は、機械学習(ML)の動的なサブセットである。 機械学習(ML)のダイナミックなサブセットある。 自律的なAIエージェントに、試行錯誤を通じて最適な意思決定を行う方法を教えることに焦点を当てた動的な機械学習(ML)のサブセットである。 試行錯誤を行う。静的なデータセットに依存する他の学習パラダイムとは異なり、RLではエージェントが特定の目標を達成するために動的な環境と相互作用する。 特定の目標を達成するために、エージェントは動的な環境と相互作用する。エージェントは、その行動に基づいて、報酬や罰則という形でフィードバックを受ける。 エージェントは、その行動に基づいて報酬や罰則という形でフィードバックを受け取り、時間の経過とともに累積報酬を最大化する戦略を徐々に洗練させていく。このプロセスは 行動心理学における このプロセスは、行動が結果によって強化されるという、行動心理学におけるオペラント条件付けの概念を反映している。

コアコンセプトとメカニズム

強化学習の枠組みは、しばしば数学的に次のように記述される。 マルコフ決定過程(MDP)と呼ばれる。このサイクルがどのように機能するかを理解するには このサイクルがどのように機能するかを理解するためには、学習ループに関わる主要な構成要素を分解することが役に立つ:

  • AIエージェント学習者または意思決定者 環境を認識し、行動を実行する。
  • 環境:エージェントが活動する物理的または仮想的な世界。ビデオゲームにおける ビデオゲームにおけるAI ロボット工学では物理的空間を指す。
  • 状態:エージェントに提供される現在の状況のスナップショット。これはしばしば感覚的な 入力が含まれる。 コンピュータビジョン(CV)システム。
  • 行動:エージェントが行う特定の動きや決定。すべての可能な動きの集合を 行動空間
  • 報酬:行動を起こした後に環境から受け取る数値信号。正の報酬 は行動を奨励し、負の報酬(ペナルティ)は行動を抑制する。
  • ポリシー:エージェントが現在の状態に基づいて次の行動を決定するために採用する戦略またはルールセット。 現在の状態。

強化学習の実世界での応用

RLは理論的な研究の域を超え、今やさまざまな業界の複雑な実世界システムを動かしている。

  • ロボット工学におけるAI製造や物流において 製造や物流の分野では、ロボットはRLを使用して、さまざまな形状の物体を把持するなどの複雑な操作タスクを学習する。 すべての動作をハードコーディングする代わりに、ロボットは物理的なフィードバックに基づいてグリップを調整することを学習する。 の効率を大幅に改善します。 スマート製造環境における効率を大幅に改善します。
  • 自律走行車 自動運転車はRLを利用して高度な運転判断を行う。一方 物体検出モデルが歩行者や標識 RLアルゴリズムは、最も安全で効率的な操作を決定するのに役立つ。 混雑した交差点をどのようにナビゲートするかなど、最も安全で効率的な操作を決定するのに役立つ。
  • 交通制御:都市計画者は、交通信号のタイミングを最適化するためにRLを採用している。交通の流れを報酬関数 交通の流れを報酬関数として扱うことで、システムは動的に適応して渋滞を緩和することができる。 交通管理におけるAIの重要な要素である。

強化学習と関連用語

RLは他の機械学習アプローチと区別することが重要である。 と区別することが重要である。

  • 教師あり学習この この方法は、正しい出力(ラベル)と対になった 入力と正しい出力(ラベル)が対になっている学習データセットに依存する。モデルは予測値と既知のラベルの誤差を最小化することで学習する。 を最小化することで学習する。対照的に、RLはあらかじめ「正しい」答えを得ることはできない。 相互作用を通じて発見しなければならない。
  • 教師なし学習 これは、ラベル付けされていないデータから隠れたパターンや構造を見つけることである。 k-meansクラスタリングなどである。RLが異なるのは 単にデータ分布を分析するのではなく、報酬信号を最大化することが目的である。
  • 深層強化学習(DRL) RLが学習パラダイムを定義しているのに対し、DRLはそれを深層学習と組み合わせたものである。 深層学習。DRLでは ニューラル・ネットワークを使用して これにより、エージェントは生の画像ピクセルのような高次元の入力を処理できるようになります。

コンピュータビジョンとRLの統合

多くのアプリケーションにおいて、エージェントが観察する「状態」は視覚的なものである。高性能な視覚モデル YOLO11のような高性能な視覚モデルは、RL エージェントの知覚層としてよく使われる。ビジョンモデルはシーンを処理して物体をdetect し、この構造化された情報をRLエージェントに渡して次の行動を決定する。 エージェントに渡される。

次の例は、YOLO モデルを使用して、YOLO 意思決定ループに供給できる状態(検出されたオブジェクト)を生成する方法を示している。 を生成する方法を示します。

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

このような概念がどのようにスケールするのかを探るために、研究者はしばしば次のような環境を利用する。 OpenAI Gym(現Gymnasium)のような環境を利用して、RLアルゴリズムのテストを標準化している。計算能力が高まるにつれて 計算能力が向上すると 人間のフィードバックからの強化学習(RLHF) のような技術は、エージェントが人間の価値観にどのように合致するかをさらに洗練させている。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加