Yolo 深圳
深セン
今すぐ参加
用語集

AIエージェント

AIエージェントの世界を探求しましょう。これらのUltralytics を活用し、複雑な課題を解決するためにリアルタイムで知覚し、推論し、行動する仕組みを学びます。

AIエージェントとは、環境を認識し、複雑な論理を通じて推論を行い意思決定を下し、定義された目標を達成するために特定の行動を取ることができる自律システムである。静的な機械学習モデルが受動的に入力を処理して出力するのと異なり、エージェントは継続的なワークフロー内で動的に動作する。これらのシステムは人工知能の「能動的」層を形成し、デジタル予測と現実世界の実行の間のギャップを埋める。記憶と適応学習を活用することで、エージェントはソフトウェア自動化から物理的なナビゲーションに至るまでのタスクを、人間の継続的な介入なしに処理できる。

知覚-推論-行動ループ

AIエージェントの機能は、しばしば知覚-行動ループと呼ばれる循環プロセスに依存している。このアーキテクチャにより、エージェントは周囲と意味のある相互作用が可能となる。

  1. 知覚(センシング):エージェントは世界から情報を収集する。 コンピュータビジョンアプリケーションでは、エージェントはカメラを「目」として使用する。 YOLO26のような高速モデルを用いて物体検出やセグメンテーションを実行し、 生のピクセルを構造化されたデータに変換する。
  2. 推論(思考):エージェントは認識したデータを目標に対して処理する。この段階では、 意味理解のために大規模言語モデル(LLM)を統合したり、 意思決定戦略を最適化するために強化学習アルゴリズムを統合したりすることが多い。高度なエージェントは、チェスのプレイヤーが将来の手を予測するように、 複数手先まで計画を立てることができる。
  3. アクション(実行):エージェントはその推論に基づいてタスクを実行する。これはデータベースへのクエリやアラートの送信といったデジタルアクション、あるいはロボットアームがコンベアベルトから特定のアイテムを拾うといった物理的なアクション(ロボット工学における)となり得る。

AIエージェント対AIモデル

エージェントとモデルは技術スタックにおいて異なる役割を果たすため、両者を区別することが重要です。

  • AIモデル:モデルとは、パターンを認識するように訓練されたニューラルネットワークなどの数学的エンジンである。 これは予測(例:「これは車です」)を提供するツールであるが、それ自体では予測に基づいて行動しない。
  • AIエージェント:エージェントとは、モデルをツールとして使用する包括的なシステムである。それは主体性——変化を起こす能力——を有する。例えば、モデルが赤信号を識別する一方で、エージェントはブレーキをかけることを決定する。

実際のアプリケーション

AIエージェントは、認知的柔軟性を必要とするワークフローを自動化することで産業を変革している。

  • スマート製造: 産業オートメーションにおいて、視覚エージェントが生産ラインを監視する。品質管理システムが欠陥を検知した場合、エージェントは自律的に機械を停止させ、その事象を記録することで廃棄物を防止する。
  • 自律型物流:倉庫では在庫管理に自律型ロボットを活用する。これらのエージェントは SLAM(同時位置推定とマッピング)と 視覚モデルを用いて動的な環境を移動し、 荷物の位置特定、ピッキング、輸送を効率的に行う。

シンプルなビジョン・エージェントの構築

開発者は知覚モデルと条件付きロジックを組み合わせることで基本的なエージェントを構築できます。以下のPython シンプルな「セキュリティエージェント」を実装しています。 ultralytics パッケージ。エージェントは人物を検知し、モデルの信頼度に基づいてアラートを発動するかどうかを判断する。

from ultralytics import YOLO

# Load the YOLO26 model (The Agent's Perception)
model = YOLO("yolo26n.pt")

# 1. Perceive: The agent analyzes an image
results = model("bus.jpg")

# 2. Reason & 3. Act: Decision logic based on perception
for result in results:
    # Check if a 'person' (class 0) is detected with high confidence
    if 0 in result.boxes.cls and result.boxes.conf.max() > 0.5:
        print("ACTION: Person detected! Initiating security protocol.")
    else:
        print("ACTION: Area clear. Continuing surveillance.")

関連概念

  • エッジAIリアルタイムで反応するため、エージェントは NVIDIA などのハードウェア上でローカルに実行されることが多く、 クラウドではなくデータ発生源で処理することで遅延を最小限に抑える。
  • 汎用人工知能(AGI) 現在のエージェントは専門化されている(狭義の人工知能)が、AGIとは人間が行えるあらゆる知的タスクを実行可能な 仮説上のエージェントを指す。
  • 生成AI現代のエージェントは、動的な応答やコードを生成するために頻繁に生成AIを利用し、ワークフローの一環としてコンテンツを生成できるアシスタントとして機能する。

エージェントの基盤モデルをトレーニングしたい方に向けて、 Ultralytics データセットのラベリングとトレーニング実行の管理を効率化する環境を提供します。 エージェントアーキテクチャに関する詳細情報は、 スタンフォード大学人工知能研究所(Stanford HAI)や DeepMindなどの組織による研究資料で確認できます。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加