YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

エージェンティックRAG

自律的な推論でAIを強化するために、Agentic RAG を探求しましょう。Ultralytics YOLO26 と Ultralytics Platform がインテリジェントな検索とビジョンをどのように強化するかを学びましょう。

エージェンティック検索拡張生成 (Agentic RAG) は、自律的なAIエージェントを統合することで、従来の検索システムを強化する高度な人工知能 (AI)アーキテクチャです。標準的なRAGパイプラインが線形的な「検索と生成」シーケンスで動作するのに対し、エージェンティックRAGは大規模言語モデル (LLM)を知的なオーケストレーターとして機能させます。このエージェントは、ユーザーのプロンプトを独立して分析し、外部情報が必要かどうかを判断し、複数の検索クエリを策定し、取得したデータを評価し、包括的で正確な回答をまとめるまで研究を繰り返し洗練させることができます。関数呼び出しとツール使用の機能を活用することで、これらのシステムはさまざまなデータベース、API、分析ツールにわたってクエリを動的にルーティングし、複雑な多段階の問題に対処する際にLLMにおけるハルシネーションを大幅に削減します。

エージェンティックRAGシステムの仕組み

Agentic RAGの核となる革新は、ループして推論する能力にあります。主要なエージェント型AIフレームワークは、このプロセスを動的で自律的なワークフローとして構築します。

  • クエリ計画とルーティング: エージェントは複雑な質問をより小さく管理しやすいサブタスクに分解し、それぞれを最も適切なツールまたはベクトルデータベースにルーティングします。
  • 反復検索: 静的検索とは異なり、エージェントは取得したドキュメントをレビューします。コンテキストが不十分な場合、検索戦略を再構築し、再度クエリを実行します。
  • ツール統合: エージェントは、コードを記述および実行したり、数学的演算を実行したり、機械学習 (ML)モデルをトリガーして、その場で新しいデータを合成したりできます。

エージェンティックRAG vs. 標準RAG

堅牢な生成パイプラインを実装するためには、Agentic RAGをその基礎概念と区別することが重要です。

  • 標準的なRetrieval-Augmented Generation (RAG): シングルパスで動作します。セマンティックな類似性に基づいてドキュメントをフェッチし、応答を生成します。複数のステップにわたって異なるデータソースを統合する必要がある複雑なロジックには苦戦します。
  • エージェント型RAG: 意思決定とループを導入します。エージェントは検索の品質を評価し、生成を最終決定する前に、その後の検索や異なるツールをトリガーできます。
  • マルチモーダルRAG: 多様なデータタイプ(画像、テキスト、ビデオ)の検索に焦点を当てています。エージェント型RAGはマルチモーダルRAGパイプラインを制御でき、視覚データベースを検索するか、テキストドキュメントを検索するかをいつ決定します。

実際のアプリケーション

エージェンティックRAGは、人間の分析的推論を模倣する深層調査や複雑なトラブルシューティングタスクを自動化することで、産業を変革しています。

  • エンタープライズ知識統合: 企業環境において、エージェントは「第3四半期の業績を要約し、主要競合他社の最新の収益と比較する」というプロンプトを受け取るかもしれません。エージェントは自律的に社内財務データベースを照会し、競合他社の提出書類についてリアルタイムでウェブ検索を実行し、計算ツールを使用して数値を分析し、包括的な報告書を作成します。
  • 自律型品質検査: 製造業において、エージェントは組み立て不良の根本原因を特定するタスクを担うことができます。ライブカメラフィードを検査するためにコンピュータビジョン (CV)モデルをトリガーし、過去のメンテナンスログを照会し、視覚的およびテキスト的証拠に基づいて診断レポートを合成できます。

エージェントワークフローへのVision AIの統合

Visionモデルは、物理世界と相互作用するAgentic RAGシステムにとって強力な感覚ツールとして機能します。例えば、エージェントはUltralytics YOLO26を使用して、画像やビデオストリームから視覚的コンテキストを動的に取得し、ユーザーのクエリに回答できます。開発者は、Ultralytics Platformを使用して、これらのカスタムVisionツールのデータアノテーションとトレーニングを管理できます。

以下のpythonの例は、AIエージェントがプログラム的にYOLO26を呼び出して画像から構造化された観測結果を抽出し、次の推論ステップのための事実に基づいたコンテキストを収集する方法を示しています。

from ultralytics import YOLO

# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")

# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")

# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")

高度なビジョンモデルを推論エンジンに接続することで、Agentic RAGは静的な知識検索と動的で実世界の空間知能との間のギャップを埋めます。自律システムの進化する状況をより深く理解するには、Stanford AI Index Reportがエージェント能力の包括的な追跡を提供しています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。