Prompt Chaining
プロンプトチェーニングが複雑なAIタスクを信頼性の高いワークフローに分割する方法を学びます。高度なAIエージェントを構築するために、Ultralytics YOLO26とLLMを統合する方法を探求しましょう。
プロンプトチェイニングとは、複雑なタスクをより小さく扱いやすいサブタスクのシーケンスに分解する、人工知能 (AI) 開発における高度なアーキテクチャパターンです。このワークフローでは、あるステップの出力(多くの場合、大規模言語モデル (LLM) やコンピュータビジョンシステムによって生成される)が、後続ステップの入力として機能します。多面的な問題を一度に解決しようとする単一のモノリシックなプロンプトとは異なり、チェイニングを利用することで、開発者はより信頼性が高く、テスト可能で、能力の高いアプリケーションを構築できます。このモジュール式のアプローチは、推論、Web閲覧、または物理環境との対話が可能な洗練されたAIエージェントを作成するために不可欠です。
Link to this sectionチェイニングのメカニズム#
プロンプトチェイニングの核心は、基盤モデルにおけるコンテキストウィンドウと推論能力の限界に対処することにあります。モデルに対して単一のリクエストで過度に多くの個別の操作を実行するよう要求すると(例:「この画像を分析し、テキストを抽出し、スペイン語に翻訳し、JSONインボイスとしてフォーマットせよ」)、エラーが発生する確率は高まります。これをパイプラインに分割することで、開発者は各ステージの精度を検証できるようになります。
効果的なチェーンは、多くの場合、Pythonで記述されるか、LangChainのようなオーケストレーションライブラリによって管理される「グルーコード」を活用して、ステップ間のデータ変換を処理します。これにより、物体検出の視覚的鋭敏さと生成テキストモデルの言語流暢さを組み合わせるなど、異なる技術の統合が可能になります。
Link to this section実社会での応用#
プロンプトチェイニングは、異なるデータモダリティ間のギャップを埋める際に特に強力であり、マルチモーダルモデルが動的な産業および商業環境で機能することを可能にします。
-
自動化された視覚レポート: スマートマニュファクチャリングにおいて、品質管理システムはビジョンモデルとLLMをチェーンさせることができます。Ultralytics YOLO26のような高速モデルが、組み立てライン上のコンポーネントをスキャンします。構造化された出力(例:「Class: Dented_Can, Confidence: 0.92」)は、テキスト文字列に変換されます。このテキストは、「この欠陥に基づいてメンテナンス依頼書を作成せよ」といったプロンプトとともに言語モデルに渡され、現場管理者向けの人間が読める電子メールを生成します。
-
コンテキストを認識するカスタマーサポート: インテリジェントなチャットボットは、複雑なユーザーの質問に対応するために、多くの場合チェイニングを使用します。チェーンの最初のリンクでは、自然言語処理 (NLP)を使用してユーザーの意図を分類します。意図が技術的なものである場合、システムは検索拡張生成 (RAG)ワークフローをトリガーします。つまり、クエリの埋め込みを生成し、ドキュメント用のベクトルデータベースを検索し、最後にLLMにプロンプトを出して、取得したチャンクを役立つ回答に統合させます。
Link to this sectionビジョン・言語間のコード例#
以下の例は、チェーンにおける最初の「リンク」を示しています。つまり、コンピュータビジョン (CV)を使用して、後続のプロンプトのコンテキストとして機能する構造化データを生成します。
from ultralytics import YOLO
# Load the YOLO26 model (natively end-to-end and highly efficient)
model = YOLO("yolo26n.pt")
# Step 1: Run inference to 'see' the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Step 2: Format visual detections into a natural language string
det_names = [model.names[int(c)] for c in results[0].boxes.cls]
prompt_context = f"The scene contains: {', '.join(det_names)}. Please describe the likely activity."
# The 'prompt_context' variable is now ready to be sent to an LLM API
print(prompt_context)Link to this section関連概念の区別#
効果的な機械学習 (ML)アーキテクチャを実装するためには、AIの分野における類似の用語とプロンプトチェイニングを区別することが役立ちます。
- 対 思考の連鎖 (Chain-of-Thought) プロンプト: 思考の連鎖 (CoT) は、モデルに「手順を示す」(例:「ステップバイステップで考えて」)よう促すために、単一のプロンプト内で使用される手法です。プロンプトチェイニングには複数の個別のAPI呼び出しが含まれ、ステップBへの入力はステップAの出力に依存します。
- 対 プロンプトエンジニアリング: プロンプトエンジニアリングは、より良いモデルパフォーマンスを引き出すためにテキスト入力を最適化する、より広範な分野です。チェイニングは、操作の順次フローとロジック制御に焦点を当てた特定のエンジニアリングパターンです。
- 対 プロンプトチューニング: プロンプトチューニングは、学習フェーズ中に学習可能なパラメータ(ソフトプロンプト)を更新するモデル最適化手法です。プロンプトチェイニングは完全にリアルタイム推論中に行われ、モデルのモデル重みを変更することはありません。
プロンプトチェイニングを活用することで、チームはロジック、データ検索、およびアクション認識を統合する堅牢なアプリケーションを構築できます。これらのチェーンを駆動するデータセットの管理やビジョンモデルのトレーニングには、Ultralytics Platformがアノテーション、トレーニング、デプロイメントのための統合ソリューションを提供します。






