YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

プロンプトエンジニアリング

プロンプトエンジニアリングの技術を習得して、コンテンツ、顧客サービスなどで正確で高品質な出力を得るために、LLMのようなAIモデルを誘導しましょう。

プロンプトエンジニアリングは、特に大規模言語モデル(LLM)を、望ましい出力を生成するように導くための効果的な入力(プロンプト)を設計する技術と科学です。これは、AIとの熟練したコミュニケーターであり、可能な限り最良の応答を得るために、何を言うべきか、どのように言うべきかを正確に知っていることに似ています。このプラクティスは、AIモデルの出力のパフォーマンス、関連性、および品質が、クエリの構成方法に非常に敏感であるため、非常に重要です。効果的なプロンプトエンジニアリングにより、ユーザーは幅広いタスクのために強力な基盤モデルの可能性を最大限に活用できます。

プロンプトエンジニアリングの仕組み

プロンプトエンジニアリングの中核は、モデルに明確かつ十分なコンテキストを提供する入力を構築することです。単純な質問は基本的な回答をもたらす可能性がありますが、適切に設計されたプロンプトは、トーン、形式、複雑さを制御できます。高度なプロンプトの主要なコンポーネントには、次のものが含まれます。

  • 命令:「以下の記事を3つの箇条書きで要約してください」のように、モデルに実行すべきタスクを指示する明確で具体的な指示。
  • コンテキスト: モデルが応答を通知するために使用する必要がある関連する背景情報またはデータを提供すること。
  • ペルソナ: AIが採用する役割を割り当てることで、出力のトーンとスタイルに影響を与えます(例:「専門の金融アナリストとして行動する」)。
  • 形式: リスト、JSONオブジェクト、または特定の記述スタイルなど、出力に必要な構造を指定します。
  • : 望ましい入力形式と出力形式の例を含めることは、Few-shot learningとして知られる手法であり、モデルの応答を導くのに役立ちます。これらの手法に関する包括的なリソースは、Prompting Guideにあります。

実際のアプリケーション

  1. カスタマーサポートの自動化: ブランドの一貫性と正確性を確保するために、企業はプロンプトエンジニアリングを使用して、サポートチャットボットをガイドできます。プロンプトは、AIに友好的で役立つ口調を採用し、製品の質問に答えるために社内のナレッジベースを使用し、会話を人間の担当者にエスカレーションする際の明確なプロトコルを定義するように指示するかもしれません。これにより、AIの動作が制御され、誤った情報を提供したり、ブランドにそぐわない方法で顧客とやり取りしたりすることを防ぎます。

  2. クリエイティブコンテンツの生成: text-to-imageモデル(MidjourneyOpenAIのDALL-E 3など)では、プロンプトが作成のための主要なツールです。「車の写真」のような単純なプロンプトは、一般的な結果を生成します。しかし、「1960年代のビンテージの赤いスポーツカーが、夕日の海岸線を高速で走っている、フォトリアリスティックなスタイル、映画のような照明、8K解像度」のような詳細なプロンプトは、主題、設定、スタイル、品質に関する具体的な指示を提供し、高度にカスタマイズされた視覚的に素晴らしい画像を生成します。

コンピュータビジョンにおける関連性

自然言語処理(NLP)で生まれたプロンプトエンジニアリングは、コンピュータビジョン(CV)においてもますます重要になっています。これは、テキストと画像を同時に処理できるマルチモーダルモデルの開発によって推進されています。CLIPYOLO-Worldのようなオープンボキャブラリー検出器は、任意のテキスト記述に基づいて物体検出などのタスクを実行できます。これらのモデルでは、効果的なテキストプロンプト(例:「すべての「自転車」を検出し、「オートバイ」は無視する」)を作成することが、これらのVision Language Modelsを誘導するために不可欠なプロンプトエンジニアリングの一形態となります。Ultralytics HUBのようなプラットフォームは、さまざまなモデルとのインタラクションを促進し、インターフェースを介してタスクを定義することで、プロンプトエンジニアリングの原則を活用できます。

プロンプトエンジニアリングと関連概念の比較

プロンプトエンジニアリングを、他の機械学習の概念と区別することが重要です。

  • ファインチューニング: これには、新しいデータセットでトレーニングプロセスを継続することにより、モデルの重みを更新することが含まれます。対照的に、プロンプトエンジニアリングは、モデル自体を変更するのではなく、推論時に既存のモデルの動作をガイドします。
  • プロンプトチューニング: パラメータ効率的なファイン チューニング(PEFT)手法であるプロンプトチューニングでは、入力に付加される「ソフトプロンプト」埋め込みの小さなセットを学習します。プロンプトエンジニアリングがテキストベースの「ハードプロンプト」を作成する手動プロセスであるのに対し、トレーニングを通じてプロンプトの作成を自動化します。
  • Chain-of-Thought(CoT)プロンプト: CoTは、特定のプロンプトエンジニアリング技術であり、「段階的に考える」のような指示がプロンプトに追加されます。これにより、モデルは複雑な問題を中間的な推論ステップに分解することが促され、多くの場合、元のGoogle AIの研究論文で詳述されているように、より正確な結果につながります。
  • Prompt Chaining(プロンプトチェーニング): この手法は、複雑なタスクを複数の連続したプロンプトに分割し、あるステップの出力が次のステップへの入力となるようにします。プロンプトエンジニアリングは、個々のプロンプトを効果的に設計するためのより広範な手法です。LangChainのようなフレームワークは、このようなチェーンを調整するように設計されています。
  • 検索拡張生成(RAG): RAGは、外部知識ベースから関連データを最初に取得することにより、プロンプトを強化するシステムです。プロンプトエンジニアリングは、最初の検索クエリと、ユーザーの質問と取得した情報を組み合わせた最終的なプロンプトの両方を正しく作成するために、RAGシステム内で非常に重要です。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました