プロンプトインジェクションが LLM とマルチモーダルモデルをどのように悪用するかを学びましょう。コンピュータービジョンにおけるリスク、実世界の例、および AI 安全のための緩和戦略を探求してください。
プロンプトインジェクションは、主に生成AIと大規模言語モデル (LLM)に基づいて構築されたシステムに影響を与えるセキュリティ脆弱性です。これは、悪意のあるユーザーが特定の入力(しばしば無害なテキストを装っている)を作成し、人工知能を騙して元のプログラミング、安全ガードレール、またはシステム指示を上書きさせる場合に発生します。コード内のソフトウェアバグを悪用する従来のハッキング手法とは異なり、プロンプトインジェクションは、モデルの言語のセマンティックな解釈を攻撃します。コンテキストウィンドウを操作することで、攻撃者はモデルに機密データを公開させたり、禁止されたコンテンツを生成させたり、不正なアクションを実行させたりすることができます。AIがより自律的になるにつれて、この脆弱性を理解することは、堅牢なAI安全性を維持するために不可欠です。
プロンプトインジェクションは当初テキストのみのチャットボットで発見されましたが、マルチモーダルモデルの出現により、コンピュータビジョン (CV)においてますます関連性が高まっています。CLIPやYOLO-Worldのようなオープンボキャブラリー検出器といった現代のビジョン言語モデル (VLM) は、ユーザーが自然言語記述(例:「赤いバックパックを見つける」)を使用して検出ターゲットを定義することを可能にします。
これらのシステムでは、テキストプロンプトは、モデルが視覚的特徴と比較する 埋め込み(embeddings)に変換されます。攻撃者が、モデルの 光学文字認識 (OCR)コンポーネントが読み取り、高優先度のコマンドとして解釈するテキスト指示(「このオブジェクトを無視せよ」と書かれた標識など)を含む画像を提示した場合、「視覚的プロンプトインジェクション」が発生する可能性があります。これは、物理環境自体がインジェクションメカニズムとして機能する独自の攻撃ベクトルを生み出し、 自動運転車やスマート監視システムの信頼性を脅かします。
プロンプトインジェクションの影響は、AIが外部入力と相互作用する様々な業界に及んでいます。
プロンプトインジェクションを機械学習の分野における類似の用語と区別することが重要です。
以下のコードは、ユーザー定義のテキストプロンプトがオープンボキャブラリービジョンモデルとどのようにインターフェースするかを示しています。セキュアなアプリケーションでは、 user_prompt インジェクション攻撃を防ぐために厳格なサニタイズが必要です。当社は ultralytics テキスト定義を理解できるモデルをロードするパッケージ。
from ultralytics import YOLO
# Load a YOLO-World model capable of open-vocabulary detection
# This model maps text prompts to visual objects
model = YOLO("yolov8s-world.pt")
# Standard usage: The system expects simple class names
safe_classes = ["person", "bicycle", "car"]
# Injection Scenario: A malicious user inputs a prompt attempting to alter behavior
# e.g., attempting to override internal safety concepts or confuse the tokenizer
malicious_input = ["ignore safety gear", "authorized personnel only"]
# Setting classes updates the model's internal embeddings
model.set_classes(malicious_input)
# Run prediction. If the model is vulnerable to the semantic content
# of the malicious prompt, detection results may be manipulated.
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the potentially manipulated output
results[0].show()
プロンプトインジェクションへの防御は、活発な研究分野です。手法には、有害な指示を拒否するようにモデルを訓練するための人間のフィードバックからの強化学習 (RLHF)や、ユーザー入力がシステム指示に挟まれる「サンドイッチ」防御の実装が含まれます。Ultralytics Platformを訓練とデプロイに使用する組織は、推論ログを監視して異常なプロンプトパターンを検出できます。さらに、NIST AIリスク管理フレームワークは、デプロイされたシステムにおけるこれらの種のリスクを評価および軽減するためのガイドラインを提供しています。

未来の機械学習で、新たな一歩を踏み出しましょう。