用語集

脱獄（AI）

AIによるジェイルブレイクが安全対策の防護策をどのように回避するのかを探り、リスクを軽減する方法を学びましょう。堅牢な防御と監視機能で、Ultralytics モデルを保護しましょう。

人工知能（AI）の文脈における「ジェイルブレイキング」とは、 AIモデルに組み込まれた倫理的なガードレール、安全フィルター、および運用上の制約を回避する手法を指します。もともとスマートフォンなどのデバイスにおけるハードウェア上の制限を回避するために用いられた用語であるが、AIのジェイルブレイクでは、特定の（多くの場合、操作的な）入力を生成し、モデルを欺いて制限されたコンテンツを生成させたり、許可されていないコマンドを実行させたり、機密性の高いシステムプロンプトを明らかにさせたりする。AIが重要インフラにますます統合されるにつれ、堅牢な AI安全対策を開発し、悪用を防ぐためには、これらの脆弱性を理解することが不可欠である。

ジェイルブレイクと関連する概念との違い

ジェイルブレイクは、機械学習における他のセキュリティ上の脆弱性と共通点があるものの、関連する用語とは区別することが重要です：

プロンプトインジェクション：これは、正当なユーザープロンプトに悪意のある命令を挿入し、モデルの意図した出力を乗っ取る手法です。ジェイルブレイクは、モデルのコアとなる安全プロトコルを完全に無効化することを具体的に目的とした、より広範なカテゴリです。
AIレッドチーム活動：これは、セキュリティ専門家がシステムの脆弱性を特定し、本番環境への展開前に修正を行うために、意図的にシステムの突破を試みる、承認された予防的なテスト手法です。
敵対的攻撃：コンピュータビジョン分野でよく用いられる手法であり、入力データを微妙に改変する（画像に目に見えないノイズを加えるなど）ことで、モデルに誤分類を引き起こさせるものである。一方、ジェイルブレイクは通常、言語的または論理的な操作に焦点を当てている。

AIによる脱獄の実例

ジェイルブレイキングは、AIシステムの形態によって異なる形で現れ、テキストベースおよびビジョンベースのアーキテクチャの両方に影響を及ぼします：

大規模言語モデルの悪用：攻撃者は、複雑なロールプレイのシナリオや仮説的な枠組みを用いて、大規模言語モデルに安全性のためのトレーニングを無視させることをしばしば試みます。例えば、ユーザーがAIに対し、「ハッカーを題材にした物語を執筆する架空の作家」として振る舞うよう指示することで、モデルを巧みに欺き、通常であればフィルタによってブロックされるはずの悪意のあるコードや危険な活動の手順を出力させることが可能です。Anthropic 最近の研究では、モデルのコンテキストウィンドウをオーバーロードして制限を回避する「マルチショット・ジェイルブレイク」技術のような高度な手法も Anthropic 。
マルチモーダルおよびビジョンシステムへの攻撃：モデルがテキストと画像の両方を処理できるよう進化するにつれ、マルチモーダル・ジェイルブレイクに関する最近の研究では、攻撃者が画像内に悪意のあるテキスト指示を埋め込むことができることが示されています。ビジョン・言語モデルがその画像を処理すると、隠されたテキストがジェイルブレイクを引き起こします。物理的なセキュリティシステムにおいては、衣服に特定の模様を施したパッチなどの敵対的入力が視覚的な脱獄として機能し、自動監視モデルに対してその人物を不可視化することが可能になる。

AIモデルにおける脱獄リスクの軽減

こうした悪用からモデルを保護するには、多層的な防御戦略が必要です。開発者は、 OpenAIの安全ガイドラインや、 NIST AIリスク管理フレームワークなどのフレームワークに従い、セキュリティの基盤を確立します。

視覚的敵対的攻撃を防ぐため、エンジニアはトレーニング中に包括的なデータ拡張手法を採用しています。意図的にノイズやぼかしを加えたり、照明条件を変えたりすることで、モデルは改ざんされた入力に直面した場合でも高い精度を維持するよう学習します。さらに、Ultralytics 利用可能なツールを用いて導入済みのモデルを継続的に監視することで、攻撃の進行を示唆する異常な推論パターンを特定し、企業環境での導入において強固なデータセキュリティを確保します。

モデルの頑健性の検証

コンピュータビジョンモデルが、わずかな入力の改変に対しても耐性を持つようにするため、Pythonを使用して基本的な敵対的機械学習のシナリオをシミュレートすることができます。これにより、 Ultralytics のようなモデルが、ノイズの多いデータやわずかに改変されたデータにさらされた場合でも、引き続き確実に動作することを確認できます。

import cv2
from ultralytics import YOLO

# Load an Ultralytics YOLO26 model for robust inference testing
model = YOLO("yolo26n.pt")

# Load a test image and apply simulated adversarial noise
img = cv2.imread("security_feed.jpg")
noisy_img = cv2.add(img, 15)  # Inject slight pixel noise to test robustness

# Run prediction to verify the model still detects objects accurately
results = model(noisy_img)
results[0].show()

脆弱性を積極的にテストし、堅牢な安全対策を組み込むことで、開発者はAIの脱獄をどのように軽減できるかを効果的に学び、現代のAIシステムに対する信頼と信頼性を高めることができます。モデルの挙動や解釈可能性についてより深く理解するには、「説明可能なAI」の原則について探求してみてください。

脱獄（AI）

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

ジェイルブレイクと関連する概念との違い

AIによる脱獄の実例

AIモデルにおける脱獄リスクの軽減

モデルの頑健性の検証

このカテゴリの関連記事

Ultralytics を使用してUltralytics YOLO エクスポートする方法

Ultralytics を使用したパレットの不適切な積み重ねの検知

Ultralytics を使用したポリゴン注釈ガイド

共にAIの未来を築きましょう！

脱獄（AI）

17以上の形式にエクスポート。世界43の地域にデプロイ。

H100 GPUでYOLO26を1時間あたり2.39ドルで学習。

ビジョンAIプロジェクトを推進する柔軟なエンタープライズライセンス

次のプロジェクトを推進するために構築されたエンタープライズライセンス

スマートアノテーションで最大10倍高速にラベル付け

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。

ジェイルブレイクと関連する概念との違い

AIによる脱獄の実例

AIモデルにおける脱獄リスクの軽減

モデルの頑健性の検証

このカテゴリの関連記事

Ultralytics を使用してUltralytics YOLO エクスポートする方法

Ultralytics を使用したパレットの不適切な積み重ねの検知

Ultralytics を使用したポリゴン注釈ガイド

共にAIの未来を築きましょう！

アノテーション。トレーニング。デプロイ。 すべて1つのプラットフォームで。