Yolo 深圳
深セン
今すぐ参加
用語集

敵対的攻撃

AIシステムに対する敵対的攻撃の影響、その種類、実際の例、およびAIセキュリティを強化するための防御戦略をご覧ください。

敵対的攻撃とは、機械学習モデルを欺くために使われる高度なテクニックである。 機械学習モデルを欺くために使われる高度なテクニックである、 意図的に設計された摂動を入力データに導入することで、機械学習モデルを欺くための高度なテクニックである。これらの変更は、しばしば人間の目には感知できない、 ニューラルネットワーク内の数学演算を操作し ニューラルネットワークを操作し 確信度は高いが間違った予測をさせる。人工知能が 人工知能が これらの脆弱性を理解することは、モデルの導入が安全で信頼できるものであることを保証するために不可欠である。 モデルの展開が安全で信頼できるものであり続けるためには不可欠である。

メカニズムとテクニック

敵対的攻撃の核となる原理は、モデルの判断境界にある「盲点」を特定することだ。 ディープラーニングでは、モデルは誤差を最小化するためにモデルの重みを最適化することによって、データをclassify することを学習する。 誤差を最小化するためにモデルの重みを最適化する。攻撃者は 攻撃者は、入力が分類のしきい値を超えるために必要な正確な変化を計算することで、これを悪用する。例えば 例えば は、損失関数を最大化する方向に入力ピクセル値を調整する、 急速に敵対的な例を作成する。

攻撃は一般に、攻撃者が入手できる情報のレベルによって分類される:

  • ホワイトボックス攻撃:攻撃者はモデルのアーキテクチャとパラメータに完全にアクセスできる。これにより 特定のレイヤーを欺くための正確な計算が可能であり、しばしばアルゴリズムの偏りの限界を試すことができる。 アルゴリズムのバイアスの限界を試すこともある。
  • ブラックボックス攻撃:攻撃者は内部的な知識を持たず、以下のような入力と出力を通じてのみモデルと相互作用する。 標準的な 推論エンジンに似ている。これらの攻撃は多くの場合 あるモデルを欺く例は、他のモデルも欺く可能性が高い。

実世界での応用とリスク

敵対的な攻撃が意味するところは、学術研究の域をはるかに超え、セーフティ・クリティカルなインフラに真のリスクをもたらす。 インフラに真のリスクをもたらす。

  1. 自律走行:自動車における 自動車のAI分野では、視覚認識システム 交通標識を識別するために物体検出 標識。研究者たちは、一時停止標識に特定のステッカーを貼ることで 自律走行車はそれを速度制限標識と誤認する。 速度制限標識と誤認させることができる。このような物理的な敵対的攻撃は、公道で使用されるコンピュータ・ビジョン・システムに極めて堅牢性が必要であることを浮き彫りにしている。 このような物理的な敵対的攻撃は、公道で使用されるコンピュータ・ビジョン・システムに極めて堅牢性が必要であることを強調している。
  2. バイオメトリック・セキュリティ:多くの安全な施設や機器では 顔認証による入退室管理。 敵対的な眼鏡や印刷パターンは、特徴抽出プロセスを妨害するように設計することができる。 特徴抽出プロセスを妨害するように設計することができる。 不正なユーザーは、セキュリティを回避したり、特定の個人になりすましたりすることができます。

守備と堅牢性

これらの脅威から身を守ることは、AIの安全性の重要な要素である。 重要な要素である。のようなフレームワークは MITRE ATLASのようなフレームワークは、敵の戦術に関する知識ベースを提供し、開発者を支援する。 システムを強化する。主な防御戦略は敵対的訓練で、敵対的な例を生成して訓練データに追加する。 が生成され、訓練データに追加される。これにより モデルは小さな摂動を無視するように学習させられる。

もうひとつの効果的な方法は、データの増強である。学習中に 学習中にノイズや明瞭な切り抜き、モザイク効果を導入することで、モデルの汎化が向上し、もろくなくなる。 もろくなる。NISTの NIST AIリスクマネジメントフレームワークでは セキュリティリスクを軽減するためのテストと検証の手順を強調している。

関連概念との区別

敵対的攻撃は、セキュリティ上の類似した用語と区別することが重要である:

  • 敵対的攻撃とデータ汚染:敵対的攻撃は推論時に入力を操作する。 を操作する、 データポイズニング 学習開始前にデータセットを破壊し、モデルの基礎となる完全性を損なう。
  • 敵対的攻撃とプロンプト・インジェクションの比較:敵対的攻撃は通常、識別モデルの数値データまたは視覚データを標的にする。 データを標的にする。これに対して プロンプト・インジェクションは 大規模言語モデル(LLM)に特有のもので、悪意のあるテキスト命令がAIのプログラミングを上書きする。 悪意のあるテキスト命令がAIのプログラミングを上書きする。

モデルの頑健性の強化

次のPython スニペットは、次のようなトレーニング中に、どのようにヘビー・オーギュメンテーションを適用するかを示している。 Ultralytics YOLO11.これは攻撃を生成しません、 MixUp Mosaicのようなテクニックを利用することで、入力のバリエーションや潜在的な敵対的ノイズに対するモデルのロバスト性が大幅に向上する。 敵対的ノイズに対するモデルの頑健性を大幅に向上させます。

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
    data="coco8.yaml",
    epochs=50,
    mixup=0.2,  # Blends images together
    mosaic=1.0,  # Combines 4 images into 1
    fliplr=0.5,  # Randomly flips images horizontally
)

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加