AIシステムに対する敵対的攻撃の影響、その種類、実際の例、およびAIセキュリティを強化するための防御戦略をご覧ください。
敵対的攻撃とは、機械学習モデルを欺くために使われる高度なテクニックである。 機械学習モデルを欺くために使われる高度なテクニックである、 意図的に設計された摂動を入力データに導入することで、機械学習モデルを欺くための高度なテクニックである。これらの変更は、しばしば人間の目には感知できない、 ニューラルネットワーク内の数学演算を操作し ニューラルネットワークを操作し 確信度は高いが間違った予測をさせる。人工知能が 人工知能が これらの脆弱性を理解することは、モデルの導入が安全で信頼できるものであることを保証するために不可欠である。 モデルの展開が安全で信頼できるものであり続けるためには不可欠である。
敵対的攻撃の核となる原理は、モデルの判断境界にある「盲点」を特定することだ。 ディープラーニングでは、モデルは誤差を最小化するためにモデルの重みを最適化することによって、データをclassify することを学習する。 誤差を最小化するためにモデルの重みを最適化する。攻撃者は 攻撃者は、入力が分類のしきい値を超えるために必要な正確な変化を計算することで、これを悪用する。例えば 例えば は、損失関数を最大化する方向に入力ピクセル値を調整する、 急速に敵対的な例を作成する。
攻撃は一般に、攻撃者が入手できる情報のレベルによって分類される:
敵対的な攻撃が意味するところは、学術研究の域をはるかに超え、セーフティ・クリティカルなインフラに真のリスクをもたらす。 インフラに真のリスクをもたらす。
これらの脅威から身を守ることは、AIの安全性の重要な要素である。 の重要な要素である。のようなフレームワークは MITRE ATLASのようなフレームワークは、敵の戦術に関する知識ベースを提供し、開発者を支援する。 システムを強化する。主な防御戦略は敵対的訓練で、敵対的な例を生成して訓練データに追加する。 が生成され、訓練データに追加される。これにより モデルは小さな摂動を無視するように学習させられる。
もうひとつの効果的な方法は、データの増強である。学習中に 学習中にノイズや明瞭な切り抜き、モザイク効果を導入することで、モデルの汎化が向上し、もろくなくなる。 もろくなる。NISTの NIST AIリスクマネジメントフレームワークでは セキュリティリスクを軽減するためのテストと検証の手順を強調している。
敵対的攻撃は、セキュリティ上の類似した用語と区別することが重要である:
次のPython スニペットは、次のようなトレーニング中に、どのようにヘビー・オーギュメンテーションを適用するかを示している。 Ultralytics YOLO11.これは攻撃を生成しません、 MixUp Mosaicのようなテクニックを利用することで、入力のバリエーションや潜在的な敵対的ノイズに対するモデルのロバスト性が大幅に向上する。 敵対的ノイズに対するモデルの頑健性を大幅に向上させます。
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with high augmentation to improve robustness against perturbations
# 'mixup' and 'mosaic' help the model generalize better to unseen inputs
model.train(
data="coco8.yaml",
epochs=50,
mixup=0.2, # Blends images together
mosaic=1.0, # Combines 4 images into 1
fliplr=0.5, # Randomly flips images horizontally
)


