用語集

AIセーフティ

AIセーフティ（AIシステムの意図しない危害を防ぐための重要な分野）について学びましょう。その主要な柱、実際の応用例、責任あるAIにおける役割について解説します。

AIセーフティは人工知能（AI）の専門分野である。 AIシステムの信頼性、予測可能性、および意図しない危害の発生を確実に防止することに焦点を当てた、人工知能（AI）内の専門分野です。ディープラーニング（DL ディープラーニング（DL）モデルがより自律的になり、重要なインフラに統合されるにつれてになり、重要なインフラに統合されるにつれて、システム障害の潜在的な影響は著しく増大する。そのため AIの安全性の主な目的は、技術的な不具合、予期せぬ行動、またはシステム間の不整合から生じるリスクを特定、分析、緩和することである。技術的な不具合、予期せぬ行動、あるいはAIの目標と人間の価値観とのズレから生じるリスクを特定、分析、軽減することである。この分野は、厳密なモデルテストから厳格なモデルテストからシステム動作の数学的保証の開発まで、幅広い実践が含まれる。

AIの安全性の柱

信頼できるシステムを構築するために、研究者やエンジニアは以下のような基礎的な柱に重点を置いている。機械学習（ML）モデルが様々な条件下で正しく機能することを保証するいくつかの基本的な柱に焦点を当てている。

堅牢性：ロバストシステムは、予期せぬデータや逆境に遭遇してもパフォーマンスを維持しなければならない。敵対的な状況に遭遇しても性能を維持しなければならない。これには敵対的攻撃に対する防御が含まれる。を防御することである。例えばコンピュータ・ビジョン（CV）システムはステッカーが貼ってあったり、照明が悪かったりするだけで、一時停止標識を誤分類してはならない。
アライメント：これは、人間の意図を正確に反映したAIシステムを設計するという課題である。人間の意図を正確に反映したAIシステムを設計するという課題である。ミスアラインメントは、モデルが安全制約に違反しながらも、損失関数で高いスコアを達成するための「近道」を見つけた場合に発生する可能性がある。安全制約に違反しながら損失関数の高得点を達成する「近道」をモデルが見つけた場合、ミスアライメントが発生する可能性がある。この概念は、人間適合AIセンターによって広く研究されている。
解釈可能性：別名説明可能なAI（XAI）とも呼ばれるこの原則はは、人間が理解できるモデルを作成することを重視する。意思決定システムが失敗した場合、エンジニアは以下のことができなければならない。モデル内部の重みまたは活性化マップを検査しマップを検査し、エラーを診断して再発を防ぐことができなければならない。
モニタリング継続的なモデルの継続的な detect データドリフトを検出するために不可欠です。実世界で遭遇するデータが学習データと乖離する危険な予測につながる可能性があります。

実際のアプリケーション

AIの安全性は単なる机上の空論ではない。自動車やヘルスケアの分野にAIを導入するための重要な要件である。

自律走行：自動運転車は自動運転車は、歩行者や他の車両、障害物を識別するために、物体検出モデルに依存しています、他の車両や障害物を識別する。ここでの安全プロトコルには、冗長性（カメラに加えてLiDARやレーダーを使用すること）が含まれる。「不確実性推定」（AIが対象物について確信が持てない場合、自動車が減速したり、人間の介入を要求したりする）がある。といったものがある。ウェイモのような組織は、これらの認識システムを検証するために、詳細な安全を公表している。
医療診断医療画像解析において医療画像解析において放射線科医を支援するAIは偽陰性を最小限に抑えなければならない。安全性のメカニズムには、AIが自律的に最終的な診断を下すのではなく、潜在的な問題にフラグを立て、医師がレビューする「ヒューマン・イン・ザ・ループ」ワークフローが含まれることが多い。この場合、AIは自律的に最終的な診断を下すのではなく、医師が確認するための潜在的な問題にフラグを立てるだけである。で強調されているように、患者の安全が最優先される。ヘルスケアソリューションにおけるAI

コードに安全閾値を実装する

配備の安全性を高める基本的な方法のひとつは、厳格な信頼度のしきい値を導入することである。信頼度の低い信頼度の低い予測を無視することで、開発者はAIエージェントが弱いデータやノイズの多いデータに基づいて行動するのを防ぐことができる。

以下の例では Ultralytics YOLO11モデルを使用して予測値をフィルターする方法を示します。検出のみが処理されるようにします。

from ultralytics import YOLO

# Load the YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Perform inference on an image with a strict confidence threshold
# This ensures the model only reports objects it is at least 70% sure about
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.70)

# Process only the safe, high-confidence detections
for result in results:
    print(f"Detected {len(result.boxes)} objects exceeding safety threshold.")