深圳Yolo 视觉
深圳
立即加入
词汇表

AI安全

掌握人工智能安全的核心支柱,包括目标一致性和稳健性。探索如何通过Ultralytics 部署可靠模型,确保人工智能的可靠性。

人工智能安全是一个跨学科领域,致力于确保 人工智能(AI)系统 能够可靠、可预测且有益地运行。与保护系统免受外部攻击的网络安全不同, 人工智能安全关注系统设计与运行本身固有的风险。这包括防范 因目标错位、新型环境下的鲁棒性不足或深度学习(DL)泛化失败 所引发的意外后果。 随着模型 自主性增强,诸如 人类兼容人工智能中心等机构的研究人员正致力于确保这些技术 符合人类意图与安全标准。

安全人工智能的核心支柱

构建安全系统需要解决若干技术难题,这些挑战远非简单的准确率指标所能涵盖。这些支柱确保机器学习(ML)模型即使在复杂的现实场景中部署,也能始终处于可控状态。

  • 鲁棒性:安全模型必须在面对损坏输入或环境变化时保持性能。这包括防御对抗性攻击——即通过对输入数据进行微妙操纵,诱使模型产生高置信度错误的情况。
  • 对齐:该原则确保人工智能的目标与设计者的真实意图保持一致。在强化学习中,当系统学会"钻空子"以优化其奖励函数时——例如清洁机器人为更快清理碎片而故意打碎花瓶——便会出现目标错位现象。为此,研究人员采用诸如基于人类反馈的强化学习(RLHF)等技术来缓解此类问题。
  • 可解释性:亦称可解释人工智能(XAI),旨在为"黑箱"模型建立透明度。通过可视化特征图,工程师能够理解决策过程,确保模型不依赖于虚假相关性。
  • 监控:持续 模型监控对于检测数据漂移至关重要。 当实际数据与训练数据出现显著偏差时, 安全协议必须触发警报或启动回退机制。

实际应用

在高风险领域,人工智能安全至关重要,因为算法失效可能导致人身伤害或重大经济损失。

  1. 自动驾驶汽车:汽车人工智能领域安全框架规定了车辆如何应对不确定性。当物体检测模型无法以高置信度识别障碍物时,系统必须默认进入安全状态——例如制动——而非进行猜测。美国国家公路交通安全管理局(NHTSA)的自动驾驶车辆指南特别强调了这些故障安全机制。
  2. 医疗诊断: 在医疗领域应用人工智能时,安全性要求最大限度减少关键诊断中的假阴性结果。系统通常经过调优以实现高召回率,确保不遗漏任何潜在病症,实质上为医生提供"第二诊疗意见"。监管机构如美国食品药品监督管理局数字健康中心,为软件作为医疗器械(SaMD)制定了严格标准。

实施安全阈值

计算机视觉中最基础的安全机制之一是使用置信度阈值。通过在推理过程中过滤掉低概率预测,开发者可防止系统基于薄弱信息采取行动。

以下示例演示了如何Ultralytics 应用安全过滤器,确保仅处理可靠的检测结果。

from ultralytics import YOLO

# Load the YOLO26 model (latest standard for efficiency)
model = YOLO("yolo26n.pt")

# Run inference with a strict confidence threshold of 0.7 (70%)
# This acts as a safety gate to ignore uncertain predictions
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.7)

# Verify detections meet safety criteria
print(f"Safety Check: {len(results[0].boxes)} objects detected with >70% confidence.")

人工智能安全与人工智能伦理

尽管这些术语常被互换使用,但它们分别涉及负责任人工智能的不同方面。

  • 人工智能安全是一门技术工程学科。它探讨的问题是:"该系统能否在不引发事故的情况下正常运行?"其研究领域涵盖强化学习中的模型幻觉与安全探索等课题。
  • 人工智能伦理 是一种社会技术框架。它提出两个核心问题:"我们是否应该构建这个系统?它是否公平?"该框架聚焦于算法偏见、隐私权以及利益公平分配等议题,这些内容在《欧盟人工智能法案》中均有明确阐述。

未来展望

随着行业向通用人工智能(AGI)迈进,安全研究正变得日益关键。企业可借助Ultralytics 管理数据集并监督模型部署,确保其人工智能解决方案在整个生命周期内保持稳健性、透明度,并符合安全标准。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入