AI Safety
学习 AI 安全的核心支柱,包括对齐和鲁棒性。了解如何使用 Ultralytics YOLO26 部署可靠的模型并确保 AI 的稳定性。
AI安全是一个多学科领域,致力于确保人工智能 (AI)系统能够可靠、可预测且有益地运行。与保护系统免受外部攻击的网络安全不同,AI安全解决的是系统设计和操作本身固有的风险。这包括防止因目标不一致、在陌生环境下的稳健性不足或深度学习 (DL)泛化失败而导致的意外后果。随着模型变得越来越自主,像人类兼容AI中心 (Center for Human-Compatible AI)这样的组织的研究人员正在努力确保这些技术符合人类意图和安全标准。
Link to this section安全AI的核心支柱#
构建一个安全系统需要解决超越简单准确性指标的几个技术挑战。这些支柱确保机器学习 (ML)模型即使在复杂的现实场景中部署时也能保持在控制之下。
- 稳健性 (Robustness): 一个安全的模型在面对损坏的输入或环境变化时必须保持性能。这包括防御对抗性攻击,即对输入数据的细微操纵可能诱骗模型做出高置信度的错误判断。
- 对齐 (Alignment): 这一原则确保AI的目标与设计者的真实意图相匹配。当系统学会“钻空子”以达到其奖励函数时(例如清洁机器人为了更快清理垃圾而打碎花瓶),强化学习中往往会出现不对齐现象。像基于人类反馈的强化学习 (RLHF)这样的技术被用来缓解这一问题。
- 可解释性 (Interpretability): 也称为可解释AI (XAI),这涉及为“黑盒”模型创造透明度。可视化特征图使工程师能够理解决策过程,确保模型不是依赖于虚假的相关性。
- 监控 (Monitoring): 持续的模型监控对于检测数据漂移至关重要。如果现实世界的数据开始显著偏离训练数据,安全协议必须触发警报或回退机制。
Link to this section实际应用#
在算法失败可能导致物理伤害或重大经济损失的高风险领域,AI安全至关重要。
-
自动驾驶汽车: 在汽车AI领域,安全框架定义了汽车如何应对不确定性。如果目标检测模型无法以高置信度识别障碍物,系统必须默认进入安全状态(例如制动),而不是进行猜测。NHTSA自动驾驶汽车指南强调了这些故障安全机制。
-
医疗诊断: 在应用医疗AI时,安全涉及最大限度地减少关键诊断中的假阴性。系统通常会针对高召回率进行调整,以确保不会漏掉潜在的病情,从而有效地充当医生的“第二意见”。像FDA数字健康中心这样的监管机构为作为医疗设备的软件 (SaMD) 设定了严格的标准。
Link to this section实施安全阈值#
计算机视觉中最基础的安全机制之一是使用置信度阈值。通过在推理过程中过滤掉低概率预测,开发人员可以防止系统基于弱信息采取行动。
以下示例演示了如何使用Ultralytics YOLO26应用安全过滤器,确保只处理可靠的检测结果。
from ultralytics import YOLO
# Load the YOLO26 model (latest standard for efficiency)
model = YOLO("yolo26n.pt")
# Run inference with a strict confidence threshold of 0.7 (70%)
# This acts as a safety gate to ignore uncertain predictions
results = model.predict("https://ultralytics.com/images/bus.jpg", conf=0.7)
# Verify detections meet safety criteria
print(f"Safety Check: {len(results[0].boxes)} objects detected with >70% confidence.")Link to this sectionAI安全与AI伦理#
虽然这些术语经常互换使用,但它们涉及负责任AI的不同方面。
- AI安全是一门技术工程学科。它问的是:“这个系统能在不造成事故的情况下正常工作吗?”它处理诸如模型幻觉和强化学习中的安全探索等问题。
- **AI伦理**是一个社会技术框架。它问的是:“我们应该构建这个系统吗?它公平吗?”它关注诸如算法偏见、隐私权以及利益的公平分配等问题,正如欧盟AI法案中所概述的那样。
Link to this section未来展望#
随着行业向通用人工智能 (AGI)迈进,安全研究变得愈发关键。组织可以利用Ultralytics平台来管理其数据集并监督模型部署,确保其AI解决方案在整个生命周期内保持稳健、透明,并符合安全标准。






