监督学习
了解监督学习如何通过标记数据为 AI 提供支持,从而实现准确的预测和应用,例如对象检测和情感分析。
监督学习是机器学习 (ML)中的一个基本范例,其中算法从已手动标记正确结果的数据中学习。主要目标是学习一种映射函数,该函数可以预测新的、未见过的数据的输出。可以将其视为在老师或“监督者”的指导下学习,他们在训练阶段提供正确的答案(标签)。这种方法是许多成功的人工智能 (AI)应用(尤其是在计算机视觉 (CV)中)的支柱。
监督学习的工作原理
监督学习过程从包含输入特征和相应输出标签的精选数据集开始。此标记数据集分为训练数据、验证数据和测试数据。
- 训练: 模型被馈送训练数据。它对每个输入进行预测,并将其与正确的标签进行比较。
- 误差校正: 模型预测与实际标签之间的差异通过损失函数来量化。优化算法(例如梯度下降)会调整模型的内部参数或模型权重,以最大程度地减少此误差。
- 迭代: 此过程会重复多次epochs(轮次),使模型能够学习数据中的潜在模式。在验证集上监控模型的性能,以防止过拟合等问题。
- 预测: 经过训练后,该模型可以对新的、未标记的数据进行预测。 这些预测的质量使用测试集和性能指标进行评估。
整个工作流程在Ultralytics HUB等平台上进行了简化,从而简化了数据集管理、模型训练和部署。
监督学习问题的类型
监督学习任务通常分为两种主要类型:
- 分类: 目标是预测离散的类别或类标签。例如,可以训练图像分类模型来将图像分类为包含“猫”或“狗”。其他示例包括垃圾邮件检测和情感分析。可以训练像Ultralytics YOLO这样的模型来进行高性能分类任务。如需进一步阅读,请浏览这篇分类介绍。
- 回归 (Regression): 目标是预测一个连续的数值。例如,模型可以根据房屋的大小和位置等特征预测其价格。其他应用包括股票价格预测和温度预测。有关回归的概述,请参阅此回归分析指南。
实际应用
监督学习驱动着无数现代 AI 系统。以下是两个突出的例子:
- 自动驾驶汽车中的对象检测: 自动驾驶汽车依赖于对象检测模型来识别和定位行人、其他车辆和交通标志。这些模型在大量的数据集上进行训练,其中图像中的对象用边界框标记。然后,训练后的模型可以处理实时视频流,以做出关键的驾驶决策。 Ultralytics 为汽车行业的 AI提供了强大的解决方案。
- 医学影像分析: 在医疗保健领域,监督学习模型用于医学影像分析,例如检测 MRI 或 CT 扫描中的肿瘤。放射科医生标记大量扫描图像,表明是否存在肿瘤。卷积神经网络 (CNN)随后会根据这些数据进行训练,以协助早期诊断。例如,可以根据脑肿瘤检测数据集训练模型。
与其他学习范式的比较
监督学习与其他主要的机器学习范例不同:
- 无监督学习: 这种方法使用未标记的数据,算法尝试自行查找模式或结构,例如对相似数据点进行分组(聚类)或减少数据维度。它不会从已知答案中学习直接的输入到输出的映射。阅读无监督学习概述。
- 自监督学习 (SSL): 无监督学习的一个子集,其中监督信号(标签)自动从输入数据本身生成。这是一种强大的技术,用于在微调特定任务之前,在大量未标记的数据上预训练基础模型。
- 强化学习: 在这种范例中,智能体通过与环境交互并根据其行为接收奖励或惩罚来学习做出决策序列。它通过试错而不是从静态的、标记的数据集中学习最佳行为。探索强化学习概述。
总而言之,监督学习是一种强大且广泛使用的技术,它利用带标签的数据来训练模型以执行预测任务。它是许多成功的AI应用(包括Ultralytics开发和支持的应用)的骨干,并且是数据科学或AI领域从业人员的一项关键技能。