敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

计算机视觉中使用的 AI 学习技术类型

Abirami Vina

4 分钟阅读

2024年11月6日

探索计算机视觉应用中使用的不同类型的机器学习和深度学习技术,从监督学习到迁移学习。

机器学习是一种人工智能 (AI),它可以帮助计算机从数据中学习,从而自主做出决策,而无需为每个任务进行详细的编程。它涉及到创建算法模型,这些模型可以识别数据中的模式。通过识别数据中的模式并从中学习,这些算法可以逐渐提高其性能

机器学习发挥关键作用的一个领域是计算机视觉,这是一个专注于视觉数据的 AI 领域。计算机视觉使用机器学习来帮助计算机检测和识别图像和视频中的模式。在机器学习进步的推动下,预计到 2032 年,计算机视觉的全球市场价值将达到约 1757.2 亿美元。 

在本文中,我们将探讨计算机视觉中使用的不同类型的机器学习,包括监督学习、无监督学习、强化学习和迁移学习,以及每种类型在不同应用中发挥的作用。让我们开始吧!

计算机视觉中的机器学习概述

计算机视觉依赖于机器学习,尤其是深度学习神经网络等技术,来解释和分析视觉信息。这些方法使计算机能够执行计算机视觉任务,例如检测图像中的对象、按类别对图像进行分类识别人脸。机器学习对于实时计算机视觉应用也至关重要,例如制造业中的质量控制医疗保健中的医学影像。在这些情况下,神经网络帮助计算机解释复杂的视觉数据,例如分析脑部扫描检测肿瘤。 

事实上,许多先进的计算机视觉模型,如 Ultralytics YOLO11,都是建立在神经网络之上的。 

图 1. 使用 Ultralytics YOLO11 分割脑部扫描。

机器学习中有几种类型的学习方法,如监督学习、无监督学习、迁移学习和强化学习,它们正在推动计算机视觉领域可能性的边界。在以下章节中,我们将探讨这些类型中的每一种,以了解它们如何为计算机视觉做出贡献。

探索监督学习

监督学习是最常用的机器学习类型。在监督学习中,模型使用标记数据进行训练。每个输入都标有正确的输出,这有助于模型学习。类似于学生向老师学习,这种标记数据充当指南或监督者。

训练期间,模型会获得输入数据(它需要处理的信息)和输出数据(正确的答案)。这种设置有助于模型学习输入和输出之间的联系。监督学习的主要目标是让模型发现一种规则或模式,将每个输入准确地链接到其正确的输出。通过这种映射,模型可以在遇到新数据时做出准确的预测。例如,计算机视觉中的面部识别依赖于监督学习来根据这些学习到的模式识别人脸。

一个常见的用途是用面部识别解锁您的智能手机。该模型在您面部的标记图像上进行训练,以便当您去解锁手机时,它会将实时图像与它所学习的内容进行比较。如果检测到匹配,您的手机就会解锁。

图 2. 面部识别可用于解锁您的智能手机。

AI 中的无监督学习如何工作?

无监督学习是一种使用未标记数据的机器学习类型——模型在训练期间不会获得任何指导或正确答案。相反,它会自行学习发现模式和见解。 

无监督学习使用三种主要方法来识别模式: 

  • 聚类:将相似的数据点分组在一起。它对于诸如客户细分之类的任务非常有用,在客户细分中,可以根据相似客户的行为或属性将他们分组。
  • 关联:用于识别项目之间的关系,帮助发现数据中的联系(例如,在市场篮子分析中查找经常一起购买的产品)。
  • 降维:通过删除冗余特征来简化数据集,这有助于可视化和处理。 

无监督学习的一个关键应用是图像压缩,其中诸如k-means 聚类之类的技术可以在不影响视觉质量的情况下减小图像大小。像素被分组到聚类中,并且每个聚类由平均颜色表示,从而产生具有更少颜色和更小文件大小的图像。

图 3. 无监督图像压缩的示例。

然而,无监督学习确实面临一些局限性。在没有预定义答案的情况下,它可能难以保证准确性和性能评估。它通常需要人工来解释结果和标记组,并且对缺失值和噪声等问题敏感,这些问题会影响结果的质量。

强化学习详解

与监督学习和无监督学习不同,强化学习不依赖于训练数据。相反,它使用神经网络代理与环境交互以实现特定目标。 

该过程涉及三个主要组成部分:

  • 代理:学习者或决策者。
  • 环境: 智能体与之交互的一切,可以是真实的或虚拟的。
  • 奖励信号: 每次行动后给出的数值,引导智能体朝着目标前进。

当智能体采取行动时,它会影响环境,然后环境会以反馈做出响应。反馈帮助智能体评估其选择并调整其行为。奖励信号帮助智能体了解哪些行动使其更接近实现其目标。

强化学习是诸如自动驾驶机器人技术等用例的关键。在自动驾驶中,车辆控制、目标检测和避障等任务基于反馈进行学习。模型使用神经网络智能体进行训练,以检测行人或其他物体,并采取适当的行动来避免碰撞。同样,在机器人技术中,强化学习能够实现诸如物体操作和运动控制等任务。

OpenAI 的一个项目是强化学习的一个很好的例子,研究人员训练 AI 智能体来玩流行的多人视频游戏 Dota 2。通过使用神经网络,这些智能体处理来自游戏环境的大量信息,以做出快速的战略决策。通过持续的反馈,智能体随着时间的推移不断学习和改进,最终达到足以击败一些游戏顶级玩家的技能水平。 

图 4. 人类与 AI 对 Dota 矩阵的解读。

了解迁移学习的基础知识

迁移学习与其他类型的学习不同。它不是从头开始训练模型,而是使用在大型数据集预训练的模型,并针对新的但相关的任务对其进行微调。在初始训练期间获得的知识用于提高新任务的性能迁移学习减少了训练新任务所需的时间,具体取决于其复杂性。它的工作原理是保留模型中捕获一般特征的初始层,并将最后一层替换为新特定任务的层。 

艺术风格迁移是计算机视觉中迁移学习的一个有趣应用。这项技术使模型能够转换图像以匹配不同艺术品的风格。为了实现这一点,首先在大量图像及其艺术风格配对的数据集上训练神经网络。通过这个过程,模型学会识别一般的图像特征和风格模式。

一旦模型经过训练,就可以对其进行微调,以将特定绘画的风格应用于新图像。网络适应新图像,同时保留学习到的风格特征,从而创建出将原始内容与所选艺术风格相结合的独特结果。例如,您可以拍摄一张山脉的照片,并应用爱德华·蒙克的呐喊的风格,从而生成一张捕捉场景但具有绘画大胆、富有表现力的风格的图像。

图 5. 使用迁移学习进行艺术风格迁移的示例。

了解机器学习类型之间的差异

现在我们已经介绍了主要的机器学习类型,让我们仔细看看每一种,以帮助您了解哪一种最适合不同的应用。

  • 监督学习:当处理带标签的数据时,这种类型非常准确,但需要大量数据,并且可能对噪声敏感。
  • 无监督学习:它对于探索未标记数据以发现隐藏模式非常有用,但结果可能不太精确且难以解释。
  • 强化学习:它训练智能体在复杂的环境中做出逐步决策,但通常需要大量的计算能力。
  • 迁移学习:这种方法使用预训练模型来加速训练并提高新任务的性能,尤其是在数据有限的情况下。
图 6. 所有机器学习类型的比较。图片作者提供。

选择正确的机器学习类型取决于几个因素。如果您有大量带标签的数据和明确的任务,则监督学习效果很好。无监督学习对于数据探索或标记示例稀缺时非常有用。强化学习非常适合需要逐步决策的复杂任务,而迁移学习在数据有限或资源受限时非常有用。通过考虑这些因素,您可以为您的计算机视觉项目选择最合适的方法。

总结

机器学习技术可以应对各种挑战,尤其是在计算机视觉等领域。通过了解不同的类型,监督学习、无监督学习、强化学习和迁移学习,您可以为您的需求选择最佳方法。

 监督学习非常适合需要高精度和带标签数据的任务,而无监督学习非常适合在未标记数据中查找模式。强化学习在复杂的、基于决策的环境中效果良好,而当您想在有限的数据下构建预训练模型时,迁移学习会很有帮助。 

每种方法都有独特的优势和应用,从面部识别到机器人技术再到艺术风格迁移。选择正确的类型可以释放医疗保健、汽车和娱乐等行业的新可能性。

要了解更多信息,请访问我们的 GitHub 仓库,并与我们的 社区 互动。在我们的解决方案页面上探索 自动驾驶汽车农业 中的 AI 应用。🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板