遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

计算机视觉中使用的 AI 学习技术类型

探索计算机视觉应用中使用的不同机器学习和深度学习技术,从监督学习到迁移学习。

ABAbirami Vina
4 min read
计算机视觉中使用的 AI 学习技术类型

机器学习 是一种 人工智能 (AI) 类型,它能帮助计算机从数据中学习,从而无需为每项任务进行详细编程即可自主做出决策。它涉及创建能够识别数据模式的 算法模型。通过识别 数据 中的模式并从中学习,这些算法可以随时间推移逐渐提高其 性能

机器学习 发挥关键作用的一个领域是 计算机视觉,这是一个专注于 视觉数据 的 AI 领域。计算机视觉 利用机器学习帮助计算机检测和识别图像及视频中的模式。在机器学习进步的推动下,计算机视觉的 全球市场价值 预计到 2032 年将达到约 1757.2 亿美元。

在本文中,我们将探讨 计算机视觉 中使用的不同机器学习类型,包括监督学习、无监督学习、强化学习和迁移学习,以及它们各自在不同应用中的作用。让我们开始吧!

Link to this section计算机视觉中的机器学习概述#

Computer vision relies on machine learning, especially techniques like deep learning and neural networks, to interpret and analyze visual information. These methods make it possible for computers to perform computer vision tasks such as detecting objects in images, classifying images by category, and recognizing faces. Machine learning is also essential for real-time computer vision applications like quality control in manufacturing and medical imaging in healthcare. In these cases, neural networks help computers interpret complex visual data, such as analyzing brain scans to detect tumors.

事实上,许多先进的计算机视觉模型(如 Ultralytics YOLO11)都是建立在神经网络之上的。

使用 Ultralytics YOLO11 对脑部扫描图进行分割

图 1. 使用 Ultralytics YOLO11 分割脑部扫描。

机器学习中有几种学习方法,如监督学习、无监督学习、迁移学习和强化学习,它们正在突破计算机视觉的可能性边界。在接下来的章节中,我们将探索每种类型,以了解它们如何对计算机视觉做出贡献。

Link to this section探索监督学习#

Supervised learning is the most commonly used type of machine learning. In supervised learning, models are trained using labeled data. Each input is tagged with the correct output, which helps the model learn. Similar to a student learning from a teacher, this labeled data acts as a guide or supervisor.

训练 过程中,模型会被提供输入数据(它需要处理的信息)和输出数据(正确答案)。这种设置有助于模型学习输入和输出之间的联系。监督学习的主要目标是让模型发现一个准确链接每个输入与其正确输出的规则或模式。通过这种映射,模型在遇到新数据时可以做出准确的预测。例如,计算机视觉 中的人脸识别依赖于监督学习来基于这些学习到的模式识别面部。

这有一个常见的用途,即使用人脸识别来解锁你的 智能手机。该模型通过你脸部的标记图像进行训练,这样当你解锁手机时,它会将实时图像与它所学到的内容进行比较。如果检测到匹配,你的手机就会解锁。

用于解锁智能手机的面部识别

图 2. 人脸识别可用于解锁你的智能手机。

Link to this section无监督学习在 AI 中是如何工作的?#

无监督学习 是一种使用未标记数据的机器学习类型——在训练过程中,模型不会得到任何指导或正确答案。相反,它学会自行发现模式和见解。

无监督学习使用三种主要方法识别模式:

  • 聚类:将相似的数据点分组。它对于诸如 客户细分 等任务非常有用,可以将相似的客户基于他们的 行为 或属性进行分组。
  • 关联:用于识别项目之间的关系,帮助揭示数据中的联系(例如,在 购物篮分析 中寻找经常一起购买的产品)。
  • 降维:通过删除冗余特征来简化数据集,这有助于可视化和处理。

无监督学习的一个关键应用是 图像压缩,其中像 k-means 聚类 这样的技术可以在不影响视觉质量的情况下减小图像大小。像素被分成聚类,每个聚类由平均颜色表示,从而产生颜色更少且文件大小更小的图像。

无监督图像压缩示例

图 3. 无监督图像压缩示例。

然而,无监督学习确实面临某些局限性。由于没有预定义的答案,它在准确性和性能评估方面可能会遇到困难。它通常需要人工来解释结果并标注组别,并且对缺失值和噪声等问题很敏感,这可能会影响结果的质量。

Link to this section强化学习详解#

与监督学习和无监督学习不同,强化学习 不依赖于训练数据。相反,它使用神经网络代理与环境进行交互以实现特定目标。

该过程涉及三个主要组件:

  • 代理:学习者或决策者。
  • 环境:代理与之交互的一切,可以是现实的也可以是虚拟的。
  • 奖励信号:在每次动作后给出的数值,引导代理向目标前进。

当代理采取行动时,它会影响环境,环境随后会做出反馈。反馈帮助代理评估其选择并调整其行为。奖励信号帮助代理理解哪些动作能使其更接近目标。

强化学习对于诸如 自动驾驶机器人技术 等用例至关重要。在 自动驾驶 中,车辆控制、对象检测和避障等任务都基于反馈进行学习。模型使用神经网络代理进行训练,以检测行人或其他对象并采取适当的行动来 避免碰撞。同样,在 机器人技术 中,强化学习实现了物体操纵和运动控制等任务。

强化学习应用的一个极好例子是 OpenAI 的一个项目,研究人员 训练 AI 代理 来玩流行的多人 电子游戏 Dota 2。通过神经网络,这些代理处理来自 游戏环境 的海量信息,从而做出快速的战略决策。通过持续的反馈,代理随着时间的推移不断学习和改进,最终达到了能够击败一些 游戏顶级玩家 的技能水平。

人类与 AI 对 Dota Matrix 的解读对比

图 4。人类与 AI 对 Dota 矩阵的解读。

Link to this section了解迁移学习的基础知识#

Transfer learning is different from other types of learning. Instead of training a model from scratch, it uses a pre-trained model on a large dataset and fine-tunes it for a new, but related, task. The knowledge gained during the initial training is used to improve the performance of the new task. Transfer learning reduces the time required to train for a new task, depending on its complexity. It works by retaining the initial layers of the model that capture the general features and replacing the final layers with that of the new specific task.

艺术风格迁移是计算机视觉中迁移学习的一个有趣应用。此技术使模型能够转换图像以匹配不同 艺术品 的风格。为了实现这一点,首先要在包含图像及其艺术风格的大型数据集上训练神经网络。通过这个过程,模型学会识别通用的图像特征和风格模式。

模型训练完成后,可以进行微调以将特定绘画的风格应用于新图像。网络在适应新图像的同时保留学习到的风格特征,从而创造出一种将原始内容与选定艺术风格相结合的独特结果。例如,你可以拍摄一张山脉的照片并应用爱德华·蒙克 (Edvard Munch) 的《呐喊》(The Scream) 的风格,从而得到一张既捕捉了场景又带有画作大胆、表现力风格的图像。

使用迁移学习进行艺术风格迁移的示例

图 5. 使用迁移学习进行艺术风格迁移的示例。

Link to this section机器学习类型之间的差异一览#

现在我们已经涵盖了主要的机器学习类型,让我们仔细观察每一种,以帮助你了解最适合不同应用的类型。

  • 监督学习:这种类型在处理标记数据时非常准确,但需要大量数据,并且可能对噪声敏感。
  • 无监督学习:它对于探索未标记数据以发现隐藏模式非常有用,尽管结果可能不够精确且更难解读。
  • 强化学习:它训练代理在复杂环境中进行逐步决策,但通常需要大量的计算能力。
  • 迁移学习:这种方法使用预训练模型来加速训练并在新任务上提高性能,尤其是在数据有限的情况下。

所有机器学习类型的对比

图 6. 所有机器学习类型的比较。图片来源:作者。

选择合适的机器学习类型取决于几个因素。如果你有丰富的标记数据和明确的任务,监督学习效果很好。如果你需要进行数据探索或标记样本稀缺,无监督学习非常有用。强化学习是需要逐步决策的复杂任务的理想选择,而迁移学习在数据有限或资源受限时非常棒。通过考虑这些因素,你可以为你的 计算机视觉项目 选择最合适的方法。

Link to this section总结#

机器学习技术可以解决各种挑战,尤其是在计算机视觉等领域。通过了解监督学习、无监督学习、强化学习和迁移学习这几种不同类型,你可以选择最适合你需求的方法。

监督学习非常适合需要高精度和标记数据的任务,而无监督学习是寻找未标记数据中模式的理想选择。强化学习在复杂的、基于决策的环境中运行良好,而当你想要基于具有有限数据的预训练模型进行构建时,迁移学习非常有用。

每种方法都有独特的优势和应用,从人脸识别到机器人技术再到艺术风格迁移。选择合适的类型可以在医疗保健、汽车和娱乐等行业开启新的可能性。

欲了解更多信息,请访问我们的 GitHub 仓库,并加入我们的社区。在我们的解决方案页面上探索自动驾驶汽车农业领域的 AI 应用。🚀

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅