术语表

计算机视觉(CV)

利用计算机视觉发掘人工智能的潜力!探索计算机视觉在物体检测、医疗保健、自动驾驶汽车等领域的作用。立即了解更多信息!

计算机视觉(CV)是人工智能(AI)的一个领域,它训练计算机解释和理解视觉世界。通过使用来自相机、视频的数字图像和深度学习模型,机器可以准确地识别物体并对其进行分类,然后对其 "所见 "做出反应。其目标是让计算机能够复制人类的视觉,这是一项涉及处理和分析大量视觉数据并使其具有意义的任务。得益于深度学习的进步和大量数据集的可用性,这一领域发展迅速。

计算机视觉如何工作

计算机视觉的工作原理是将机器学习(ML)算法应用于视觉数据。计算机视觉模型不是通过明确编程来识别物体,而是从数千或数百万张标注图像中学习识别模式。例如,要训练一个识别猫的模型,需要给它输入无数张猫的图像,直到它学会自己分辨猫的特征为止。

现代 CV 严重依赖深度学习模型,尤其是卷积神经网络(CNN)。CNN 是一种神经网络,在处理图像数据方面非常有效。它通过对图像应用滤波器(或内核)来创建特征图,突出边缘、纹理和形状等重要特征。这些网络为许多常见的计算机视觉任务提供了支持,使机器分析视觉信息的准确性不断提高。

计算机视觉与图像处理

虽然计算机视觉与图像处理密切相关,但两者并不相同。图像处理是计算机视觉的一个子集,侧重于处理数字图像以增强图像效果或提取有用信息。它涉及锐化、模糊或过滤图像等操作。相比之下,计算机视觉则更进一步,旨在解释和理解图像的内容。例如,图像处理可用于提高照片的质量,而计算机视觉可用于识别照片中的人、物体和场景。您可以从数字图像处理的详细概述中了解更多有关区别的信息。

计算机视觉的关键任务

计算机视觉包含几项关键任务,可让机器分析和解释视觉数据:

  • 物体检测这包括识别和定位图像或视频中的物体。像Ultralytics YOLO这样的模型会在每个检测到的物体周围画一个边界框,并为其分配一个类别标签。
  • 图像分类这项任务包括从一组预定义的类别中为整幅图像指定一个标签。例如,将图像分类为包含 "猫 "或 "狗"。
  • 图像分割与物体检测不同,分割是对图像中的每个像素进行分类。它能更详细地了解图像的内容。子任务包括实例分割语义分割
  • 姿势估计用于确定人或物体在空间中的位置和方向。它广泛应用于机器人、增强现实和人类活动分析。
  • 物体跟踪这项任务涉及在视频序列中长时间跟踪一个或多个物体。它对监控和自主导航等应用至关重要。

实际应用

计算机视觉应用在各行各业日益普及:

工具和框架

通过各种工具和框架,开发和部署计算机视觉模型变得更加容易。PyTorch(访问PyTorch 官方网站)和TensorFlow(访问TensorFlow 官方网站)等库是构建模型的基础。OpenCV等开源库为实时计算机视觉提供了大量功能。

Ultralytics HUB等平台简化了 CV 项目的整个生命周期,从管理数据集训练自定义模型部署。使用ONNX等标准化格式也有助于确保不同框架之间的互操作性。随着这些技术的成熟,它们将继续推动各行业的创新。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板