深圳Yolo 视觉
深圳
立即加入

什么是图像计算?快速入门

了解图像计算是什么、它是如何工作的,以及它如何在医疗保健、自动驾驶和其他现代智能系统中应用。

想部署一个计算机视觉项目吗?

了解授权

当您走过购物中心或繁忙的公共街道时,安装在入口和人行道上方的摄像头会记录活动。它们每秒都会生成视觉数据,而大多数时候我们甚至没有注意到。

这种持续的数据流为现代 AI 驱动系统提供支持,从 智能安防系统自动驾驶汽车。这些创新都由图像计算驱动,这是一个将计算机科学、数学和物理学结合在一起的多功能领域。

图像计算帮助机器理解图像中的内容。它使系统能够识别场景中发生的事情,并决定如何运行或响应,例如当出现障碍物时,自动驾驶汽车会停车。

在本文中,我们将探讨什么是图像计算以及它如何在尖端人工智能 (AI)系统中应用。让我们开始吧!

了解图像计算

图像计算是利用先进算法对图像进行捕获、处理和分析的过程。它将图像视为机器可以理解和处理的数据。

换句话说,每张图像都被处理成一个数字网格。这是通过将像素(图像的最小单位)转换为由行和列组成的矩阵来实现的。每个像素都有一个数值,告诉机器图像特定区域的亮度或暗度。

这些值的组织方式取决于图像是灰度图像还是彩色图像。在灰度图像中,像素值通常介于 0(黑色)到 255(白色)之间。在彩色图像中,使用多个矩阵来表示不同的颜色通道,例如红、绿、蓝 (RGB) 或色相、饱和度、明度 (HSV)。

图 1. 图像的矩阵表示 (来源)

除了像素矩阵之外,图像通常还包含隐藏的上下文信息,即元数据。元数据提供重要细节,例如图像分辨率、位深、相机或传感器设置以及图像捕获的确切时间。图像以特定的文件格式存储,以同时保留视觉数据和元数据。

例如,在生物医学图像计算中,图像通常使用医学数字成像和通信 (DICOM) 格式存储。DICOM 将视觉图像数据与患者信息(例如身份识别详细信息和设备设置)结合起来,确保医学图像分析的准确性、一致性和安全性。

图像计算的工作原理

既然我们对图像计算有了更好的理解,让我们来了解一下将摄像头输入转换为有用洞察的步骤。

尽管具体工作流程可能因应用而异,但大多数图像计算系统都遵循以下主要阶段:

  • 图像采集:首先,通过摄像头和传感器捕获视觉数据,或从开源图像数据集中获取。
  • 图像预处理:然后,对采集到的图像进行大小调整、去噪、增强,并转换为特定的色彩空间,以标准化输入。
  • 特征提取:深度学习算法用于学习图像中的重要模式,例如边缘、形状和纹理。
  • 解释:分析提取的特征,以执行目标检测、图像分割和目标跟踪等任务。
  • 输出:最后,系统生成结构化输出,例如类别标签或边界框,并以易于人类或其他系统理解和用于可视化的方式呈现。

图像计算、计算机视觉与图像处理

当您遇到图像计算时,也可能会看到诸如图像处理和计算机视觉等术语。尽管这些术语经常互换使用,但它们描述了 AI 系统与视觉数据交互的不同方式。

例如,图像处理侧重于通过去噪、调整大小和对比度调整等基本操作来增强图像或改善输入图像的质量。同时,作为 AI 分支的计算机视觉则在图像处理的基础上,使机器能够识别物体、解释场景并理解图像或视频中发生的事情。

图像计算结合了图像处理和计算机视觉,将视觉数据转换为智能系统有意义且可用的输出。

图 2. 图像处理 vs 计算机视觉 vs 图像计算。作者供图。

图像计算的当前实现方式

接下来,让我们看看图像计算在当今是如何实现的。

在图像计算的早期阶段,边缘、角点和纹理等特征是使用基于规则和手工设计的算法手动定义的。尽管这些方法在受控环境中表现良好,但它们难以扩展并适应复杂的现实世界条件。

现代图像计算系统通过使用基于深度学习的方法来解决这些局限性。卷积神经网络 (CNN) 和视觉 Transformer 等模型从大型图像数据集中自动学习相关特征。这使它们能够以更高的准确性和鲁棒性执行目标 detect、实例 segment 和目标 track等任务。

如今,图像计算工作流程通常依赖于为部署在尖端 AI 系统中而设计的实时视觉模型。例如,Ultralytics YOLO26等视觉 AI 模型能够在边缘设备和云环境中实现快速高效的计算机视觉功能,例如目标 detect 和实例 segment。

图 3. 使用 YOLO26 detect 和 segment 图像中物体的示例

图像计算的现实世界应用

图像计算在实际应用中被广泛使用,以理解和处理视觉数据。让我们探讨图像计算如何在不同领域中应用。

医学图像计算助力早期疾病检测

图像计算能够帮助医生和临床医生更早地发现疾病,并更高效地分析医学扫描图像。这些创新的医疗系统能够快速处理X射线和磁共振成像(MRI)等医学影像数据,并且通常比人工审查提供更一致的结果。

例如,Ultralytics YOLO26 等模型可以通过大量胸部X射线图像进行训练,以学习与感染和异常相关的模式。一旦训练完成,这些模型可以帮助识别扫描结果是否正常,或者是否显示出肺炎或COVID-19等疾病的迹象。

图像计算在自动驾驶中的应用

自动驾驶车辆利用图像计算来理解周围环境并做出驾驶决策。这项技术将原始摄像头画面转化为实时信息,帮助车辆安全平稳地行驶。

图像计算常用于高级驾驶辅助系统(ADAS)。这些模块不仅仅是录制视频,它们会分析每一帧,以识别车道线、其他车辆、行人和障碍物。这使得汽车能够在很少人为干预的情况下对不断变化的道路状况做出反应。

另一个常见用例是结合来自多个摄像头的图像,以创建车辆周围的360度全景视图。图像计算有助于校正镜头畸变,提高图像清晰度,并平衡所有摄像头画面中的亮度和色彩。最终呈现的是一个清晰、无缝的视图,使车辆即使在恶劣天气或低光照条件下也能安全行驶。

图4. 基于深度学习的图像拼接 (来源)

图像计算的优点与缺点

以下是图像计算的一些优点:

  • 可扩展性:一旦训练完成,图像计算系统就可以持续、大规模地分析大量视觉数据。
  • 决策: 它支持自动驾驶、医疗筛查和工业监控等时间敏感型应用。
  • 长期成本效益:尽管初始设置可能昂贵,但自动化视觉分析可以降低长期运营成本。

虽然图像计算有诸多益处,但也存在一些局限性。以下是一些需要考虑的因素:

  • 数据质量: 图像计算方法高度依赖于准确的标注和高质量数据集,而这些数据集的创建可能成本高昂且耗时。
  • 对条件的敏感性:光照、遮挡、运动模糊、天气或摄像机角度的变化可能会对模型性能产生负面影响。
  • 可解释性有限:基于深度学习的图像模型可能像黑箱一样,难以解释其决策是如何做出的。

主要要点

图像计算已从基本的图像处理演变为一种技术,使AI系统能够实时感知和理解现实世界。随着深度学习的不断发展,图像计算正成为构建更智能、更实用工具包和应用的关键组成部分。

加入我们的社区并查看我们的GitHub仓库,了解AI知识。浏览我们的解决方案页面,阅读关于AI在农业中的应用计算机视觉在物流中的应用。探索我们的许可选项,开始构建视觉AI模型。

让我们一起共建AI的未来!

开启您的机器学习未来之旅