Computer Vision (CV)
探索计算机视觉 (CV) 的基础知识。了解 Ultralytics YOLO26 和 Ultralytics Platform 如何实现目标检测、分割等功能。
计算机视觉 (CV) 是 人工智能 (AI) 的一个复杂领域,它使计算机和系统能够从数字图像、视频及其他视觉输入中获取有意义的信息。虽然人类视觉具有即时感知和理解周围环境的本能,但计算机必须通过训练才能识别模式并解读像素。通过利用 机器学习 (ML),特别是 深度学习 (DL) 算法,CV 系统能够获取视觉数据、进行处理,并根据这些信息做出建议或采取行动。
Link to this section计算机视觉的工作原理#
从本质上讲,计算机将图像视为代表像素的数值数组。现代 CV 在很大程度上依赖于 卷积神经网络 (CNN),这些网络旨在模拟人脑中神经元的连接模式。这些网络通过一种称为 特征提取 的过程,学习识别特征层级——从简单的边缘和纹理到复杂的形状和物体。
为了有效运行,这些模型需要海量的 训练数据。例如,要识别汽车,模型需要处理成千上万张不同条件下汽车的标注图像。像 Ultralytics Platform 这样的工具简化了这一工作流程,使用户能够标注数据集、在云端训练模型并高效部署它们。
Link to this section计算机视觉的核心任务#
计算机视觉并非单一功能,而是一系列解决特定问题的独特任务集合:
- 图像分类: 此任务为整张图像分配一个类标签,回答“这张图里有什么?”的问题(例如,区分猫和狗)。
- 目标检测: 更进一步,检测功能可以识别图像中的独特对象,并围绕它们绘制一个 边界框。这对于统计物品数量或定位特定特征至关重要。
- 实例分割: 这为每个检测到的对象提供精确的像素级掩码,从而区分同一类的不同实例。对于需要高精度的应用(例如分析 医学图像)而言,这至关重要。
- 姿态估计: 这涉及检测对象上的特定关键点(如人体关节),以跟踪运动和姿势。
Link to this section实际应用#
计算机视觉的用途几乎涵盖了所有行业,实现了以往需要人类肉眼才能完成的任务的自动化。
- 制造业与质量控制: 在工业环境中,CV 通常被称为 机器视觉。它被用于实现 质量检测 的自动化,比人类检验员更快、更准确地检测装配线上产品的细微缺陷。例如,AI 在制造业的应用 允许对设备进行实时监控,以预防故障。
- 自动驾驶运输: 自动驾驶汽车完全依赖 CV 来安全导航。通过处理来自摄像头和 LiDAR 传感器 的输入,这些车辆执行 3D 目标检测,实时识别行人、其他车辆和交通标志。这是实现高级别 车辆自动化 的关键组成部分。
- 医疗保健与诊断: 放射科医生使用 CV 来辅助识别 X 光片、核磁共振 (MRI) 和 CT 扫描中的异常。 AI 在医疗保健的应用 有助于疾病的早期发现(例如识别肿瘤),通过突出显示可能被肉眼忽略的感兴趣区域。
Link to this section计算机视觉与图像处理#
区分 CV 与 图像处理 非常重要,尽管它们经常协同工作。
- 图像处理涉及操作图像以增强它或提取信息(例如调整亮度、对比度或应用类似 Adobe Photoshop 中的滤镜)。其输出通常是另一张图像。
- 计算机视觉将图像作为输入,并输出信息或解释(例如“这个房间里有三个人”)。CV 使用图像处理技术为 神经网络 的分析准备图像。
Link to this section使用 Python 实现计算机视觉#
Modern libraries have made implementing powerful CV models accessible. The example below demonstrates how to load the state-of-the-art YOLO26 model to detect objects in an image using the ultralytics package.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()这个简单的脚本利用预训练模型来执行复杂的 推理 任务,展示了现代 AI 工具的易用性。对于希望超越静态图像的开发者而言,CV 还支持在安防和体育分析中使用的 视频理解 和实时跟踪系统。通过与 OpenCV 等库集成,开发者可以构建全面的应用程序,以捕获、处理和分析视觉世界。






