探索计算机视觉 (CV) 的基础知识。了解 Ultralytics YOLO26 和 Ultralytics Platform 如何实现目标 detect、segment 等功能。
计算机视觉 (CV) 是 人工智能 (AI) 的一个复杂领域,它使计算机和系统能够从数字图像、视频及其他视觉输入中提取有意义的信息。尽管人类视觉具有即时感知和理解周围环境的先天能力,但计算机必须经过训练才能识别模式和解释像素。通过利用 机器学习 (ML),特别是 深度学习 (DL) 算法,CV 系统可以获取视觉数据,对其进行处理,并根据这些信息提出建议或采取行动。
从本质上讲,计算机将图像视为代表像素的数值数组。现代 CV 严重依赖 卷积神经网络 (CNN),这些网络旨在模仿人脑中神经元的连接模式。这些网络通过一个称为 特征提取 的过程,学习识别特征的层次结构——从简单的边缘和纹理到复杂的形状和物体。
为了有效运行,这些模型需要大量的训练数据。例如,要识别一辆汽车,模型需要处理数千张在各种条件下标注的汽车图像。Ultralytics Platform等工具简化了这一工作流程,允许用户标注数据集、在云端训练模型并高效部署它们。
计算机视觉并非单一功能,而是由一系列不同的任务组成,每个任务解决一个特定问题:
计算机视觉的实用性几乎涵盖所有行业,自动化了以前需要人眼完成的任务。
将 CV 与 图像处理 区分开来很重要,尽管它们经常协同工作。
现代库使得实现强大的 CV 模型变得易于访问。以下示例演示了如何加载最先进的 YOLO26 模型来 detect 图像中的物体 ultralytics 包装
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
这个简单的脚本利用预训练模型执行复杂的 inference 任务,展示了现代 AI 工具的易用性。对于希望超越静态图像的开发者来说,计算机视觉(CV)也为安全和体育分析中使用的 Video Understanding 和实时 tracking 系统提供了支持。通过与 OpenCV 等库集成,开发者可以构建捕获、处理和分析视觉世界的综合应用程序。

开启您的机器学习未来之旅