探索计算机视觉(CV)的基础知识。Ultralytics Ultralytics 如何实现目标检测、分割等功能。
计算机视觉(CV)是人工智能(AI)领域中一项复杂的技术,它使计算机和系统能够从数字图像、视频及其他视觉输入中提取有意义的信息。 人类视觉具备即时感知和理解环境的先天能力,而计算机则需要经过训练才能识别模式并解读像素。通过运用机器学习(ML)技术——特别是深度学习(DL)算法——视觉系统能够采集视觉数据,进行处理,并基于这些信息提出建议或采取行动。
从本质上讲,计算机将图像视为代表像素的数值数组。现代计算机视觉高度依赖卷积神经网络(CNN),其设计旨在模拟人脑神经元的连接模式。这些网络通过称为特征提取的过程,学会识别从简单边缘和纹理到复杂形状和物体的分层特征。
要有效运行,这些模型需要海量的训练数据。例如,要识别汽车,模型需要处理数千张标注过的汽车图像,这些图像涵盖各种条件下的场景。Ultralytics 之类的工具可简化这一工作流程,让用户能够标注数据集、在云端训练模型并高效部署。
计算机视觉并非单一功能,而是由多个独立任务组成的集合,每个任务都解决特定问题:
计算机视觉的应用几乎遍及所有行业,实现了以往需要人眼完成的任务自动化。
区分计算机视觉与图像处理至关重要,尽管二者常协同工作。
现代库使实现强大的计算机视觉模型变得触手可及。下例演示了如何加载
最先进的 YOLO26 用于detect 图像detect 模型
使用 ultralytics 包装
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
这个简单脚本利用预训练模型执行复杂推理任务,展现了现代人工智能工具的易用性。对于希望突破静态图像局限的开发者而言,计算机视觉技术还为安防和体育分析领域应用的视频理解与实时追踪系统提供支持。通过与OpenCV等库集成, OpenCV等库,开发者可构建全面应用程序,实现视觉世界的捕捉、处理与分析。