深圳Yolo 视觉
深圳
立即加入

使用 Ultralytics YOLO26 和视觉AI 构建智能产品

了解如何使用YOLO26和视觉AI构建智能产品,实现实时detect、智能自动化以及可扩展、响应迅速的产品体验。

使用 Ultralytics 扩展您的计算机视觉项目

开始使用

每天都有数千小时的视频通过嵌入在设备、机器和公共基础设施中的摄像头被捕获。大部分录像仅在出现问题时才被存储、浏览或审查。 

通常,视觉数据是可用的,但缺乏实时解释它的能力。随着产品变得更加互联和数据驱动,这种局限性变得越来越明显。 

用户期望系统不仅仅是记录事件或遵循固定指令。例如,他们期望智能产品能够识别正在发生的事情并立即做出响应,无需等待人工审查或依赖僵化的规则集。

人工智能的最新进展正在帮助弥合这一差距。特别是,计算机视觉使机器能够解释图像和视频,从而使系统能够实时分析场景并做出响应。

然而,将这种能力引入产品需要既快速又可靠的模型。像Ultralytics YOLO26这样的最先进计算机视觉模型正是为此目的而构建的,提供实时部署所需的速度和准确性。

YOLO26 支持核心视觉任务,例如目标 detect、实例 segment 和目标 track,使产品能够解释视觉数据并智能响应。

图1. 使用YOLO26 detect图像中的物体 (来源)

在本文中,我们将探讨如何利用计算机视觉和Ultralytics YOLO26来构建更智能的产品并在实际应用中支持智能自动化。让我们开始吧!

传统产品开发中的差距

在深入探讨计算机视觉如何助力构建更智能的产品之前,我们先来仔细审视一下团队在依赖传统、基于规则的系统和老旧算法时所面临的挑战。 

以下是传统产品开发面临的一些主要挑战:

  • 僵化的基于规则的系统: 硬编码逻辑在受控环境中可能有效,但现实世界的情况很少是可预测的。光照、摄像机角度或物体外观的微小变化都可能迅速打破预设规则并降低准确性。
  • 对现实世界变化的适应性差: 传统系统对新的或意外情况适应性不佳。更新通常需要手动调整和反复优化,这会减缓产品改进速度并增加维护工作量。
  • 可扩展性限制: 随着图像和视频数据量的增长,旧的图像处理流程难以跟上。处理速度变慢,使得在多个视频流中保持实时性能变得困难。
  • 实时场景中的高延迟:许多传统方法无法足够快地处理连续的视觉流。延迟的输出会削弱自动化并降低整体响应能力。
  • 高昂的计算资源需求: 实现可接受的准确性通常需要大量的硬件资源,包括专用图形处理单元(GPU),这会增加基础设施成本。

计算机视觉在构建智能产品中的作用

接下来,我们来看看计算机视觉如何支持更智能的产品行为。

如今,大多数互联产品在日常操作过程中都会收集视觉数据。摄像头被内置到各种设备中,安装在物理空间内,并通过物联网(IoT)系统相互连接。 

因此,图像和视频在后台不断被捕获。挑战不在于收集这些数据。 

棘手的部分在于实时理解这些收集到的数据。如果没有视觉智能,视频片段只会简单地被存储起来,稍后才进行审查,而此时问题往往已经发生。

计算机视觉改变了这一切。通过使用经过训练以识别模式的神经网络,系统可以实时分析图像和视频。产品不再依赖固定规则或人工检查,而是能够解释场景中发生的情况,并随着事件的发生做出响应。

为了将这种视觉能力引入产品中,团队可以依赖高效的计算机视觉模型,例如Ultralytics YOLO26。YOLO26支持关键的视觉任务,并能帮助产品足够快速地解释视觉信息,从而实现实时决策。

视觉驱动产品的基石

以下是计算机视觉任务如何助力智能产品的快速概述:

  • 物体 detect: 此任务可以识别并定位每一帧中的相关物体,使用边界框并分配置信度分数,从而清晰地了解图像中存在什么。
  • 物体 track: 它可用于跟踪特定物体跨越多个帧,使视觉系统能够理解随时间变化的运动和变化。
  • 图像分类:此任务根据图像的主要内容为整个图像分配标签。它对场景进行分类或识别帧内的特定条件。
  • 实例分割:它可以在像素级别精确勾勒对象轮廓,使产品能够更好地理解形状、边界和空间关系。
  • 姿势估计: 此任务 detect 人体或其他关节物体上的关键点。它实时捕获姿势、运动和物理交互。
  • 旋转框检测 (OBB) detect: 它可以使用旋转边界框 detect 物体,而不是标准的水平边界框。当物体以倾斜角度出现或在密集环境中时,它提高了定位精度。

当这些能力应用于连续视觉数据时,产品可以更快地响应、更可靠地自动化,并提供感觉“有意识”而非“被动”的体验。系统不再等待事件稍后审查,而是能够即时理解并采取行动。

实时视觉模型如何实现智能产品行为

随着您对视觉驱动产品了解的深入,您可能会想知道一个系统是如何从简单地录制视频转变为实际实时响应的。

这始于识别摄像头前的事物。当视频流输入时,视觉模型会分析每一帧并识别出重要的元素,例如特定的物体或人物。系统不再对每一个动作做出反应,而是只关注相关信号。

另一个关键方面是速度。实时系统必须快速且一致地处理每一帧,确保detection和决策过程没有明显延迟。

例如,Ultralytics YOLO(You Only Look Once)模型系列旨在实时处理视觉数据。Ultralytics YOLO26等模型在Ultralytics YOLOv5Ultralytics YOLOv8Ultralytics YOLO11等早期版本的基础上,融入了架构改进、性能优化和效率提升。其结果是即使在严苛的现实世界条件下,也能提高速度和准确性。

当集成到产品中时,这些模型在后台持续运行,分析每个传入的帧。系统检查预定义条件,一旦满足,可以立即触发警报、更新工作流程或启动操作。

这使得视觉驱动系统更具响应性、可扩展性和实用性,可集成到从机器人和自动驾驶汽车到智能家居和安全系统等各种环境中。对于业务领导者而言,这意味着更快的响应、更少的人工检查以及感觉可靠而非被动响应的自动化。

使用YOLO26为产品赋能实时视觉智能

Ultralytics YOLO模型,包括YOLO26,作为预训练模型可开箱即用。这意味着它们已经在大型、广泛使用的数据集(例如COCO数据集)上进行了训练。

由于这种预训练,YOLO26可以立即识别常见的现实世界物体。这为产品团队提供了一个实用的起点,意味着他们无需从头开始训练模型即可构建视觉功能。

对于更具体的产品需求,这些预训练模型可以使用高质量标注的领域特定数据进行进一步微调。 

例如,考虑一家配备天花板摄像头的餐厅。像YOLO26这样的定制训练视觉AI模型可以detect空间内有多少人。它可以识别哪些桌子被占用,哪些椅子是空的。 

图2. YOLO26在零售店中实现对人员、开放空间和有员工收银台的实时detect。(来源)

在这种场景下,YOLO26 作为一个视觉引擎在后台持续运行。团队还可以根据性能需求和能效目标,在边缘设备上部署此类模型。 

YOLO 模型在智能产品中的实际应用

既然我们对实时视觉模型的工作原理有了更好的理解,那么让我们来看看 Ultralytics YOLO 模型如何在智能产品中应用于不同的用例,使其更具感知能力、响应能力,并能根据所见采取行动。

YOLO 赋能的医疗产品智能

在医疗保健领域的手术训练中,数小时的手术录像通常需要人工审查,以评估工具操作和工作流程。这个过程耗时且严重依赖人工观察。

将基于YOLO的视觉模型集成到系统中,可以在程序进行时自动分析视频流。该模型可以实时detect手术器械,并识别它们的使用地点和时间。 

这实现了结构化日志记录、改进的分析和高质量的性能洞察,无需持续的人工审查。事实上,使用 YOLO11 模型(作为最新 YOLO26 模型的前身)的研究表明,实时腹腔镜器械 detect 即使在嵌入式系统上也能有效运行。 

图3. 使用 YOLO 进行实时腹腔镜器械 detect (来源)

该模型保持了高精度,同时运行速度足以满足实时手术环境的需求。这表明深度学习如何在手术过程中支持可靠的实时视觉反馈。

创建智能的 YOLO 驱动零售体验

我们都曾在拥挤的超市货架前,努力寻找合适的商品。许多商品看起来相似,标签很小,而且商品经常被放错位置。

对于零售商而言,这使得实时货架可见性变得困难。视觉 AI 和 YOLO 目标 detect 模型可以通过摄像头馈送和实时视频流,帮助商店系统了解货架上的实际情况。这减少了对条形码扫描和人工检查的依赖,使货架监控更加准确和及时。

图4. 使用 YOLO26 detect 和 segment 超市货架上的商品

有了这种精度,零售商不再需要仅仅依赖定期的手动检查。货架可以通过实时视频持续监控。 

低库存可以立即被标记,错放的商品可以更快被发现,结账流程可以更顺畅地运行。这为零售商提供了更好的运营控制,同时为顾客创造了更无缝的购物体验。

视觉 AI 与自主导航

自主系统可以高效运行,但它们通常依赖固定路线或预设坐标。虽然这在稳定环境中有效,但现实世界的条件很少保持不变。 

由深度学习模型驱动的视觉 AI 解决方案,使机器能够理解其周围环境并实时调整。结合计算机视觉和自适应算法,系统可以对实时发生的变化做出响应,而不是依赖僵化、预编程的指令。

那么,这在现实世界中是如何运作的呢?让我们以在仓库中运行的机器人为例。摄像头持续捕捉其周围环境,视觉模型执行实时目标 detect,以识别障碍物、货架和路径。 

这些 detect 支持定位,帮助机器人确定其在设施内的精确位置。基于这种视觉输入,优化算法会立即调整其路线,使其即使在条件变化时也能高效导航并保持平稳自动化。

基础设施监控与更智能的缺陷 detect

电力线路和电网设备需要定期检查以确保安全可靠。大多数情况下,这些公用事业检查仍然涉及人工检查,这既耗时又难以在大范围或偏远地区进行管理。

视觉 AI 提供了一种更简单的方式来监控基础设施,而无需仅仅依赖定期的现场访问。YOLO26 等模型可以直接从真实户外条件下捕获的图像中,detect 电力线路绝缘子上的缺陷,包括裂纹、腐蚀或可见损伤。 

通过实时分析视觉数据,此类系统可以标记出原本可能被忽视的潜在问题。及早发现这些问题可以降低设备故障的风险,最大限度地减少意外停机,并支持更主动的维护操作。

衡量基于视觉的智能产品的投资回报率

对于业务领导者而言,视觉AI不仅仅关乎技术性能,更关乎可衡量的业务影响。 

经过深思熟虑地实施后,视觉驱动系统可以提高效率、降低成本并提升准确性。这些优势也有助于改善用户体验和增强整体性能。

以下是这些影响显而易见的几个领域:

  • 减少人工工作量: 视觉系统自动化重复的检查、监控和验证任务,降低对人工流程的依赖,并使团队能够专注于更具战略性的工作。
  • 更快的决策周期:实时视觉分析使系统能够即时 detect 问题或触发操作,从而缩短响应时间并保持操作顺畅。
  • 更少的操作错误:自动化检测带来一致性。通过减少日常任务中的人为监督,组织通常会发现更少的错误和更可靠的结果。
  • 提高用户参与度:能够智能感知和响应的产品感觉更具交互性和相关性。这会带来更强的用户信任、更好的体验和更高的长期采用率。

主要要点

视觉AI使产品能够实时解读视觉信息,支持更智能的自动化和更具响应性的体验。凭借 detect、track 和 segment 等能力,系统超越了基本规则,实现了情境感知决策。Ultralytics YOLO26 等高效模型使得构建可扩展、有竞争力的视觉驱动产品成为可能。

加入我们活跃的社区,探索诸如AI在制造业视觉AI在零售业等创新。访问我们的GitHub仓库,并查看我们的许可选项,立即开始您的计算机视觉之旅。

让我们一起共建AI的未来!

开启您的机器学习未来之旅