遇见 YOLO26: 下一代视觉 AI。
Ultralytics
活动

生成式 AI 正在改变计算机视觉的未来之路

发现 YOLO Vision 2024 面板讨论中一些有趣的见解。探索生成式 AI 如何塑造实时视觉 AI 模型的未来之路。

ABAbirami Vina
5 min read
YOLO Vision 2024 关于生成式 AI 和视觉 AI 的小组讨论

生成式 AI 是人工智能(AI)的一个分支,它通过学习现有数据中的模式来创建新的内容,例如图像、文本或音频。得益于近期的技术进步,它现在可以用于生成高度逼真的内容,这些内容往往能够模拟人类的创造力。

然而,生成式 AI 的影响不仅仅在于创造内容。随着像 Ultralytics YOLO models 这样的实时计算机视觉模型不断演进,生成式 AI 也在重新定义视觉数据的处理和增强方式,为现实场景中的创新应用铺平了道路。

这一新的技术变革是 YOLO Vision 2024 (YV24) 上的一个热门话题,这是一个由 Ultralytics 主办的年度混合活动。在 YV24 上,AI 爱好者和行业领袖齐聚一堂,探讨 计算机视觉 的最新突破。本次活动聚焦于创新、效率以及实时 AI 解决方案的未来。

活动的一大亮点是关于 YOLO in the Age of Generative AI 的小组讨论。小组成员包括 Ultralytics 创始人兼 CEO Glenn Jocher、Ultralytics 高级机器学习工程师 Jing Qiu 以及来自清华大学的 Ao Wang。他们探讨了生成式 AI 如何影响计算机视觉,以及构建实用 AI 模型所面临的挑战。

在本文中,我们将回顾他们讨论中的关键见解,并深入了解生成式 AI 如何推动 Vision AI 的变革。

Link to this section开发 Ultralytics YOLO models#

除了 Glenn Jocher,许多技术精湛的工程师也在开发 Ultralytics YOLO models 的过程中发挥了至关重要的作用。其中一位工程师 Jing Qiu 回忆了他与 YOLO 不期而遇的开始。他解释说,他对 AI 的热爱始于大学时代,当时他投入了大量时间去探索和学习该领域。Jing Qiu 回忆起他是如何在 GitHub 上与 Glenn Jocher 建立联系,并参与到各种 AI 项目中的。

在 Jing Qiu 所述的基础上,Glenn Jocher 将 GitHub 描述为“一种令人难以置信的分享方式——在这里,素未谋面的人们聚在一起互相帮助,为彼此的工作做出贡献。这是一个很棒的社区,也是开始从事 AI 工作的一个非常好的途径。”

Glenn Jocher 和 Jing Qiu 在 YV24 舞台上发言

图 1. Glenn Jocher 和 Jing Qiu 在 YV24 的舞台上发言。

Jing Qiu 对 AI 的兴趣以及他在 Ultralytics YOLOv5 上的工作帮助改进了该模型。后来,他在开发 Ultralytics YOLOv8 中发挥了关键作用,该版本引入了进一步的改进。他将其描述为一段不可思议的旅程。如今,Jing Qiu 继续改进并致力于像 Ultralytics YOLO11 这样的模型。

Link to this sectionYOLOv10:为现实世界性能而优化#

Ao Wang 通过远程方式参加了小组讨论,他介绍自己是一名博士生。最初,他学习的是软件工程,但对 AI 的热情促使他转向了计算机视觉和深度学习领域。

他第一次接触到著名的 YOLO 模型是在实验各种 AI 技术和模型时。他对其速度和准确性印象深刻,这激励他深入钻研像目标检测这样的 computer vision tasks。最近,Ao Wang 为 YOLOv10 做出了贡献,这是 YOLO 模型的一个最新版本。他的研究重点是优化模型,使其更快、更准确。

Link to this section生成式 AI 与 Vision AI 的关键区别#

随后,小组成员开始讨论生成式 AI。Jing Qiu 指出,生成式 AI 和 Vision AI 的用途大相径庭。生成式 AI 创造或生成诸如文本、图像和视频的内容,而 Vision AI 则负责分析已经存在的事物,主要是图像。

Glenn Jocher 强调,规模也是一个巨大的区别。生成式 AI 模型极其庞大,通常包含数十亿个参数——即帮助模型从数据中学习的内部设置。而计算机视觉模型则要小得多。他说:“我们最小的 YOLO 模型比最小的 LLM [大型语言模型] 小大约一千倍。也就是 300 万个参数对比 30 亿个参数。”

YV24 上关于生成式 AI 和 Vision AI 的小组讨论

图 2. YV24 上关于生成式 AI 和 Vision AI 的小组讨论。

Jing Qiu 补充说,生成式 AI 和计算机视觉的 training 及部署流程也大不相同。生成式 AI 需要庞大且强大的服务器来运行。相比之下,像 YOLO 这样的模型是为效率而构建的,可以在标准硬件上进行训练和部署。这使得 Ultralytics YOLO models 在现实世界中更具实用性。

尽管两者存在差异,但这两个领域正开始交织在一起。Glenn Jocher 阐述道,生成式 AI 正在为 Vision AI 带来新的进步,使模型变得更智能、更高效。

Link to this section生成式 AI 对计算机视觉的影响#

生成式 AI 发展迅速,这些突破正在影响人工智能的许多其他领域,包括计算机视觉。接下来,让我们深入了解小组讨论中提出的一些引人入胜的见解。

Link to this section硬件进步正在推动 AI 创新#

在小组讨论初期,Glenn Jocher 解释说,机器学习的想法早已存在,但当时的计算机性能不足以将其付诸实现。AI 构想需要更强大的硬件才能成为现实。

过去 20 年里,具备并行处理能力的 GPU(图形处理器)的兴起改变了一切。它们使得训练 AI 模型变得更快、更高效,从而让深度学习得以飞速发展。

如今,像 TPUs (Tensor Processing Units) 和经过优化的 GPU 等 AI 芯片在处理更大、更复杂模型的同时消耗更少的电力。这使得 AI 在现实应用中变得更加普及且更有用。

随着每一次硬件的提升,生成式 AI 和计算机视觉应用都在变得更加强大。这些进步使实时 AI 变得更快、更高效,并已准备好在更多行业中使用。

Link to this section生成式 AI 如何塑造目标检测模型#

当被问及生成式 AI 如何影响计算机视觉时,Jing Qiu 表示,transformers(即帮助 AI 聚焦于图像中最重要部分的模型)已经改变了 AI 理解和处理图像的方式。第一个重大进步是 DETR (Detection Transformer),它采用了这种新方法进行目标检测。虽然它提高了准确性,但也存在一些性能问题,导致在某些情况下速度变慢。

为了解决这个问题,研究人员创建了像 RT-DETR 这样的混合模型。这些模型结合了卷积神经网络(CNN,即能够自动学习并从图像中提取特征的深度学习模型)和 Transformer,在速度和准确性之间取得了平衡。这种方法既利用了 Transformer 的优势,又提高了目标检测的速度。

有趣的是,YOLOv10 使用了基于 Transformer 的注意力层(模型中像聚光灯一样突出显示图像中最重要区域,同时忽略不太相关细节的部分)来提升其性能。

Ao Wang 也提到了生成式 AI 是如何改变模型训练方式的。像掩码图像建模(masked image modeling)这样的技术可以帮助 AI 更高效地从图像中学习,从而减少对大型人工标注数据集的需求。这使得计算机视觉训练变得更快,且资源消耗更少。

Link to this section生成式 AI 与 Vision AI 的未来#

小组讨论的另一个关键观点是,生成式 AI 和 Vision AI 未来可能会如何融合以构建更强大的模型。Glenn Jocher 解释说,虽然这两种方法各有千秋,但将它们结合起来可能会开启新的可能性。

例如,像 YOLO 这样的 Vision AI 模型通常将图像划分为网格来识别物体。这种基于网格的方法可以帮助语言模型提升其定位细节并加以描述的能力——这正是许多语言模型目前面临的挑战。本质上,将这些技术融合在一起可能会造就出既能准确检测又能清晰解释其所见内容的系统。

生成式 AI 和 Vision AI 的未来

图 3. 生成式 AI 与 Vision AI 的未来。图片由作者提供。

Link to this section关键要点#

生成式 AI 和计算机视觉正在协同进步。生成式 AI 在创作图像和视频的同时,也通过引入创新的思想来提升图像和视频分析能力,这有望使 Vision AI 模型更加准确和高效。

在这场极具洞察力的 YV24 小组讨论中,Glenn Jocher、Jing Qiu 和 Ao Wang 分享了他们对于这些技术如何塑造未来的思考。随着 AI 硬件的持续改进,生成式 AI 和 Vision AI 将继续演进,从而引领更伟大的创新。这两个领域正在通力合作,为日常生活打造更智能、更快速且更有用的 AI。

加入 our community 并浏览我们的 GitHub repository 以了解更多关于 Vision AI 的信息。查看 our licensing options 以启动你的计算机视觉项目。对 AI in manufacturingcomputer vision in self-driving 等创新感兴趣吗?访问我们的解决方案页面了解更多。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅