深圳尤洛视觉
深圳
立即加入

生成式 AI 正在改变计算机视觉的未来发展方向

Abirami Vina

5 分钟阅读

2025年3月24日

探索 YOLO Vision 2024 小组讨论中的有趣见解。了解生成式 AI 如何塑造实时视觉 AI 模型的未来发展方向。

生成式 AI 是人工智能 (AI) 的一个分支,它通过学习现有数据中的模式来创建新的内容,例如图像、文本或音频。 感谢最近的进步,它现在可以用来生成高度逼真的内容,这些内容通常模仿人类的创造力。

然而,生成式 AI 的影响不仅仅在于创建内容。随着Ultralytics YOLO 模型等实时计算机视觉模型的不断发展,生成式 AI 也在重新定义视觉数据的处理和增强方式,为现实场景中的创新应用铺平了道路。 

这种新的技术转变是YOLO Vision 2024 (YV24)上的一个有趣话题,YV24是由Ultralytics主办的一年一度的混合活动。YV24汇集了人工智能爱好者和行业领导者,共同讨论计算机视觉的最新突破。本次活动侧重于创新、效率和实时人工智能解决方案的未来。

本次活动的主要亮点之一是关于 生成式 AI 时代的 YOLO 的小组讨论。该小组由 Ultralytics 创始人兼首席执行官 Glenn Jocher、Ultralytics 高级机器学习工程师 Jing Qiu 和清华大学的 Ao Wang 组成。他们探讨了生成式 AI 如何影响计算机视觉以及构建实用 AI 模型所面临的挑战。

在本文中,我们将回顾他们讨论中的关键见解,并仔细研究生成式 AI 如何改变视觉 AI。

开发 Ultralytics YOLO 模型

除了 Glenn Jocher 之外,许多技术精湛的工程师在开发 Ultralytics YOLO 模型方面发挥了重要作用。其中一位是 Jing Qiu,他讲述了他与 YOLO 的意外开始。他解释说,他对人工智能的热情始于大学时代。他花费了大量时间探索和学习该领域。Jing Qiu 回忆起他如何在 GitHub 上与 Glenn Jocher 建立联系并参与各种 AI 项目。

继 Jing Qiu 的发言之后,Glenn Jocher 将 GitHub 描述为“一种令人难以置信的分享方式——在那里,你从未见过的人们聚集在一起互相帮助,为彼此的工作做出贡献。这是一个伟大的社区,也是开始使用 AI 的绝佳方式。”

__wf_reserved_inherit
图 1. Glenn Jocher 和 Jing Qiu 在 YV24 大会上发表演讲。

Jing Qiu 对 AI 的兴趣以及他在 Ultralytics YOLOv5 上的工作帮助改进了该模型。后来,他在开发 Ultralytics YOLOv8 中发挥了关键作用,该模型引入了进一步的改进。他将其描述为一次不可思议的旅程。今天,Jing Qiu 仍在不断改进和研究像 Ultralytics YOLO11 这样的模型。 

YOLOv10:针对实际性能进行了优化

王敖从中国远程加入小组讨论,他介绍自己是一名博士生。最初,他学习的是软件工程,但对人工智能的热情促使他转向计算机视觉和深度学习。

他第一次接触到著名的 YOLO 模型是在试验各种 AI 技术和模型时。YOLO 模型的速度和准确性给他留下了深刻的印象,这激励他更深入地研究计算机视觉任务,例如目标检测。最近,Ao Wang 为 YOLOv10 做出贡献,这是 YOLO 模型的最新版本。他的研究重点是优化模型,使其更快、更准确。

生成式 AI 和视觉 AI 之间的主要区别

然后,小组成员开始讨论生成式人工智能,Jing Qiu指出生成式人工智能和视觉人工智能的用途非常不同。生成式人工智能创建或生成文本、图像和视频等内容,而视觉人工智能则分析已经存在的事物,主要是图像。

Glenn Jocher 强调,规模也是一个很大的区别。生成式 AI 模型非常庞大,通常包含数十亿个参数——这些内部设置有助于模型从数据中学习。计算机视觉模型要小得多。他说:“我们最小的 YOLO 模型比最小的 LLM [大型语言模型] 小大约一千倍。 因此,300 万个参数与 30 亿个参数相比。”

__wf_reserved_inherit
图 3. YV24 上关于生成式 AI 和视觉 AI 的小组讨论。

Jing Qiu 补充说,生成式 AI 和计算机视觉的训练与部署过程也非常不同。生成式 AI 需要庞大而强大的服务器才能运行。另一方面,像 YOLO 这样的模型是为效率而构建的,可以在标准硬件上进行训练和部署。这使得 Ultralytics YOLO 模型在实际应用中更具实用性。

尽管它们有所不同,但这两个领域正开始相互交织。Glenn Jocher 阐述说,生成式 AI 正在为视觉 AI 带来新的进步,使模型更智能、更高效。 

生成式 AI 对计算机视觉的影响

生成式 AI 发展迅速,这些突破正在影响人工智能的许多其他领域,包括计算机视觉。接下来,让我们一起了解一下专家组对此的一些有趣的见解。

硬件的进步正在推动人工智能的创新

在小组讨论的早期,Glenn Jocher解释说,机器学习的想法已经存在很长时间了,但当时的计算机性能不足以使它们发挥作用。AI的想法需要更强大的硬件才能成为现实。

在过去的 20 年里,具有并行处理能力的 GPU(图形处理单元)的兴起改变了一切。它们使训练 AI 模型更快、更高效,这使得深度学习能够快速发展。

如今,像 TPU(张量处理单元) 这样的 AI 芯片和优化的 GPU 使用更少的电力,同时处理更大、更复杂的模型。这使得 AI 在现实世界的应用中更易于访问和使用。

随着每一项新的硬件改进,生成式人工智能和计算机视觉应用程序都变得更加强大。这些进步使实时人工智能更快、更高效,并准备好在更多行业中使用。

生成式人工智能如何塑造目标检测模型

当被问及生成式 AI 如何影响计算机视觉时,Jing Qiu 表示 transformers(帮助 AI 专注于图像中最重要部分的模型)已经改变了 AI 理解和处理图像的方式。第一个重大步骤是 DETR(Detection Transformer),它使用这种新方法进行目标检测。它提高了准确性,但存在性能问题,在某些情况下速度较慢。

为了解决这个问题,研究人员创建了像 RT-DETR 这样的混合模型。 这些模型结合了卷积神经网络(CNN,这是一种深度学习模型,可以自动学习和提取图像中的特征)和 Transformer,从而平衡了速度和准确性。 这种方法利用了 Transformer 的优势,同时使对象检测速度更快。

有趣的是,YOLOv10 使用基于 Transformer 的注意力层(模型的一部分,其作用类似于聚光灯,突出显示图像中最重要的区域,同时忽略不太相关的细节)来提高其性能。 

王傲还提到,生成式 AI 正在改变模型的训练方式。诸如掩码图像建模之类的技术有助于 AI 更有效地从图像中学习,从而减少了对大型手动标注数据集的需求。这使得计算机视觉训练更快,资源消耗更少。

生成式人工智能和视觉人工智能的未来 

小组讨论的另一个关键点是生成式 AI 和视觉 AI 如何结合起来构建更强大的模型。Glenn Jocher 解释说,虽然这两种方法各有优势,但将它们结合起来可能会开辟新的可能性。 

例如,像YOLO这样的视觉AI模型通常将图像分成网格来识别对象。这种基于网格的方法可以帮助语言模型提高其精确定位细节和描述细节的能力——这是许多语言模型目前面临的挑战。从本质上讲,合并这些技术可能会产生能够准确检测并清楚解释其所见内容的系统。

__wf_reserved_inherit
图 4. 生成式人工智能和视觉人工智能的未来。图片由作者提供。

主要要点

生成式 AI 和计算机视觉正在共同进步。虽然生成式 AI 可以创建图像和视频,但它还可以通过引入新的创新理念来改进图像和视频分析,从而使视觉 AI 模型更加准确和高效。 

在这次富有洞察力的 YV24 小组讨论中,Glenn Jocher、Jing Qiu 和 Ao Wang 分享了他们对这些技术如何塑造未来的看法。随着更好的人工智能硬件的出现,生成式人工智能和视觉人工智能将继续发展,从而带来更大的创新。这两个领域正在共同努力,为日常生活创造更智能、更快、更有用的人工智能。

加入我们的社区,并探索我们的GitHub 仓库,以了解更多关于视觉 AI 的信息。查看我们的许可选项,以启动您的计算机视觉项目。对制造业中的 AI自动驾驶中的计算机视觉等创新感兴趣?访问我们的解决方案页面以了解更多信息。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板