深圳Yolo 视觉
深圳
立即加入

生成式 AI 正在改变计算机视觉的未来发展方向

Abirami Vina

5 分钟阅读

2025年3月24日

从YOLO Vision 2024 的小组讨论中发现有趣的见解。探索生成式人工智能如何塑造实时视觉人工智能模型的未来之路。

生成式 AI 是人工智能 (AI) 的一个分支,它通过学习现有数据中的模式来创建新的内容,例如图像、文本或音频。 感谢最近的进步,它现在可以用来生成高度逼真的内容,这些内容通常模仿人类的创造力。

然而,生成式人工智能的影响不仅限于创建内容。随着Ultralytics YOLO 模型等实时计算机视觉模型的不断发展,生成式人工智能也在重新定义视觉数据的处理和增强方式,为现实世界中的创新应用铺平了道路。 

在Ultralytics 主办的年度混合活动YOLO Vision 2024(YV24)上,这种新的技术转变成为一个有趣的话题。在 YV24 上,人工智能爱好者和行业领袖齐聚一堂,共同探讨计算机视觉领域的最新突破。活动重点关注创新、效率和实时人工智能解决方案的未来。

本次活动的亮点之一是关于 "生成式人工智能时代的YOLO "的小组讨论。Ultralytics 创始人兼首席执行官格伦-乔彻(Glenn Jocher)、Ultralytics 高级机器学习工程师邱晶(Jing Qiu)和清华大学的王敖(Ao Wang)参加了小组讨论。他们探讨了生成式人工智能如何影响计算机视觉,以及建立实用人工智能模型所面临的挑战。

在本文中,我们将回顾他们讨论中的关键见解,并仔细研究生成式 AI 如何改变视觉 AI。

开发Ultralytics YOLO 模型

除了格伦-约切尔(Glenn Jocher)之外,许多技术精湛的工程师也在开发Ultralytics YOLO 模型的过程中发挥了重要作用。其中一位名叫 Jing Qiu 的工程师讲述了他与YOLO 的不期而遇。他解释说,他对人工智能的热情始于大学时期。他花了大量时间探索和学习这一领域。Jing Qiu 回忆了他是如何在 GitHub 上与 Glenn Jocher 建立联系并参与各种人工智能项目的。

继 Jing Qiu 的发言之后,Glenn Jocher 将 GitHub 描述为“一种令人难以置信的分享方式——在那里,你从未见过的人们聚集在一起互相帮助,为彼此的工作做出贡献。这是一个伟大的社区,也是开始使用 AI 的绝佳方式。”

__wf_reserved_inherit
图 1. Glenn Jocher 和 Jing Qiu 在 YV24 大会上发表演讲。

邱晶对人工智能的兴趣以及他在 Ultralytics YOLOv5帮助完善了模型。后来,他在开发 Ultralytics YOLOv8中发挥了关键作用。他形容这是一段不可思议的旅程。如今,Jing Qiu 仍在继续改进和开发以下模型 Ultralytics YOLO11

YOLOv10:针对实际性能进行了优化

王敖从中国远程加入小组讨论,他介绍自己是一名博士生。最初,他学习的是软件工程,但对人工智能的热情促使他转向计算机视觉和深度学习。

他第一次接触著名的YOLO 模型是在尝试各种人工智能技术和模型时。YOLO模型的速度和准确性给他留下了深刻印象,这激发了他深入研究计算机视觉任务(如物体检测)的兴趣。最近,王敖为YOLOv10(YOLO 模型的最新版本)做出了贡献。他的研究重点是优化模型,使其更快、更准确。

生成式 AI 和视觉 AI 之间的主要区别

然后,小组成员开始讨论生成式人工智能,Jing Qiu指出生成式人工智能和视觉人工智能的用途非常不同。生成式人工智能创建或生成文本、图像和视频等内容,而视觉人工智能则分析已经存在的事物,主要是图像。

Glenn Jocher 强调指出,规模也是一个很大的区别。生成式人工智能模型非常庞大,通常包含数十亿个参数,这些参数是帮助模型从数据中学习的内部设置。计算机视觉模型则小得多。他说:"我们拥有的最小的YOLO 模型比最小的 LLM(大型语言模型)要小一千倍。因此,300 万个参数比 30 亿个参数要小得多。

__wf_reserved_inherit
图 3. YV24 上关于生成式 AI 和视觉 AI 的小组讨论。

邱晶补充说,生成式人工智能与计算机视觉的训练和部署过程也有很大不同。生成式人工智能需要庞大、强大的服务器才能运行。而像YOLO 这样的模型则是为了提高效率而构建的,可以在标准硬件上进行训练和部署。这使得Ultralytics YOLO 模型在现实世界中更加实用。

尽管它们有所不同,但这两个领域正开始相互交织。Glenn Jocher 阐述说,生成式 AI 正在为视觉 AI 带来新的进步,使模型更智能、更高效。 

生成式 AI 对计算机视觉的影响

生成式 AI 发展迅速,这些突破正在影响人工智能的许多其他领域,包括计算机视觉。接下来,让我们一起了解一下专家组对此的一些有趣的见解。

硬件的进步正在推动人工智能的创新

在小组讨论的早期,Glenn Jocher解释说,机器学习的想法已经存在很长时间了,但当时的计算机性能不足以使它们发挥作用。AI的想法需要更强大的硬件才能成为现实。

在过去的 20 年里,具有并行处理能力的 GPU(图形处理单元)的兴起改变了一切。它们使训练 AI 模型更快、更高效,这使得深度学习能够快速发展。

如今,TPU(Tensor 处理单元)和优化的 GPU 等人工智能芯片在处理更大、更复杂的模型时耗电量更低。这使得人工智能在现实世界的应用中更加容易获得和有用。

随着每一项新的硬件改进,生成式人工智能和计算机视觉应用程序都变得更加强大。这些进步使实时人工智能更快、更高效,并准备好在更多行业中使用。

生成式人工智能如何塑造目标检测模型

当被问及生成式人工智能如何影响计算机视觉时,邱晶说,变换器--帮助人工智能专注于图像中最重要部分的模型--改变了人工智能理解和处理图像的方式。DETR(DetectionTransformer,检测Transformer)是第一步,它使用这种新方法进行物体检测。它提高了准确性,但也存在性能问题,在某些情况下速度较慢。

为了解决这个问题,研究人员创建了RT-DETR 等混合模型。这些模型结合了卷积神经网络(CNN,一种深度学习模型,可自动学习并提取图像中的特征)和变换器,在速度和准确性之间取得了平衡。这种方法既能利用变换器的优势,又能加快物体检测速度。

有意思 YOLOv10使用了transformer注意力层(模型的一部分就像聚光灯一样,可以突出图像中最重要的区域,而忽略不太相关的细节)来提高性能。 

王傲还提到,生成式 AI 正在改变模型的训练方式。诸如掩码图像建模之类的技术有助于 AI 更有效地从图像中学习,从而减少了对大型手动标注数据集的需求。这使得计算机视觉训练更快,资源消耗更少。

生成式人工智能和视觉人工智能的未来 

小组讨论的另一个关键点是生成式 AI 和视觉 AI 如何结合起来构建更强大的模型。Glenn Jocher 解释说,虽然这两种方法各有优势,但将它们结合起来可能会开辟新的可能性。 

例如,像YOLO 这样的视觉人工智能模型经常将图像分成网格来识别物体。这种基于网格的方法可以帮助语言模型提高精确定位细节和描述细节的能力--这是目前许多语言模型面临的挑战。从本质上讲,将这些技术融合在一起,可能会开发出能够准确detect 并清晰解释所见内容的系统。

__wf_reserved_inherit
图 4. 生成式人工智能和视觉人工智能的未来。图片由作者提供。

主要要点

生成式 AI 和计算机视觉正在共同进步。虽然生成式 AI 可以创建图像和视频,但它还可以通过引入新的创新理念来改进图像和视频分析,从而使视觉 AI 模型更加准确和高效。 

在这次富有洞察力的 YV24 小组讨论中,Glenn Jocher、Jing Qiu 和 Ao Wang 分享了他们对这些技术如何塑造未来的看法。随着更好的人工智能硬件的出现,生成式人工智能和视觉人工智能将继续发展,从而带来更大的创新。这两个领域正在共同努力,为日常生活创造更智能、更快、更有用的人工智能。

加入我们的社区,并探索我们的GitHub 仓库,以了解更多关于视觉 AI 的信息。查看我们的许可选项,以启动您的计算机视觉项目。对制造业中的 AI自动驾驶中的计算机视觉等创新感兴趣?访问我们的解决方案页面以了解更多信息。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始