遇见 YOLO26: 下一代视觉 AI。
Ultralytics
活动

Ultralytics 在 YOLO Vision 2025 深圳大会的关键亮点!

重温 2025 年深圳 YOLO Vision 盛会的关键时刻,Ultralytics 在此汇聚了创新者、合作伙伴和 AI 社区,共同度过了充满灵感的一天。

ABAbirami Vina
5 min read
YOLO Vision 2025 深圳大会精彩回顾

10 月 26 日,YOLO Vision 2025 (YV25) 在深圳 OCT 创意文化园 B10 栋迎来中国首秀。这场由 Ultralytics 主办的混合现实视觉 AI 活动汇聚了 200 多名现场参与者,更有众多观众通过 YouTube 和 Bilibili 在线参与。

YV25 深圳直播 在 YouTube 上的观看量已超过 3,500 次,随着活动亮点在社区的传播,关注度持续攀升。那天充满了创意、交流,以及对视觉 AI 未来方向的亲身探索。

活动伊始,主持人黄雪莹致欢迎词,邀请大家在整个活动期间积极交流、学习并参与讨论。她介绍道,继 9 月伦敦站之后,这是今年举办的第二场 YOLO Vision 大会,并分享了再次在深圳汇聚视觉 AI 社区成员的激动之情。

在本文中,我们将回顾当天活动的精华,包括模型更新、演讲会话、现场演示,以及将大家凝聚在一起的社区瞬间。让我们开始吧!

Link to this sectionUltralytics YOLO 模型的发展历程#

当天的首场主题演讲由 Ultralytics 创始人兼 CEO Glenn Jocher 主持。他分享了 Ultralytics YOLO 模型 如何从研究突破演变为全球范围内应用最广泛的视觉 AI 模型之一。Glenn 解释说,他早期的工作重心是让 YOLO 更易于使用。

他将这些模型移植到 PyTorch,改进了文档,并公开分享了一切,以便世界各地的开发者都能基于此进行构建。正如他回忆的那样:“我在 2018 年全身心地投入其中。我认定这就是我的未来。”当初的一项个人努力,很快演变成了一场全球性的开源运动。

Glenn Jocher 在 YOLO Vision 2025 深圳大会舞台上发表演讲

图 1. Glenn Jocher 在 YOLO Vision 2025 深圳大会台上演讲。

如今,Ultralytics YOLO 模型每天驱动着数十亿次推理,Glenn 强调,这种规模的实现离不开贡献者的共同建设。来自全球的研究人员、工程师、学生、爱好者和开源贡献者们将 YOLO 塑造成了今天的模样。

正如 Glenn 所言:“外面有将近一千名贡献者,对此我们深表感激。没有这些人,我们就不会有今天的成就。”

Link to this section关于 Ultralytics YOLO26 的更新#

Ultralytics YOLO26 的首次亮相是在今年早些时候的 YOLO Vision 2025 伦敦 活动上,它被引入作为 Ultralytics YOLO 模型家族的下一个重大飞跃。在 YV25 深圳站上,Glenn 更新了自该公告发布以来的进展,并让 AI 社区更深入地了解了该模型的演进过程。

YOLO26 的设计目标是在更小、更快、更准确的同时,保持其实际应用价值。Glenn 解释说,团队在过去的一年里致力于优化架构、跨设备基准测试,并融合来自研究和社区反馈的洞察。目标是在不增加模型部署难度的情况下,提供最前沿的性能。

Link to this section对 Ultralytics YOLO26 的期待#

Glenn 强调的核心更新之一是 YOLO26 配备了专门的超参数调整方案,从完全从零开始训练转变为在大规模数据集上进行微调。他阐述道,这种方法更贴合实际应用场景。

以下是大会分享的其他一些关键改进:

  • 简化架构:移除了分布焦点损失 (DFL) 层。这使得模型更简洁、运行更快,同时保持了同等的准确度。
  • 端到端推理支持:YOLO26 原生支持端到端,意味着它无需额外的 NMS 层即可运行。这使得导出至 ONNX 和 TensorRT 等格式并在边缘硬件上部署变得更加容易。
  • 更好的小目标性能:更新后的损失策略有助于模型更可靠地检测微小目标,这长期以来一直是计算机视觉中的一个挑战。
  • 全新的混合优化器:YOLO26 包含了一个受近期大语言模型训练研究启发的新优化器,它提高了模型准确度,并且现在已直接内置于 Ultralytics Python 包中。

Link to this sectionUltralytics YOLO26 是实用型视觉 AI 的下一个里程碑#

这些更新共同作用,使得模型在 CPU 上的运行速度比 Ultralytics YOLO11 快 43%,且更加准确,这使得 YOLO26 对嵌入式设备、机器人和边缘系统尤为重要。

YOLO26 将支持 YOLO11 目前具备的所有相同任务和模型尺寸,整个系列将包含 25 个模型变体。这包括用于检测、分割、姿态估计、旋转边界框和分类的模型,尺寸从 nano 到 extra large 均有覆盖。

团队还在开发五种可提示变体。这些模型无需训练,即可接收文本提示并直接返回边界框。

这是向更灵活、基于指令的视觉工作流迈出的早期一步,使其更容易适应不同的使用场景。YOLO26 模型仍处于积极开发中,但早期性能表现强劲,团队正致力于尽快发布它们。

Link to this section预览 Ultralytics 平台#

YOLO26 更新发布后,Glenn 欢迎我们的产品工程主管 Prateek Bhatnagar 上台,对 Ultralytics 平台进行现场演示。该平台旨在整合计算机视觉工作流的关键部分,包括浏览数据集、标注图像、训练模型以及对比结果。

Prateek Bhatnagar 展示 Ultralytics Platform

图 2. Prateek Bhatnagar 展示 Ultralytics 平台。

Prateek 指出,该平台秉承 Ultralytics 的开源理念,引入了两个社区空间——数据集社区和项目社区,开发者可以在其中贡献、重用并改进彼此的工作。在演示过程中,他展示了 AI 辅助标注、便捷的云端训练,以及无需本地 GPU 资源直接从社区微调模型的能力。

该平台目前处于开发阶段。Prateek 鼓励观众密切关注后续公告,并提到团队正在中国扩张以支持发布。

Link to this sectionYOLO 背后的声音:作者座谈会#

随着活动势头高涨,进入了由多位 YOLO 模型幕后研究者参与的专题讨论环节。小组成员包括 Glenn Jocher、我们的高级机器学习工程师 Jing Qiu;Meta 机器学习工程师兼 YOLOv10 作者之一 Chen Hui;以及美团算法策略专家兼 YOLOv6 作者之一 Bo Zhang

在 YV25 深圳大会上关于 YOLO 模型开发的专题讨论

图 3. YV25 深圳大会上的 YOLO 模型开发座谈会,嘉宾包括黄雪莹、Chen Hui、Bo Zhang、Jing Qiu 和 Glenn Jocher。

讨论重点在于 YOLO 如何通过实际使用不断进化。演讲嘉宾探讨了进展往往如何受到实际部署挑战的驱动,例如在边缘设备上的高效运行、改进小目标检测以及简化模型导出。

专家组指出,与其一味追求准确度,不如在生产环境中平衡速度、可用性和可靠性。另一个共识是迭代和社区反馈的重要性。

以下是对话中其他一些有趣的见解:

  • 开放词汇检测在 YOLO 生态系统中势头渐长: 新模型展示了视觉-语言对齐和基于提示的工作流如何检测固定类别之外的目标。
  • 轻量级注意力机制正在兴起: 专家组讨论了如何使用高效的注意力机制,而不是在所有地方都使用全注意力,从而在保持边缘设备推理轻量化的同时提升准确度。
  • 通过社区尽早并频繁迭代: 专家组成员强化了“构建-测试-改进”的理念,即相比冗长的私有开发周期,更早发布模型并向用户学习能带来更好的结果。

Link to this section定义 AI 与视觉未来的思想领袖#

接下来,我们深入了解一下 YV25 深圳站的主题演讲,AI 社区的领袖们分享了视觉 AI 如何演进,从数字人和机器人到多模态推理和高效边缘部署。

Link to this section教会 AI 理解人类体验#

在一场富有洞察力的会议中,来自阿里巴巴通义实验室的张鹏博士分享了其团队如何开发大型视频模型,以生成更具自然动作和控制力的生动数字人。他详细介绍了 Wan S2V 和 Wan Animate,它们利用音频或运动参考来产生逼真的语音、手势和动画,解决了纯文本驱动生成的局限性。

Peng Zhang 讲解大型视频模型如何赋能数字人

图 4. 张鹏博士解释大型视频模型如何驱动数字人。

张博士还谈到了在实时交互式虚拟化身方面取得的进展,包括外观和动作的零样本克隆,以及能直接从实时摄像头源驱动人脸动画的轻量级模型,这使得栩栩如生的数字人距离在日常设备上流畅运行更近了一步。

Link to this section从感知到行动:具身智能时代#

YV25 深圳站的一个关键主题是从单纯观察世界的视觉模型向能够在世界中采取行动的系统转变。换句话说,感知不再是流水线的终点,它正在成为行动的起点。

例如,来自地平线(D-Robotics)的 Hu Chunxu 在主题演讲中描述了他们的开发套件和 SoC(系统级芯片)解决方案如何在一个统一的硬件和软件栈上集成传感、实时运动控制和决策能力。通过将感知和行动视为一个连续的反馈回路而非分离的阶段,他们的方法支持机器人在真实环境中更可靠地移动、适应和交互。

D-Robotics 在中国深圳举行的 YOLO Vision 2025 上的演示

图 5. 地平线在 YOLO Vision 2025 深圳大会的演示。

来自百度 Paddle 的 Alex Zhang 在演讲中呼应了这一观点,解释了 YOLO 和 PaddleOCR 如何协同工作以检测目标,然后解读其周围的文字和结构。这使得系统能够将图像和文档转化为物流、巡检和自动处理等任务中可用的结构化信息。

Link to this section边缘智能:适用于每台设备的高效 AI#

YV25 深圳站另一个有趣的话题是视觉 AI 如何在边缘设备上变得更加高效和强大。

来自 DEEPX 的 Paul Jung 谈到了在嵌入式硬件上直接部署 YOLO 模型,减少对云端的依赖。通过聚焦低功耗、优化的推理和硬件感知模型调整,DEEPX 为在动态环境中运行的无人机、移动机器人和工业系统实现了实时感知。

同样,来自摩尔线程的 Liu Lingfei 分享了摩尔线程 E300 平台如何集成中央处理器 (CPU)、图形处理器 (GPU) 和神经网络处理器 (NPU) 计算,从而在紧凑型设备上提供高速视觉推理。

该平台能以高帧率运行多个 YOLO 流,其工具链简化了量化、静态编译和性能调优等步骤。摩尔线程还开源了一系列计算机视觉模型和部署示例,以降低开发者的准入门槛。

Link to this section融合视觉与语言以打造更智能的 AI 系统#

直到最近,构建一个既能理解图像又能解析语言的单一模型还需要运行成本高昂的大型 Transformer 架构。在 YV25 深圳站上,来自元始智能的 Yue Ziyin 概述了 RWKV,这是一种将 Transformer 的长上下文推理能力与循环模型的效率相结合的架构。

他解释了 Vision-RWKV 如何通过以与分辨率线性扩展的方式处理图像来将此设计应用于计算机视觉。这使得它适用于高分辨率输入以及算力受限的边缘设备。

Yue 还展示了 RWKV 如何被应用于视觉-语言系统中,将图像特征与文本理解配对,从而超越目标检测,进而解析场景、文档和现实世界的上下文。

Yue Ziyin 讨论 RWKV 的应用

图 6. Yue Ziyin 谈论 RWKV 的应用。

Link to this section让视觉 AI 成为现实的展台与现场演示#

舞台上的演讲展望了视觉 AI 的未来,而场内的展台则展示了它在当下的应用。参会者现场观察模型运行、比较硬件选项,并与构建这些系统的团队直接对话。

以下是展出技术的一瞥:

  • 开发者与原型设计平台: Seeed、M5Stack 和 Infermove 展示了紧凑的开发板和入门套件,使实验 YOLO 相关应用并从创意快速转向工作演示变得轻而易举。
  • 高性能边缘硬件: Hailo、DEEPX、Intel 和摩尔线程演示了为快速、高效推理而构建的芯片和模块。
  • 视觉与语言工作流: 百度 Paddle 和 RWKV 展示了能够检测目标,还能阅读、解读和推理图像或文档内容的软件栈。
  • 开源与社区工具: Ultralytics 和 Datawhale 通过现场模型演示、训练技巧和实践指导与开发者互动,强化了共享知识如何加速创新。

YV25 深圳大会上 M5Stack 展位一览

图 7. YV25 深圳大会上 M5Stack 的展台。

Link to this section与视觉 AI 社区建立联系#

除了所有令人兴奋的技术外,YV25 深圳站最棒的部分之一是再次让计算机视觉社区与 Ultralytics 团队面对面交流。一整天里,人们围绕着演示讨论,在咖啡休息间分享创意,并在演讲结束后持续深入交流。

研究人员、工程师、学生和构建者们交流心得、提出问题,并分享从部署到模型训练的实战经验。多亏了来自 Grupo Osborne 的 Cinco Jotas,我们甚至为活动带来了新鲜切割的西班牙火腿,增添了一抹西班牙文化气息,创造了温暖的互动瞬间。美丽的场地、热情的观众以及共同涌动的活力,使这一天格外特别。

Link to this section关键要点#

从振奋人心的主题演讲到亲自动手的演示,YOLO Vision 2025 深圳大会捕捉到了定义 Ultralytics 社区的创新精神。整天时间里,演讲嘉宾和参会者交流思想、探索新技术,并基于对 AI 未来的共同愿景建立了联系。大家满载动力,准备好迎接 Ultralytics YOLO 的下一个篇章。

重构 AI 与计算机视觉的无限可能。加入我们的社区GitHub 仓库探索更多。了解更多关于农业计算机视觉零售业 AI等应用。探索我们的许可选项,即刻开启计算机视觉之旅!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅