9 月 25 日,人工智能和计算机视觉社区齐聚一堂,参加 Ultralytics 的年度混合视觉人工智能活动YOLO Vision 2025(YV25)。该活动在伦敦的派里贡酒店举行,并在全球范围内进行流媒体直播,吸引了众多研究人员、工程师和人工智能爱好者前来分享观点,了解新的创新技术,如Ultralytics YOLO26。
今年是该活动举办的第四个年头,其覆盖面和影响力不断扩大。YV25 的直播流媒体已经获得了超过 6,800 次观看,产生了超过 49,000 次印象,并收集了近 2,000 小时的观看时间。
YV25 大会在主持人Oisin Lunny 的开场白中拉开帷幕,他为今天的会议定下了基调,鼓励与会者相互交流、分享并充分利用这次会议。正如他所说:"YOLO Vision 2025 是一个将开源视觉人工智能社区联合起来的会议,旨在关注数据、机器学习和计算机视觉方面的进步"。
在本文中,我们将回顾 YOLO Vision 2025 的主要亮点,包括产品发布、主题演讲、小组讨论、现场演示,以及让这一天变得与众不同的社区时刻。让我们开始吧!
在活动开始之前,大家都对新产品的发布充满了期待,我们的创始人兼首席执行官格伦-约切尔(Glenn Jocher)在当天的活动一开始就将这种热情推向了高潮。
他分享了 Ultralytics 的发展历程,回顾了 2020 年他是如何在一台插入 MacBook 的 1080 Ti 上运行实验的,这种设置在今天已经过时了。Ultralytics从最初的小规模起步,如今已发展成为一个全球社区,每天由YOLO模型提供数十亿条推论。
格伦还谈到了 Ultralytics 最近完成的 3000 万美元 A 轮融资。他解释了这笔投资将如何推动公司下一阶段的发展,使公司能够扩大团队规模、扩大研究范围并确保继续推动计算机视觉发展所需的计算资源。
Glenn 接着宣布了 Ultralytics 的两项新成果。第一项是 Ultralytics YOLO26,这是 Ultralytics YOLO 系列的最新型号,设计更小、更快、更高效,同时实现更高的精度。第二款产品是 Ultralytics Platform,这是一个全新的端到端 SaaS 工作空间,集数据、培训、部署和监控于一体,使构建计算机视觉解决方案变得前所未有的简单。
YOLO26 的设计旨在提高性能,同时保持实际应用的实用性。最小版本在CPU上的运行速度已经提高了43%,同时还提高了精确度,因此非常适合从移动设备到大型企业系统的应用。YOLO26 将于 10 月底上市。
下面是YOLO26 的主要功能介绍:
在介绍完 YOLO26 之后,Glenn 邀请我们的产品工程主管Prateek Bhatnagar 演示了即将开展的下一个项目--Ultralytics 平台。该平台旨在简化整个计算机视觉工作流程,将数据集、注释、训练、部署和监控集中到一个地方。
普尔提将其比作汽车改装:不用再去不同的商店购买轮胎、发动机和变速箱,一切都在一个车库里完成。同样,该平台为开发人员提供了一个集成的工作空间,以管理视觉人工智能模型的整个生命周期。
演示展示了可加快数据集准备速度的人工智能辅助注释工具、专家和初学者的定制培训选项,以及对培训运行的实时监控。
YV25 的另一个亮点是由 Oisin Lunny 主持的边缘部署专题讨论会。索尼半导体解决方案公司的Yuki Tsuji、Raspberry Pi 公司的David Plowman和 Glenn Jocher 参加了会议。
讨论探讨了如何将人工智能转移到边缘,以减少延迟、降低成本并改善隐私。Yuki 展示了索尼的 IMX500 传感器,它可以直接在芯片上运行推理。同时,戴维谈到了树莓派如何从制造商的根基扩展到大规模商业应用。
讨论小组还谈到了开发人员面临的最大障碍之一:如何让模型在不同设备上流畅运行。这正是Ultralytics Python 软件包发挥关键作用的地方。
Ultralytics 提供多种导出选项,可以轻松地将训练有素的模型导入移动设备、嵌入式系统或企业硬件的生产中。Ultralytics 解决了模型转换的难题,帮助团队专注于构建解决方案,而不是纠结于兼容性问题。
正如戴维解释的那样:"根据我的惨痛经历,我知道转换模型是一件非常可怕的事情,如果有其他人能帮我完成这项工作,我的生活就会轻松很多。这就是 Ultralytics 真正的优势所在,它能为我们的用户提供有价值的东西。
人工智能软件的发展与硬件的发展并驾齐驱,共同推动着计算机视觉领域新一轮的创新。Ultralytics YOLO 等模型不断推动准确性向前发展,但它们对现实世界的影响也取决于它们所运行的平台。
例如,Seeed Studio展示了模块化、低成本的硬件,如预装了Ultralytics YOLO模型的reCamera和XIAO板,如何让开发人员轻松地从原型开发转向实际的人工智能系统。这种软硬件集成降低了入门门槛,展示了硬件层面的创新是如何直接加速应用的。
以下是 YV25 其他主题演讲中的一些主要观点,这些观点强调了软硬件协同设计如何释放新的可能性:
随着软件和硬件的齐头并进,计算机视觉的发展速度比以往任何时候都要快。这些并行发展不仅提高了准确性和速度,还塑造了在现实世界中部署视觉人工智能的方式。在 YV25 大会上,与会者有机会聆听了机器人、边缘部署和多模态人工智能领域专家的演讲,每位专家都从不同角度阐述了该领域的发展方向。
例如,在主题演讲中,来自 D-Robotics 公司的Michael Hart演示了如何将 Ultralytics YOLO 模型与其紧凑型 RDK X5 板(小型嵌入式人工智能视觉模块)搭配使用,使机器人能够实时运行高级视觉模型。他的现场演示表明,机器人技术已经从实验室实验发展成为实用的人工智能驱动系统。
同样,来自Axelera AI的Alexis Crowell和Steven Hunsche也强调了在边缘部署视觉AI所面临的挑战和机遇。通过现场演示,他们解释了Axelera AI的Metis AI处理单元(AIPUs)如何将RISC-V和数字内存计算结合起来,以极低功耗提供高性能。该平台采用M.2和PCIe等熟悉的外形尺寸,软硬件协同设计使边缘人工智能的扩展既实用又高效。
在另一场会议上,来自Hugging Face公司的Merve Noyan探讨了多模态人工智能的兴起,其中的模型将视觉与文本、音频和其他输入相结合。她谈到了从文档分析到化身代理等各种用例,强调了开源创新如何加速了人工智能的应用。
YV25 不仅有鼓舞人心的大视野演讲,还包括深入实用的会议。来自 Lightning AI 的Jiri Borovec进行了实践演练,展示了如何利用 PyTorch Lightning 和多 GPU 支持训练和微调 Ultralytics YOLO 模型。
他通过代码示例,强调了开源工具、清晰的文档和灵活的框架如何让开发人员更容易扩展培训、验证每个阶段,以及根据自己的项目调整工作流程。这提醒我们,要想在计算机视觉领域取得真正的进展,社区和可访问的工具是多么重要。
另一方面,演讲者敦促听众思考人工智能在社会中更广泛的作用。未来学家、人道主义者兼未来机构首席执行官格尔德-莱昂哈德(Gerd Leonhard)在主题演讲中认为,"在我们使用技术之前,技术在道德上是中立的",他强调真正的问题不只是人工智能能做什么,而是它应该做什么。他告诫人们不要陷入还原论和无真相论等陷阱,并呼吁人工智能真正服务于人类的长远利益。
在与牛津大学的Carissa Véliz的炉边谈话中,大家继续关注责任问题,她强调了隐私和安全问题。她指出,开源社区对于检查和改进代码至关重要,道德与设计密不可分。她传达的信息很明确:开发人员需要预测滥用情况,并建立将人类尊严和社会福祉放在首位的系统。
除了演讲和演示之外,YV25 还为人们创造了交流的空间。在茶歇和午餐时间,与会者相互交流,分享经验,比较方法,并促成了新的合作。
对于Ultralytics 团队来说,这也是一次面对面交流的绝佳机会。Ultralytics 的成员遍布全球,这样的时刻有助于加强联系,共同庆祝进步。
当天的活动以会后派对结束,与会者有机会放松身心,继续交流。这是一个反思、充电和展望视觉人工智能创新下一篇章的时刻。
YOLO Vision 2025 是一场关于创意、创新和社区的庆典。Ultralytics YOLO26 的发布为活动拉开了序幕,随后关于边缘部署和以人为本的人工智能的演讲引人入胜,凸显了 Vision AI 的快速发展及其对世界日益增长的影响。
除了主题会议,这次活动还将人们聚集在一起。研究人员、开发人员和爱好者分享了经验,引发了有意义的对话,并探索了未来的新可能性。活动在热烈的气氛中结束,与会者对 Ultralytics YOLO 模型和计算机视觉的未来充满期待。
准备好探索人工智能了吗?加入我们的社区和GitHub 存储库,了解有关人工智能和计算机视觉的更多信息。访问我们的解决方案页面,探索计算机视觉在农业和机器人中的更多应用。查看我们的许可选项,立即开始使用计算机视觉!