9 月 27 日,Ultralytics 召集人工智能和计算机视觉社区参加了我们激动人心的年度混合活动YOLO Vision 2024 (YV24)。此次活动在马德里谷歌初创企业园区(Google for Startups Campus)举行并向全球直播,专家、开发人员和爱好者齐聚一堂,共同探讨视觉人工智能的最新进展,例如新的Ultralytics YOLO11 模型。该活动的直播流媒体观看次数已超过 5,400 次,观看人次超过 10,600 次,观看时长超过 469.5 小时,吸引了世界各地的创新者。
YV24 以主持人Oisin Lunny 的热情欢迎开场,他强调了社区和联系的重要性,他说:"我非常相信伟大的想法和伟大社区的力量,Ultralytics 与YOLO Vision共同创建的正是这样一个由拥有伟大想法的伟大人物组成的伟大社区。
在本文中,我们将指出 YOLO Vision 2024 的主要亮点,从引人入胜的小组讨论到令人着迷的计算机视觉实际应用案例。我们还将探讨从边缘人工智能到硬件加速的技术讲座,以及使活动取得成功的网络和社区建设时刻。无论您是对人工智能创新、重要公告,还是对视觉人工智能的未来感兴趣,本期 YOLO Vision 2024 活动回顾都将涵盖所有重要内容!
Ultralytics 创始人兼首席执行官格伦-乔彻(Glenn Jocher)在最初的主题演讲中宣布,在YOLO Vision 2024 之前就已预告的产品发布会终于揭开了神秘的面纱。格伦介绍说,Ultralytics YOLO11 标志着下一代计算机视觉模型的诞生,该模型已经开发了数月之久。随后,Glenn 接受了The Ravit Show的采访,分享了YOLO11 的开发心得,为发布会增添了更多精彩。
在主题演讲中,格伦还分享了公司的发展历程,从他的粒子物理学背景说起,讲述了他对了解宇宙的痴迷是如何最终将他引向机器学习和计算机视觉的。
他解释了自己早期在物理学领域的工作,即研究人员分析粒子间的相互作用,与计算机视觉中的物体检测有异曲同工之妙。他对前沿技术的好奇心和工作动力最终促成了Ultralytics YOLOv5 的诞生。在整个演讲过程中,Glenn 强调了开源社区内合作和贡献的重要性,并感谢世界各地的开发人员提供反馈,帮助改进 YOLOv5 和Ultralytics YOLOv8。
随后,他介绍了Ultralytics YOLO11 的主要特点,并解释说,与以前的模型相比,YOLO11更快、更准确、更高效。事实上,YOLO11m 使用的参数比 YOLOv8m 少 22%,但在COCO 数据集上的准确性却更高,这使得 YOLO11 非常适合速度和准确性至关重要的实时应用。
格伦强调了此次发布的规模,他说:"我们总共发布了 30 个模型,其中 25 个是开源的,有五种不同的尺寸,用于五种不同的任务。这些任务包括图像分类、物体检测、实例分割、姿势估计和定向边界框。在企业方面,他宣布下个月将推出在由 100 万张图像组成的专有数据集上训练出来的强大模型。毋庸置疑,这一宣布为本次活动拉开了序幕,让与会者迫不及待地想更多了解YOLO11在制造业和自动驾驶汽车等领域的创新潜力。
由 Oisin Lunny 主持的 "YOLO Vision 2024 "小组讨论就人工智能、计算机视觉和社区建设发表了一系列见解。
第一场专题讨论由 Glenn Jocher、邱晶(Ultralytics 开发 YOLO 模型的关键人物)和来自清华大学的王敖(YOLOv10 的共同作者)组成。 专题讨论会讨论了生成式人工智能 和计算机视觉的 最新发展 ,重点关注两者的异同以及各自领域对对方的影响。尽管最近大型语言模型(LLM)兴起,但专家小组指出,传统的计算机视觉对于医疗保健等行业的特定任务仍然至关重要。
下一个小组讨论的主题是女性在人工智能领导力方面面临的挑战:Ultralytics 增长总监Paula Derrenger、SaaS 前首席运营官兼首席运营官Bruna de Guimarães、Latinas in Tech马德里分会负责人Mariana Hernandez 和Dare to Data创始人Christina Stathopoulous分享了她们的经验,同时讨论了导师的重要性以及女性在寻求领导职位时采取积极措施的必要性。埃尔南德斯建议说:"要积极主动,不要等待事情发生在你身上",并鼓励在座女性坚持自我,积极寻求机会。小组还讨论了创造更具支持性的工作环境的价值。
最后一个专题讨论小组探讨了建立强大的社区如何促进人工智能领域的创新。Burhan Qaddoumi、Harpreet Sahota 和Bart Farrell讨论了如何在网上和现场活动中与技术受众互动。法雷尔的见解是:"你必须在他们所处的位置与他们相遇",这与根据社区成员的条件与他们建立联系以鼓励合作和共同学习的重要性不谋而合。
YV24 上的几场会谈揭示了 YOLO 模型如何应用于解决各行各业的现实挑战。人工智能大师小组(AI Master Group)播客主持人吉姆-格里芬(Jim Griffin)谈到了一个项目,该项目利用YOLOv8 模型,通过无人机监控 来监测加利福尼亚海岸线的鲨鱼动向。该系统会向救生员、冲浪店主和家长发出警报,通过从 200 英尺的高空探测鲨鱼,确保海滩游客的安全。格里芬解释说,真正的挑战并不在于人工智能模型本身,而是训练模型所需的大量无人机飞行和数据收集。
同样,来自The Main Branch的David Scott讨论了计算机视觉从简单的物体检测到行为分析的扩展。他的演讲以现实世界中的应用为特色,如跟踪牛的行为和识别零售店中的可疑活动。斯科特分享了 YOLOv8 如何通过分析吃喝和行走等特定行为来监测牛的健康状况。
此外,来自NASCO Feeding Minds 的奥斯曼-乌马尔(Ousman Umar)的主题发言尤其发人深省,他分享了自己的组织如何通过在加纳提供IT 教育来改变人们的生活。他的基金会建立了 17 个信息和通信技术中心,培训了 65000 多名学生,目标是创造当地的技术工作岗位,帮助解决非法移民等问题。乌玛的故事很有感染力,他传达了教育和技术如何共同推动服务不足社区的持久变革。
YV24 还围绕人工智能与硬件如何结合以激发新想法举行了不同的会谈。来自英特尔、索尼和英伟达等公司的专家探讨了在边缘设备上部署 YOLO 模型和优化性能的问题。英特尔公司的Dmitriy Pastushenkov和Adrian Boguszewski 概述了他们的硬件如何支持跨 NPU、CPU 和 GPU 的 YOLO 模型,而索尼公司的Amir Servi和Wei Tang则分享了 YOLO 如何与 AITRIOS 平台集成以实现高效的边缘人工智能部署。英伟达公司的Guy Dahan谈到了如何利用其GPU架构来改进YOLO模型推理。
高通公司、Hugging Face 和Lightning AI等其他公司也展示了其平台如何让开发人员更轻松地集成和部署 YOLO 模型。来自高通公司的Devang Aggarwal介绍了如何通过高通 AI Hub 为 Snapdragon 终端优化 YOLOv8 等模型。
同样,来自 Hugging Face 的Pavel Lakubovskii介绍了他们的开源工具如何将 YOLOv8 等模型无缝集成到各种工作流程中,而来自 Lightning AI 的Luca Antiga则向我们介绍了开发人员如何在代码层面轻松集成 YOLOv8 等模型,以加快原型设计和迭代。
在 YV24 之前的一周,Ultralytics 团队齐聚马德里,参加了各种研讨会、合作会议和场外活动。这些活动超越了工作范畴,培养了更牢固的关系,并在活动前营造了积极的氛围。活动结束后,与会者和演讲者有机会进行交流,分享主要收获,并探讨未来的合作。团队合作与友情的结合使 YV24 取得了专业上的成功,成为一次全面的难忘经历。
YV24 汇集了创新、合作和计算机视觉的未来。通过 YOLO11 的发布、引人入胜的小组讨论以及有关人工智能硬件和边缘解决方案的讨论,本次活动重点关注了视觉人工智能如何发挥作用,以及技术如何不断变化以跟上人工智能的发展。活动还加强了社区内部的联系。专家和爱好者们交流了想法,探索了计算机视觉和 YOLO 的潜力。活动最后进行了有趣的有奖问答环节,Ultralytics 的连帽衫有奖竞猜,让大家对未来更多类似 YOLO11 的创新充满期待。
访问我们的GitHub 存储库,与我们蓬勃发展的社区联系,了解更多有关人工智能的信息。了解 Vision AI 如何重新定义医疗保健和农业等领域的创新。🚀