加入我们,回顾 YOLO Vision 2024 的主题演讲,重点探讨 Hugging Face 的开源工具如何推动 AI 开发。
加入我们,回顾 YOLO Vision 2024 的主题演讲,重点探讨 Hugging Face 的开源工具如何推动 AI 开发。
选择正确的算法只是构建有影响力的计算机视觉解决方案的一部分。人工智能工程师经常处理大型数据集,为特定任务微调模型,并优化人工智能系统以实现实际性能。随着人工智能应用的快速普及,对简化这些流程的工具的需求也在增长。
在由 Ultralytics 举办的年度混合活动 YOLO Vision 2024 (YV24) 上,人工智能专家和技术爱好者齐聚一堂,共同探索计算机视觉领域的最新创新。本次活动引发了关于各种主题的讨论,例如加速人工智能应用程序开发的方法。
本次活动的一个主要亮点是关于 Hugging Face 的主题演讲,Hugging Face 是一个开源 AI 平台,可简化模型训练、优化和部署。Pavel Lakubovskii 是 Hugging Face 的机器学习工程师,他分享了其工具如何改进计算机视觉任务的工作流程,例如检测图像中的对象、将图像分类到不同的组中,以及在没有经过特定示例预先训练的情况下进行预测(零样本学习)。
Hugging Face Hub 托管并提供对各种 AI 和 计算机视觉模型(如 Ultralytics YOLO11)的访问。 在本文中,我们将回顾 Pavel 的演讲中的要点,并了解开发人员如何使用 Hugging Face 的开源工具来快速构建和部署 AI 模型。

Pavel首先介绍了Hugging Face,它是一个开放源代码AI平台,为各种应用提供预训练模型。这些模型专为AI的各个分支而设计,包括自然语言处理(NLP)、计算机视觉和多模态AI,使系统能够处理不同类型的数据,例如文本、图像和音频。
Pavel提到,Hugging Face Hub现在已经托管了超过100万个模型,开发人员可以轻松找到适合其特定项目的模型。Hugging Face旨在通过提供用于模型训练、微调和部署的工具来简化AI开发。当开发人员可以尝试不同的模型时,它简化了将AI集成到实际应用程序中的过程。
虽然 Hugging Face 最初以 NLP 闻名,但此后已扩展到计算机视觉和多模态 AI,使开发人员能够处理更广泛的 AI 任务。它还拥有一个强大的社区,开发人员可以通过论坛、Discord 和 GitHub 协作、分享见解并获得支持。
Pavel 详细解释了 Hugging Face 的工具如何简化计算机视觉应用程序的构建。 开发人员可以将它们用于图像分类、目标检测和视觉语言应用程序等任务。
他还指出,许多这些 计算机视觉任务 可以通过 Hugging Face Hub 上提供的预训练模型来处理,从而减少了从头开始训练的需要,节省了时间。事实上,Hugging Face 提供了超过 13,000 个用于图像分类任务的预训练模型,包括用于食物分类、宠物分类和情绪检测的模型。
他强调了这些模型的可访问性,他说:“您甚至可能不需要为您的项目训练模型 - 您可能会在 Hub 上找到一个已经由社区中的某个人训练过的模型。”
Pavel 举了另一个例子,详细说明了 Hugging Face 如何帮助目标检测,这是计算机视觉中的一个关键功能,用于识别和定位图像中的对象。即使在标记数据有限的情况下,Hugging Face Hub 上提供的预训练模型也可以使目标检测更加高效。
他还简要概述了为此任务构建的几个模型,您可以在 Hugging Face 上找到它们:
然后,Pavel将重点转移到动手使用Hugging Face模型上,并解释了开发人员可以利用它们的三个方法:浏览模型、快速测试它们以及进一步自定义它们。
他演示了开发者如何在 Hugging Face Hub 上直接浏览模型,而无需编写任何代码,从而可以通过交互式界面轻松地立即测试模型。Pavel 补充说:“您无需编写任何代码或在计算机上下载模型即可尝试。” 由于某些模型很大,因此在 Hub 上运行它们有助于避免存储和处理限制。

此外,Hugging Face Inference API 允许开发人员通过简单的 API 调用来运行 AI 模型。它非常适合快速测试、概念验证项目和快速原型设计,而无需复杂的设置。
对于更高级的用例,开发人员可以使用Hugging Face Transformers框架,这是一个开源工具,提供用于文本、视觉和音频任务的预训练模型,同时支持PyTorch和TensorFlow。Pavel解释说,只需两行代码,开发人员就可以从Hugging Face Hub检索模型,并将其链接到预处理工具(例如图像处理器),以分析视觉AI应用的图像数据。
接下来,Pavel 解释了 Hugging Face 如何简化 AI 工作流程。他涵盖的一个关键主题是优化 Transformer 中的注意力机制,Transformer 是深度学习模型的核心功能,可帮助其专注于输入数据中最相关的部分。这提高了涉及语言处理和计算机视觉的任务的准确性。但是,它可能会消耗大量资源。
优化注意力机制可以显著减少内存使用,同时提高速度。Pavel 指出:“例如,通过切换到更高效的注意力实现,您可能会看到高达 1.8 倍的性能提升。”
Hugging Face 在 Transformers 框架内为更高效的注意力机制实现提供了内置支持。 开发人员只需在加载模型时指定一种替代的注意力机制实现,即可启用这些优化。
他还谈到了量化,这是一种通过降低数字的精度来缩小人工智能模型尺寸的技术,而不会对性能产生太大影响。这有助于模型使用更少的内存并运行得更快,使其更适合处理能力有限的设备,如智能手机和嵌入式系统。
为了进一步提高效率,Pavel 引入了 Hugging Face Optimum 库,这是一套旨在优化和部署模型的工具。只需几行代码,开发人员就可以应用量化技术并将模型转换为高效的格式,如 ONNX (Open Neural Network Exchange),从而使它们能够在不同类型的硬件(包括云服务器和边缘设备)上平稳运行。

最后,Pavel 提到了 Torch Compile 的好处,它是 PyTorch 中的一项功能,可以优化 AI 模型处理数据的方式,从而使它们运行得更快、更有效。Hugging Face 将 Torch Compile 集成在其 Transformers 和 Optimum 库中,使开发人员能够以最少的代码更改来利用这些性能改进。
通过优化模型的计算结构,Torch Compile可以加快推理时间,并将帧率从每秒29帧提高到150帧,同时不影响准确性或质量。
接下来,Pavel 简要介绍了开发人员在选择合适的模型并选择最佳开发方法后,如何使用 Hugging Face 工具扩展和部署视觉 AI 模型。
例如,开发人员可以使用 Gradio 和 Streamlit 部署交互式 AI 应用程序。Gradio 允许开发人员为机器学习模型创建基于 Web 的界面,而 Streamlit 帮助使用简单的 Python 脚本构建交互式数据应用程序。
Pavel还指出,“你不需要从头开始编写所有内容”,他指的是Hugging Face提供的指南、训练笔记本和示例脚本。这些资源可以帮助开发人员快速入门,而无需从头开始构建所有内容。

Pavel 在主题演讲的结尾总结了使用 Hugging Face Hub 的优势。他强调了它如何简化模型管理和协作。他还提请大家注意指南、notebook 和教程的可用性,这些可以帮助初学者和专家理解和实施 AI 模型。
“Hub 上已经有很多很酷的空间。你可以找到类似的,克隆共享代码,修改几行,用你自己的模型替换它,然后把它推回去,”他解释说,鼓励开发者利用该平台的灵活性。
在 YV24 的演讲中,Pavel 分享了 Hugging Face 如何提供支持 AI 模型训练、优化和部署的工具。例如,像 Transformers、Optimum 和 Torch Compile 这样的创新可以帮助开发人员提高模型性能。
随着人工智能模型变得更加高效,量化和边缘部署方面的进步使得在资源有限的设备上运行它们变得更加容易。这些改进,结合Hugging Face等工具和Ultralytics YOLO11等先进的计算机视觉模型,是构建可扩展、高性能视觉人工智能应用的关键。
加入我们不断壮大的社区!探索我们的GitHub 仓库以了解人工智能,并查看我们的YOLO 许可以启动您的 Vision AI 项目。对医疗保健领域中的计算机视觉或农业领域中的计算机视觉等创新感兴趣?访问我们的解决方案页面以了解更多信息!