遇见 YOLO26: 下一代视觉 AI。
Ultralytics
活动

利用 Hugging Face 的开源工具为 CV 项目提供支持

加入我们,重温 YOLO Vision 2024 的主题演讲,探讨 Hugging Face 的开源工具如何推动 AI 开发。

ABAbirami Vina
5 min read
利用 Hugging Face 开源工具为 CV 项目提供支持

选择合适的算法只是构建高效计算机视觉解决方案的一部分。AI 工程师通常需要处理大型数据集,针对特定任务微调模型,并针对实际性能优化 AI 系统。随着 AI 应用的普及速度加快,对简化这些流程的工具的需求也在不断增长。

在由 Ultralytics 主办的年度混合活动 YOLO Vision 2024 (YV24) 上,AI 专家和技术爱好者齐聚一堂,共同探索计算机视觉领域的最新创新。活动引发了关于各种主题的讨论,例如如何加快 AI 应用开发的速度。

此次活动的一个重要亮点是关于 Hugging Face 的主题演讲,这是一个简化模型训练、优化和部署的开源 AI 平台。Pavel Iakubovskii 是 Hugging Face 的一名机器学习工程师,他分享了其工具如何改进计算机视觉任务的工作流程,例如检测图像中的物体、将图像分类到不同的组中,以及无需针对特定示例进行预先训练即可进行预测(零样本学习)。

Hugging Face Hub 托管并提供对各种 AI 和 computer vision models(如 Ultralytics YOLO11)的访问。在本文中,我们将回顾 Pavel’s talk 的关键要点,并了解开发者如何利用 Hugging Face 的开源工具快速构建和部署 AI 模型。

Pavel 在 YV24 舞台上

图 1. Pavel 在 YV24 舞台上。

Link to this sectionHugging Face Hub 支持更快的 AI 开发#

Pavel 在演讲开场时介绍了 Hugging Face,这是一个提供多种应用预训练模型的开源 AI 平台。这些模型旨在服务 AI 的各个分支,包括自然语言处理 (NLP)、计算机视觉和多模态 AI,使系统能够处理不同类型的数据,例如文本、图像和音频。

Pavel 提到,Hugging Face Hub 目前已托管超过 100 万个模型,开发者可以轻松找到适合其特定项目的模型。Hugging Face 旨在通过提供用于模型训练、微调和部署的工具来简化 AI 开发。当开发者能够试验不同的模型时,这将简化将 AI 集成到实际应用中的过程。

虽然 Hugging Face 最初以 NLP 闻名,但此后已扩展到 computer vision 和多模态 AI,使开发者能够应对更广泛的 AI 任务。它还拥有一个强大的社区,开发者可以通过论坛、Discord 和 GitHub 进行协作、分享见解并获得支持。

Link to this section探索用于计算机视觉应用的 Hugging Face 模型#

Pavel 进一步详细解释了 Hugging Face 的工具如何使构建计算机视觉应用变得更容易。开发者可以将它们用于图像分类、目标检测和视觉语言应用等任务。

他还指出,许多此类 computer vision tasks 可以使用 Hugging Face Hub 上提供的预训练模型来处理,从而减少了从头开始训练的需求,节省了时间。事实上,Hugging Face 为图像分类任务提供了超过 13,000 个预训练模型,其中包括用于食品分类、宠物分类和情感检测的模型。

在强调这些模型的易用性时,他说:“你可能甚至不需要为你的项目训练模型——你或许能在 Hub 上找到一个由社区成员训练好的现成模型。”

Link to this section用于目标检测的 Hugging Face 模型#

在举另一个例子时,Pavel 详细阐述了 Hugging Face 如何助力 object detection,这是计算机视觉中的一项关键功能,用于识别和定位图像中的物体。即使在标记数据有限的情况下,Hugging Face Hub 上提供的预训练模型也能使目标检测更加高效。

他还简要概述了可以在 Hugging Face 上找到的几种专为此任务构建的模型:

  • 实时目标检测模型:对于速度至关重要的动态环境,Detection Transformer (DETR) 等模型提供了实时目标检测功能。DETR 是在 COCO 数据集上训练的,旨在高效处理多尺度特征,因此适用于对时间敏感的应用。
  • Vision-language models:这些模型结合了图像和文本处理,使 AI 系统能够将图像与描述相匹配,或识别其训练数据之外的物体。示例包括 CLIP 和 SigLIP,它们通过将文本与视觉效果关联来改进图像搜索,并使 AI 解决方案能够通过理解上下文来识别新物体。
  • 零样本目标检测模型:它们可以通过理解图像和文本之间的关系来识别它们以前从未见过的物体。示例包括 OwlVit、GroundingDINO 和 OmDet,它们利用 zero-shot learning 在无需标记训练数据的情况下检测新物体。

Link to this section如何使用 Hugging Face 模型#

随后,Pavel 将焦点转向了如何上手使用 Hugging Face 模型,介绍了开发者利用它们的几种方式:探索模型、快速测试以及进一步自定义。

他演示了开发者如何直接在 Hugging Face Hub 上浏览模型,而无需编写任何代码,从而可以通过交互式界面轻松即时测试模型。“你可以在不写一行代码或下载模型到电脑的情况下试用它,”Pavel 补充道。由于某些模型很大,在 Hub 上运行有助于避免存储和处理限制。

如何使用 Hugging Face 模型

图 2. 如何使用 Hugging Face 模型。

此外,Hugging Face Inference API 允许开发者通过简单的 API 调用运行 AI 模型。它非常适合快速测试、概念验证项目和快速原型设计,而无需复杂的设置。

对于更高级的用例,开发者可以使用 Hugging Face Transformers 框架,这是一个提供用于文本、视觉和音频任务的预训练模型的开源工具,同时支持 PyTorch 和 TensorFlow。Pavel 解释说,只需两行代码,开发者就可以从 Hugging Face Hub 中检索模型,并将其链接到预处理工具(如图像处理器),以分析用于 Vision AI 应用的图像数据。

Link to this section利用 Hugging Face 优化 AI 工作流程#

接下来,Pavel 解释了 Hugging Face 如何简化 AI 工作流程。他讨论的一个关键主题是优化 Transformer 中的注意力机制,这是深度学习模型的核心功能,有助于模型聚焦于输入数据中最相关的部分。这提高了涉及语言处理和计算机视觉的任务的准确性。然而,它可能非常消耗资源。

优化注意力机制可以显着降低内存使用率,同时提高速度。Pavel 指出:“例如,通过切换到更高效的注意力实现方式,你的性能可能会提升高达 1.8 倍。”

Hugging Face 在 Transformers 框架内为更高效的注意力实现提供了内置支持。开发者只需在加载模型时指定替代的注意力实现方式,即可启用这些优化。

Link to this sectionOptimum 和 Torch Compile#

他还谈到了量化,这是一种通过降低数字精度使 AI 模型变小而不严重影响性能的技术。这有助于模型减少内存占用并运行得更快,使其更适合智能手机和嵌入式系统等处理能力有限的设备。

为了进一步提高效率,Pavel 介绍了 Hugging Face Optimum 库,这是一套旨在优化和部署模型的工具。只需几行代码,开发者就可以应用量化技术,并将模型转换为高效的格式,如 ONNX (Open Neural Network Exchange),使其能够在包括云服务器和边缘设备在内的各种硬件上流畅运行。

Pavel 讲解 Optimum 库及其功能

图 3. Pavel 谈到了 Optimum 库及其功能。

最后,Pavel 提到了 Torch Compile 的好处,这是 PyTorch 中的一项功能,可优化 AI 模型处理数据的方式,使其运行得更快、更高效。Hugging Face 将 Torch Compile 集成在其 Transformers 和 Optimum 库中,让开发者只需极少的代码更改即可利用这些性能改进。

通过优化模型的计算结构,Torch Compile 可以在不影响准确性或质量的情况下,将推理时间缩短,并将帧率从 29 提高到 150 帧/秒。

Link to this section使用 Hugging Face 工具部署模型#

接下来,Pavel 简要介绍了开发者在选择合适的模型并确定最佳开发方法后,如何使用 Hugging Face 工具扩展和部署 Vision AI 模型。

例如,开发者可以使用 Gradio 和 Streamlit 部署交互式 AI 应用。Gradio 允许开发者为机器学习模型创建基于 Web 的界面,而 Streamlit 则有助于通过简单的 Python 脚本构建交互式数据应用。

Pavel 还指出,“你不需要一切都从头开始编写,”他指的是 Hugging Face 提供的指南、训练笔记本和示例脚本。这些资源有助于开发者快速上手,而不必从零开始构建一切。

Pavel 在 YV24 讨论 Hugging Face 的功能

图 4. Pavel 在 YV24 上讨论 Hugging Face 的功能。

Link to this sectionHugging Face Hub 的优势#

在结束主题演讲时,Pavel 总结了使用 Hugging Face Hub 的优势。他强调了它如何简化模型管理和协作。他还特别提到了指南、笔记本和教程的可用性,这些资源可以帮助初学者和专家了解并实现 AI 模型。

“Hub 上已经有很多很棒的空间。你可以找到类似的,克隆共享代码,修改几行,用你自己的模型替换它,然后将其推送回去,”他解释说,鼓励开发者充分利用该平台的灵活性。

Link to this section关键要点#

在 YV24 的演讲中,Pavel 分享了 Hugging Face 如何提供支持 AI 模型训练、优化和部署的工具。例如,Transformers、Optimum 和 Torch Compile 等创新技术可以帮助开发者增强模型性能。

随着 AI 模型变得更加高效,量化和边缘部署方面的进步使在资源受限的设备上运行它们变得更加容易。这些改进,再加上 Hugging Face 等工具以及 Ultralytics YOLO11 等先进的计算机视觉模型,是构建可扩展、高性能 Vision AI 应用的关键。

加入我们日益壮大的 community!浏览我们的 GitHub repository 以了解 AI 相关知识,并查看我们的 YOLO licenses 以启动你的 Vision AI 项目。对 computer vision in healthcarecomputer vision in agriculture 等创新感兴趣?请访问我们的解决方案页面了解更多信息!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅