利用 Hugging Face 的 Transformers 驱动开源计算机视觉
与 Hugging Face 一起深入研究开源计算机视觉!了解迁移学习、Transformers 并探索超过 8000 种模型。加入 Merve Noyan 获取见解和实用演示,赋能开发者在 AI 探索中进行创新。

随着我们继续探索 YOLO VISION 2023 (YV23) 活动的精彩内容,让我们来认识一下 Merve Noyan,她是 Hugging Face 的开发者倡导工程师,该平台是领先的 NLP 平台,拥有用于高效开发语言应用程序的预训练模型。在演讲中,Merve 分享了一些关于开源计算机视觉领域的独到见解。
加入我们,一起踏上探索迁移学习、transformers 和开源计算机视觉生态系统这一迷人世界的旅程。
Link to this section迁移学习揭秘:快速回顾#
Merve 以对迁移学习的简要介绍开启了演讲,这就像一根魔杖,让我们能够将知识从一个神经网络转移到另一个神经网络。想象一下,在一个模型上训练早期层中的通用特征(如边缘和角点),然后针对特定任务进行微调。这就是迁移学习的精髓,它减少了对数据的依赖并提高了准确性。
Merve 重点介绍了 ResNet 和 Inception 等经典卷积主干网络,为接下来的变革之旅奠定了基础。
Link to this section走进 transformers:一个未解之谜#
是什么让 Transformers 如此特别?Merve 将其比作一个谜题,展示了它们与传统基于卷积的模型有何不同。其秘诀在于它们具备执行自监督学习的能力,无需标记数据即可捕捉特征。Vision Transformer、Data Efficient Transformer、CLIP 和 Swin Transformer 都是她介绍的明星 Transformer 模型。
与 Ultralytics 找到共同点,Ultralytics 为旨在进行目标检测的 transformer 模型提供支持。该模型具有高效的混合编码器、IOU 感知查询选择和可调节的推理速度。值得注意的是,它遵循了其他 Ultralytics YOLOv8 模型熟悉的模式,提供了预测、训练、验证和导出的选项。
Link to this section你的一站式商店#
随后,Merve 深入介绍了 Hugging Face 的宝库,其中包括超过 8,000 个用于经典计算机视觉任务的模型和 10,000 个用于多模态应用的模型。Hugging Face Hub 拥有超过 3,000 个数据集,使其成为开发者和爱好者们的游乐场。Merve 强调了得益于 Hugging Face 一致的 API,你可以获得无缝的体验,并为各种用例提供现成的模型。
Link to this section通过 Hugging Face 进行实践魔法#
演讲转向了实际演示,展示了使用模型是多么轻松。从实例化模型和处理器到使用 Trainer API 进行微调,Merve 明确表示 Hugging Face Transformers 库是开发者的好帮手。她甚至还介绍了她个人最喜欢的 Pipeline API,简化了用户的操作流程。

图 1. Merve Noyan 在马德里 Google for Startups Campus 举行的 YV23 上发表演讲。
Link to this section应用一瞥#
Merve 在演讲最后简要介绍了一些出色的应用,包括用于视觉问答的 Plot 模型、用于图像标注的 Blip,以及强大的用于图像分割的 Segment Anything 模型。Hugging Face 生态系统的 Pipeline API 成为了焦点,让用户无需深入研究技术细节即可轻松使用模型。
锦上添花的是 Merve 展示了如何利用 Elysian Diffusion 创造视觉错觉,这是一种迷人的体验,为人工智能世界增添了有趣的元素。
Link to this section简而言之!#
总之,Merve 的演讲让我们深受启发,渴望探索开源计算机视觉的无限可能。Hugging Face 真正让 AI 变得触手可及、有趣且令人兴奋,赋予了开发者释放创造力的能力。为开源社区的未来以及它所蕴含的惊人创新干杯!






