敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

零样本学习

探索零样本学习:一种前沿的 AI 方法,使模型能够分类未见过的数据,从而彻底改变目标检测、自然语言处理等。

零样本学习 (ZSL) 是 机器学习 (ML) 中一项引人入胜的功能,模型可以识别和分类在其 训练数据 阶段从未见过的类别中的对象。 与传统的监督学习不同,后者需要每个可能类别的明确示例,而 ZSL 使模型能够将其知识推广到新的、未见过的类别。 这是通过高级语义描述(例如属性或文本嵌入)将观察到的类别和未观察到的类别相关联来实现的。 这使得 AI 模型更加灵活和可扩展,尤其是在收集详尽的标记数据不切实际的实际场景中。

它是如何工作的?

ZSL背后的核心思想是创建一个共享的嵌入空间,其中可以表示来自图像的视觉特征和来自文本的语义信息。在训练期间,模型学习将已见类别的图像映射到其相应的语义向量(属性或词嵌入)。例如,该模型学习“马”的视觉特征,并将它们链接到诸如“有四条腿”、“是哺乳动物”和“可以骑”之类的语义描述。

当呈现未见过类别的图像(例如“斑马”)时,模型会提取其视觉特征。 同时,它使用“斑马”的语义描述——例如,“像马”、“有条纹”——在嵌入空间中定位它。 通过找到与提取的视觉特征最接近的语义描述,即使没有一张斑马的训练图像,模型也可以正确地将图像分类为“斑马”。 此过程通常依赖于强大的预训练多模态模型,例如OpenAI 的 CLIP,它擅长连接视觉和语言。

零样本学习与其他范例的比较

区分 ZSL 与相关的学习技术非常重要:

  • Few-Shot Learning (FSL): 在 FSL 中,模型使用每个新类别的极少量标记示例(例如,1 到 5 个)进行训练。这与 ZSL 不同,ZSL 在目标类别的 示例下运行。
  • 单样本学习 (OSL): FSL的一个子类型,其中模型接收一个新类别的精确示例。它比一般的FSL更受数据约束,但仍然需要至少一个样本,这与ZSL不同。
  • 迁移学习:零样本学习是迁移学习的一种形式,但它又具有独特性。标准的迁移学习通常涉及在新的(较小的)已标注数据集上微调预训练模型,而零样本学习仅使用辅助语义信息将知识迁移到新的类别,无需这些类别的任何已标注示例。

实际应用

ZSL 具有许多实际应用,使 计算机视觉 系统更具动态性和适应性。

  1. 开放词汇对象检测: 诸如 YOLO-World 之类的模型利用 ZSL 来检测文本描述的任何对象。用户可以提供诸如“穿蓝色衬衫的人”或“泄漏的管道”之类的文本提示,并且该模型可以在图像或视频流中定位这些对象,而无需对这些特定类别进行显式训练。这是朝着创建真正通用的视觉系统迈出的重要一步。
  2. 自主物种识别:在野生动物保护领域的人工智能中,ZSL 可以识别稀有或新发现的物种。在常见动物上训练的模型可以使用来自维基百科等知识库的描述性属性(例如,“脖子长”、“有斑点”、“是食草动物”)来识别长颈鹿,即使其原始训练集中没有长颈鹿图像。

挑战与未来方向

尽管ZSL具有潜力,但它面临着诸如中心性问题(语义空间中的某些点成为过多点的最近邻)和领域偏移(特征和属性之间的关系在已见类和未见类之间有所不同)等挑战。为了解决这些问题,研究人员正在开发更强大的技术,例如广义零样本学习(GZSL),其中模型必须在推理过程中识别已见未见类。基础模型Ultralytics HUB等平台的发展将进一步简化ZSL的集成和部署,从而使AI系统减少对大量数据标注的依赖,并更符合类人推理。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板