术语表

零距离学习

探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行分类,彻底改变物体检测、NLP 等技术。

零点学习(Zero-Shot Learning,简称 ZSL)是机器学习(ML)中的一种令人着迷的能力,在它的训练数据阶段,模型可以从它从未见过的类别中识别和分类对象。传统的监督学习需要为每个可能的类别提供明确的示例,而 ZSL 则不同,它能让模型将其知识泛化到新的、未见过的类别中。这是通过高级语义描述(如属性或文本嵌入)将观察到的类别与未观察到的类别联系起来实现的。这使得人工智能模型更具灵活性和可扩展性,尤其是在现实世界中,收集详尽的标注数据是不切实际的。

它是如何工作的?

ZSL 背后的核心理念是创建一个共享的嵌入空间,在这个空间中,来自图像的视觉特征和来自文本的语义信息都可以被表示出来。在训练过程中,模型学会将所见类别的图像映射到相应的语义向量(属性或单词嵌入)。例如,该模型学习 "马 "的视觉特征,并将其与 "有四条腿"、"是哺乳动物 "和 "可以被骑 "等语义描述联系起来。

当出现 "斑马 "等未见类别的图像时,模型会提取其视觉特征。与此同时,它使用 "斑马 "的语义描述--例如 "像马一样"、"有条纹"--在嵌入空间中定位 "斑马"。通过找到与提取的视觉特征最接近的语义描述,即使没有一张 "斑马 "的训练图像,模型也能正确地将图像分类为 "斑马"。这一过程通常依赖于强大的预训练多模态模型,如OpenAI 的 CLIP,它在连接视觉和语言方面表现出色。

零起点学习与其他范式的比较其他范式

重要的是要将 ZSL 与相关的学习技术区分开来:

  • 快速学习(FSL):在 FSL 中,每个新类别的模型只需使用极少量的标注示例(如 1 到 5 个)进行训练。这与 ZSL 不同,后者使用的目标类示例数量为
  • 一次性学习(OSL):单次学习(OSL):FSL 的一种子类型,即模型只接收一个新类别的示例。它比一般的 FSL 更受数据限制,但仍需要至少一个样本,这与 ZSL 不同。
  • 转移学习:ZSL 是迁移学习的一种形式,但它是独一无二的。标准的迁移学习通常是在一个新的(较小的)标注数据集上对预先训练好的模型进行微调,而 ZSL 仅使用辅助语义信息就能将知识迁移到新的类别上,而不需要这些类别的任何标注示例。

实际应用

ZSL 有许多实际应用,使计算机视觉系统更具活力和适应性。

  1. 开放词汇对象检测YOLO-World等模型利用 ZSL 来检测文本描述的任何物体。用户可以提供文本提示,如 "穿蓝色衬衫的人 "或 "漏水的管道",模型就能在图像或视频流中找到这些物体,而无需对这些特定类别进行明确的训练。这是朝着创建真正的通用视觉系统迈出的重要一步。
  2. 自主物种识别:在野生动物保护人工智能方面,ZSL 可以识别稀有或新发现的物种。针对普通动物训练的模型可以使用维基百科等知识库中的描述性属性(如 "有长长的脖子"、"有斑点"、"是食草动物")来识别长颈鹿,即使其原始训练集中没有长颈鹿的图像。

挑战与未来方向

尽管零点学习具有很大的潜力,但它也面临着一些挑战,如中心性问题(语义空间中的一些点成为太多点的近邻)和领域偏移(已见类和未见类的特征和属性之间的关系不同)。为了解决这些问题,研究人员正在开发更稳健的技术,如广义零点学习(GZSL),其中模型在推理过程中必须同时识别可见类未见类。基础模型Ultralytics HUB等平台的发展将进一步简化零点学习的集成和部署,使人工智能系统不再依赖大量的数据标注,而是更符合人类的推理能力。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板