探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行分类,彻底改变物体检测、NLP 等技术。
零点学习(Zero-Shot Learning,简称 ZSL)是机器学习(ML)中的一种令人着迷的能力,在它的训练数据阶段,模型可以从它从未见过的类别中识别和分类对象。传统的监督学习需要为每个可能的类别提供明确的示例,而 ZSL 则不同,它能让模型将其知识泛化到新的、未见过的类别中。这是通过高级语义描述(如属性或文本嵌入)将观察到的类别与未观察到的类别联系起来实现的。这使得人工智能模型更具灵活性和可扩展性,尤其是在现实世界中,收集详尽的标注数据是不切实际的。
ZSL 背后的核心理念是创建一个共享的嵌入空间,在这个空间中,来自图像的视觉特征和来自文本的语义信息都可以被表示出来。在训练过程中,模型学会将所见类别的图像映射到相应的语义向量(属性或单词嵌入)。例如,该模型学习 "马 "的视觉特征,并将其与 "有四条腿"、"是哺乳动物 "和 "可以被骑 "等语义描述联系起来。
当出现 "斑马 "等未见类别的图像时,模型会提取其视觉特征。与此同时,它使用 "斑马 "的语义描述--例如 "像马一样"、"有条纹"--在嵌入空间中定位 "斑马"。通过找到与提取的视觉特征最接近的语义描述,即使没有一张 "斑马 "的训练图像,模型也能正确地将图像分类为 "斑马"。这一过程通常依赖于强大的预训练多模态模型,如OpenAI 的 CLIP,它在连接视觉和语言方面表现出色。
重要的是要将 ZSL 与相关的学习技术区分开来:
ZSL 有许多实际应用,使计算机视觉系统更具活力和适应性。
尽管零点学习具有很大的潜力,但它也面临着一些挑战,如中心性问题(语义空间中的一些点成为太多点的近邻)和领域偏移(已见类和未见类的特征和属性之间的关系不同)。为了解决这些问题,研究人员正在开发更稳健的技术,如广义零点学习(GZSL),其中模型在推理过程中必须同时识别可见类和未见类。基础模型和Ultralytics HUB等平台的发展将进一步简化零点学习的集成和部署,使人工智能系统不再依赖大量的数据标注,而是更符合人类的推理能力。