探索零样本学习:一种前沿的 AI 方法,使模型能够分类未见过的数据,从而彻底改变目标检测、自然语言处理等。
零样本学习 (ZSL) 是 机器学习 (ML) 中一项引人入胜的功能,模型可以识别和分类在其 训练数据 阶段从未见过的类别中的对象。 与传统的监督学习不同,后者需要每个可能类别的明确示例,而 ZSL 使模型能够将其知识推广到新的、未见过的类别。 这是通过高级语义描述(例如属性或文本嵌入)将观察到的类别和未观察到的类别相关联来实现的。 这使得 AI 模型更加灵活和可扩展,尤其是在收集详尽的标记数据不切实际的实际场景中。
ZSL背后的核心思想是创建一个共享的嵌入空间,其中可以表示来自图像的视觉特征和来自文本的语义信息。在训练期间,模型学习将已见类别的图像映射到其相应的语义向量(属性或词嵌入)。例如,该模型学习“马”的视觉特征,并将它们链接到诸如“有四条腿”、“是哺乳动物”和“可以骑”之类的语义描述。
当呈现未见过类别的图像(例如“斑马”)时,模型会提取其视觉特征。 同时,它使用“斑马”的语义描述——例如,“像马”、“有条纹”——在嵌入空间中定位它。 通过找到与提取的视觉特征最接近的语义描述,即使没有一张斑马的训练图像,模型也可以正确地将图像分类为“斑马”。 此过程通常依赖于强大的预训练多模态模型,例如OpenAI 的 CLIP,它擅长连接视觉和语言。
区分 ZSL 与相关的学习技术非常重要:
ZSL 具有许多实际应用,使 计算机视觉 系统更具动态性和适应性。
尽管ZSL具有潜力,但它面临着诸如中心性问题(语义空间中的某些点成为过多点的最近邻)和领域偏移(特征和属性之间的关系在已见类和未见类之间有所不同)等挑战。为了解决这些问题,研究人员正在开发更强大的技术,例如广义零样本学习(GZSL),其中模型必须在推理过程中识别已见和未见类。基础模型和Ultralytics HUB等平台的发展将进一步简化ZSL的集成和部署,从而使AI系统减少对大量数据标注的依赖,并更符合类人推理。