深圳Yolo 视觉
深圳
立即加入
词汇表

零样本学习

探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行classify ,彻底改变物体检测、NLP 等技术。

零点学习(Zero-Shot Learning,ZSL)是机器学习(ML)中的一个强大范例,它能使人工智能技术(AI)与机器学习(ML)相结合。 零点学习(ZSL)是机器学习(ML)中一种强大的范式,它使人工智能模型能够识别 智能模型识别、classify或detect 它们在训练数据阶段从未遇到过的对象。 训练数据阶段从未遇到过的对象进行识别、分类或检测。在传统的 监督学习中,模型必须在成千上万标有 在传统的监督学习中,模型必须在成千上万张标有标签的图像上进行训练,才能识别出需要识别的每一个特定类别。ZSL 通过以下方式消除了这一限制 利用辅助信息--通常是文本描述、属性或语义嵌入--消除了这一限制。 嵌入,从而弥合已见类别与未见类别之间的差距。 类之间的鸿沟。这种功能允许 人工智能(AI)系统 人工智能(AI)系统的灵活性、可扩展性和处理动态环境的能力大大提高。 为每一个可能的对象收集详尽的数据是不切实际的。

零距离学习如何运作

ZSL 的核心机制是利用共享语义空间将知识从熟悉的概念转移到陌生的概念。 语义空间将知识从熟悉的概念转移到陌生的概念。该模型不是仅仅通过记忆像素模式来学习识别 "猫",而是 学习视觉特征与语义属性(如 "毛茸茸的"、"胡须"、"四只猫 "等)之间的关系。 "胡须"、"四条腿")之间的关系。 自然语言处理 (NLP)

这一过程通常依赖于 多模态模型,将图像和文本 表征。例如 等基础性研究展示了模型如何从自然语言监督中学习视觉概念。 自然语言监督。当 ZSL 模型遇到一个未见过的物体(如珍稀鸟类物种)时,它会提取视觉特征,并将其与自然语言词典进行比较。 视觉特征,并将其与语义向量词典进行比较。如果视觉特征与 新类别的语义描述一致,模型就能对其进行正确classify ,从而有效地进行 "零射中 "预测。 "零镜头 "预测。

与相关概念的区别

要充分理解 ZSL,最好将其与计算机视觉(CV)中使用的类似学习策略区分开来。 计算机视觉 (CV) 中使用的类似学习策略区分开来:

  • 快速学习(FSL)而 ZSL需要目标类的实例,而 FSL 则为模型提供了一个非常小的支持集(通常为 1 到 5 个实例 (通常为 1 到 5 个示例)来适应。ZSL 更具挑战性,因为它完全依赖于语义推断,而不是视觉示例。 而不是视觉示例。
  • 一次性学习单次学习 单次学习:FSL 的一个子集,即模型完全从一个标注示例中学习。ZSL 的本质区别在于,它的运行甚至不需要 甚至没有一张新类别的图像。
  • 迁移学习这一广义 这一广义术语是指将知识从一项任务转移到另一项任务。ZSL 是迁移学习的一种特殊类型,它 利用语义属性将知识迁移到未见过的类别,而无需在新数据上进行传统的 对新数据进行微调

实际应用

零点学习 "使系统能够超越其初始训练,从而推动各行各业的创新。 的通用性,从而推动各行各业的创新。

  1. 开放词汇对象检测:现代架构,如 YOLO等现代架构利用 ZSL 根据 用户定义的文本提示来检测对象。这样就可以 对象检测。 这样就可以在不可能事先定义固定类别列表的场景中进行对象检测,例如在庞大的视频档案中搜索特定项目。 Google 研究院和其他机构的研究人员正在积极 改进这些开放词汇功能。
  2. 医疗诊断:人工智能在医疗保健领域的应用 罕见疾病的标注数据既困难又昂贵。ZSL 模型可以根据常见疾病和医学教科书(如 PubMed 文章)中对罕见病症的描述进行训练。 例如,PubMed文章)中对罕见症状的描述来训练 ZSL 模型,从而使系统能够在罕见异常图像中标记出潜在的罕见异常。 系统能够标记 X 光片或核磁共振扫描中潜在的罕见异常,而无需大量阳性病例数据集。 病例。
  3. 野生动物保护:对于 对于农业和生态学领域的人工智能来说,识别 濒危物种至关重要。ZSL 允许保护主义者 使用生物数据库(如《生命百科全书》)中定义的基于属性的描述(如特定的毛皮图案或角的形状)来检测这些动物。 生命百科全书

利用Ultralytics进行零点检测

Ultralytics YOLO模型体现了零点学习(Zero-Shot 学习的典范。它允许用户在运行时动态定义自定义类,而无需重新训练模型。这 是通过连接 YOLO11检测主干与 基于 CLIP 的文本编码器。

下面的Python 示例演示了如何使用YOLO detect 标准 COCO 数据集以外的对象,如特定颜色的衣服。 数据集的对象,例如特定颜色的衣服,使用 ultralytics 包装

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

挑战与未来展望

虽然 ZSL 具有巨大的潜力,但它也面临着一些挑战,例如领域转移问题,即在训练过程中学习到的语义属性并不能完美地映射到未见过的类别的视觉外观上。 在训练过程中学习到的语义属性并不能完美地映射到未见类别的视觉外观上。 此外,ZSL 模型还可能出现偏差,即与未见过的类别相比,已见过的类别的预测准确率要高得多。 与未见类别相比,已见类别的预测准确率要高得多(广义零点学习)。

斯坦福大学人工智能实验室和 IEEE 计算机协会等组织的研究 电气和电子工程师学会计算机协会(IEEE Computer Society)等组织的研究一直在解决这些局限性。随着 基础模型变得更加强大,ZSL 有望成为计算机视觉工具的标准功能 计算机视觉工具的标准功能,从而减少对大量数据标注工作的依赖,并使 数据标注工作的依赖,并使获得先进人工智能能力的途径平民化。 先进的人工智能能力。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入