探索零点学习:一种尖端的人工智能方法,使模型能够对未见数据进行classify ,彻底改变物体检测、NLP 等技术。
零点学习(Zero-Shot Learning,ZSL)是机器学习(ML)中的一个强大范例,它能使人工智能技术(AI)与机器学习(ML)相结合。 零点学习(ZSL)是机器学习(ML)中一种强大的范式,它使人工智能模型能够识别 智能模型识别、classify或detect 它们在训练数据阶段从未遇到过的对象。 训练数据阶段从未遇到过的对象进行识别、分类或检测。在传统的 监督学习中,模型必须在成千上万张标有 在传统的监督学习中,模型必须在成千上万张标有标签的图像上进行训练,才能识别出需要识别的每一个特定类别。ZSL 通过以下方式消除了这一限制 利用辅助信息--通常是文本描述、属性或语义嵌入--消除了这一限制。 嵌入,从而弥合已见类别与未见类别之间的差距。 类之间的鸿沟。这种功能允许 人工智能(AI)系统 人工智能(AI)系统的灵活性、可扩展性和处理动态环境的能力大大提高。 为每一个可能的对象收集详尽的数据是不切实际的。
ZSL 的核心机制是利用共享语义空间将知识从熟悉的概念转移到陌生的概念。 语义空间将知识从熟悉的概念转移到陌生的概念。该模型不是仅仅通过记忆像素模式来学习识别 "猫",而是 学习视觉特征与语义属性(如 "毛茸茸的"、"胡须"、"四只猫 "等)之间的关系。 "胡须"、"四条腿")之间的关系。 自然语言处理 (NLP)。
这一过程通常依赖于 多模态模型,将图像和文本 表征。例如 等基础性研究展示了模型如何从自然语言监督中学习视觉概念。 自然语言监督。当 ZSL 模型遇到一个未见过的物体(如珍稀鸟类物种)时,它会提取视觉特征,并将其与自然语言词典进行比较。 视觉特征,并将其与语义向量词典进行比较。如果视觉特征与 新类别的语义描述一致,模型就能对其进行正确classify ,从而有效地进行 "零射中 "预测。 "零镜头 "预测。
要充分理解 ZSL,最好将其与计算机视觉(CV)中使用的类似学习策略区分开来。 计算机视觉 (CV) 中使用的类似学习策略区分开来:
零点学习 "使系统能够超越其初始训练,从而推动各行各业的创新。 的通用性,从而推动各行各业的创新。
Ultralytics YOLO模型体现了零点学习(Zero-Shot 学习的典范。它允许用户在运行时动态定义自定义类,而无需重新训练模型。这 是通过连接 YOLO11检测主干与 基于 CLIP 的文本编码器。
下面的Python 示例演示了如何使用YOLO detect 标准 COCO 数据集以外的对象,如特定颜色的衣服。
数据集的对象,例如特定颜色的衣服,使用 ultralytics 包装
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
虽然 ZSL 具有巨大的潜力,但它也面临着一些挑战,例如领域转移问题,即在训练过程中学习到的语义属性并不能完美地映射到未见过的类别的视觉外观上。 在训练过程中学习到的语义属性并不能完美地映射到未见类别的视觉外观上。 此外,ZSL 模型还可能出现偏差,即与未见过的类别相比,已见过的类别的预测准确率要高得多。 与未见类别相比,已见类别的预测准确率要高得多(广义零点学习)。
斯坦福大学人工智能实验室和 IEEE 计算机协会等组织的研究 电气和电子工程师学会计算机协会(IEEE Computer Society)等组织的研究一直在解决这些局限性。随着 基础模型变得更加强大,ZSL 有望成为计算机视觉工具的标准功能 计算机视觉工具的标准功能,从而减少对大量数据标注工作的依赖,并使 数据标注工作的依赖,并使获得先进人工智能能力的途径平民化。 先进的人工智能能力。

