了解 OpenAI 的 CLIP 如何通过零镜头学习、图像-文本配准和计算机视觉中的实际应用来革新人工智能。
CLIP(对比语言-图像预训练)是OpenAI开发的一种突破性多模态模型,它将文本和图像连接在一个共享的理解空间内。与针对图像分类等单一任务训练的传统模型不同,CLIP 直接从自然语言描述中学习视觉概念。它在互联网上的海量图像-文本对数据集上进行训练,使其能够执行各种任务,而无需对每项任务进行特定的训练--这种能力被称为 "零镜头学习"。这种方法使它成为新一代人工智能应用的强大基础模型。
CLIP 背后的核心理念是学习一个共享的嵌入空间,在这个空间中,图像和文本都可以表示为向量。它使用两个独立的编码器:图像使用视觉转换器(ViT)或类似结构,文本使用文本转换器。在训练过程中,该模型会得到一批图像-文本对,并学习预测哪个文本标题对应哪个图像。这是通过对比学习实现的,模型的目标是使正确配对的嵌入相似度最大化,而错误配对的嵌入相似度最小化。原始研究论文详细介绍了这一结果,即对概念的强大理解,将视觉数据与语言上下文联系起来。在LAION-5B 等数据集上训练的开源实现 OpenCLIP 使这项技术得以广泛应用。
CLIP 的独特功能可用于多种实际用途:
必须将 CLIP 与Ultralytics YOLO 等专业计算机视觉 (CV)模型区分开来。
这些模型虽然各不相同,但却是相辅相成的。未来的 CV 可能会将 CLIP 等模型的语义上下文与YOLO11等探测器的定位精度结合起来,以构建更复杂的人工智能系统。
尽管 CLIP 功能强大,但它也有局限性。由于它是在来自互联网的大量未经整理的数据基础上进行训练的,因此它可以吸收和复制这些数据中的社会偏见,从而引发人们对人工智能公平性和潜在算法偏见的担忧。此外,它在某些需要精细细节或空间推理的任务上也很吃力,比如精确计算物体数量。正在进行的研究,包括斯坦福大学基础模型研究中心(CRFM)等机构的工作,都集中在减少这些偏差和提高其能力上。将 CLIP 的知识整合到不同的工作流程中,可以通过Ultralytics HUB 等平台进行管理,从而简化模型和数据集管理。