了解 OpenAI 的 CLIP 如何通过零样本学习、图像-文本对齐以及计算机视觉中的实际应用来革新 AI。
CLIP(对比语言-图像预训练)是由 OpenAI 开发的一项突破性的多模态模型,它在共享的理解空间中连接文本和图像。与为单一任务(如图像分类)训练的传统模型不同,CLIP 直接从自然语言描述中学习视觉概念。它在来自互联网的大量图像-文本对数据集上进行训练,使其能够执行各种任务,而无需为每个任务进行专门训练,这种能力被称为零样本学习。这种方法使其成为新一代 AI 应用的强大基础模型。
CLIP背后的核心思想是学习一个共享的嵌入空间,其中图像和文本都可以表示为向量。它使用两个独立的编码器:一个用于图像的Vision Transformer (ViT)或类似的架构,以及一个用于文本的文本Transformer。在训练过程中,模型会获得一批图像-文本对,并学习预测哪个文本标题对应于哪个图像。这是通过对比学习实现的,模型的目标是最大化正确配对的嵌入相似度,同时最小化不正确配对的嵌入相似度。结果在原始研究论文中有详细说明,是对概念的强大理解,将视觉数据与语言环境联系起来。一个开源实现OpenCLIP,在LAION-5B等数据集上训练,已使这项技术得到广泛应用。
CLIP 的独特功能使其适用于多种实际用途:
区分 CLIP 与专门的计算机视觉 (CV)模型(如 Ultralytics YOLO)非常重要。
这些模型虽然不同,但具有互补性。CV 的未来可能涉及将 CLIP 等模型的语义上下文与 YOLO11 等检测器的定位精度相结合,以构建更复杂的 AI 系统。
尽管CLIP功能强大,但它也存在局限性。由于它是在来自互联网的大量未经整理的数据上训练的,因此它可能会吸收并复制该数据中存在的社会偏见,从而导致人们对AI公平性和潜在的算法偏见的担忧。它还在某些需要精细细节或空间推理的任务中表现不佳,例如准确地计算对象。包括斯坦福大学基础模型研究中心(CRFM)等机构的工作在内的持续研究,侧重于减轻这些偏见并提高其能力。可以使用Ultralytics HUB等平台管理将CLIP的知识集成到不同工作流程中,该平台简化了模型和数据集管理。