了解 OpenAI 的 CLIP 如何通过零镜头学习、图像-文本配准和计算机视觉中的实际应用来革新人工智能。
CLIP(对比语言-图像预训练)是OpenAI开发的一种多功能神经网络(NN),擅长理解用日常语言描述的视觉概念。与需要精心标注数据集的传统图像分类模型不同,CLIP 通过分析从互联网上获取的数以亿计的图像-文本对进行学习。它采用了一种称为对比学习的技术,以掌握图像与其相应文本描述之间错综复杂的关系。这种独特的训练方法使 CLIP 能够在没有特定训练的情况下在各种任务中表现出色,这种强大的能力被称为 "零镜头学习"。
CLIP 的架构由两大部分组成:图像编码器和文本编码器。图像编码器通常采用视觉转换器 (ViT)或ResNet 等架构,处理图像以提取关键的视觉特征。与此同时,文本编码器(通常基于自然语言处理 (NLP) 中常用的Transformer模型)分析相关的文本描述,以捕捉其语义。在训练阶段,CLIP 会学习将图像和文本的表征(嵌入)投射到一个共享的多维空间中。对比学习过程的核心目标是最大化正确图像-文本对的嵌入之间的相似度(通常用余弦相似度来衡量),同时最小化给定批次中错误图像-文本对的相似度。这种方法能有效地教会模型将视觉模式与相关单词和短语联系起来,详情请参见CLIP 原文。
CLIP 最显著的优势在于其非凡的零镜头学习能力。由于它学习的是视觉数据与语言之间的广泛联系,而不是固定的类别,因此它可以根据在训练过程中从未遇到过的全新文本描述对图像进行分类,从而在很多情况下无需进行特定任务的微调。例如,即使 CLIP 没有明确接受过 "蓝狗素描 "的图像训练,它也可以通过结合所学到的 "素描"、"蓝色 "和 "狗 "的概念,识别出描述为 "蓝狗素描 "的图像。这种适应性使 CLIP 在各种计算机视觉 (CV)应用中具有极高的价值。即使与在标准基准数据集(如ImageNet)上接受监督学习范式训练的模型相比,CLIP 也能取得极具竞争力的性能。
CLIP 的方法不同于其他常见的人工智能 (AI)模型:
CLIP 的独特功能可用于多种实际用途:
尽管 CLIP 具有开创性的功能,但它也并非没有局限性。它依赖于大量未经整理的互联网数据,这意味着它可能会继承文本和图像中存在的社会偏见,从而引发人们对人工智能公平性和潜在算法偏见的担忧。此外,CLIP 在执行需要精确空间推理(如准确计算物体数量)或识别极其精细的视觉细节的任务时也会遇到困难。研究人员正在积极探索各种方法,以减轻这些偏差,增强细粒度理解,并将 CLIP 的语义知识与YOLOv11 等模型的定位优势相结合。使用Ultralytics HUB 等平台可以简化不同模型类型的组合和实验管理。通过Ultralytics 博客等资源随时了解人工智能的最新发展。