基础模型
了解基础模型如何通过可扩展的架构、广泛的预训练和对各种应用的适应性,彻底改变人工智能。
基础模型是一种大规模的机器学习(ML)模型,它是在大量广泛的无标记数据基础上训练而成的,可适用于各种下游任务。由斯坦福以人为中心的人工智能研究所提出的核心概念是 "涌现属性",即模型从其所训练的数据中发展出一种对模式、语法和语义的多用途理解。这种通用性使其能够作为一个强大的起点或 "基础",通过一个称为微调的过程来创建更专业的模型。
主要特点和应用
基础模型的决定性特征是其适应性,这源于迁移学习范式。开发人员不需要为每个问题从头开始训练一个新模型,而是可以利用一个预先训练好的基础模型,通过一个更小的、针对特定任务的数据集对其进行调整。这大大减少了构建高性能人工智能系统所需的数据、计算量和时间。
实际应用展示了它们的多功能性:
- 高级聊天机器人和虚拟助理:像OpenAI 的 GPT-4这样的大型语言模型(LLM)是语言的基础模型。它在大量互联网文本语料库中进行预训练,以了解语法、事实和推理技能。然后,公司可以利用内部文档和客户交互日志对其进行微调,以创建一个专门的聊天机器人,高精度地回答有关其产品或服务的特定问题。
- 医学图像分析:在计算机视觉领域,像Meta AI 的 Segment Anything Model(SAM)这样的模型是图像分割的基础模型。它能在任何图像中识别并勾勒出物体轮廓,而无需事先了解上下文。医学研究人员可以在较小的核磁共振成像或 CT 扫描图像上对该模型进行微调,以准确分割特定器官或检测肿瘤等异常情况,从而加快医学图像分析的诊断速度。
基础模型与其他模型
必须将基础模型与相关概念区分开来:
- 特定任务模型:传统上,人工智能需要针对单一目的从头开始训练模型,例如训练一个Ultralytics YOLO模型,专门用于检测物流中的包裹。这种方法虽然有效,但每个新任务都需要大量标注数据。基础模型提供了一种更有效的替代方法。
- 大型语言模型(LLM):大型语言模型(LLMs):大型语言模型是以语言任务为重点的一种著名基础模型。不过,"基础模型 "一词的含义更广,包括视觉、音频和其他数据模式的模型,详见具有里程碑意义的论文"论基础模型的机遇与风险"。
- 专用视觉模型:虽然像视觉转换器(ViT)这样的大型视觉模型被认为是基础模型,但许多专门的 CV 模型却不是。例如,针对汽车人工智能等特定应用进行微调的YOLO11模型就是一种专用模型。不过,它利用的是预先训练好的骨干模型,其中包含了从COCO 等大型数据集中获得的基础知识。
培训和未来的重要性
预训练基础模型是一项资源密集型工作,通常需要成千上万的GPU和大量的工程设计工作,通常由谷歌人工智能和DeepMind 等大型机构承担。然而,一旦训练完成,这些模型就可以被更广泛地使用。
Ultralytics HUB等平台通过简化工作流程来训练自定义模型、管理数据集和部署解决方案(通常需要仔细调整超参数),从而提供工具帮助用户调整这些基础功能。
基金会模式正在改变人工智能的格局,使获取强大能力的途径民主化。它们的崛起也带来了有关人工智能伦理、数据集偏见和计算鸿沟的重要讨论。未来的趋势是建立更强大、更高效、更多模式的模型,这些模型可以同时理解和处理来自文本、图像和声音的信息,推动下一波人工智能用例的发展。