敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

基础模型

了解基础模型如何通过可扩展的架构、广泛的预训练和对各种应用的可适应性来彻底改变 AI。

基础模型是一种大规模的机器学习 (ML)模型,它在大量广泛的、未标记的数据上进行训练,可以适应各种下游任务。由斯坦福以人为本人工智能研究院创造的核心概念是“涌现属性”,即模型从训练数据中发展出对模式、语法和语义的惊人通用理解。这种通用性使其可以作为创建更专业模型的强大起点或“基础”,这一过程称为微调

关键特性与应用

基础模型的决定性特征是它们的适应性,这源于 迁移学习 范例。开发人员无需为每个问题从头开始训练新模型,而是可以采用预训练的基础模型,并使用小得多的、特定于任务的数据集对其进行调整。这大大减少了构建高性能 AI 系统 所需的数据、计算和时间。

实际应用展示了其多功能性:

  1. 高级聊天机器人和虚拟助手:OpenAI 的 GPT-4 这样的大型语言模型 (LLM) 充当语言的基础模型。 它在大量的互联网文本语料库上进行预训练,以理解语法、事实和推理技能。 然后,公司可以使用其内部文档和客户交互日志对其进行微调,以创建一个专门的聊天机器人,该机器人可以高精度地回答有关其产品或服务的特定问题。
  2. 医学影像分析:计算机视觉中,像Meta AI的Segment Anything Model (SAM)这样的模型是图像分割的基础模型。它可以识别并勾勒出任何图像中的物体,而无需事先了解上下文。医学研究人员可以在较小的 MRI 或 CT 扫描集上对该模型进行微调,以准确分割特定器官或检测肿瘤等异常情况,从而加速医学影像分析的诊断。

Foundation Model 与其他模型

区分基础模型和相关概念非常重要:

  • 特定任务模型: 传统上,ML 涉及从头开始训练模型以实现单一目的,例如训练一个 Ultralytics YOLO 模型,专门用于检测物流中的包裹。虽然有效,但这种方法需要大量标记数据才能完成每个新任务。基础模型提供了一种更有效的替代方案。
  • 大型语言模型 (LLM): LLM是专注于语言任务的卓越类型的基础模型。然而,“基础模型”一词范围更广,包括用于视觉、音频和其他数据模式的模型,如具有里程碑意义的论文“论基础模型的机遇与风险”中所详述。
  • 专用视觉模型: 虽然像 Vision Transformer (ViT) 这样的大型视觉模型被认为是基础模型,但许多专用 CV 模型不是。例如,为特定应用(如 汽车人工智能)微调的 YOLO11 模型是一种专用模型。但是,它利用了预训练的 backbone,该 backbone 体现了从 COCO 等大型数据集获得的底层知识。

训练和未来重要性

预训练基础模型是一项资源密集型工作,通常需要数千个 GPU 和大量的工程投入,通常由 Google AIDeepMind 等大型组织进行。但是,一旦完成训练,这些模型将开放给更广泛的用户使用。

诸如 Ultralytics HUB 这样的平台提供的工具通过简化 训练自定义模型、管理 数据集 和部署解决方案的工作流程来帮助用户适应这些基本功能,通常需要仔细的 超参数调整

基础模型正在通过普及强大功能的使用来改变 AI 格局。它们的兴起也引发了关于 AI 伦理数据集偏差计算鸿沟 的重要讨论。未来指向更强大、更高效和 多模态模型,这些模型可以同时理解和处理来自文本、图像和声音的信息,从而推动下一波 AI 用例

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板