深圳Yolo 视觉
深圳
立即加入
词汇表

基础模型

了解基础模型如何通过可扩展的架构、广泛的预训练和对各种应用的可适应性来彻底改变 AI。

基础模型是一种大规模 机器学习 (ML)系统。 基础模型是在大量广泛的数据基础上训练出来的大型机器学习 (ML) 系统,可适用于各种下游任务。由 斯坦福以人为本人工智能研究所(HAI)提出的,这些模型代表了人工智能(AI)领域的范式转变。 人工智能(AI)的范式转变。 单个模型在资源密集型的预训练阶段学习一般模式、语法和语义关系。 在资源密集型的预训练阶段,单一模型学习一般模式、语法和语义关系。一旦训练完成,这个 "基础 "就会成为一个通用的起点,开发人员可以通过微调来修改它,以满足特定应用的需要。 开发人员可以通过微调针对特定应用进行修改、 从而大大减少了从头开始构建专门模型的需要。

核心特征和机制

基础模型的力量在于其规模和 转移学习方法。与传统的 不同的是,基础模型是为单一目的(如对特定花卉品种进行分类)而训练的模型。 数据集,通常包括文本、图像或音频,并使用 自监督学习技术。这 这样,基础模型就能表现出 "突现特性",从而执行未明确编程的任务。 的任务。

主要机制包括

  • 预训练:模型在数千个 GPU来处理 TB的数据、 学习信息的底层结构。
  • 适应性:通过 通过参数高效微调 (PEFT),基础模型的广泛知识范围被缩小,以胜任特定任务,如 医学图像分析或法律文件 审查。
  • Transformer 结构:大多数现代基础模型都依赖于 Transformer架构,该架构使用注意力 机制来有效权衡不同输入部分的重要性。

实际应用

基础模型推动了 生成式人工智能的蓬勃发展,并正在改变各行各业 行业:

  1. 自然语言处理 (NLP):OpenAI 的 GPT-4 等模型是文本的基础模型 OpenAI 的 GPT-4模型是文本的基础模型。它们为 能编码、翻译和创意写作的虚拟助手、 翻译和创意写作的虚拟助手。通过微调这些模型,公司可以创建 为客户支持或技术文档量身定制的人工智能代理。 文档。
  2. 计算机视觉 (CV):在视觉领域,类似于 视觉Transformer (ViT)或 CLIP (对比语言-图像预训练)等模型作为基础。例如,强大的预训练骨干可以 Ultralytics YOLO11作为基础工具 物体检测的基础工具。物流公司可以 对这一预先训练的能力进行微调,以专门 detect 传送带上的包裹。 模型对形状和纹理的先验知识,以最小的标注数据实现高准确度。

基础模型与相关概念

必须将基础模型与人工智能领域的类似术语区分开来:

  • 与大型语言模型(LLMs)的比较:大型语言模型 LLM是一种特殊类型的 LLM 是一种专门为文本和语言任务设计的特定基础模型。而 "基础模型 "一词的含义更广,包括处理图像、语言和数据的多模态模型。 包括处理图像、音频和传感器数据的多模式模型、 音频和传感器数据。
  • 与人工通用智能(AGI)的比较:虽然基础模型模拟了通用智能的某些方面 智能的某些方面,但它们不是 人工智能。它们依赖于从训练数据中学到的统计 模式,缺乏真正的意识或推理能力。 Google DeepMind的研究人员仍在继续探索这些界限。
  • 与传统 ML 相比:传统 有监督学习通常需要从随机初始化开始训练一个 模型。基础模型通过提供 "知识渊博 "的起始状态,使人工智能民主化。 状态,大大降低了创建高性能应用的门槛。

具体实施

使用基础模型通常需要加载预先训练好的权重,然后在一个较小的定制数据集上进一步训练它们。 数据集上进一步训练。基础模型 ultralytics 库简化了视觉任务的这一过程,使用户能够利用 YOLO11 的基本功能。

下面的示例演示了如何加载预训练的YOLO11 模型(基础),并针对特定检测任务对其进行微调。 微调:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (acts as the foundation)
# 'yolo11n.pt' contains weights learned from the massive COCO dataset
model = YOLO("yolo11n.pt")

# Fine-tune the model on a specific dataset (Transfer Learning)
# This adapts the model's general vision capabilities to new classes
model.train(data="coco8.yaml", epochs=5)

挑战与未来展望

基础模型虽然功能强大,但也面临以下挑战 数据集偏差和高计算成本的挑战。 训练方面的挑战。关于基础模型的开创性论文强调了同质化的风险。 同质化的风险,即基础中的缺陷会传播到所有下游适应性。因此、 因此,人工智能伦理和安全研究正成为其发展的核心。 其发展的核心。展望未来,行业正朝着 多模态人工智能。 在这种情况下,单一的基础模型可以在视频、文本和音频之间进行无缝推理,从而为更全面的 自动驾驶汽车和机器人技术铺平道路。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入