Foundation Model
探索基础模型 (Foundation Models) 的力量。学习如何使用 Ultralytics Platform 将 Ultralytics YOLO26 等大规模模型适配到自定义任务中。
基础模型代表了人工智能 (AI) 领域的一个重大范式转变。它是一种在海量数据上训练的大规模机器学习模型,通常包含数十亿个参数,可以适配广泛的下游任务。与通常为单一特定目的(如分类某种特定花卉)而构建的传统机器学习 (ML) 模型不同,基础模型在资源密集型的预训练阶段学习广泛的模式、结构和关系。这种广泛的知识库使开发者能够通过迁移学习将模型应用于新问题,从而显著减少获得先进结果所需的时间和数据。
Link to this section核心机制:预训练与适配#
基础模型的力量在于其两阶段开发过程:预训练和微调。在预训练期间,模型接触海量数据集,例如互联网的大部分内容、多样化的图像库或广泛的代码仓库。此阶段通常利用自监督学习,这是一种模型从数据结构本身生成自有标签的技术,消除了手动数据标注的瓶颈。例如,语言模型可能会学习预测句子中的下一个单词,而视觉模型则学习理解边缘、纹理和物体恒存性。
预训练完成后,该模型便成为了一个多功能的起点。通过称为微调的过程,开发者可以在较小的特定领域数据集上调整模型的权重。这种能力对于人工智能民主化至关重要,因为它使计算资源有限的组织能够利用强大的架构。现代工作流程通常利用 Ultralytics Platform 等工具来简化此适配过程,从而能够在自定义数据集上进行高效训练,而无需从头构建神经网络。
Link to this section实际应用#
基础模型是各行业创新的基石。它们的泛化能力使其适用于从自然语言处理到先进计算机视觉等各种任务。
- 医疗保健中的计算机视觉: 专门的视觉基础模型可以经过微调以辅助医学图像分析。最初在通用图像上训练的模型可以进行调整,以检测 MRI 扫描中的肿瘤或识别 X 光片中的弯曲性骨折。此应用展示了通用视觉理解如何转化为救命的诊断工具。
- 工业自动化: 在制造业中,像 Ultralytics YOLO26 这样的视觉模型可以作为目标检测的基础架构。工厂使用这些模型来自动化质量检测,以高速度和高精度检测装配线上的缺陷。模型对物体边界的现有知识加速了这些智能制造解决方案的部署。
Link to this section技术实现示例#
开发者可以利用基础模型以极少的代码执行复杂的任务。以下示例展示了如何加载预训练的 YOLO26 模型(一种针对实时应用优化的视觉基础模型)并对图像执行目标检测。
from ultralytics import YOLO
# Load a pre-trained YOLO26 foundation model
# 'n' stands for nano, the smallest and fastest version
model = YOLO("yolo26n.pt")
# Perform inference on an image to detect objects
# The model uses its pre-trained knowledge to identify common objects
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()Link to this section区分关键术语#
为了理解“基础模型”的具体角色,将其与 AI 领域中的相关概念区分开来很有帮助:
- Large Language Model (LLM): An LLM is a type of foundation model specifically designed to process and generate text. While all LLMs are foundation models, not all foundation models are LLMs; the category also includes vision models like SAM (Segment Anything Model) and multimodal systems.
- 迁移学习: 这是用于将基础模型应用于新任务的技术。基础模型是人工制品(已保存的神经网络),而迁移学习则是为特定用例(例如农业害虫防治)更新该人工制品知识的过程。
- 生成式 AI: 这指的是能够创建新内容(文本、图像、代码)的系统。许多基础模型为生成式 AI 应用提供动力,但它们也可以用于判别式任务,如分类或目标跟踪,这些任务并不严格属于“生成式”。
Link to this section未来方向与影响#
基础模型的演进正朝着多模态 AI 方向发展,单个系统可以同时处理和关联来自文本、图像、音频和传感器数据的信息。来自斯坦福以人为本人工智能研究院 (HAI) 等机构的研究强调了这些系统像人类一样推理世界的潜力。随着这些模型变得更加高效,在边缘计算设备上的部署变得越来越可行,直接将强大的 AI 能力带到智能手机、无人机和物联网传感器上。






