词汇表

大型视觉模型（LVM）

了解大型视觉模型（LVM）及其对人工智能的影响。了解Ultralytics 和Ultralytics 如何实现先进的物体检测与分析。

大型视觉模型（LVM）是人工智能领域的一次重大突破，其核心在于对海量视觉数据的理解、生成和处理。与传统计算机视觉系统不同，后者通常基于针对特定预定义任务的窄域数据集进行训练，而LVM则作为通用基础模型，通过海量图像和视频数据集进行训练。这种广泛的预训练使其能够对视觉几何结构、纹理以及复杂的空间关系形成深刻而全面的理解，且无需依赖人工标注的标签。

大型视觉模型的工作原理

现代大型视觉模型通常利用视觉变换器（ViT）或高度扩展的卷积架构来处理视觉输入。通过采用自监督学习技术，例如遮罩图像建模，它们通过预测图像或帧中缺失的部分来进行学习。斯坦福基础模型研究中心等学术机构已证明，快速增加这些模型的参数数量会催生出即开即用的能力。这使得它们能够适应高速物体检测和精细图像分割等下游任务，且仅需极少的微调。

实际应用

LVM 通过处理复杂的视觉分析，正在改变各行各业，而此类分析此前需要高度专业化的、经过专门训练的算法。

自动医学影像分析： 在临床环境中，大型视觉架构通过处理高分辨率的X光片、MRI和CT扫描图像来识别细微的异常，从而协助放射科医生实现疾病的早期发现，并显著降低诊断误差。
制造业中的缺陷检测： 工厂生产线利用通用视觉模型对产品进行实时检测，能够轻松识别装配线上复杂且前所未见的缺陷，从而提升质量控制水平，而无需为每种具体缺陷准备数千个样本。

区分相关概念

要全面了解人工智能领域，区分LVM与其他流行的基础模型会有所帮助：

LVM 与视觉语言模型 (VLM)： LVM 仅处理视觉模态（像素），而 VLM 则整合了文本和图像，使用户能够针对图片提出自然语言问题，或获取视频的文本描述。
LVM 与大型语言模型 (LLM)： LLM 完全基于文本数据进行训练，用于理解和生成人类语言。LVM 则执行类似的扩展和理解任务，但仅限于视觉数据。

使用 Vision 模型

虽然大型 LVM 通常需要运行 PyTorch 或 TensorFlow的服务器集群，而像Ultralytics 这样高度优化的基础视觉模型，则能将强大且最先进的视觉智能直接带入本地边缘环境。以下示例演示了如何使用预训练模型进行稳健的视觉推理：

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

视觉智能的未来

从发表在arXiv和 IEEE Xplore数字图书馆上的学术研究到实际企业应用的转化正在迅速加速。像 Google 这样的研究团队正积极将LVM扩展到时序领域，使模型能够理解类似于 OpenAI的Sora中生成的复杂视频序列。

对于希望构建定制化视觉人工智能解决方案的开发者和组织而言， Ultralytics 提供了用于团队协作式数据集标注、云端训练以及简化模型部署的无缝工具，使先进的视觉能力触手可及。此外，像 Meta 的 Segment Anything 2 (SAM ) 这样的零样本分割工具，展示了大规模基础视觉方法——这些方法常在 ACM 数字图书馆中详述——如何正在整个 AI 行业内将复杂的像素级理解标准化。

大型视觉模型（LVM）

导出至17+种格式。部署至全球43个区域。

以每小时2.39美元的价格在H100 GPU上训练YOLO26。

灵活的企业级许可，为您的视觉AI项目赋能。

专为赋能您的下一个项目而设计的企业级许可

智能标注可将标注速度提升高达10倍

标注。训练。部署。一站式平台。

大型视觉模型的工作原理

实际应用

区分相关概念

使用 Vision 模型

视觉智能的未来

阅读更多此类别的内容

Ultralytics中国社区聚会：全球对机器学习关注度最高的国家。

Ultralytics AMD 上海开发者日：本地 AI 与代理系统相遇

Ultralytics 2026年嵌入式视觉Ultralytics 呈现的亮点

让我们一起共建AI的未来！