词汇表

大型语言模型 (LLM)

探索大型语言模型（LLMs）的基础知识。了解Transformer 、分词技术，以及如何将大型语言Ultralytics 相结合。

大型语言模型（LLM）是一种复杂的人工智能（AI）类型，通过海量数据集训练来理解、生成和处理人类语言。这些模型代表了深度学习（DL）的重要进化，利用具有数十亿参数的神经网络来捕捉复杂的语言模式、语法和语义关系。其核心在于，大多数现代LLM都依赖于 Transformer 使其能够并行处理数据序列而非顺序处理。该架构采用自注意力机制，使模型能够衡量句子中不同单词的相对重要性，而无需考虑它们在文本中的距离。

大型语言模型的核心机制

大型语言模型的功能始于分词处理，该过程将原始文本分解为称为词元（单词或亚词）的更小单元。在模型训练阶段，系统分析来自互联网、书籍和文章的海量文本数据，通过无监督学习预测序列中的下一个词元，从而有效掌握语言的统计结构。

经过初步训练后，开发者通常会进行微调，使模型专用于特定任务，例如医学分析或编码辅助。正是这种适应性，使得斯坦福基础模型研究中心等机构classify "基础模型"——这些模型如同广阔的基石，特定应用程序皆可在此基础上构建。

实际应用

大型语言模型已从理论研究阶段迈入实践应用阶段，在各行各业产生了深远影响：

智能虚拟助手：现代客户服务高度依赖由大型语言模型驱动的聊天机器人。与传统的基于规则的系统不同，这些助手能够处理复杂多变的查询。为提高准确性并减少幻觉现象，开发者整合了检索增强生成（RAG）技术，使模型在回答前能够调用外部最新的公司文档。
多模态视觉语言系统：人工智能的前沿领域，将文本与视觉数据相连接。视觉语言模型（VLMs）使用户能够通过自然语言查询图像。例如，将语言界面与YOLO26这类强大的检测器相结合，系统便能根据语音指令实时识别并描述视频流中的物体。

用代码连接文本与视觉

虽然标准的大型语言模型处理文本，但行业正转向多模态人工智能。以下示例展示了如何通过语言提示控制计算机视觉任务，YOLO——该模型能够理解用于开放词汇检测的文本描述符。

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

区分相关概念

区分大型语言模型（LLMs）与更广泛或并行的术语至关重要：

LLM与自然语言处理（NLP）： NLP是研究计算机与人类语言交互的宏观学术领域。LLM则是该领域内用于实现尖端成果的特定工具或技术。
LLM与生成式AI：生成式AI涵盖所有能创造新内容的人工智能。LLM是该类别中基于文本的子集，而像Stable Diffusion这样的模型则代表图像生成的子集。

挑战与未来展望

尽管具备强大能力，大型语言模型仍面临人工智能偏见问题，因其可能无意中复现训练数据中的偏见。此外，训练GPT-4 Google 模型所需的巨大计算能力引发了能源消耗的担忧。当前研究正聚焦于模型量化技术，旨在使这些系统具备足够的运行效率，能够在边缘硬件上运行。

若需更深入的技术见解，原始论文《注意力机制即一切》为Transformers模型提供了基础理论。您还可探索 NVIDIA 如何针对这些大规模工作负载优化硬件。

大型语言模型 (LLM)

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

大型语言模型的核心机制

实际应用

用代码连接文本与视觉

区分相关概念

挑战与未来展望

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

什么是单目深度估计？概述

Ultralytics YOLO 进行人工智能威胁检测

加入Ultralytics 社区