深圳Yolo 视觉
深圳
立即加入
词汇表

大型语言模型 (LLM)

探索大型语言模型 (LLM) 的基础知识。了解 Transformer 架构、分词以及如何将 LLM 与 Ultralytics YOLO26 结合。

一个 大语言模型 (LLM) 是一种复杂类型的 人工智能 (AI),它在海量数据集上训练,以理解、生成和处理人类语言。这些模型代表了 深度学习 (DL) 的重大演进,利用拥有数十亿参数的神经网络来捕捉复杂的语言模式、语法和语义关系。其核心是,大多数现代 LLM 依赖于 Transformer 架构,这使得它们能够并行而非顺序地处理数据序列。这种架构采用 自注意力机制,使模型能够权衡句子中不同词语之间的相对重要性,无论它们在文本中的距离如何。

大型语言模型的核心机制

大型语言模型的功能始于分词处理, 该过程将原始文本分解为称为词元(单词或亚词)的更小单元。在模型训练阶段,系统分析来自互联网、书籍和文章的海量文本数据,通过无监督学习预测序列中的下一个词元,从而有效掌握语言的统计结构。

经过初步训练后,开发者通常会进行微调,使模型专用于特定任务,例如医学分析或编码辅助。正是这种适应性,使得斯坦福基础模型研究中心等机构classify "基础模型"——这些模型如同广阔的基石,特定应用程序皆可在此基础上构建。

实际应用

大型语言模型已从理论研究阶段迈入实践应用阶段,在各行各业产生了深远影响:

  • 智能虚拟助手:现代客户服务严重依赖由LLM驱动的聊天机器人。与旧的基于规则的系统不同,这些代理可以处理细致入微的查询。为了提高准确性并减少幻觉,开发者集成了检索增强生成 (RAG),允许模型在回答前参考外部的最新公司文档。
  • 多模态视觉-语言系统: AI 的前沿将文本与视觉数据连接起来。视觉-语言模型 (VLM) 允许用户使用自然语言查询图像。例如,将语言接口与强大的 detect 器(如 YOLO26)相结合,使系统能够根据语音命令在实时视频流中识别和描述物体。

用代码连接文本与视觉

尽管标准LLM处理文本,但行业正在转向多模态AI。以下示例演示了语言提示如何使用YOLO-World(一个理解文本描述符以进行开放词汇检测的模型)来控制计算机视觉任务。

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

区分相关概念

区分大型语言模型(LLMs)与更广泛或并行的术语至关重要:

  • LLM 与 自然语言处理 (NLP)NLP是关注计算机与人类语言交互的总体学术领域。LLM是该领域内用于实现最先进结果的特定工具技术
  • LLM 与 生成式AI生成式AI是一个涵盖所有能够创建新内容的AI的类别。LLM是该类别中基于文本的子集,而Stable Diffusion等模型则代表图像生成子集。

挑战与未来展望

尽管具备强大能力,大型语言模型仍面临人工智能偏见问题,因其可能无意中复现训练数据中的偏见。此外,训练GPT-4 Google 模型所需的巨大计算能力引发了能源消耗的担忧。当前研究正聚焦于模型量化技术,旨在使这些系统具备足够的运行效率,能够在边缘硬件上运行。

若需更深入的技术见解,原始论文 《注意力机制即一切》为Transformers模型提供了基础理论。您还可探索 NVIDIA 如何针对这些 大规模工作负载优化硬件。

让我们一起共建AI的未来!

开启您的机器学习未来之旅