深圳Yolo 视觉
深圳
立即加入
词汇表

大型语言模型 (LLM)

探索大型语言模型(LLMs)的基础知识。了解Transformer 、分词技术,以及如何将大型语言Ultralytics 相结合。

大型语言模型(LLM)是一种复杂的人工智能(AI)类型,通过海量数据集训练来理解、生成和处理人类语言。这些模型代表了深度学习(DL)的重要进化,利用具有数十亿参数的神经网络来捕捉复杂的语言模式、语法和语义关系。其核心在于,大多数现代LLM都依赖于 Transformer 使其能够并行处理数据序列而非顺序处理。该架构采用自注意力机制,使模型能够衡量句子中不同单词的相对重要性,而无需考虑它们在文本中的距离。

大型语言模型的核心机制

大型语言模型的功能始于分词处理, 该过程将原始文本分解为称为词元(单词或亚词)的更小单元。在模型训练阶段,系统分析来自互联网、书籍和文章的海量文本数据,通过无监督学习预测序列中的下一个词元,从而有效掌握语言的统计结构。

经过初步训练后,开发者通常会进行微调,使模型专用于特定任务,例如医学分析或编码辅助。正是这种适应性,使得斯坦福基础模型研究中心等机构classify "基础模型"——这些模型如同广阔的基石,特定应用程序皆可在此基础上构建。

实际应用

大型语言模型已从理论研究阶段迈入实践应用阶段,在各行各业产生了深远影响:

  • 智能虚拟助手:现代客户服务高度依赖由大型语言模型驱动的聊天机器人。与传统的基于规则的系统不同,这些助手能够处理复杂多变的查询。为提高准确性并减少幻觉现象,开发者整合了检索增强生成(RAG)技术,使模型在回答前能够调用外部最新的公司文档。
  • 多模态视觉语言系统:人工智能的前沿领域,将文本与视觉数据相连接。 视觉语言模型(VLMs) 使用户能够通过自然语言查询图像。例如,将语言界面与YOLO26这类强大的检测器相结合, 系统便能根据语音指令实时识别并描述视频流中的物体。

用代码连接文本与视觉

虽然标准的大型语言模型处理文本,但行业正转向多模态人工智能。以下示例展示了如何通过语言提示控制计算机视觉任务,YOLO——该模型能够理解用于开放词汇检测的文本描述符。

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])

# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

区分相关概念

区分大型语言模型(LLMs)与更广泛或并行的术语至关重要:

  • LLM与 自然语言处理(NLP) NLP是研究计算机与人类语言交互的宏观学术领域。LLM则是该领域内用于实现尖端成果的特定工具技术
  • LLM与生成式AI生成式AI涵盖所有能创造新内容的人工智能。LLM是该类别中基于文本的子集,而像Stable Diffusion这样的模型则代表图像生成的子集。

挑战与未来展望

尽管具备强大能力,大型语言模型仍面临人工智能偏见问题,因其可能无意中复现训练数据中的偏见。此外,训练GPT-4 Google 模型所需的巨大计算能力引发了能源消耗的担忧。当前研究正聚焦于模型量化技术,旨在使这些系统具备足够的运行效率,能够在边缘硬件上运行。

若需更深入的技术见解,原始论文 《注意力机制即一切》为Transformers模型提供了基础理论。您还可探索 NVIDIA 如何针对这些 大规模工作负载优化硬件。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入