探索大型语言模型 (LLM) 的基础知识。了解 Transformer 架构、分词以及如何将 LLM 与 Ultralytics YOLO26 结合。
一个 大语言模型 (LLM) 是一种复杂类型的 人工智能 (AI),它在海量数据集上训练,以理解、生成和处理人类语言。这些模型代表了 深度学习 (DL) 的重大演进,利用拥有数十亿参数的神经网络来捕捉复杂的语言模式、语法和语义关系。其核心是,大多数现代 LLM 依赖于 Transformer 架构,这使得它们能够并行而非顺序地处理数据序列。这种架构采用 自注意力机制,使模型能够权衡句子中不同词语之间的相对重要性,无论它们在文本中的距离如何。
大型语言模型的功能始于分词处理, 该过程将原始文本分解为称为词元(单词或亚词)的更小单元。在模型训练阶段,系统分析来自互联网、书籍和文章的海量文本数据,通过无监督学习预测序列中的下一个词元,从而有效掌握语言的统计结构。
经过初步训练后,开发者通常会进行微调,使模型专用于特定任务,例如医学分析或编码辅助。正是这种适应性,使得斯坦福基础模型研究中心等机构classify "基础模型"——这些模型如同广阔的基石,特定应用程序皆可在此基础上构建。
大型语言模型已从理论研究阶段迈入实践应用阶段,在各行各业产生了深远影响:
尽管标准LLM处理文本,但行业正在转向多模态AI。以下示例演示了语言提示如何使用YOLO-World(一个理解文本描述符以进行开放词汇检测的模型)来控制计算机视觉任务。
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
区分大型语言模型(LLMs)与更广泛或并行的术语至关重要:
尽管具备强大能力,大型语言模型仍面临人工智能偏见问题,因其可能无意中复现训练数据中的偏见。此外,训练GPT-4 Google 模型所需的巨大计算能力引发了能源消耗的担忧。当前研究正聚焦于模型量化技术,旨在使这些系统具备足够的运行效率,能够在边缘硬件上运行。
若需更深入的技术见解,原始论文 《注意力机制即一切》为Transformers模型提供了基础理论。您还可探索 NVIDIA 如何针对这些 大规模工作负载优化硬件。

开启您的机器学习未来之旅