探索大型语言模型(LLMs)的基础知识。了解Transformer 、分词技术,以及如何将大型语言Ultralytics 相结合。
大型语言模型(LLM)是一种复杂的人工智能(AI)类型,通过海量数据集训练来理解、生成和处理人类语言。这些模型代表了深度学习(DL)的重要进化,利用具有数十亿参数的神经网络来捕捉复杂的语言模式、语法和语义关系。其核心在于,大多数现代LLM都依赖于 Transformer 使其能够并行处理数据序列而非顺序处理。该架构采用自注意力机制,使模型能够衡量句子中不同单词的相对重要性,而无需考虑它们在文本中的距离。
大型语言模型的功能始于分词处理, 该过程将原始文本分解为称为词元(单词或亚词)的更小单元。在模型训练阶段,系统分析来自互联网、书籍和文章的海量文本数据,通过无监督学习预测序列中的下一个词元,从而有效掌握语言的统计结构。
经过初步训练后,开发者通常会进行微调,使模型专用于特定任务,例如医学分析或编码辅助。正是这种适应性,使得斯坦福基础模型研究中心等机构classify "基础模型"——这些模型如同广阔的基石,特定应用程序皆可在此基础上构建。
大型语言模型已从理论研究阶段迈入实践应用阶段,在各行各业产生了深远影响:
虽然标准的大型语言模型处理文本,但行业正转向多模态人工智能。以下示例展示了如何通过语言提示控制计算机视觉任务,YOLO——该模型能够理解用于开放词汇检测的文本描述符。
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
区分大型语言模型(LLMs)与更广泛或并行的术语至关重要:
尽管具备强大能力,大型语言模型仍面临人工智能偏见问题,因其可能无意中复现训练数据中的偏见。此外,训练GPT-4 Google 模型所需的巨大计算能力引发了能源消耗的担忧。当前研究正聚焦于模型量化技术,旨在使这些系统具备足够的运行效率,能够在边缘硬件上运行。
若需更深入的技术见解,原始论文 《注意力机制即一切》为Transformers模型提供了基础理论。您还可探索 NVIDIA 如何针对这些 大规模工作负载优化硬件。