深圳Yolo 视觉
深圳
立即加入
词汇表

语言建模

探索语言建模的基础及其在自然语言处理 (NLP) 中的作用。了解Ultralytics YOLO26和多模态AI如何弥合文本与视觉之间的鸿沟。

语言建模 是训练计算机理解、生成和预测人类语言的核心统计技术。在其最基本的层面,语言模型确定特定词序列在句子中出现的概率。这种能力是整个 自然语言处理 (NLP) 领域的基础,使机器能够超越简单的关键词匹配,理解上下文、语法和意图。通过分析大量的 训练数据,这些系统学习哪些词通常会跟在其他词后面出现的统计可能性,使它们能够构建连贯的句子或在 语音识别 任务中解码模糊的音频。

机制与演进

语言建模的历史追溯了人工智能 (AI)自身的发展。早期版本依赖于“n-gram”,它简单地根据一个词前面紧邻的$n$个词来计算该词的统计概率。然而,现代方法利用深度学习 (DL)来捕捉远更复杂的关系。

当代模型利用嵌入(embeddings),将词语转换为高维向量,使系统能够理解“king”和“queen”在语义上是相关的。这一演进最终形成了Transformer架构,它利用自注意力机制并行处理整个文本序列。这使得模型能够权衡词语的重要性,无论它们在段落中的距离如何,这是在长篇文本生成中保持上下文的关键特性。

实际应用

语言建模已从学术研究发展成为驱动各行业日常数字交互的实用工具:

  • 机器翻译: Google Translate 等服务使用先进的序列到序列模型将文本从一种语言转换为另一种语言。模型根据源语言序列预测目标语言序列的概率,确保语法准确性。
  • 智能编程助手: 诸如 GitHub Copilot 之类的工具作为在代码库上训练的专用语言模型。它们预测语法和逻辑以自动完成代码块,显著加快软件开发速度。
  • 预测文本和自动更正: 在移动设备上,轻量级模型在本地执行 推理,以建议消息中的下一个词,并随着时间推移适应用户的特定打字风格。
  • 视觉-语言集成:计算机视觉 (CV) 领域,语言模型与视觉编码器结合。这实现了“开放词汇”检测,用户可以使用自然语言描述而不是预定义类别来搜索对象。

连接文本与视觉

尽管语言建模主要处理文本,但其原理正越来越多地应用于多模态AI。像YOLO-World这样的模型集成了语言能力,允许用户使用文本提示动态定义detect类别。这消除了在搜索新对象时重新训练的需要。

以下是 Python 片段演示了如何使用 ultralytics 包来利用语言描述进行目标检测:

from ultralytics import YOLOWorld

# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using text descriptions via the language model encoder
# The model uses internal embeddings to map 'text' to 'visual features'
model.set_classes(["person in red shirt", "blue car"])

# Run inference to detect these specific text-defined objects
results = model.predict("street_scene.jpg")

# Display the results
results[0].show()

区分相关概念

区分语言建模与经常互换使用的相关术语很有帮助:

  • 语言建模与 大型语言模型 (LLMs) 语言建模是基础的任务或数学技术。而LLM,例如GPT系列,是为执行此任务而设计的特定、大规模模型实例,它在数PB的数据上训练,拥有数十亿参数。
  • 语言建模与 生成式AI 生成式AI是一个广泛的类别,涵盖了所有能创建新内容(图像、音频、代码)的AI。语言建模是赋能生成式AI中基于文本子集的特定机制。
  • 语言建模与 目标检测YOLO26 这样的传统 detect 模型是在固定视觉标签上训练的。语言模型处理文本中的序列概率。然而,像 CLIP 这样的技术通过学习将视觉概念与语言描述关联起来,弥合了这一差距。

挑战与未来展望

尽管它们很有用,但语言模型面临AI偏见方面的挑战,因为它们可能会无意中复制其训练数据集中存在的偏见。此外,训练这些模型需要巨大的计算资源。像Ultralytics Platform这样的解决方案有助于简化数据集和训练工作流的管理,使为特定应用微调模型变得更容易。未来的研究重点是通过模型量化使这些模型更高效,从而使强大的语言理解能力可以直接在边缘AI设备上运行,而无需依赖云连接。

让我们一起共建AI的未来!

开启您的机器学习未来之旅