深圳Yolo 视觉
深圳
立即加入
词汇表

自然语言理解 (NLU)

探索自然语言理解 (NLU) 及其如何使机器能够解释意图和情感。学习如何将人类语言与视觉 AI 相结合。

自然语言理解 (NLU) 是 人工智能 (AI) 的一个专门子集,专注于机器对人类语言的阅读理解和解释。尽管更广泛的技术允许计算机处理文本数据,NLU 特别使系统能够掌握词语背后的含义、意图和情感,驾驭语法、俚语和上下文的复杂性。通过利用先进的 深度学习 (DL) 架构,NLU 将非结构化文本转换为结构化的、机器可读的逻辑,充当人类交流与计算行动之间的桥梁。

NLU的核心机制

为了理解语言,NLU 算法将文本分解为组成部分并分析它们之间的关系。这个过程涉及几个关键的语言学概念:

  • 分词将原始文本分割成更小单元(如词或子词)的基础步骤。这为神经网络中的数值表示准备了数据。
  • 命名实体识别 (NER): NLU 模型识别句子中的特定实体,例如人物、地点、日期或组织。例如,在短语“预订飞往伦敦的航班”中,“伦敦”被提取为地点实体。
  • 意图分类:作为交互式系统的关键功能,它决定了用户的目标。意图分类会分析“我的网络断了”之类的短语,以理解用户是在报告技术问题,而非提出一般性问题。
  • 语义分析: 除了简单的关键词,这个过程还评估句子结构的含义。斯坦福NLP小组 的研究人员长期以来率先研究基于语境的词义消歧方法,确保“bank”根据上下文正确地解释为金融机构或河岸。

自然语言理解 (NLU) 与相关学科

区分 NLU 与计算机科学领域内密切相关的其他领域至关重要:

  • 自然语言处理 (NLP): NLP 是一个涵盖 NLU 的总括性术语。尽管 NLP 涵盖了处理语言数据的整个流程——包括翻译和简单解析——但 NLU 严格来说是理解方面。另一个子集,自然语言生成 (NLG),负责创建新的文本响应。
  • 计算机视觉(CV)传统上,CV 处理视觉数据,而 NLU 处理文本。然而,现代多模态模型融合了这些学科。NLU 解析文本提示(例如,“找到红色的汽车”),CV 则根据该理解执行视觉搜索。
  • 语音识别也称为语音转文本,这项技术将音频信号转换为书面文字。只有在语音被转录成文本之后,自然语言理解(NLU)才会介入,以解释所说的内容。

实际应用

自然语言理解 (NLU) 为企业和消费者日常依赖的许多智能系统提供支持。

  1. 智能客户支持:现代聊天机器人利用NLU在无需人工干预的情况下解决支持工单。通过采用情感分析,这些代理可以检测客户消息中的沮丧情绪,并自动将问题升级给人工经理。
  2. 语义搜索引擎:与传统的关键词搜索不同,NLU驱动的引擎理解查询的上下文。组织使用语义搜索,允许员工使用“显示我上个季度(Q4)的销售报告”等自然语言问题查询内部数据库,从而获得精确的文档,而非一堆松散相关的文件。
  3. 视觉-语言集成:在视觉AI领域,NLU实现了“开放词汇目标检测”。与局限于固定类别(如标准数据集中的80个类别)不同,像YOLO-World这样的模型利用NLU理解自定义文本提示,并在图像中定位这些对象。

代码示例:NLU驱动的物体检测

以下示例演示了如何将自然语言理解(NLU)概念集成到计算机视觉工作流中,使用 ultralytics 包。我们在此使用一个模型,该模型结合了文本编码器 (NLU) 和视觉骨干网络,以 detect 纯粹由自然语言描述定义的对象。

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
# This model uses NLU to interpret text prompts
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language descriptions
# The NLU component parses "person in red shirt" to guide detection
model.set_classes(["person in red shirt", "blue bus"])

# Run inference on an image
results = model.predict("city_street.jpg")

# Display the results
results[0].show()

工具和未来趋势

自然语言理解 (NLU) 的发展依赖于强大的框架。像 PyTorch 这样的库提供了构建深度学习模型所需的 tensor 运算,而 spaCy 则提供了用于语言处理的工业级工具。

展望未来,行业正朝着统一的多模态系统发展。Ultralytics Platform 简化了这一演进过程,提供了一个全面的环境来管理数据集、标注图像并训练可部署到边缘的模型。虽然大型语言模型(LLMs)处理复杂的推理任务,但将其与YOLO26等高速视觉模型相结合,可以创建出能够实时感知、理解并与世界互动的强大智能体。这种协同作用代表了机器学习(ML)应用的下一个前沿。

让我们一起共建AI的未来!

开启您的机器学习未来之旅