深圳Yolo 视觉
深圳
立即加入
词汇表

命名实体识别 (NER)

通过命名实体识别 (NER) 解锁洞察力。 了解 AI 如何将非结构化文本转换为各种应用的可操作数据。

命名实体识别(NER)是更广泛的自然语言处理(NLP)领域中的一个重要子任务。 自然语言处理 (NLP) 中的一项重要子任务,其重点是识别非结构化文本中的特定实体并对其进行分类。通过分析单词序列 NER 算法通过分析单词序列,将项目定位并归类到预定义的组中,如个人姓名、组织 地点、医疗代码、时间表达式和货币价值。这一过程可将原始文本转化为结构化的 信息,使 人工智能 (AI)系统能够 理解文档中的 "谁、什么和在哪里"。随着企业越来越依赖于大量的 数据,NER 是将非结构化数据转化为可操作洞察力的基本步骤。 非结构化数据转化为可操作的洞察力的基础步骤。 分析和自动化。

命名实体识别的工作原理

NER 的核心是依靠统计模型和 机器学习 (ML)技术来辨别语言中的 语言中的模式。早期的系统使用基于规则的方法和字典,但现代的实施 主要使用深度学习(DL)神经网络 (NN)。这些先进的模型 这些先进的模型是在注释文本的海量语料库中训练出来的,使它们能够学习上下文线索和语言特征。

最先进的 NER 系统通常利用 Transformer 架构,例如在 大型语言模型 (LLM) 中的架构。通过采用 自注意等机制,这些模型可以分析整个句子中词与词之间的关系,从而大大提高准确率。 整个句子中单词之间的关系,从而大大提高了准确性。NER 系统的 NER 系统的性能在很大程度上取决于其训练数据的质量和初始 训练数据的质量和初始 数据标注过程的精确度。

实际应用

核反应堆是各行各业许多智能应用的支柱。

  • 医疗保健和生物医学分析:在医疗领域,NER 可从临床笔记和研究论文中提取重要数据,如症状、药物名称和剂量。 和研究论文中提取重要数据,如症状、药物名称和剂量。这种能力通过简化病人记录 通过简化病历管理和促进大规模 管理和促进大规模 流行病学研究
  • 增强搜索和推荐:搜索引擎利用 NER 理解用户查询背后的意图。 用户查询背后的意图。通过识别实体,如 "耐克"(品牌)和 "跑鞋"(产品 类别)这样的实体,平台就能提供精确的 语义搜索结果。类似的还有 推荐系统使用提取的 实体来推荐符合用户兴趣的内容或产品。
  • 自动化客户支持:客户服务平台使用 NER 自动路由支持票单 自动路由。识别产品型号或保修日期等实体可让 聊天机器人立即解决用户问题或将问题升级 给正确的人工代理,从而改善整体客户体验。 客户体验

用Python实现 NER

虽然Ultralytics 专注于计算机视觉领域,但其部署 ML 模型的工作流程在不同领域保持一致。 领域保持一致。对于基于文本的 NER 任务,开发人员通常使用像 spaCy 这样的成熟库。下面的示例演示了如何加载预训练模型并从句子中提取实体。 实体。

import spacy

# Load the pre-trained English pipeline (requires: python -m spacy download en_core_web_sm)
nlp = spacy.load("en_core_web_sm")

# Process a text string containing entities
text = "Ultralytics launched YOLO11 in Madrid during 2024."
doc = nlp(text)

# Iterate over identified entities and print their labels
for ent in doc.ents:
    print(f"Entity: {ent.text} | Label: {ent.label_}")
# Output examples: 'Ultralytics' (ORG), 'Madrid' (GPE), '2024' (DATE)

NER 与相关概念

将 NER 与其他人工智能数据解释区分开来非常重要,尤其是在设计复杂的 管道。

  • 物体检测NER 识别文本中的实体,而物体检测则识别图像或视频中的实体(物体)。 像 YOLO11等模型通过 在汽车或人等物体周围画出包围。 人。这两项任务都旨在对非结构化数据进行结构化处理,一项使用像素,另一项使用标记。
  • 情感分析这项任务 对文本的情感基调进行分类(正面、负面、中性)。NER 提取讨论的内容(如 "iPhone (例如 "iPhone"),而情感分析则确定作者对此感受。
  • 自然语言理解(NLU) 自然语言理解(NLU)是一个更广泛的总称,包括机器阅读理解。NER 是 NLU 的一个具体组成部分、 与意图分类和关系提取等任务并列。
  • 关键词提取:NER 将单词划分为不同的语义类别(如人物、日期和时间),而关键字提取则不同,它只是识别出最常用的关键字、 日期)不同,关键词提取只是识别文档中最相关的术语,而不一定了解它们所代表的含义。 与 NER 不同,关键词抽取只是识别文档中最相关的术语,而不一定要了解这些术语所代表的含义。

工具和平台

一个强大的生态系统可为开发和部署 NER 模型提供支持。

  • 图书馆:开放源代码库,如NLTK斯坦福 CoreNLP套件为文本处理提供了基础工具。 处理的基础工具。商业应用程序接口,如 Google 自然语言Amazon Comprehend等商业 API 为实体提取提供托管服务。
  • 模型生命周期:管理人工智能模型的训练和部署需要高效的操作。 Ultralytics 平台简化了这些 MLOps流程,提供工具 管理数据集、训练模型和有效部署解决方案的工具,确保愿景和潜在的未来 多模式模型都能投入生产。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入