Глоссарий

Распознавание именованных сущностей (NER)

Откройте для себя новые возможности с помощью технологии распознавания именованных сущностей (NER). Узнайте, как искусственный интеллект превращает неструктурированный текст в полезные данные для различных приложений.

Распознавание именованных сущностей (NER) - это фундаментальная задача в области обработки естественного языка (NLP), которая заключается в автоматическом определении и классификации именованных сущностей в неструктурированном тексте по заранее определенным категориям. Этими сущностями могут быть любые объекты реального мира, такие как люди, организации, места, даты, количества или денежные суммы. Основная цель NER - извлечь структурированную информацию из неструктурированного текста, облегчив машинам понимание и обработку человеческого языка. Преобразуя необработанный текст в машиночитаемый формат, NER служит основой для многих приложений ИИ более высокого уровня, включая информационный поиск, ответы на вопросы и контент-анализ.

Современные системы NER обычно строятся с использованием моделей машинного обучения, в частности архитектур глубокого обучения. Эти модели обучаются на больших аннотированных массивах данных, в которых люди уже пометили сущности. Благодаря этим обучающим данным модель учится распознавать контекстуальные паттерны и лингвистические особенности, связанные с различными типами сущностей. Продвинутые модели, такие как BERT и другие архитектуры на основе трансформаторов, очень эффективны в NER, поскольку они могут обрабатывать весь контекст предложения, чтобы делать точные прогнозы.

Применение в реальном мире

NER - это краеугольная технология, которая используется в многочисленных приложениях в различных отраслях. Структурируя информацию, она обеспечивает автоматизацию и позволяет получить ценные сведения.

  • Рекомендация и поиск контента: Поставщики новостей и контент-платформы используют NER для сканирования статей, выявления ключевых людей, мест и тем, а затем соответствующим образом маркируют контент. Это повышает релевантность результатов поиска и позволяет использовать персонализированные системы рекомендаций контента. Например, система может идентифицировать "Apple Inc." как организацию и "Тима Кука" как личность, связывая статьи о них. Это ключевой компонент в расширении возможностей семантического поиска.
  • ИИ в здравоохранении: В медицинской сфере NER используется для извлечения важной информации из клинических записей, научных работ и историй болезни. Он может идентифицировать имена пациентов, заболевания, симптомы, лекарства и дозировки. Эти структурированные данные необходимы для ускорения анализа медицинских изображений, оптимизации процесса подбора клинических испытаний и построения всеобъемлющих графов знаний для медицинских исследований.
  • Автоматизация поддержки клиентов: Чат-боты и системы поддержки используют NER для более эффективного понимания запросов пользователей. Например, в предложении "У моего iPhone 15 треснул экран" модель NER определит "iPhone 15" как продукт, а "треснувший экран" как проблему. Это позволит системе автоматически классифицировать заявку и направить ее в нужный отдел поддержки, повысив эффективность.

NER в сравнении со смежными понятиями

NER часто используется наряду с другими задачами НЛП, но имеет свою специфику:

  • Анализ настроения: Определяет эмоциональный тон (положительный, отрицательный, нейтральный), выраженный в тексте. NER определяет , что обсуждается, а анализ настроения - что чувствует по этому поводу автор.
  • Извлечение ключевых слов: Эта задача позволяет выявить важные термины или фразы в тексте. Хотя некоторые ключевые слова могут быть именованными сущностями, извлечение ключевых слов является более широкой и менее структурированной задачей. NER специально идентифицирует сущности и классифицирует их по заранее определенным категориям, таким как PERSON или LOCATION. Подробнее об этом можно узнать на сайте источники по извлечению ключевых слов.
  • Обнаружение объектов: Это задача компьютерного зрения (CV), которая идентифицирует и определяет местоположение объектов на изображениях с помощью таких методов, как ограничительные рамки. NER работает исключительно с текстовыми данными, в то время как такие модели, как Ultralytics YOLO, выполняют обнаружение на визуальных данных для различных задач обнаружения.
  • Понимание естественного языка (Natural Language Understanding, NLU): Более широкая область, охватывающая общее понимание смысла текста, включая распознавание намерений и извлечение отношений. NER считается специфической подзадачей NLU, направленной исключительно на идентификацию и классификацию сущностей.
  • Резюме текста: Цель этого метода - создать краткое резюме длинного документа. Хотя для определения ключевых сущностей, которые следует включить в резюме, может использоваться NER, его основная цель - сжатие, а не извлечение.

Инструменты и платформы

Надежная экосистема инструментов и библиотек поддерживает разработку моделей NER.

  • Библиотеки: Широко используются библиотеки с открытым исходным кодом, такие как spaCy и NLTK, которые предоставляют предварительно обученные модели и инструменты для создания собственных систем NER. Эти библиотеки решают такие сложные задачи, как токенизация и извлечение признаков.
  • Платформы: Hugging Face Hub предлагает тысячи предварительно обученных моделей, в том числе множество моделей для NER, которые можно точно настроить для конкретных случаев использования. Для управления всем жизненным циклом модели такие платформы, как Ultralytics HUB, предоставляют надежные возможности MLOps - от обучения и проверки до окончательного развертывания модели. Хотя Ultralytics специализируется на CV, принципы MLOps универсальны для всех областей ИИ. Более подробную информацию вы можете найти в нашей документации.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена