Glossaire

Reconnaissance des entités nommées (NER)

Obtenez des informations grâce à la reconnaissance des entités nommées (NER). Découvrez comment l'IA transforme les textes non structurés en données exploitables pour diverses applications.

La reconnaissance des entités nommées (NER) est une tâche fondamentale du traitement du langage naturel (NLP) et un élément clé de l'intelligence artificielle (AI) moderne. Elle consiste à identifier et à classer automatiquement des éléments d'information spécifiques - appelés "entités nommées" - dans un texte non structuré. Ces entités représentent généralement des objets du monde réel tels que des personnes, des organisations, des lieux, des dates, des noms de produits, des valeurs monétaires, etc. L'objectif principal de la NER est de transformer le texte brut en données structurées, ce qui facilite la compréhension, le traitement et l'extraction par les machines d'informations précieuses pour divers cas d'utilisation de l'IA.

Comment fonctionne la reconnaissance des entités nommées ?

Les systèmes NER analysent la structure linguistique et le contexte du texte pour localiser et catégoriser les entités. Alors que les premiers systèmes s'appuyaient fortement sur des règles grammaticales et des dictionnaires (une forme d'IA symbolique), les approches modernes s'appuient sur l'apprentissage machine (ML), en particulier l'apprentissage profond (DL). Des modèles tels que Transformers, que l'on trouve souvent sur des plateformes comme Hugging Face, excellent dans la compréhension du contexte et des schémas linguistiques subtils, ce qui permet d'obtenir une plus grande précision. Le processus consiste généralement à identifier des entités potentielles (mots ou phrases) à l'aide de techniques souvent liées à la tokenisation, puis à les classer dans des catégories prédéfinies (par exemple, PERSONNE, ORGANISATION, LIEU, DATE, DIVERS). Cette classification s'appuie sur des caractéristiques apprises au cours de la formation sur de grands ensembles de données, souvent annotés spécifiquement pour les tâches de NER.

Par exemple, dans la phrase "Le 4 juillet, Sarah Jones a visité la Tour Eiffel alors qu'elle représentait Acme Corp", un système NER identifierait :

  • "4 juillet" comme DATE
  • "Sarah Jones" en tant que PERSONNE
  • "Tour Eiffel" comme LOCATION
  • "Acme Corp" en tant qu'ORGANISATION

Ce résultat structuré est beaucoup plus utile pour les tâches en aval telles que l'analyse des données ou le remplissage d'un graphique de connaissances que le texte original seul. Vous pouvez consulter une étude sur les techniques de NER pour obtenir des informations techniques plus approfondies.

Pertinence et applications

Le NER est une technologie de base qui permet de nombreuses applications dans divers domaines en structurant l'information textuelle :

  • Extraction d'informations : Extraction automatique de détails clés à partir de documents tels que des articles de presse, des rapports ou des courriels. Par exemple, l'extraction de noms d'entreprises, de titres de dirigeants et de lieux à partir de flux d'informations financières.
  • Catégorisation du contenu et recommandation : Marquage d'articles ou de posts avec des entités pertinentes afin d'améliorer l'organisation et de renforcer les systèmes de recommandation.
  • Assistance à la clientèle : Analyse des commentaires des clients ou des tickets d'assistance pour identifier les produits, les lieux ou les problèmes spécifiques mentionnés, ce qui permet un acheminement et une résolution plus rapides. Imaginez un système étiquetant automatiquement les courriels d'assistance mentionnant "iPhone 16" et "magasin de New York".
  • Santé : Rationalisation de la gestion des dossiers médicaux par l'extraction des noms des patients, des diagnostics, des médicaments et des dosages à partir des notes cliniques, contribuant à des domaines tels que l'analyse d'images médicales lorsqu'elles sont combinées à des rapports.
  • Recherche sémantique: Améliorer les moteurs de recherche pour qu'ils comprennent le sens des requêtes en reconnaissant les entités qu'elles contiennent (par exemple, la recherche de "restaurants près du Louvre" nécessite d'identifier "Louvre" en tant que LOCATION). Des outils tels que Google Cloud Natural Language AI offrent des capacités de recherche sémantique.
  • Analyse financière : Extraction de noms d'entreprises, de valeurs monétaires et de dates à partir de rapports financiers pour l'analyse du marché et la modélisation prédictive.
  • Conformité et sécurité : Identifier les informations sensibles telles que les noms ou les adresses dans les documents afin de garantir la confidentialité des données et la conformité avec des réglementations telles que le GDPR.

La gestion du cycle de vie du ML pour les modèles NER, y compris l'annotation des données et le déploiement du modèle, peut être facilitée par des plateformes comme Ultralytics HUB.

Principales différences par rapport aux concepts apparentés

Le NER est souvent utilisé parallèlement à d'autres tâches NLP, mais il a un objectif distinct :

  • Analyse des sentiments: Détermine le ton émotionnel (positif, négatif, neutre) exprimé dans un texte. La NER identifie ce qui est discuté, tandis que l'analyse de sentiment identifie les sentiments de l'auteur à ce sujet.
  • Résumés de textes: Vise à créer une version plus courte d'un texte tout en préservant les informations essentielles. Le NER extrait des mentions d'entités spécifiques, et non une synthèse condensée de l'ensemble du texte.
  • Détection d'objets: Une tâche de vision par ordinateur (CV) qui identifie et localise des objets dans des images en utilisant des boîtes de délimitation. Le NER fonctionne uniquement sur des données textuelles, et non sur des données visuelles comme le font les modèles YOLO d'Ultralytics pour les tâches de détection.
  • Compréhension du langage naturel (NLU): Un domaine plus large englobant la compréhension globale du sens du texte, y compris la reconnaissance de l'intention, l'extraction des relations et la résolution des coréférences. Le NER est une sous-tâche spécifique du NLU qui se concentre uniquement sur l'identification et la classification des entités.
  • Extraction de mots-clés: Identifie les termes ou les phrases importants dans un texte, qui peuvent être ou non des entités nommées. La NER recherche spécifiquement des catégories prédéfinies telles que les personnes, les lieux et les organisations.

Il est essentiel de comprendre ces distinctions pour sélectionner la bonne technique de PNL pour un problème donné, comme le soulignent des guides tels que Steps of a Computer Vision Project (bien que centré sur le CV, les principes s'appliquent).

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers