Recherche sémantique
Découvrez la puissance de la recherche sémantique ! Apprenez comment l'IA, le NLP et le ML améliorent la précision de la recherche en comprenant l'intention et le contexte de l'utilisateur.
La recherche sémantique représente une avancée significative dans la recherche d'informations, allant au-delà de la simple correspondance de mots-clés pour comprendre l'intention et la signification contextuelle des requêtes des utilisateurs. Au lieu de se contenter de rechercher des occurrences littérales de mots, la recherche sémantique utilise des techniques d'intelligence artificielle (IA), en particulier le traitement du langage naturel (NLP), pour saisir les nuances du langage, les relations entre les mots et l'objectif sous-jacent de l'utilisateur. Cela permet aux systèmes de recherche de fournir des résultats plus pertinents et plus précis en interprétant ce que l'utilisateur veut trouver, plutôt que les termes spécifiques qu'il a tapés. Il s'agit d'un élément essentiel pour rendre plus naturelles et intuitives les interactions avec les systèmes d'information, de la recherche sur le web aux bases de connaissances internes, ce qui améliore fondamentalement l'efficacité de la recherche d'informations.
Applications de la recherche sémantique
La recherche sémantique améliore diverses applications où la compréhension de l'intention de l'utilisateur ou du contexte des données est cruciale :
- Recherche améliorée sur le web : Aller au-delà des mots-clés pour comprendre le sujet et l'intention derrière une recherche (par exemple, la recherche "meilleur endroit pour voir les aurores boréales en hiver" donne des résultats sur des lieux spécifiques et des périodes idéales, et pas seulement des pages contenant ces mots exacts).
- Découverte de produits pour le commerce électronique : Permettre aux utilisateurs de rechercher des produits en utilisant un langage naturel descriptif (par exemple, trouver des "chaussures confortables pour rester debout toute la journée" au lieu d'avoir besoin de connaître des marques ou des noms de produits spécifiques). Cette fonction est souvent intégrée à des systèmes de recommandation.
- Gestion des connaissances internes : Permettre aux employés d'une organisation de trouver des documents, des rapports ou de l'expertise pertinents en effectuant des recherches basées sur des concepts et des significations, en améliorant l'accès à l'information dans des outils tels que Ultralytics HUB.
- Chatbots d'assistance à la clientèle : Alimentation des chatbots et des assistants virtuels pour mieux comprendre les questions des utilisateurs et fournir des réponses plus précises ou des articles d'aide pertinents, souvent en tirant parti des grands modèles de langage (LLM).
- Recommandation de contenu : Suggestion d'articles, de vidéos ou de musique basée sur la similarité sémantique avec le contenu avec lequel l'utilisateur a déjà interagi. Des plateformes comme Spotify utilisent des concepts similaires.
- Exploration des données : Des outils tels que le tableau de bord Ultralytics Explorer peuvent utiliser la similarité sémantique pour aider les utilisateurs à naviguer et à comprendre de grands ensembles de données, y compris les ensembles de données d'images utilisés dans la vision artificielle (CV). Par exemple, la recherche d'images sémantiquement similaires à une image sélectionnée dans un ensemble de données comme COCO.
Recherche sémantique et concepts connexes
Il est utile de distinguer la recherche sémantique des termes apparentés :
- Recherche par mot-clé : Cette approche traditionnelle consiste à faire correspondre les mots ou expressions littéraux d'une requête aux documents contenant ces termes exacts. Elle ne tient pas compte des synonymes, du contexte ou de l'intention de l'utilisateur. La recherche sémantique vise à surmonter ces limitations.
- Recherche vectorielle: Il s'agit d'une méthode utilisée pour trouver des éléments similaires sur la base de la proximité de leur intégration vectorielle. Si la recherche vectorielle est un élément central de nombreuses implémentations modernes de recherche sémantique (elle gère la partie recherche efficace), la recherche sémantique est un concept plus large qui comprend la compréhension du sens et du contexte de la requête et des données en premier lieu, souvent par le biais de modèles NLP sophistiqués.
- Graphique de connaissances: Un graphe de connaissances structure l'information sous forme d'entités et de relations. Bien qu'il puisse améliorer considérablement la recherche sémantique en fournissant un contexte structuré et en permettant un raisonnement complexe(les requêtes SPARQL sont courantes ici), la recherche sémantique peut également fonctionner directement sur des données non structurées à l'aide d'enchâssements sans structure graphique explicite. Il s'agit de technologies complémentaires.
- Reconnaissance des entités nommées (NER): La NER identifie des entités spécifiques (comme des noms, des lieux, des organisations) dans un texte. Il peut s'agir d'une étape dans un pipeline NLP qui alimente la recherche sémantique en extrayant des concepts clés, mais ce n'est pas la recherche sémantique elle-même, qui se concentre sur le sens général et la similarité.
La recherche sémantique joue un rôle essentiel dans la création de systèmes d'IA plus intelligents et plus conviviaux, en comblant le fossé entre le langage humain et la compréhension de la machine pour un accès à l'information et une interaction plus efficaces dans divers domaines, des recherches quotidiennes sur le web aux applications d'IA spécialisées comme celles construites à l'aide des modèles YOLO d'Ultralytics pour la recherche visuelle ou l'analyse au sein d'Ultralytics HUB.
Comment fonctionne la recherche sémantique ?
La recherche sémantique s'appuie sur des concepts de NLP et de Machine Learning (ML) pour déchiffrer le sens intégré dans un texte ou d'autres types de données. Le processus consiste souvent à convertir des données (comme des mots, des phrases, des documents ou même des images) en représentations numériques appelées " embeddings". Ces encastrements, généralement des vecteurs à haute dimension, capturent l'essence sémantique des données. Les éléments ayant des significations, des concepts ou des contextes similaires sont placés plus près les uns des autres dans cet espace vectoriel.
Lorsqu'un utilisateur effectue une recherche, sa requête (qui peut être un texte en langage naturel, une image, etc.) est également convertie en une intégration à l'aide du même modèle ML. Le système utilise ensuite des techniques de recherche vectorielle, souvent alimentées par des bases de données vectorielles spécialisées telles que Pinecone ou Milvus, pour trouver efficacement dans son index les éléments dont l'intégration est la plus proche (la plus similaire) de l'intégration de la requête. Cette similarité est généralement mesurée à l'aide de mesures de distance telles que la similarité en cosinus ou la distance euclidienne. Les modèles avancés d'apprentissage profond (DL), y compris les architectures telles que les transformateurs (par exemple, BERT), sont fréquemment utilisés pour générer ces encastrements puissants et conscients du contexte. Les principaux moteurs de recherche, comme Google Search, intègrent depuis des années la compréhension sémantique pour améliorer la qualité des résultats au-delà de la simple fréquence des mots clés.