Glossaire

Reconnaissance de la parole

Découvrez comment la technologie de reconnaissance vocale transforme l'audio en texte et alimente des solutions d'IA telles que les assistants vocaux, la transcription, etc.

La reconnaissance vocale, souvent appelée reconnaissance automatique de la parole (RAS) ou speech-to-text, est une technologie relevant de l'intelligence artificielle (IA) et de la linguistique informatique qui permet aux ordinateurs de comprendre et de transcrire le langage parlé humain en texte écrit. Elle sert d'interface cruciale pour l'interaction homme-ordinateur, permettant aux appareils et aux applications de répondre aux commandes vocales et de traiter les entrées audio. Ce domaine utilise largement les principes de l'apprentissage automatique, en particulier l'apprentissage profond, pour atteindre des niveaux élevés de précision et gérer les variations dans les modèles de discours, les accents et les environnements.

Comment fonctionne la reconnaissance vocale ?

Le processus de conversion de la parole en texte comporte généralement plusieurs étapes clés. Dans un premier temps, l'audio est capturé à l'aide d'un microphone et converti en un signal numérique. Ce son brut subit des étapes de prétraitement telles que la réduction du bruit et la normalisation. Ensuite, des caractéristiques acoustiques, représentant des caractéristiques telles que la fréquence et l'énergie dans le temps, sont extraites du signal. Ces caractéristiques sont ensuite traitées par un modèle acoustique, qui est souvent un réseau neuronal sophistiqué. Les architectures courantes comprennent les réseaux neuronaux récurrents (RNN), les réseaux à mémoire à long terme (LSTM) et, plus récemment, les modèles Transformer, connus pour leur efficacité dans les tâches de modélisation de séquences par le biais de mécanismes tels que l'auto-attention. Le modèle acoustique associe les caractéristiques à des unités sonores de base, comme les phonèmes. Enfin, un modèle de langage, entraîné sur des corpus de textes étendus (comme ceux que l'on trouve dans les initiatives Big Data ), analyse les séquences de ces unités phonétiques pour déterminer les mots et les phrases les plus probables, en tenant compte de la grammaire et du contexte. Des cadres tels que Kaldi et des boîtes à outils provenant de plateformes telles que Hugging Face fournissent des ressources pour la construction de systèmes ASR.

Distinctions clés

Il est important de distinguer la reconnaissance vocale de technologies connexes mais distinctes :

  • Lasynthèse vocale (TTS): Cette technologie remplit la fonction inverse de la RAS, en convertissant le texte écrit en sortie audio parlée. Pensez aux lecteurs d'écran ou aux voix des assistants virtuels.
  • Traitement du langage naturel (NLP) : Bien qu'étroitement lié, le traitement du langage naturel se concentre sur la compréhension et l'interprétation du langage (texte et discours transcrit) pour en extraire le sens, l'intention, le sentiment ou effectuer des tâches telles que la traduction ou le résumé. L'ASR fournit l'entrée textuelle sur laquelle les systèmes NLP fonctionnent souvent. La modélisation du langage est une composante essentielle de la RAS et du NLP.
  • Reconnaissance du locuteur : Il s'agit d'identifier la personne qui parle, plutôt que ce qui est dit. Elle est utilisée pour l'authentification biométrique ou la diarisation du locuteur (déterminer les différents locuteurs d'une conversation).

Applications dans le monde réel

La technologie de reconnaissance vocale est intégrée dans de nombreuses applications dans divers domaines :

  • Assistants virtuels: Des systèmes comme Amazon Alexa, Google Assistant et Apple Siri s'appuient fortement sur la RAS pour comprendre les commandes et les requêtes des utilisateurs.
  • Services de transcription : Des outils comme Otter.ai transcrivent automatiquement les réunions, les entretiens et les conférences, rendant ainsi le contenu audio consultable et accessible.
  • Systèmes de commande vocale : Largement utilisés dans les véhicules autonomes et les voitures modernes pour la commande mains libres des paramètres de navigation, de divertissement et de climatisation(IA dans les voitures auto-conduites).
  • Logiciel de dictée : Permet aux professionnels de la santé(AI in Healthcare) et du droit de dicter des notes et des rapports directement dans des documents numériques.
  • Outils d'accessibilité : Ils fournissent une assistance essentielle aux personnes handicapées en leur permettant d'interagir avec la technologie par le biais de la voix. Des projets comme Common Voice de Mozilla visent à améliorer l'ASR pour les voix diverses.
  • Service à la clientèle : Alimente les systèmes de réponse vocale interactive (IVR) et les robots vocaux dans les centres d'appel pour une assistance automatisée.

Défis et orientations futures

Malgré des progrès remarquables, les systèmes ASR restent confrontés à des défis. La transcription précise de la parole dans des environnements bruyants, la gestion de divers accents et dialectes, le traitement du chevauchement des locuteurs dans les conversations et la compréhension du sens nuancé ou l'analyse des sentiments restent des domaines de recherche actifs. Les avancées futures se concentrent sur l'amélioration de la robustesse grâce à des techniques avancées d'apprentissage profond, l'exploration de modèles multimodaux qui combinent des informations audio et visuelles (comme la lecture labiale, liée à la vision par ordinateur), et l'exploitation de techniques telles que l'apprentissage auto-supervisé pour former des modèles sur de vastes ensembles de données non étiquetées. Bien qu'Ultralytics se concentre principalement sur les modèles d'IA de vision comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, les progrès réalisés dans des domaines connexes de l'IA comme la reconnaissance vocale contribuent à l'écosystème global des systèmes intelligents. Vous pouvez explorer les options de formation et de déploiement des modèles de vision dans la documentation d'Ultralytics et gérer des projets en utilisant Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers