Glossaire

Synthèse vocale

Découvrez comment la technologie avancée de synthèse vocale (TTS) transforme le texte en une parole réaliste, améliorant ainsi l'accessibilité, l'interaction avec l'IA et l'expérience de l'utilisateur.

La synthèse vocale est une forme de technologie d'assistance qui convertit un texte écrit en une sortie vocale. Composante essentielle du traitement du langage naturel (NLP), l'objectif premier de la TTS est de générer une synthèse vocale qui soit non seulement intelligible, mais aussi aussi naturelle que la voix humaine. Les premiers systèmes TTS étaient souvent robotiques et manquaient de variation tonale, mais les systèmes modernes, alimentés par l'apprentissage profond, peuvent produire une parole très réaliste et expressive, ce qui en fait un outil essentiel pour l'accessibilité et l'interaction avec l'utilisateur dans d'innombrables applications.

Comment fonctionne la synthèse vocale ?

Le processus de conversion d'un texte en parole audible comporte généralement deux étapes principales. Tout d'abord, le système effectue un prétraitement du texte, c'est-à-dire qu'il analyse le texte d'entrée pour résoudre les ambiguïtés. Cela implique une normalisation du texte, où les nombres, les abréviations et les symboles sont convertis en mots écrits (par exemple, "Dr." devient "Docteur" et "10" devient "dix"). Le système génère ensuite une représentation phonétique du texte à l'aide d'un processus appelé transcription phonétique, qui décompose souvent les mots en phonèmes, les unités sonores de base.

La deuxième étape est la génération de la forme d'onde, où les informations phonétiques sont utilisées pour créer le son réel. Historiquement, cette étape était réalisée à l'aide de méthodes telles que la synthèse concaténative, qui assemble de courts extraits de discours enregistrés, ou la synthèse paramétrique, qui génère de l'audio sur la base d'un modèle statistique. Les systèmes modernes plus avancés utilisent des vocodeurs neuronaux, qui sont des réseaux neuronaux profonds capables de générer des formes d'ondes audio de haute qualité, semblables à celles d'un être humain, à partir de caractéristiques linguistiques. Ces progrès ont considérablement amélioré le naturel des voix synthétisées, en saisissant des nuances telles que la hauteur, le rythme et l'intonation. Les recherches de Google AI sur Tacotron 2 constituent un excellent exemple de cette évolution.

Applications de la synthèse vocale

La technologie TTS est intégrée dans de nombreux systèmes que nous utilisons quotidiennement, souvent pour améliorer l'accessibilité et permettre une interaction mains libres. En voici deux exemples marquants :

  • Outils d'accessibilité : Le TTS est la pierre angulaire des lecteurs d'écran, qui aident les personnes malvoyantes en lisant à haute voix le contenu numérique des ordinateurs et des appareils mobiles. Cette technologie permet d'accéder aux sites web, aux documents et aux applications, favorisant ainsi l'inclusion numérique. Des organisations telles que l'American Foundation for the Blind (Fondation américaine pour les aveugles ) fournissent des ressources sur la manière dont ces outils permettent aux utilisateurs de s'épanouir.
  • Assistants virtuels et navigation : Les assistants virtuels comme Alexa d'Amazon et Google Assistant s'appuient sur le TTS pour communiquer des réponses, lire des nouvelles et fournir des informations. De même, les applications de navigation GPS utilisent le TTS pour donner aux conducteurs des indications virage par virage, ce qui leur permet de rester concentrés sur la route.

Synthèse vocale et concepts connexes

Il est important de distinguer le TTS des autres technologies de traitement du son et du langage.

  • Laconversion de la parole en texte (STT): La STT est l'opposé direct de la TTS. Alors que le TTS convertit le texte en audio, le STT, également connu sous le nom de reconnaissance vocale, convertit la langue parlée en texte écrit.
  • Génération de texte: Il s'agit du processus de création d'un nouveau contenu écrit à partir d'une invite, une tâche souvent effectuée par un grand modèle linguistique (LLM). Le TTS ne crée pas de nouveau contenu, il vocalise un texte existant.
  • Compréhension du langage naturel (NLU): Le NLU est un sous-domaine du NLP qui se concentre sur la compréhension de la lecture automatique, c'est-à-dire la détermination de l'intention et du sens d'un texte. Le TTS se concentre uniquement sur la conversion du texte en voix, et non sur son sens.

Progrès et outils technologiques

La qualité des TTS s'est considérablement améliorée grâce aux progrès de l'IA. Les systèmes modernes peuvent produire une parole qu'il est difficile de distinguer des enregistrements humains, en saisissant des nuances telles que l'émotion et le style d'élocution. Le clonage vocal permet aux systèmes d'imiter des voix humaines spécifiques après s'être entraînés sur des quantités relativement faibles d'échantillons audio.

Plusieurs outils et plateformes facilitent le développement et le déploiement d'applications TTS :

  • Services en nuage : Google Cloud Text-to-Speech et Amazon Polly offrent des API TTS robustes et évolutives avec différentes voix et langues.
  • Projets à source ouverte : Des cadres comme Mozilla TTS et des modèles de recherche comme Tacotron 2 offrent des options accessibles aux développeurs. Des bibliothèques comme PyTorch et TensorFlow sont souvent utilisées pour construire ces modèles.

Synthèse vocale et Ultralyse

Alors qu'Ultralytics se concentre principalement sur la vision artificielle (CV) avec des modèles comme Ultralytics YOLO pour des tâches telles que la détection d'objets et la segmentation d'images, le TTS peut servir de technologie complémentaire. Par exemple, un système de vision artificielle identifiant des objets dans une scène pourrait utiliser le TTS pour décrire verbalement ses résultats. À mesure que l'IA évolue vers l'apprentissage multimodal, combinant vision et langage (voir l'article de blog sur le rapprochement entre NLP et CV), l'intégration du TTS dans les modèles de CV deviendra de plus en plus précieuse. Des plateformes comme Ultralytics HUB fournissent des outils pour gérer les modèles d'IA, et les développements futurs pourraient permettre une intégration plus étroite des diverses modalités d'IA, y compris le TTS, au sein d'un flux de travail de projet unifié.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers