Glossar

Text-to-Speech

Entdecken Sie, wie fortschrittliche Text-to-Speech (TTS)-Technologie Text in lebensechte Sprache umwandelt und so die Barrierefreiheit, die KI-Interaktion und das Benutzererlebnis verbessert.

Text-to-Speech (TTS), auch bekannt als Sprachsynthese, ist eine Form der unterstützenden Technologie, die geschriebenen Text in gesprochene Sprachausgabe umwandelt. Als Kernkomponente der natürlichen Sprachverarbeitung (NLP) besteht das Hauptziel von TTS darin, synthetisierte Sprache zu erzeugen, die nicht nur verständlich ist, sondern auch so natürlich klingt wie eine menschliche Stimme. Frühe TTS-Systeme waren oft roboterhaft und ohne Klangvariationen, aber moderne Systeme, die auf Deep Learning beruhen, können äußerst realistische und ausdrucksstarke Sprache erzeugen, was sie zu einem unverzichtbaren Werkzeug für Barrierefreiheit und Benutzerinteraktion in zahlreichen Anwendungen macht.

So funktioniert Text-to-Speech

Der Prozess der Umwandlung von Text in hörbare Sprache umfasst in der Regel zwei Hauptschritte. Zunächst führt das System eine Textvorverarbeitung durch, bei der es den Eingabetext analysiert, um Mehrdeutigkeiten zu beseitigen. Dazu gehört die Textnormalisierung, bei der Zahlen, Abkürzungen und Symbole in geschriebene Wörter umgewandelt werden (z. B. wird "Dr." zu "Doktor" und "10" zu "zehn"). Das System generiert dann eine phonetische Darstellung des Textes mit Hilfe eines Prozesses, der als phonetische Transkription bezeichnet wird, wobei Wörter oft in Phoneme, die grundlegenden Lauteinheiten, zerlegt werden.

Die zweite Stufe ist die Wellenformerzeugung, bei der die phonetischen Informationen verwendet werden, um den eigentlichen Ton zu erzeugen. In der Vergangenheit wurden hierfür Methoden wie die konkatenative Synthese, bei der kurze Schnipsel aufgezeichneter Sprache zusammengefügt werden, oder die parametrische Synthese, die Audio auf der Grundlage eines statistischen Modells erzeugt, verwendet. Modernere Systeme verwenden neuronale Vocoder, d. h. tiefe neuronale Netze, die in der Lage sind, qualitativ hochwertige, menschenähnliche Audiowellenformen aus linguistischen Merkmalen zu erzeugen. Diese Fortschritte haben die Natürlichkeit der synthetisierten Stimmen erheblich verbessert, da Nuancen wie Tonhöhe, Rhythmus und Intonation erfasst werden. Ein gutes Beispiel für diese Entwicklung ist die Forschung von Google AI zu Tacotron 2.

Anwendungen von Text-to-Speech

Die TTS-Technologie ist in viele Systeme integriert, die wir täglich nutzen, oft um die Zugänglichkeit zu verbessern und eine freihändige Interaktion zu ermöglichen. Hier sind zwei prominente Beispiele:

  • Zugänglichkeits-Tools: TTS ist der Eckpfeiler von Bildschirmlesegeräten, die sehbehinderten Menschen digitale Inhalte von Computern und mobilen Geräten vorlesen. Diese Technologie ermöglicht den Zugang zu Websites, Dokumenten und Anwendungen und fördert die digitale Integration. Organisationen wie die American Foundation for the Blind stellen Ressourcen zur Verfügung, die zeigen, wie diese Hilfsmittel die Nutzer unterstützen.
  • Virtuelle Assistenten und Navigation: Virtuelle Assistenten wie Amazons Alexa und Google Assistant verlassen sich auf TTS, um Antworten zu übermitteln, Nachrichten vorzulesen und Informationen bereitzustellen. Ebenso nutzen GPS-Navigations-Apps TTS, um Fahrern Abbiegehinweise zu geben, damit sie sich auf die Straße konzentrieren können.

Text-to-Speech im Vergleich zu verwandten Konzepten

Es ist wichtig, TTS von anderen verwandten Audio- und Sprachverarbeitungstechnologien zu unterscheiden.

  • Sprache-zu-Text (STT): STT ist das direkte Gegenstück zu TTS. Während TTS Text in Audio umwandelt, wandelt STT, auch bekannt als Spracherkennung, gesprochene Sprache in geschriebenen Text um.
  • Textgenerierung: Dies ist der Prozess der Erstellung neuer schriftlicher Inhalte aus einer Eingabeaufforderung, eine Aufgabe, die häufig von einem Large Language Model (LLM) übernommen wird. TTS erstellt keine neuen Inhalte, sondern vokalisiert vorhandenen Text.
  • Verstehen natürlicher Sprache (NLU): NLU ist ein Teilbereich des NLP, der sich mit dem maschinellen Leseverständnis befasst, d. h. mit der Bestimmung der Absicht und der Bedeutung eines Textes. TTS konzentriert sich ausschließlich auf die Umwandlung von Text in Sprache, nicht auf seine Bedeutung.

Technologische Fortschritte und Tools

Die Qualität von TTS hat sich dank der Fortschritte in der KI dramatisch verbessert. Moderne Systeme können Sprache produzieren, die sich nur schwer von menschlichen Aufnahmen unterscheiden lässt, und dabei Nuancen wie Emotionen und Sprechstil erfassen. Das Klonen von Stimmen ermöglicht es Systemen, bestimmte menschliche Stimmen zu imitieren, nachdem sie mit relativ kleinen Mengen von Audiobeispielen trainiert wurden.

Verschiedene Werkzeuge und Plattformen erleichtern die Entwicklung und den Einsatz von TTS-Anwendungen:

Text-to-Speech und Ultralytik

Ultralytics konzentriert sich zwar in erster Linie auf Computer Vision (CV) mit Modellen wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung, aber TTS kann als ergänzende Technologie dienen. So könnte beispielsweise ein CV-System, das Objekte in einer Szene identifiziert, TTS verwenden, um seine Ergebnisse verbal zu beschreiben. Da sich die KI in Richtung multimodales Lernen entwickelt, bei dem Sehen und Sprache kombiniert werden (siehe Blog-Beitrag über die Verknüpfung von NLP und CV), wird die Integration von TTS in CV-Modelle immer wertvoller werden. Plattformen wie Ultralytics HUB bieten Tools für die Verwaltung von KI-Modellen, und künftige Entwicklungen könnten eine engere Integration verschiedener KI-Modalitäten, einschließlich TTS, in einen einheitlichen Projekt-Workflow ermöglichen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert