Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Text-to-Speech

Entdecken Sie, wie fortschrittliche Text-to-Speech (TTS)-Technologie Text in lebensechte Sprache umwandelt und so die Barrierefreiheit, die KI-Interaktion und die Benutzererfahrung verbessert.

Text-to-Speech (TTS), auch bekannt als Sprachsynthese, ist eine Form der unterstützenden Technologie, die geschriebenen Text in gesprochene Sprachausgabe umwandelt. Als Kernkomponente der Natural Language Processing (NLP) ist das Hauptziel von TTS die Generierung synthetischer Sprache, die nicht nur verständlich ist, sondern auch so natürlich wie eine menschliche Stimme klingt. Frühe TTS-Systeme waren oft robotisch und es fehlte ihnen an tonaler Variation, aber moderne Systeme, die von Deep Learning angetrieben werden, können eine sehr realistische und ausdrucksstarke Sprache erzeugen, was sie zu einem wichtigen Werkzeug für die Barrierefreiheit und Benutzerinteraktion in unzähligen Anwendungen macht.

Wie Text-to-Speech funktioniert

Der Prozess der Umwandlung von Text in hörbare Sprache umfasst typischerweise zwei Hauptphasen. Zuerst führt das System eine Textvorverarbeitung durch, bei der es den eingegebenen Text analysiert, um Mehrdeutigkeiten aufzulösen. Dies beinhaltet die Textnormalisierung, bei der Zahlen, Abkürzungen und Symbole in geschriebene Wörter umgewandelt werden (z. B. wird aus "Dr." "Doktor" und aus "10" "zehn"). Das System generiert dann eine phonetische Darstellung des Textes mithilfe eines Prozesses namens phonetische Transkription, wobei Wörter oft in Phoneme zerlegt werden, die Grundeinheiten des Klangs.

Die zweite Phase ist die Wellenformerzeugung, bei der die phonetischen Informationen verwendet werden, um das eigentliche Audio zu erzeugen. Historisch gesehen wurde dies mit Methoden wie der Konkatenativsynthese, die kurze Ausschnitte aufgezeichneter Sprache zusammenfügt, oder der parametrischen Synthese, die Audio auf der Grundlage eines statistischen Modells erzeugt, durchgeführt. Modernere Systeme verwenden neuronale Vocoder, d. h. Deep Neural Networks, die in der Lage sind, hochwertige, menschenähnliche Audiowellenformen aus linguistischen Merkmalen zu erzeugen. Diese Fortschritte haben die Natürlichkeit synthetischer Stimmen erheblich verbessert und Nuancen wie Tonhöhe, Rhythmus und Intonation erfasst. Ein gutes Beispiel für diese Entwicklung ist in der Google AI-Forschung zu Tacotron 2 dokumentiert.

Anwendungen von Text-to-Speech

Die TTS-Technologie ist in viele Systeme integriert, die wir täglich nutzen, oft um die Zugänglichkeit zu verbessern und eine freihändige Interaktion zu ermöglichen. Hier sind zwei prominente Beispiele:

  • Tools für Barrierefreiheit: TTS ist der Eckpfeiler von Screenreadern, die sehbehinderten Menschen helfen, indem sie digitale Inhalte von Computern und mobilen Geräten vorlesen. Diese Technologie ermöglicht den Zugriff auf Websites, Dokumente und Anwendungen und fördert die digitale Inklusion. Organisationen wie die American Foundation for the Blind bieten Ressourcen darüber, wie diese Tools Benutzer unterstützen.
  • Virtuelle Assistenten und Navigation: Virtuelle Assistenten wie Amazons Alexa und Google Assistant nutzen TTS, um Antworten zu kommunizieren, Nachrichten vorzulesen und Informationen bereitzustellen. Ebenso verwenden GPS-Navigations-Apps TTS, um Fahrern detaillierte Anweisungen zu geben, damit diese sich auf die Straße konzentrieren können.

Text-to-Speech vs. verwandte Konzepte

Es ist wichtig, Sprachsynthese (TTS) von anderen verwandten Audio- und Sprachverarbeitungstechnologien zu unterscheiden.

  • Sprache-zu-Text (STT): STT ist das direkte Gegenteil von TTS. Während TTS Text in Audio umwandelt, wandelt STT, auch bekannt als Spracherkennung, gesprochene Sprache in geschriebenen Text um.
  • Textgenerierung: Dies ist der Prozess der Erstellung neuer schriftlicher Inhalte aus einer Eingabeaufforderung, eine Aufgabe, die oft von einem Large Language Model (LLM) ausgeführt wird. TTS erstellt keine neuen Inhalte, sondern gibt vorhandenen Text wieder.
  • Natural Language Understanding (NLU): NLU ist ein Teilbereich von NLP, der sich auf das maschinelle Leseverständnis konzentriert – die Bestimmung der Absicht und Bedeutung hinter Text. TTS konzentriert sich ausschließlich auf die Umwandlung von Text in Sprache, nicht auf dessen Bedeutung.

Technologische Fortschritte und Tools

Die Qualität von TTS hat sich dank Fortschritten im Bereich der KI dramatisch verbessert. Moderne Systeme können Sprache erzeugen, die kaum von menschlichen Aufnahmen zu unterscheiden ist und Nuancen wie Emotionen und Sprechstil erfasst. Durch Voice Cloning können Systeme bestimmte menschliche Stimmen imitieren, nachdem sie mit relativ geringen Mengen an Audiobeispielen trainiert wurden.

Verschiedene Tools und Plattformen erleichtern die Entwicklung und den Einsatz von TTS-Anwendungen:

Text-to-Speech und Ultralytics

Während sich Ultralytics hauptsächlich auf Computer Vision (CV) mit Modellen wie Ultralytics YOLO für Aufgaben wie Objekterkennung und Bildsegmentierung konzentriert, kann TTS als komplementäre Technologie dienen. Beispielsweise könnte ein CV-System, das Objekte in einer Szene identifiziert, TTS verwenden, um seine Ergebnisse verbal zu beschreiben. Da sich KI in Richtung Multi-modalem Lernen entwickelt und Vision und Sprache kombiniert (siehe Blogbeitrag zur Überbrückung von NLP und CV), wird die Integration von TTS mit CV-Modellen zunehmend wertvoller. Plattformen wie Ultralytics HUB bieten Tools zur Verwaltung von KI-Modellen, und zukünftige Entwicklungen könnten eine engere Integration verschiedener KI-Modalitäten, einschließlich TTS, innerhalb eines einheitlichen Projektablaufs sehen.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert