Glossar

Sprache-zu-Text

Entdecke, wie die Speech-to-Text-Technologie gesprochene Sprache mithilfe von KI in Text umwandelt und so Sprachinteraktionen, Transkription und barrierefreie Tools ermöglicht.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Speech-to-Text (STT), auch bekannt als Automatic Speech Recognition (ASR), ist eine Technologie, die es Computern ermöglicht, gesprochene Sprache zu verstehen und in geschriebenen Text umzuwandeln. Sie bildet eine wichtige Brücke zwischen menschlicher Interaktion und digitaler Verarbeitung im Bereich der Künstlichen Intelligenz (KI) und des Maschinellen Lernens (ML). Durch die Umwandlung von Audioströmen in Textdaten ermöglicht STT Maschinen, Spracheingaben zu verarbeiten, zu analysieren und darauf zu reagieren, was eine Vielzahl von Anwendungen ermöglicht.

Wie Speech-to-Text funktioniert

Der Kern von STT besteht aus hochentwickelten Algorithmen, die Audiosignale analysieren. Dieser Prozess umfasst in der Regel zwei Hauptkomponenten:

  1. Akustisches Modell: Diese Komponente ordnet Segmente des Audioinputs phonetischen Einheiten zu, die die Grundlaute einer Sprache sind. Sie lernt, trotz unterschiedlicher Aussprache, Akzente und Hintergrundgeräusche zwischen verschiedenen Lauten zu unterscheiden. Fortgeschrittene akustische Modellierungstechniken verwenden oft Deep Learning (DL) Architekturen wie rekurrente neuronale Netze (RNNs) oder Transformatoren.
  2. Sprachmodell: Diese Komponente übernimmt die Abfolge der phonetischen Einheiten aus dem akustischen Modell und wandelt sie in kohärente Wörter, Phrasen und Sätze um. Sie nutzt statistische Wahrscheinlichkeiten, die oft aus großen Textdatenbeständen gelernt werden, um die wahrscheinlichste Wortfolge vorherzusagen und so die Genauigkeit und Flüssigkeit der Transkription zu verbessern. Die Sprachmodellierung ist ein grundlegender Aspekt der natürlichen Sprachverarbeitung (NLP).

Um diese Modelle zu trainieren, sind große Mengen an beschrifteten Audiodaten(Trainingsdaten) erforderlich, die verschiedene Sprechstile, Sprachen und akustische Bedingungen repräsentieren.

Anwendungen in der realen Welt

Die STT-Technologie ist für viele moderne Anwendungen unverzichtbar:

  • Virtuelle Assistenten: Ermöglichung von Sprachbefehlen für Geräte wie Smartphones und Smart Speaker(Siri, Alexa, Google Assistant). Siehe unser Glossar zum Thema Virtuelle Assistenten.
  • Transkriptionsdienste: Automatische Umwandlung von Meetings, Vorträgen, Interviews und Sprachnachrichten in Text mit Tools wie Otter.ai. Das ist besonders wichtig in Bereichen wie medizinischen Diktaten und juristischen Unterlagen.
  • Sprachsteuerungssysteme: Ermöglicht die freihändige Bedienung von Geräten, wie sie in der KI für Autosysteme üblich ist.
  • Zugänglichkeits-Tools: Untertitel in Echtzeit für Menschen mit Hörbehinderungen, um die Zugänglichkeit zu den Medien zu verbessern.
  • Call Center-Analyse: Transkribieren von Kundenanrufen, um die Stimmung zu analysieren, Trends zu erkennen und die Servicequalität zu verbessern.

Hauptunterschiede zu verwandten Technologien

Es ist wichtig, STT von ähnlichen Begriffen zu unterscheiden:

  • Text-to-Speech (TTS): Erfüllt die umgekehrte Funktion, indem er geschriebenen Text in gesprochenes Audio umwandelt.
  • Sprechererkennung: Konzentriert sich darauf, anhand von Stimmmerkmalen zu erkennen , wer spricht, und nicht darauf, das Gesagte zu transkribieren. Sprechererkennungssysteme werden zur Authentifizierung oder zur Tagebuchführung (Feststellung, wer wann gesprochen hat) eingesetzt.
  • Natural Language Understanding (NLU): Ein Teilbereich des NLP, der über die Transkription hinausgeht und die Bedeutung, die Absicht und die Stimmung hinter den gesprochenen Wörtern interpretiert.

Herausforderungen und zukünftige Wege

Trotz erheblicher Fortschritte steht die STT vor Herausforderungen wie der genauen Transkription von Sprache mit starken Akzenten, Hintergrundgeräuschen, sich überschneidenden Sprechern und dem Verständnis von Kontext oder sprachlicher Mehrdeutigkeit. Auch die Vermeidung von Verzerrungen durch unausgewogene Trainingsdaten ist entscheidend. Laufende Forschungsarbeiten, die häufig auf Plattformen wie dem Google AI Blog und dem OpenAI Blog vorgestellt werden, konzentrieren sich auf die Verbesserung der Robustheit, der Echtzeitleistung und der Mehrsprachigkeit.

Speech-to-Text und Ultralytics

Ultralytics konzentriert sich in erster Linie auf Computer Vision (CV) mit Ultralytics YOLO Modellen für Aufgaben wie Objekterkennung und Bildsegmentierung, kann Speech-to-Text visuelle KI-Anwendungen ergänzen. In einem intelligenten Sicherheitssystem könnte STT zum Beispiel gesprochene Bedrohungen analysieren, die von Mikrofonen erfasst werden, und mit der YOLO zusammenarbeiten, um ein umfassendes Verständnis eines Ereignisses zu erhalten, das möglicherweise dem Workflow eines Computer-Vision-Projekts folgt. Ultralytics HUB bietet eine Plattform für die Verwaltung und den Einsatz von KI-Modellen. Da sich KI in Richtung multimodales Lernen mit multimodalen Modellen bewegt, kann STT mit Bildverarbeitungsmodellen integriert werden, die mit Frameworks wie PyTorch immer wichtiger werden. Open-Source-Toolkits wie Kaldi und Projekte wie Mozilla DeepSpeech bringen das Feld weiter voran und tragen zu den Ressourcen bei, die im breiteren KI-Ökosystem verfügbar sind und in Ressourcen wie den Ultralytics Docs dokumentiert werden.

Alles lesen