Глоссарий

Речь в текст

Узнай, как технология Speech-to-Text преобразует разговорную речь в текст с помощью искусственного интеллекта, обеспечивая голосовое взаимодействие, транскрипцию и инструменты доступности.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

Speech-to-Text (STT), также широко известная как Automatic Speech Recognition (ASR), - это технология, которая позволяет компьютерам понимать и транскрибировать человеческую устную речь в письменный текст. Она образует важнейший мост между взаимодействием человека и цифровой обработкой данных в более широкой области искусственного интеллекта (AI) и машинного обучения (ML). Преобразуя аудиопотоки в текстовые данные, STT позволяет машинам обрабатывать, анализировать и реагировать на голосовой ввод, обеспечивая работу огромного количества приложений.

Как работает преобразование речи в текст

В основе STT лежат сложные алгоритмы, которые анализируют аудиосигналы. Этот процесс обычно включает в себя два основных компонента:

  1. Акустическая модель: Этот компонент сопоставляет сегменты входного аудиосигнала с фонетическими единицами, которые являются основными звуками языка. Он учится различать разные звуки, несмотря на вариации в произношении, акценты и фоновый шум. Продвинутые методы акустического моделирования часто используют архитектуры Deep Learning (DL), такие как рекуррентные нейронные сети (RNN) или трансформеры.
  2. Языковая модель: Этот компонент получает последовательность фонетических единиц из акустической модели и преобразует ее в связные слова, фразы и предложения. Он использует статистические вероятности, часто полученные из обширных текстовых баз данных, чтобы предсказать наиболее вероятную последовательность слов, повышая точность и беглость транскрипции. Языковое моделирование - это фундаментальный аспект обработки естественного языка (Natural Language Processing, NLP).

Для обучения этих моделей требуются большие объемы маркированных аудиоданных(обучающих данных), представляющих различные стили речи, языки и акустические условия.

Применение в реальном мире

Технология STT является неотъемлемой частью многих современных приложений:

  • Виртуальные ассистенты: Обеспечение голосовых команд для таких устройств, как смартфоны и умные колонки(Siri, Alexa, Google Assistant). Смотри наш глоссарий по виртуальным помощникам.
  • Услуги транскрипции: Автоматическое преобразование встреч, лекций, интервью и голосовых сообщений в текст с помощью таких инструментов, как Otter.ai. Это особенно важно в таких областях, как медицинская диктовка и юридическая документация.
  • Системы голосового управления: Позволяют управлять устройствами в режиме "свободные руки", распространены в ИИ для автомобильных систем.
  • Инструменты доступности: Обеспечение субтитров в реальном времени для людей с нарушениями слуха, повышение доступности медиа.
  • Аналитика колл-центра: Расшифровывай звонки клиентов, чтобы анализировать настроения, выявлять тенденции и улучшать качество обслуживания.

Основные отличия от смежных технологий

Важно отличать STT от похожих терминов:

Проблемы и будущие направления

Несмотря на значительный прогресс, STT сталкивается с такими проблемами, как точная транскрипция речи с сильным акцентом, фоновым шумом, перекрывающимися дикторами, а также понимание контекста или лингвистической неоднозначности. Смягчение предвзятости ИИ, полученной из несбалансированных обучающих данных, также крайне важно. Текущие исследования, часто освещаемые на таких платформах, как Google AI Blog и OpenAI Blog, сосредоточены на повышении надежности, производительности в реальном времени и многоязыковых возможностях.

Передача речи в текст и Ultralytics

Хотя Ultralytics в первую очередь занимается компьютерным зрением (CV) с Ultralytics YOLO модели для таких задач, как обнаружение объектов и сегментация изображений, Speech-to-Text может дополнить приложения визуального ИИ. Например, в интеллектуальной системе безопасности STT может анализировать устные угрозы, захваченные микрофонами, работая вместе с обнаружением объектов YOLO , чтобы обеспечить комплексное понимание события, потенциально следуя рабочему процессу проекта компьютерного зрения. Ultralytics HUB предлагает платформу для управления и развертывания моделей ИИ, и поскольку ИИ движется в сторону мультимодального обучения с использованием мультимодальных моделей, интеграция STT с моделями зрения, построенными с помощью таких фреймворков, как PyTorch будет приобретать все большее значение. Инструментальные средства с открытым исходным кодом, такие как Kaldi, и проекты вроде Mozilla DeepSpeech продолжают развивать эту область, внося свой вклад в ресурсы, доступные в более широкой экосистеме ИИ, задокументированные в таких ресурсах, как Ultralytics Docs.

Читать полностью