Глоссарий

Преобразование речи в текст

Узнайте, как технология преобразования речи в текст преобразует устную речь в текст с помощью ИИ, обеспечивая голосовое взаимодействие, транскрипцию и инструменты доступности.

Преобразование речи в текст (STT), часто называемое автоматическим распознаванием речи (ASR), - это технология, которая преобразует устную речь в письменный, машиночитаемый текст. Эта возможность служит жизненно важным интерфейсом между человеческой и вычислительной техникой, позволяя системам "слышать" и расшифровывать голосовые данные. Как фундаментальный компонент Искусственный интеллект (ИИ), STT является первым шагом в конвейере, который часто приводит к сложному анализу с помощью Обработка естественного языка (NLP), что позволяет машинам понимать команды, надиктовывать заметки или генерировать субтитры в режиме реального времени.

Как работает технология преобразования речи в текст

Процесс преобразования звуковых волн в цифровой текст включает в себя сложную систему алгоритмов. Современные системы в значительной степени полагаются на глубокое обучение (DL), чтобы для обработки нюансов человеческой речи, включая акценты, скорость и фоновый шум.

Предварительная обработка звука: Система захватывает аналоговый звук и оцифровывает его. Затем она выполняет извлечение признаков, чтобы разбить звук на часто визуализируя звук в виде спектрограммы или используя частотно-мелодические цепстральные коэффициентов (MFCC).
Акустическое моделирование: Акустическая модель анализирует звуковые характеристики для идентификации фонем - фундаментальных единиц звука в языке. На этом этапе часто используется Нейронная сеть (НС), обученная на массивных наборах данных таких как Mozilla Common Voice, чтобы сопоставить звуковые сигналы с фонетическими вероятности.
Языковое моделирование: A Языковая модель контекстуализирует фонемы. Она использует статистическую вероятность для определения наиболее вероятной последовательности слов, исправляя омофоны (например, "two" против "to") на основе грамматики и синтаксиса.
Декодирование: Система объединяет результаты акустической и языковой моделей для создания окончательного текста с наибольшей вероятностью точности.

Недавние достижения позволили перейти от традиционных скрытых марковских моделей (HMM) к сквозным архитектурам, использующим Трансформаторы, которые обрабатывают целые последовательности данных которые обрабатывают целые последовательности данных одновременно, обеспечивая превосходное понимание контекста.

Применение STT в реальном мире

Технология преобразования речи в текст повсеместно используется в современных технологиях, обеспечивая эффективность и доступность в различных отраслях.

Интеллектуальные виртуальные помощники: Потребительские ИИ-агенты, такие как Siri от Apple и Amazon Alexa используют STT для мгновенного анализа голосовых команд для выполнения различных задач - от установки будильников до управления устройствами "умного дома". Это служит входным слоем для виртуального помощника для выполнения действий.
Клиническая документация: В В сфере здравоохранения врачи используют специализированные STT-инструменты для диктовки заметок пациентов непосредственно в электронные медицинские карты (EHR). Такие решения, как Nuance Dragon Medical снижают нагрузку на администратора и обеспечивают точное фиксирование данных пациента во время консультаций.
Автомобильное управление: Современные автомобили интегрируют STT, чтобы водители могли управлять навигационными и развлекательными системами в режиме "свободные руки". ИИ в автомобилях ставит во главу угла безопасность, уменьшая зрительных отвлечений благодаря надежным голосовым интерфейсам.
Услуги по обеспечению доступности: СТТ предоставляет субтитры в режиме реального времени для людей с нарушениями слуха, что делает прямые трансляции и видеозвонки доступными. Такие платформы, как YouTube, используют автоматизированный ASR для создания субтитров для миллионов видеороликов ежедневно.

Передача речи в текст в коде машинного обучения

Хотя Ultralytics специализируется на зрении, STT часто является параллельным компонентом в мультимодальных приложениях. Следующий Пример на Python демонстрирует использование популярной библиотеки с открытым исходным кодом SpeechRecognition для расшифровки аудиофайла. Это представляет собой стандартный рабочий процесс для преобразования аудиоданных в текстовые данные, которые впоследствии могут быть проанализировать.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports .wav, .flac, etc.)
with sr.AudioFile("audio_sample.wav") as source:
    # Record the audio data from the file
    audio_data = recognizer.record(source)

    # Recognize speech using Google Web Speech API
    try:
        text = recognizer.recognize_google(audio_data)
        print(f"Transcribed Text: {text}")
    except sr.UnknownValueError:
        print("Audio could not be understood")

Отличие НТТ от смежных концепций

Полезно отличать Speech-to-Text от других терминов в глоссарии ИИ, чтобы понять, какое место он занимает в техническом ландшафте.

Передача текста в речь (TTS): Это обратный процесс STT. В то время как STT преобразует аудио в текст (вход), TTS синтезирует человекоподобную речь из письменного текста (выход).
Понимание естественного языка (NLU): STT - это исключительно инструмент транскрипции; он не "понимает" содержание. NLU берет текст, полученный из STT и анализирует намерения, настроения и смысл, стоящие за словами.
Распознавание речи: Часто используется как взаимозаменяемое слово STT, но распознавание речи - это более широкая область, включающая в себя идентификацию диктора (диаризация диктора) и транскрипцию его слов. диктора (диаризация диктора) и транскрипцию его слов. STT относится именно к генерации текста аспект.

Будущее: Мультимодальная интеграция

Будущее ИИ - за мультимодальным обучением, когда модели обрабатывают визуальные, слуховые и текстовые данные одновременно. Например, система безопасности может использовать Обнаружение объектов на основе YOLO11 для идентификации человека, одновременно одновременно используя STT для регистрации его словесных ответов.

Заглядывая в будущее, Ultralytics разрабатывает YOLO26которая призвана расширить границы скорости и точности. По мере развития этих моделей интеграция зрения и языка, преодолевая разрыв между тем, что видит ИИ, и тем, что он слышит, будет становиться все более плавной, используя таких фреймворков, как PyTorch для создания комплексных интеллектуальных агентов. Пользователи, интересующиеся передовыми достижениями в области транскрипции, также могут изучить такие модели, как Whisper от OpenAI, которая установила новые стандарты надежности в ASR.

Преобразование речи в текст

Обучение моделям Ultralytics YOLO для оптимизации рабочих процессов в разных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Как работает технология преобразования речи в текст

Применение STT в реальном мире

Передача речи в текст в коде машинного обучения

Отличие НТТ от смежных концепций

Будущее: Мультимодальная интеграция

Читать больше в этой категории

Понимание важности аннотации с участием человека

Что такое дистилляция наборов данных? Краткий обзор

Очки Oakley Meta AI переосмысливают концепцию очков с помощью Vision AI

Присоединяйтесь к сообществу Ultralytics