Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Speech-to-Text

Изучи, как преобразование речи в текст (STT) преобразует аудио в данные. Узнай об ASR, интеграции NLP и мультимодальном ИИ с использованием Ultralytics YOLO26 и платформы Ultralytics.

Speech-to-Text (STT), часто называемая автоматическим распознаванием речи (ASR), — это вычислительный процесс, который преобразует устную речь в письменный текст. Эта технология служит критически важным связующим звеном между человеческим общением и цифровыми системами, позволяя машинам обрабатывать, анализировать и хранить вербальную информацию в виде структурированных данных. По своей сути STT опирается на передовые алгоритмы Deep Learning (DL) для анализа аудиоволн, определения фонетических паттернов и их реконструкции в связные предложения, фактически выступая в качестве входного уровня для более широких конвейеров Natural Language Processing (NLP).

Link to this sectionМеханизмы транскрипции#

Преобразование звука в текст включает в себя несколько сложных этапов. Сначала система захватывает аудио и выполняет Data Cleaning для удаления фонового шума. Очищенное аудио проходит через Feature Extraction, где необработанные звуковые волны преобразуются в спектрограммы или Mel-frequency cepstral coefficients (MFCCs), которые представляют собой акустические характеристики речи.

Современные системы STT используют такие архитектуры, как Recurrent Neural Networks (RNN) или высокоэффективную модель Transformer, чтобы сопоставить эти акустические признаки с фонемами (базовыми единицами звука) и в конечном итоге со словами. Инновации, такие как OpenAI Whisper, показали, как обучение на огромных, разнообразных наборах данных может значительно снизить Word Error Rate (WER) — ключевую метрику для оценки точности транскрипции.

Link to this sectionРеальные приложения#

Технология Speech-to-Text стала повсеместной, повышая эффективность в различных отраслях за счет обеспечения работы в режиме «свободные руки» и быстрого ввода данных.

  • Клиническая документация: В медицинском секторе врачи используют специализированные инструменты, такие как Nuance Dragon Medical, для диктовки заметок о пациентах непосредственно в электронные медицинские карты (EHR). Эта интеграция AI in healthcare значительно снижает административную нагрузку, позволяя врачам больше сосредоточиться на уходе за пациентами.
  • Автомобильные интерфейсы: Современные транспортные средства используют STT, чтобы водители могли управлять навигацией и развлекательными системами с помощью голосовых команд. Решения, обеспечивающие AI in automotive, уделяют первостепенное внимание безопасности, минимизируя визуальные отвлекающие факторы и позволяя водителям следить за дорогой во время взаимодействия с цифровыми системами автомобиля.
  • Аналитика обслуживания клиентов: Предприятия используют такие сервисы, как Google Cloud Speech-to-Text, для транскрибирования тысяч звонков в службу поддержки ежедневно. Эти транскрипты затем анализируются для выявления тональности и повышения качества обслуживания.

Link to this sectionРазграничение похожих концепций#

Чтобы полностью понять ландшафт AI, полезно разграничивать Speech-to-Text и другие термины обработки естественного языка:

  • Text-to-Speech (TTS): Это обратная операция. В то время как STT принимает аудиосигнал и создает текст, TTS синтезирует искусственную человеческую речь из текстового ввода.
  • Natural Language Understanding (NLU): STT — это строго инструмент транскрибирования; он фиксирует то, что было сказано, но не обязательно то, что это означает. NLU — это последующий процесс, который анализирует транскрибированный текст для определения намерения пользователя и смыслового значения.
  • Speech Recognition: Хотя эти термины часто используются как взаимозаменяемые, распознавание речи — это более широкий зонтичный термин, который может также включать идентификацию говорящего (определение того, кто говорит), в то время как STT конкретно фокусируется на лингвистическом содержании.

Link to this sectionМультимодальная интеграция с Vision AI#

Будущее интеллектуальных агентов заключается в Multi-modal Learning, где системы одновременно обрабатывают визуальные и слуховые данные. Например, сервисный робот может использовать YOLO26 — новейшую современную модель от Ultralytics — для Object Detection в реальном времени, чтобы найти пользователя, одновременно используя STT, чтобы услышать команду вроде «Принеси мне ту бутылку».

Эта конвергенция позволяет создавать комплексные AI-агенты, способные видеть и слышать. Ultralytics Platform облегчает управление этими сложными рабочими процессами, поддерживая аннотирование, обучение и развертывание моделей, которые могут служить визуальной основой для мультимодальных приложений.

Link to this sectionПример реализации на Python#

Следующий пример демонстрирует базовую реализацию с использованием библиотеки SpeechRecognition, популярного Python-инструмента, который взаимодействует с различными ASR-движками (такими как CMU Sphinx) для транскрибирования аудиофайлов.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, FLAC, etc.)
# In a real workflow, this audio might be triggered by a YOLO26 detection event
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe audio using the Google Web Speech API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio.")

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения