Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Speech Recognition

Изучи, как распознавание речи (ASR) преобразует разговорный язык в текст. Узнай о нейронных сетях, реальных приложениях ИИ и мультимодальном Ultralytics YOLO26.

Распознавание речи, технически часто называемое автоматическим распознаванием речи (ASR), — это специфическая способность, позволяющая компьютеру идентифицировать, обрабатывать и преобразовывать устную речь в письменный текст. Эта технология служит жизненно важным связующим звеном во взаимодействии человека и компьютера, позволяя системам Artificial Intelligence (AI) принимать голосовые команды в качестве входных данных, а не полагаться исключительно на клавиатуры или сенсорные экраны. Анализируя звуковые волны и сопоставляя их с обширными лингвистическими наборами данных, такие системы могут интерпретировать различные акценты, разную скорость речи и сложную лексику. Этот процесс является фундаментальным компонентом современных рабочих процессов Natural Language Processing (NLP), превращая неструктурированный звук в структурированные, машиночитаемые данные.

Link to this sectionКак работает распознавание речи#

Архитектура распознавания речи эволюционировала от простого сопоставления с шаблонами до сложных конвейеров, работающих на базе Deep Learning (DL). Процесс обычно состоит из последовательности важных шагов. Сначала захватывается и оцифровывается необработанный аналоговый аудиосигнал. Затем система выполняет feature extraction для фильтрации фонового шума и выделения фонетических характеристик, часто визуализируя аудио как spectrogram для отображения интенсивности частоты во времени.

Как только звуковые признаки выделены, в дело вступает акустическая модель. Эта модель, часто созданная с использованием Neural Network (NN), например, Recurrent Neural Network (RNN) или современного Transformer, отображает акустические сигналы в фонемы — базовые единицы звука. Наконец, language model анализирует последовательность фонем, чтобы предсказать наиболее вероятные слова и предложения. Этот шаг имеет решающее значение для различения омофонов (например, «съесть» и «шесть» в английском языке) на основе контекста. Разработчики используют такие фреймворки, как PyTorch, для обучения этих ресурсоемких моделей.

Link to this sectionРеальные приложения#

Распознавание речи сегодня повсеместно распространено, повышая эффективность и доступность во многих секторах.

  • Медицинская документация: В медицинской сфере AI in healthcare позволяет врачам использовать специализированные инструменты от таких поставщиков, как Nuance Communications, для диктовки клинических заметок непосредственно в электронные медицинские карты (EHR). Это значительно снижает административную нагрузку и повышает точность данных.
  • Автомобильные интерфейсы: Современные транспортные средства интегрируют голосовое управление, позволяя водителям управлять навигацией и развлекательными системами без помощи рук. AI in automotive повышает безопасность, минимизируя визуальные отвлечения за счет использования этих надежных голосовых интерфейсов.
  • Виртуальные ассистенты: Потребительские агенты, такие как Apple's Siri, используют ASR для обработки команд для выполнения задач, начиная от установки таймеров и заканчивая управлением устройствами умного дома, выступая в качестве основного уровня ввода для Virtual Assistant.

Link to this sectionРазграничение связанных терминов#

Хотя эти термины часто используются как синонимы в повседневной речи, важно различать распознавание речи и связанные с ним понятия в глоссарии AI.

  • Speech-to-Text (STT): STT конкретно относится к выходной функции (преобразование аудио в текст), в то время как распознавание речи охватывает более широкую технологическую методологию идентификации аудио.
  • Natural Language Understanding (NLU): ASR преобразует звук в текст, но само по себе «не понимает» сообщение. NLU — это последующий процесс, который интерпретирует намерение, тональность и смысл, стоящие за расшифрованными словами.
  • Text-to-Speech (TTS): Это обратная операция, при которой система синтезирует искусственную человеческую речь из письменного текста.

Link to this sectionИнтеграция с компьютерным зрением#

Следующий рубеж интеллектуальных систем — Multi-modal Learning, объединяющее аудиторные и визуальные данные. Например, сервисный робот может использовать YOLO26 для object detection в реальном времени, чтобы найти конкретного пользователя в комнате, одновременно используя распознавание речи для понимания команды, такой как «принеси мне бутылку воды». Это сближение создает комплексных агентов AI, способных одновременно видеть и слышать. Ultralytics Platform облегчает управление этими сложными наборами данных и обучение надежных моделей для таких мультимодальных приложений.

Следующий пример на Python демонстрирует, как использовать библиотеку SpeechRecognition, популярный инструмент-обертку, для транскрибирования аудиофайла.

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
# Ideally, this audio file contains clear, spoken English
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe the audio using Google's public speech recognition API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio")

Производительность системы обычно оценивается с помощью метрики Word Error Rate (WER), где более низкий показатель означает более высокую точность. Чтобы узнать больше о том, как эти технологии функционируют вместе с моделями компьютерного зрения, изучи наше руководство по bridging NLP and Computer Vision.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения