词汇表

语音识别 (Speech Recognition)

了解语音识别技术如何将音频转换为文本，从而为语音助手、转录等人工智能解决方案提供支持。

语音识别，技术上称为自动语音识别 (ASR)，是一种识别口语并将其处理为机器可读文本的计算能力。并将口头语言处理为机器可读文本的计算能力。这项技术是人与计算机之间的一个基本接口这项技术是人类与计算机之间的基本接口，可实现免提操作和直观交互。人工智能（AI）的一个子集语音识别系统是人工智能（AI）的一个子集。语音识别系统是人工智能（AI）的一个分支，它利用复杂的算法分析音频波形，破译不同的声音，并将其映射到相应的语言单位。并将其映射到相应的语言单位。虽然早期的迭代依赖于简单的词汇匹配，但现代系统利用机器学习（ML）和海量数据集来理解自然语音，包括各种口音、方言和不同的语速。

语音识别的工作原理

语音到文本的转换涉及一个多步骤管道，由深度学习（DL）架构驱动的多步骤管道。这一过程通常首先是模数转换，然后是特征提取。特征提取从背景噪声中分离出有用的音频信号，并将其可视化，通常以频谱图。

一旦数据准备就绪，声学模型就会分析音频特征，以识别音素--语言中声音的基本单位。语言中的基本声音单位。然后，这些音素将由一个神经网络（如递归神经网络（RNN）或神经网络（如循环神经网络 (RNN) 或Transformer）进行处理。最后，语言语言模型应用统计规则和语法上下文来预测最可能的单词顺序，纠正语音歧义（例如，区分 "pair "和 "pear"）、例如，区分 "pair "和 "pear"），从而生成连贯的文字记录。开发人员通常利用框架，如 PyTorch等框架来构建和完善这些复杂的模型。

与相关术语的主要区别

要了解语言人工智能的发展前景，有必要将语音识别与以下密切相关的概念区分开来。概念：

语音转文本 (STT)：虽然经常虽然经常与 ASR 互换使用，但 STT 特指功能输出--将音频转换为文本，而 ASR 指的是更广泛的技术流程和方法。
文本到语音（TTS）：这是语音识别的语音识别的逆过程。TTS 系统从书面文本中合成人工语音，充当人工智能代理的 "声音"。人工智能代理的 "声音"。
自然语言理解（NLU）： 语音识别将声音转换为文本，但本质上并不 "理解 "内容。自然语言理解自然语言理解（NLU）：语音识别将声音转换为文本，但本质上并不 "理解 "内容。

人工智能在现实世界中的应用

语音识别是一项成熟的技术，已深深融入各行各业，以提高效率和便利性。无障碍。

医疗保健领域的人工智能：医生使用先进的语音识别工具，例如由 Nuance Communications 提供的先进语音识别工具，将临床笔记直接口述到电子病历 (EHR)。这减轻了行政负担，使医生能更专注于病人护理。护理。
虚拟助理：消费者苹果公司的 Siri和亚马逊的Alexa 等消费者代理依靠 ASR 来解释语音指令，完成从设置闹钟到控制智能家居设备等任务。从设置闹钟到控制智能家居设备等任务的命令。
人工智能在汽车领域的应用：现代汽车现代汽车采用语音识别技术对导航和娱乐系统进行免提控制，通过最大限度地减少驾驶员分心来提高驾驶安全。通过减少分心来提高驾驶员的安全。

与计算机视觉集成

语音识别可以处理音频，而人工智能的未来在于多模态学习，即系统同时处理音频和视觉数据。系统同时处理音频和视觉数据。例如，服务机器人可以使用 YOLO11进行物体检测来 "看到 "用户，而 ASR 来 "看到 "用户，并通过 ASR 来 "听到 "指令，从而实现无缝互动。目前正在研究 YOLO26 的研究正在进行中，其目的是进一步优化实时处理针对这类复杂的端到端人工智能任务的实时处理。

下面的Python 示例演示了使用流行的 SpeechRecognition 库，可与各种 ASR 引擎连接。

# pip install SpeechRecognition
import speech_recognition as sr

# Initialize the recognizer
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
with sr.AudioFile("speech_sample.wav") as source:
    # Record the audio data from the file
    audio_data = recognizer.record(source)

    # Recognize speech using Google's public API
    try:
        text = recognizer.recognize_google(audio_data)
        print(f"Transcript: {text}")
    except sr.UnknownValueError:
        print("Audio could not be understood")

该代码段将音频文件加载到内存中，并将其发送到应用程序接口以生成文本脚本，展示了 ASR 管道的核心功能。为了评估此类系统的性能，研究人员通常采用词错误率 (WER)指标来量化相对于参考转录本的准确性。的准确性。

语音识别 (Speech Recognition)

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

语音识别的工作原理

与相关术语的主要区别

人工智能在现实世界中的应用

与计算机视觉集成

阅读更多此类别的内容

理解为何人机协同标注至关重要

什么是数据集蒸馏？快速概述

Oakley Meta AI眼镜正以视觉人工智能技术重新定义眼镜行业

加入Ultralytics 社区