深圳Yolo 视觉
深圳
立即加入
词汇表

语音识别 (Speech Recognition)

了解语音识别技术如何将音频转换为文本,从而为语音助手、转录等人工智能解决方案提供支持。

语音识别,技术上称为自动语音识别 (ASR),是一种识别口语并将其处理为机器可读文本的计算能力。 并将口头语言处理为机器可读文本的计算能力。这项技术是人与计算机之间的一个基本接口 这项技术是人类与计算机之间的基本接口,可实现免提操作和直观交互。人工智能(AI)的一个子集 语音识别系统是人工智能(AI)的一个子集。 语音识别系统是人工智能(AI)的一个分支,它利用复杂的算法分析音频波形,破译不同的声音,并将其映射到相应的语言单位。 并将其映射到相应的语言单位。虽然早期的迭代依赖于简单的词汇匹配,但现代系统 利用机器学习(ML)和海量 数据集来理解自然语音,包括各种口音、方言和不同的语速。

语音识别的工作原理

语音到文本的转换涉及一个多步骤管道,由 深度学习(DL)架构驱动的多步骤管道。这一过程 通常首先是模数转换,然后是特征提取。 特征提取 从背景噪声中分离出有用的音频信号,并将其可视化,通常以 频谱图

一旦数据准备就绪,声学模型就会分析音频特征,以识别音素--语言中声音的基本单位。 语言中的基本声音单位。然后,这些音素将由一个 神经网络(如 递归神经网络(RNN)或 神经网络(如循环神经网络 (RNN) 或Transformer)进行处理。最后,语言 语言模型应用统计规则和 语法上下文来预测最可能的单词顺序,纠正语音歧义(例如,区分 "pair "和 "pear")、 例如,区分 "pair "和 "pear"),从而生成连贯的文字记录。开发人员通常利用 框架,如 PyTorch等框架来构建和完善这些复杂的 模型。

与相关术语的主要区别

要了解语言人工智能的发展前景,有必要将语音识别与以下密切相关的概念区分开来。 概念:

  • 语音转文本 (STT):虽然经常 虽然经常与 ASR 互换使用,但 STT 特指功能输出--将音频转换为文本,而 ASR 指的是更广泛的技术流程和方法。
  • 文本到语音(TTS)这是语音识别的 语音识别的逆过程。TTS 系统从书面文本中合成人工语音,充当人工智能代理的 "声音"。 人工智能代理的 "声音"。
  • 自然语言理解(NLU) 语音识别将声音转换为文本,但本质上并不 "理解 "内容。自然语言理解 自然语言理解(NLU):语音识别将声音转换为文本,但本质上并不 "理解 "内容。

人工智能在现实世界中的应用

语音识别是一项成熟的技术,已深深融入各行各业,以提高效率和便利性。 无障碍。

  • 医疗保健领域的人工智能医生 使用先进的语音识别工具,例如由 Nuance Communications 提供的先进语音识别工具,将临床笔记直接口述到 电子病历 (EHR)。这减轻了行政负担,使医生能更专注于病人护理。 护理。
  • 虚拟助理消费者 苹果公司的 Siri和亚马逊Alexa 等消费者代理依靠 ASR 来解释语音指令,完成从设置闹钟到控制智能家居设备等任务。 从设置闹钟到控制智能家居设备等任务的命令。
  • 人工智能在汽车领域的应用现代汽车 现代汽车采用语音识别技术对导航和娱乐系统进行免提控制,通过最大限度地减少驾驶员分心来提高驾驶安全。 通过减少分心来提高驾驶员的安全。

与计算机视觉集成

语音识别可以处理音频,而人工智能的未来在于 多模态学习,即系统同时处理音频和视觉数据。 系统同时处理音频和视觉数据。例如,服务机器人可以使用 YOLO11进行 物体检测来 "看到 "用户,而 ASR 来 "看到 "用户,并通过 ASR 来 "听到 "指令,从而实现无缝互动。目前正在研究 YOLO26 的研究正在进行中,其目的是进一步优化实时处理 针对这类复杂的端到端人工智能任务的实时处理。

下面的Python 示例演示了使用流行的 SpeechRecognition 库,可与各种 ASR 引擎连接。

# pip install SpeechRecognition
import speech_recognition as sr

# Initialize the recognizer
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, AIFF, FLAC)
with sr.AudioFile("speech_sample.wav") as source:
    # Record the audio data from the file
    audio_data = recognizer.record(source)

    # Recognize speech using Google's public API
    try:
        text = recognizer.recognize_google(audio_data)
        print(f"Transcript: {text}")
    except sr.UnknownValueError:
        print("Audio could not be understood")

该代码段将音频文件加载到内存中,并将其发送到应用程序接口以生成文本脚本,展示了 ASR 管道的核心功能。为了评估此类系统的性能,研究人员通常采用 词错误率 (WER)指标来量化相对于参考转录本的准确性。 的准确性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入