术语表

语音识别

了解语音识别技术如何将音频转化为文本,为语音助手、转录等人工智能解决方案提供支持。

语音识别,又称自动语音识别(ASR)或计算机语音识别,是一种使计算机或设备能够识别口语并将其转换为机器可读文本的技术。它是现代人工智能(AI)的基础组成部分,是人类语音和计算机理解之间的桥梁。ASR 的核心是分析声波,使用复杂的算法处理声波,并生成文本记录,是自然语言处理 (NLP)管道的重要组成部分。

语音识别如何工作

将语音转换为文本的过程通常包括由机器学习(ML)驱动的几个阶段。首先,系统捕捉音频,并将其分解为细小、独特的声音。通过一个称为特征提取的过程,音频波形被转换成模型可以分析的数字表示形式。

接下来,声学模型(通常是深度神经网络)分析这些特征,将其映射到音素--语言中声音的基本单位。最后,语言模型将音素序列利用统计知识组合成连贯的单词和句子。随着深度学习和大型数据集的出现,这些系统的质量有了显著提高,PyTorchTensorFlow等框架在其发展过程中发挥了重要作用。

现实世界中的应用

语音识别技术已被集成到无数的应用程序中,影响着我们与技术的日常互动。

  • 虚拟助理 苹果的 Siri亚马逊 Alexa等服务都依赖 ASR 来处理语音命令、回答问题和执行任务。
  • 自动转录:ASR 用于创建音频和视频内容的书面记录,例如会议转录、视频的封闭式字幕和医疗专业人员的口述记录。这项技术是谷歌云语音转文本等服务的核心功能。
  • 车载控制系统:现代汽车使用语音识别技术,让驾驶员可以免提控制导航、娱乐和空调,从而提高了汽车解决方案的安全性。

相关人工智能概念

有必要将 ASR 与几个密切相关的术语区分开来:

  • 语音到文本(STT)这一术语经常与 ASR 互换使用。不过,STT 可被视为直接输出或应用,而 ASR 则指底层技术流程。
  • 文本到语音(TTS)TTS 是 ASR 的反向过程。它从书面文本中合成人工语音,实现有声读物和 GPS 导航语音反馈等应用。
  • 自然语言理解(NLU)NLU 是 ASR 将语音转换为文本后的下一步。ASR 专注于转录的准确性,而 NLU 则关注于解释文本中的含义、意图和实体。

挑战与未来方向

尽管取得了令人瞩目的进展,ASR 系统仍然面临着挑战。在嘈杂的环境中准确转录语音、处理不同的口音和方言、处理对话中说话者的重叠、理解细微的含义或情感分析等仍是活跃的研究领域。OpenAI 的 Whisper等开创性开源项目和Kaldi等工具包仍在不断挑战极限。

未来的发展重点是通过先进的深度学习技术提高鲁棒性,探索结合音频和视觉信息的多模态模型(如与计算机视觉相关的读唇术),以及利用自我监督学习等技术在大量无标记数据集上训练模型。Ultralytics 主要专注于视觉人工智能模型,如用于物体检测图像分割等任务的Ultralytics YOLO,而语音识别等相关人工智能领域的进展也为整个智能系统生态系统做出了贡献。您可以在Ultralytics 文档中探索视觉模型的模型训练部署选项,并使用Ultralytics HUB 管理项目。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板