遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Speech-to-Text

探索语音转文本 (STT) 如何将音频转换为数据。了解 ASR、NLP 集成以及使用 Ultralytics YOLO26 和 Ultralytics Platform 的多模态 AI。

语音转文字 (STT),通常被称为自动语音识别 (ASR),是一种将口语转换为书面文本的计算过程。这项技术作为人类交流与数字系统之间的关键桥梁,使机器能够处理、分析并将语言信息存储为结构化数据。STT 的核心在于利用先进的 深度学习 (DL) 算法来分析音频波形,识别语音模式,并将它们重构为连贯的句子,实际上充当了更广泛的 自然语言处理 (NLP) 流水线的输入层。

Link to this section转录背后的机制#

从声音到文本的转换涉及多个复杂阶段。首先,系统会捕捉音频并执行 数据清洗 以去除背景噪音。清洗后的音频会进行 特征提取,将原始声波转换为频谱图或 梅尔频率倒谱系数 (MFCCs),这些系数代表了语音的声学特征。

现代 STT 系统利用 循环神经网络 (RNN) 或高效的 Transformer 模型等架构,将这些声学特征映射为音素(声音的基本单位),并最终映射为单词。OpenAI Whisper 等创新技术展示了在海量、多样化的数据集上进行训练如何能显著降低 词错误率 (WER),这是评估转录准确性的关键指标。

Link to this section实际应用#

语音转文字技术已变得无处不在,通过实现免提操作和快速数据录入,提高了各行各业的效率。

  • 临床文档: 在医疗领域,医生利用像 Nuance Dragon Medical 这样的专业工具直接将患者记录口述到电子健康记录 (EHR) 中。这种 医疗 AI 的集成显著减轻了行政负担,使医生能够将更多精力集中在患者护理上。
  • 汽车界面: 现代汽车采用 STT 技术,使驾驶员能够通过语音指令控制导航和娱乐系统。赋能 汽车 AI 的解决方案通过最大限度减少视觉干扰来优先考虑安全,让驾驶员在与车辆数字系统交互时能保持注视前方道路。
  • 客户服务分析: 企业使用 Google Cloud Speech-to-Text 等服务,每天转录成千上万的客户支持电话。然后,对这些转录本进行分析以提取情感并提高服务质量。

Link to this section区分相关概念#

为了全面了解 AI 格局,区分语音转文字与其他语言处理术语会很有帮助:

  • 文本转语音 (TTS) 这是逆向操作。STT 接收音频输入并生成文本,而 TTS 则从文本输入合成人工语音。
  • 自然语言理解 (NLU) STT 严格来说是一种转录工具;它捕捉了说了什么,但不一定捕捉了其含义。NLU 是后续过程,通过分析转录的文本来确定用户意图和语义。
  • 语音识别 虽然常被互换使用,但语音识别是一个更广泛的总括术语,还可以包括说话人识别(确定在说话),而 STT 特别关注语言内容。

Link to this section与视觉 AI 的多模态集成#

智能代理的未来在于 多模态学习,即系统同时处理视觉和听觉数据。例如,服务机器人可以使用 YOLO26(Ultralytics 最新的前沿模型)进行实时 目标检测 以定位用户,同时使用 STT 聆听指令,例如“把那个瓶子拿给我”。

这种融合促进了能够看和听的综合 AI 代理的创建。Ultralytics Platform 促进了这些复杂工作流的管理,支持模型标注、训练和部署,这些模型可以作为多模态应用的视觉骨干。

Link to this sectionPython 实现示例#

以下示例演示了使用 SpeechRecognition 库的基本实现,这是一个流行的 Python 工具,它与各种 ASR 引擎(如 CMU Sphinx)接口,用于转录音频文件。

import speech_recognition as sr

# Initialize the recognizer class
recognizer = sr.Recognizer()

# Load an audio file (supports WAV, FLAC, etc.)
# In a real workflow, this audio might be triggered by a YOLO26 detection event
with sr.AudioFile("user_command.wav") as source:
    audio_data = recognizer.record(source)  # Read the entire audio file

try:
    # Transcribe audio using the Google Web Speech API
    text = recognizer.recognize_google(audio_data)
    print(f"Transcribed Text: {text}")
except sr.UnknownValueError:
    print("System could not understand the audio.")

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅