遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Text-to-Speech

探索文本转语音 (TTS) 如何与深度学习和 NLP 协同工作。学习将 Ultralytics YOLO26 与 TTS 集成,以实现实时视觉转语音应用。

语音合成 (TTS) 是一种将书面文字转换为口语的辅助技术。TTS 系统通常被称为“朗读”技术,它获取数字文本输入——从文档、网页到实时聊天消息——并将它们合成为可听的语音。虽然早期的版本产生的音频听起来比较生硬且不自然,但现代 TTS 利用先进的 深度学习 (DL) 技术,能够生成带有正确语调、节奏和情感且酷似真人的声音。该技术是实现无障碍访问、教育和自动化客户服务的重要接口,弥合了数字内容与听觉消费之间的鸿沟。

Link to this section语音合成的工作原理#

从本质上讲,TTS 引擎必须解决两个主要问题:将文本处理为语言表征,以及将这些表征转换为音频波形。这一流程通常包含几个阶段。首先,对文本进行归一化处理,以处理缩写、数字和特殊字符。接下来,一个 自然语言处理 (NLP) 模块会分析文本,进行音标转写和韵律(重音和时序)分析。最后,由声码器或神经合成器生成实际的声音。

近期 生成式 AI 的进步彻底改变了这一领域。像 Tacotron 和 FastSpeech 这样的模型利用 神经网络 (NN) 直接从数据中学习文本序列与声谱图之间的复杂映射。这种端到端的方法能够实现高度富有表现力的语音合成,并可模仿特定说话人,即所谓的语音克隆。

Link to this section在 AI 和机器学习中的应用#

在现代 AI 生态系统中,TTS 很少单独使用。它通常作为复杂系统的输出层,与其他技术协同工作。

  • 虚拟助手和聊天机器人: 诸如 Amazon Alexa 或本地化客户服务机器人之类的智能代理使用 大语言模型 (LLMs) 生成文本回复,然后由 TTS 引擎将其转化为语音,从而创建无缝的对话体验。
  • 辅助功能工具: 屏幕阅读器高度依赖 TTS 来使视觉障碍人士能够访问视觉内容。像 iOS 辅助功能 这样的操作系统将这些功能深度集成,以辅助用户浏览应用程序和网站。
  • 导航系统: 在汽车行业,汽车 AI 解决方案使用 TTS 提供逐向导航,让驾驶员在获取关键信息的同时无需移开视线。

Link to this section与计算机视觉的集成#

当 TTS 与 计算机视觉 (CV) 结合时,它能发挥出最强大的应用之一。这种组合实现了“视觉转语音”系统,能够向用户描述物理世界。例如,可穿戴设备可以检测房间内的物体并将其播报给盲人用户。

以下 Python 示例展示了如何使用 YOLO26 模型进行 目标检测 (Object Detection),然后使用简单的 TTS 库将结果读出来。

from gtts import gTTS
from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Get the name of the first detected object class
class_name = results[0].names[int(results[0].boxes.cls[0])]

# Generate speech from the detection text
tts = gTTS(text=f"I found a {class_name}", lang="en")
tts.save("detection.mp3")

对于寻求扩展此类应用的开发者,Ultralytics 平台 简化了在特定数据集上训练自定义模型的过程(例如识别特定货币或读取独特的路标),随后将其部署到边缘设备上,从而触发 TTS 提醒。

Link to this section相关概念#

区分 TTS 与其他音频处理术语有助于避免混淆:

  • 语音转文本 (STT) 这是 TTS 的逆过程。STT(或自动语音识别)接收音频输入并将其转换为书面文本。
  • 语音克隆 (Voice Cloning) 虽然标准 TTS 使用预定义的语音,但语音克隆利用机器学习在特定人的语音样本上训练模型,以生成听起来与本人完全一样的新语音。这引发了关于 AI 伦理 (AI Ethics) 和深度伪造的重要议题。
  • 多模态学习 (Multi-Modal Learning) 指的是同时在多种类型数据(文本、图像、音频)上训练模型。多模态模型可能能够观察图像并原生输出语音描述,而无需独立的 TTS 步骤。

Link to this section未来方向#

语音合成的未来在于表现力和低延迟性能。像 Google DeepMind 这样的机构的研究人员正在通过模型不断突破极限,这些模型能够根据上下文进行耳语、大喊或表达讽刺。此外,随着 边缘 AI (Edge AI) 变得越来越普及,轻量级 TTS 模型将直接在设备上运行,无需互联网连接,从而提高了实时应用的隐私性和响应速度。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅