词汇表

文本到语音

了解先进的文本转语音 (TTS) 技术如何将文本转换为栩栩如生的语音，从而增强可访问性、AI 交互和用户体验。

文本到语音 (TTS)，通常称为语音合成，是一种变革性的辅助技术，可将书面文字转换为口语语音输出。将书面文字转换为口语语音输出。作为自然语言处理（NLP）的一个专门分支、作为自然语言处理 (NLP) 的一个专门分支，TTS 系统旨在解释文本数据并生成模仿人类语音的节奏、语调和发音的音频。发音。虽然早期的迭代会产生机械和单调的声音，但深度学习（DL）方面的现代创新深度学习（DL）的现代创新技术已经能够创造出深度学习（DL）的现代创新已经能够创造出高度自然和富有表现力的声音。这种能力对于增强用户界面、使数字内容，以及实现人类与人工智能（AI）之间的无缝交互的基础。人工智能（AI）系统之间的无缝互动。

文本到语音背后的机制

将文本转换为音频是一个多阶段的过程，涉及复杂的语言和声学分析。首先首先是文本规范化，即对原始文本进行清理和格式化--将数字、缩写词和符号转换成对应的文字（例如，将 "10km "转换成 "十公里"）。例如，"10 公里 "变成 "十公里"）。然后，系统执行音标，将单词映射为音素，音素是区别一个单词和另一个单词的独特声音单位（参见 IPA 指南）。音素是区别一个词和另一个词的独特声音单位（参见IPA 指南）。

在最后阶段，系统会生成音频波形。传统的方法使用连接合成法将预先录制的语音片段将预先录制的语音片段拼接在一起。然而，当代系统主要依靠神经网络（NN）和变压器（Transformers）等架构来从头开始生成语音。变压器等架构来从头开始生成语音。这些神经声码器通过预测给定文本序列的最佳声学特征，生成更流畅、更逼真的音频。谷歌的 WaveNet 就是这种技术的典范。 Google的 WaveNet。

实际应用

TTS 技术在现代软件中无处不在，为需要听觉反馈或免提操作的应用程序提供动力。操作。

无障碍和包容性：TTS 是屏幕阅读器的支柱，可帮助有视觉障碍的个人视觉障碍人士使用数字内容的能力。通过朗读网站、文档和电子邮件，这些工具弥补了数字鸿沟。该领域的进步对于遵守以下标准至关重要网络内容可访问性指南》（WCAG）等标准至关重要。从从更广泛的意义上讲，这项技术人工智能在医疗保健领域的应用。阅读困难或神经退行性疾病的患者提供帮助。
智能导航和助手：汽车中的 GPS 系统汽车应用中的人工智能依靠 TTS 为驾驶员提供逐向导航，使他们能够将注意力集中在道路上。同样、 Siri 和 Alexa 等虚拟助手利用 TTS 向用户口头传达搜索结果、提醒事项和智能家居状态更新。

将文本到语音技术与相关概念区分开来

要了解 TTS，就必须将其与人工智能领域的其他音频和语言技术区分开来。

语音到文本:这是 TTS 的逆过程。TTS 从文本生成音频，而语音转文本（或自动语音识别或自动语音识别）则是捕捉口语并将其转录为书面文字。
生成式人工智能:TTS 是生成式人工智能的一种形式，侧重于音频。然而，与文本生成模型创造新的叙述 (例如编写故事）不同，TTS 严格地将所提供的输入内容发声，而不改变其语义。
语音克隆：语音克隆是 TTS 的一个特定子集，其目的是利用少量语音样本复制特定人的声音。克隆语音是 TTS 的一个特定子集，其目的是利用一小部分语音样本复制特定人的声音，从而提出了有关人工智能伦理的独特问题。人工智能伦理。

将文本到语音技术与计算机视觉技术相结合

Ultralytics 主要专注于计算机视觉 (CV)，提供最先进的模型，如 YOLO11等先进模型，用于物体检测模型。然而，将 CV 与 TTS 可创建强大的多模式学习应用。例如例如，针对视障人士的视觉系统可以detect 房间中的物体，并使用 TTS 将其大声播报出来、提供实时环境感知。

下面的Python 示例演示了如何将Ultralytics YOLO11 模型与简单的 TTS 库结合起来 (gTTS)来detect 物体并发出声音。

from gtts import gTTS
from ultralytics import YOLO

# Load the official YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Get the class name of the first detected object
detected_class = results[0].names[int(results[0].boxes.cls[0])]

# Convert the detection text to speech
tts = gTTS(text=f"I see a {detected_class}", lang="en")
tts.save("detection_alert.mp3")

这一工作流程展示了将视觉感知与声音输出连接起来的潜力。随着生态系统的发展未来的Ultralytics 平台将有助于管理这种复杂的多阶段人工智能管道、使开发人员能够部署能看、能听、能说的综合解决方案。有关整合多种人工智能模式，请浏览我们关于连接 NLP 和 CV 的见解。

文本到语音

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

文本到语音背后的机制

实际应用

将文本到语音技术与相关概念区分开来

将文本到语音技术与计算机视觉技术相结合

阅读更多此类别的内容

理解为何人机协同标注至关重要

什么是数据集蒸馏？快速概述

Oakley Meta AI眼镜正以视觉人工智能技术重新定义眼镜行业

加入Ultralytics 社区