用語集

音声合成

高度な音声合成（TTS）テクノロジーがテキストをリアルな音声に変換し、アクセシビリティ、AIとのインタラクション、ユーザーエクスペリエンスを向上させる方法をご覧ください。

音声合成としても知られるText-to-Speech（TTS）は、人工知能（AI）分野の技術のひとつで、書かれたテキストを人間の音声に変換する。その主な目的は、自然な音声出力を自動的に生成し、デジタルコンテンツを利用しやすくし、音声ベースのインタラクションを可能にすることである。TTSシステムは、自然言語処理（NLP）とディープラーニング（DL）の技術を活用して入力テキストを理解し、対応する音声波形を合成する。この機能は、対話型アプリケーションや支援技術を作成する上で極めて重要である。

音声合成の仕組み

最新のTTSシステムは、通常、洗練された機械学習（ML）モデルを使用して実装された、多段階のプロセスに従っている：

テキストの前処理：入力テキストをクリーニングし、正規化する。これには、略語の拡張、句読点の修正、文構造の特定が含まれ、テキストを言語分析に備える。NLP技術は、テキストのニュアンスを理解するのに役立つ。
言語分析：システムは前処理されたテキストを分析し、音素（音の基本単位）、韻律（リズム、ストレス、イントネーション）、フレージングなどの言語的特徴を抽出する。このステップでは、テキストがどのように聞こえるべきかを決定します。
音響モデリング： リカレント・ニューラル・ネットワーク（RNN）、畳み込みニューラルネットワーク（CNN）、トランスフォーマーなどのディープラーニング・モデルは、言語的特徴を（メル・スペクトログラムのような）音響的特徴にマッピングする。これらのモデルは、テキストの大規模なデータセットと、それに対応する人間の音声録音をペアにして学習される。
ボコーディング（波形合成）：ボコーダーは、音響特徴を可聴音声波形に変換する。初期のボコーダーはパラメトリックであることが多かったが、WaveNet（DeepMindが開発）のような最新のアプローチは、ニューラルネットワークを使用して、非常にリアルで忠実度の高いオーディオを直接生成する。

実世界での応用

TTS技術は、ユーザーエクスペリエンスとアクセシビリティを向上させ、数多くの実用的な応用がある：

アクセシビリティ・ツール：スクリーン・リーダーは、TTSを利用して視覚障害者のためにデジタル・コンテンツを音声で読み上げ、ウェブサイト、文書、アプリケーションへのアクセスを改善するもので、多くの場合、ウェブ・コンテンツ・アクセシビリティ・ガイドライン（WCAG）のような標準に導かれている。
バーチャルアシスタントとチャットボット： Amazon Alexa、Google Assistant、Apple Siriのような音声アシスタントは、TTSを使用してユーザーのクエリに音声応答を提供し、ハンズフリーでの対話を可能にする。
ナビゲーション・システム：車載GPSシステムやモバイル・ナビゲーション・アプリは、TTSを使用して音声によるターン・バイ・ターンの道案内を行います。
eラーニングとコンテンツ制作：TTSは、教材、プレゼンテーション、オーディオブック、ビデオのナレーションを自動的に生成し、制作時間とコストを削減することができます。Courseraのようなプラットフォームでは、合成音声が使われることもある。
公共アナウンスシステム：空港、駅（交通機関のAI）、その他の公共スペースにおける自動アナウンスは、しばしばTTSに依存している。

技術の進歩とツール

ディープラーニングの進歩により、TTSの品質は飛躍的に向上した。最新のシステムは、感情や話し方などのニュアンスを捉え、人間の録音と区別することが難しい音声を生成することができる。ボイスクローニングにより、比較的少量のサンプル音声でトレーニングした後、システムが特定の人間の声を模倣することができる。

いくつかのツールやプラットフォームは、TTSアプリケーションの開発と展開を容易にする：

クラウドサービス： Google Cloud Text-to-Speechと Amazon Pollyは、様々な音声と言語による、堅牢でスケーラブルなTTS APIを提供している。
オープンソースプロジェクト： Mozilla TTSのようなフレームワークやTacotron 2のような研究モデルは、開発者に利用しやすい選択肢を提供する。ライブラリ PyTorchや TensorFlowのようなライブラリは、これらのモデルを構築するためによく使用される。

音声合成とUltralytics

Ultralytics 主にコンピュータビジョン（CV）に焦点を当て、以下のようなモデルを提供している。 Ultralytics YOLOのようなモデルをオブジェクト検出や画像セグメンテーションのようなタスクに使用していますが、TTSは補完的な技術として機能します。例えば、シーン内のオブジェクトを識別するCVシステムは、その発見を口頭で説明するためにTTSを使用することができます。AIが視覚と言語を組み合わせたマルチモーダル学習へと進化するにつれ（NLPとCVの橋渡しに関するブログ記事を参照）、TTSとCVモデルの統合はますます価値が高まるでしょう。Ultralytics HUBのようなプラットフォームは、AIモデルを管理するためのツールを提供しており、今後の発展により、統一されたプロジェクト・ワークフローの中で、TTSを含む多様なAIモダリティがより密接に統合されるようになるかもしれない。

音声合成

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

音声合成の仕組み

関連技術との主な違い

実世界での応用

技術の進歩とツール

音声合成とUltralytics

ブログをもっと読む

Ultralytics コミュニティに参加する

音声合成

Ultralytics HUB でを使ってYOLO モデルをシンプルにトレーニングする。

柔軟なエンタープライズライセンシングソリューションでイノベーションを促進

AIモデルを数秒でトレーニングUltralytics YOLO

Ultralytics HUB でYOLO モデルを簡単にトレーニング

音声合成の仕組み

関連技術との主な違い

実世界での応用

技術の進歩とツール

音声合成とUltralytics

ブログをもっと読む

Ultralytics コミュニティに参加する

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。