用語集

音声合成

高度な音声合成(TTS)テクノロジーがテキストをリアルな音声に変換し、アクセシビリティ、AIとのインタラクション、ユーザーエクスペリエンスを向上させる方法をご覧ください。

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

音声合成としても知られるText-to-Speech(TTS)は、人工知能(AI)分野の技術のひとつで、書かれたテキストを人間の音声に変換する。その主な目的は、自然な音声出力を自動的に生成し、デジタルコンテンツを利用しやすくし、音声ベースのインタラクションを可能にすることである。TTSシステムは、自然言語処理(NLP)とディープラーニング(DL)の技術を活用して入力テキストを理解し、対応する音声波形を合成する。この機能は、対話型アプリケーションや支援技術を作成する上で極めて重要である。

音声合成の仕組み

最新のTTSシステムは、通常、洗練された機械学習(ML)モデルを使用して実装された、多段階のプロセスに従っている:

  1. テキストの前処理:入力テキストをクリーニングし、正規化する。これには、略語の拡張、句読点の修正、文構造の特定が含まれ、テキストを言語分析に備える。NLP技術は、テキストのニュアンスを理解するのに役立つ。
  2. 言語分析:システムは前処理されたテキストを分析し、音素(音の基本単位)、韻律(リズム、ストレス、イントネーション)、フレージングなどの言語的特徴を抽出する。このステップでは、テキストがどのように聞こえるべきかを決定します。
  3. 音響モデリング: リカレント・ニューラル・ネットワーク(RNN)畳み込みニューラルネットワーク(CNN)トランスフォーマーなどの ディープラーニング・モデルは、言語的特徴を(メル・スペクトログラムのような)音響的特徴にマッピングする。これらのモデルは、テキストの大規模なデータセットと、それに対応する人間の音声録音をペアにして学習される。
  4. ボコーディング(波形合成):ボコーダーは、音響特徴を可聴音声波形に変換する。初期のボコーダーはパラメトリックであることが多かったが、WaveNet(DeepMindが開発)のような最新のアプローチは、ニューラルネットワークを使用して、非常にリアルで忠実度の高いオーディオを直接生成する。

関連技術との主な違い

TTSは、他のAIによるテキスト・音声処理技術とは一線を画している:

実世界での応用

TTS技術は、ユーザーエクスペリエンスとアクセシビリティを向上させ、数多くの実用的な応用がある:

  • アクセシビリティ・ツール:スクリーン・リーダーは、TTSを利用して視覚障害者のためにデジタル・コンテンツを音声で読み上げ、ウェブサイト、文書、アプリケーションへのアクセスを改善するもので、多くの場合、ウェブ・コンテンツ・アクセシビリティ・ガイドライン(WCAG)のような標準に導かれている。
  • バーチャルアシスタントとチャットボット: Amazon AlexaGoogle AssistantApple Siriのような音声アシスタントは、TTSを使用してユーザーのクエリに音声応答を提供し、ハンズフリーでの対話を可能にする。
  • ナビゲーション・システム:車載GPSシステムやモバイル・ナビゲーション・アプリは、TTSを使用して音声によるターン・バイ・ターンの道案内を行います。
  • eラーニングとコンテンツ制作:TTSは、教材、プレゼンテーション、オーディオブック、ビデオのナレーションを自動的に生成し、制作時間とコストを削減することができます。Courseraのようなプラットフォームでは、合成音声が使われることもある。
  • 公共アナウンスシステム:空港、駅(交通機関のAI)、その他の公共スペースにおける自動アナウンスは、しばしばTTSに依存している。

技術の進歩とツール

ディープラーニングの進歩により、TTSの品質は飛躍的に向上した。最新のシステムは、感情や話し方などのニュアンスを捉え、人間の録音と区別することが難しい音声を生成することができる。ボイスクローニングにより、比較的少量のサンプル音声でトレーニングした後、システムが特定の人間の声を模倣することができる。

いくつかのツールやプラットフォームは、TTSアプリケーションの開発と展開を容易にする:

  • クラウドサービス: Google Cloud Text-to-Speechと Amazon Pollyは、様々な音声と言語による、堅牢でスケーラブルなTTS APIを提供している。
  • オープンソースプロジェクト: Mozilla TTSのようなフレームワークやTacotron 2のような研究モデルは、開発者に利用しやすい選択肢を提供する。ライブラリ PyTorchTensorFlowのようなライブラリは、これらのモデルを構築するためによく使用される。

音声合成とUltralytics

Ultralytics 主にコンピュータビジョン(CV)に焦点を当て、以下のようなモデルを提供している。 Ultralytics YOLOのようなモデルをオブジェクト検出や 画像セグメンテーションのようなタスクに使用していますが、TTSは補完的な技術として機能します。例えば、シーン内のオブジェクトを識別するCVシステムは、その発見を口頭で説明するためにTTSを使用することができます。AIが視覚と言語を組み合わせたマルチモーダル学習へと進化するにつれ(NLPとCVの橋渡しに関するブログ記事を参照)、TTSとCVモデルの統合はますます価値が高まるでしょう。Ultralytics HUBのようなプラットフォームは、AIモデルを管理するためのツールを提供しており、今後の発展により、統一されたプロジェクト・ワークフローの中で、TTSを含む多様なAIモダリティがより密接に統合されるようになるかもしれない。

すべて読む