● Googleは、機械で生成された音声をロボット的ではなく人間のように聞こえる「Tacotron 2」を開発
● テキストの台本と音声例で訓練されたニューラルネットワークを使用
● このシステムは、WaveNetの音声品質とTacotronの韻律で音声を合成
特定のテキストから自然な音声を生成する研究(テキスト読み上げ合成、TTS)は、何十年にもわたって行われており、ここ数年で目覚ましい進歩がありました。
あなたはGoogleVoiceサービスをよくご存知かと思います。男性と女性の両方の音声で利用できます。ロボットの声は、MicrosoftのCortanaやAppleのSiriのように、私たちの生活の定番です。GoogleのAIの声は、年々ロボット的ではなく、人間のように聞こえるようになりました。そして今、それは人間とほとんど区別がつきません。
Googleのエンジニアは、WaveNetやTacotronなどの過去の研究からのアイデアを取り入れ、新しいシステムである「Tacotron 2」を完成させるために技術を強化しました。人間のような音声を実現するために、複雑な言語的、音響的特徴を入力として使用するのではなく、テキストの台本と音声例のみで訓練されたニューラルネットワークを使用しました。
構造モデル
システムには次の2つの主要なコンポーネントが含まれています。
1.文字のシーケンスを機能のシーケンスにマッピングし、音声をエンコードするためのTTS用に最適化された反復シーケンス間機能予測ネットワーク。
2.予測されたスペクトログラムフレームに基づいて時間領域の波形サンプルを生成するWaveNetの改良版。
シーケンス間モデルは、単語、速度、音量、イントネーションをキャプチャする80次元のオーディオスペクトログラム(12.5ミリ秒ごとにフレームが測定される)を備えています。 これらの機能は、拡張WaveNetバージョンを使用して、最終的に24kHz波形で16ビットのサンプルに変換されます。
結果として得られるシステムは、WaveNetレベルの音声品質とTacotronレベルの韻律で音声を合成します。複雑な技術的機能に依存することなくデータをトレーニングでき、自然な人間の声に非常に近い最先端の音質を実現します。
同社が行っている他のコア人工知能研究とは異なり、このテクノロジーはすぐにGoogleに役立ちます。たとえば、2016年に初めて登場したWaveNetは現在、Googleアシスタントで使用されています。Tacotron 2はこのサービスへのより強力な追加機能になります。
音声サンプル
以下に、いくつかのサンプルを公開しています。一方は人工知能プログラムによって生成され、もう1方は人間です。どちらがAIかわかりますか?
“That girl did a video about Star Wars lipstick.”
“George Washington was the first President of the United States.”
“She earned a doctorate in sociology at Columbia University.”
Googleは、人々に音声の自然さを評価するように依頼しました。このモデルは、専門的に録音された音声の4.58 MOSに匹敵する4.53の平均オピニオン評点(MOS)を獲得しました。
タコトロン2の追加機能
複雑で文脈に合わない単語を発音できます。
“Basilar membrane and otolaryngology are not auto-correlations.”
スペルミスも処理します。
“Thisss isrealy awhsome.”
強調とイントネーションを学習します。(大文字にすると全体的なイントネーションが変わります)
“The buses aren’t the problem, they actually provide a solution.”
“The buses aren’t the PROBLEM, they actually provide a SOLUTION.”
早口言葉が得意です。
“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”
課題
サンプルは素晴らしいように聞こえますが、まだ解決すべき問題がいくつかあります。システムは、「メルロー」や「デコラム」などの複雑な単語を発音するとき問題に直面します。 極端な場合、ランダムに奇妙なノイズが発生します。
今のところ、システムはリアルタイムで音声を生成することはできず、生成された音声を、悲しそうな音や幸せな音にするように指示するなどの制御もできません。また、女性の声を模倣するように訓練されているだけです。別の女性や男性のように話すには、開発者はシステムを再度トレーニングする必要があります。