・研究者は、リカレントニューラルネットワークを使用して、麻痺してコミュニケーションが取れない人々を支援します。
・ネットワークは、神経の動きを音声に変換します。
・これは、患者が自然な速度で問題なく言葉を伝達するのに役立ちます。
多くの精神疾患はコミュニケーションの喪失をもたらし、患者は補助器具に頼ることになります。 これらのデバイスを使用すると、最大で1分あたり10語ずつ文章を入力できます。 ただし、この速度は毎分約150語で行われる日常会話に比べると遅すぎます。
カリフォルニア大学サンフランシスコ校の研究者は、自然なコミュニケーション速度を可能にするために、声道の動きとそれらが生成する音に重点を置いた生体模倣アプローチを使用しました。
彼らは、脳の信号から直接合成音声を生成することを可能にしました。 これらの信号は、唇、舌、顎、喉頭を動かすために約100の筋肉を正確に調整し、呼吸を音に変え、最終的に単語や文を形成します。
チームは、てんかん(神経障害)の治療を受けていた5人の参加者からの高密度皮質脳波検査信号を記録しました。 脳の表面に配置された電極が結果の信号を測定している間、すべての参加者は声を出して文章を読むように求められました。
リカレントニューラルネットワーク
研究者は、調音ダイナミクスの明示的な中間表現で皮質信号をデコードし、最終的に音声を合成するためのリカレントニューラルネットワークを開発しました。
ニューラルネットワークは、皮質信号とともに、参加者が声を出して文章を話す音を記憶されています。 ADAMオプティマイザーを使用してアルゴリズムをトレーニングしました。 トレーニングの第1段階と第2段階では、それぞれ256と25のバッチサイズが使用されました。
神経から復元された話し言葉からの音声合成 | 開発者からの提供
この統計マッピングにより、限られたトレーニングデータセットを一般化することが可能になります。 研究者は25分のスピーチで満足のいくパフォーマンスをすることができ、より多くのデータを供給することで、パフォーマンスは継続的に向上しました。
将来は?
この研究は、神経障害に苦しむ患者が大きな障害に対処するための高度な方法です。 一般化の結果、話者は、話者から独立している運動学的状態空間表現を共有します。 モデルの知識(参加者間での運動学から音へのマッピング)を転送できます。
さまざまな人々の神経活動をこの底辺にある表現に利用することで、ブレイン・コンピューター・インターフェースの学習を促進することができます。 調査結果、麻痺患者の言語回復を実現するための新しい方法を見つけることができました。
この研究で開発されたニューラルネットワークは、自然な発話速度で制約のない語彙を伝達することができます。 この直接音声合成アプローチは、テキスト出力ではできないピッチイントネーションなどの韻律要素を使います。 さらに、関節の皮質がまだ無傷である患者はより簡単に利用できるかもしれません。