聖徳太子は一度に何人もの話を同時に聞いて、それを理解することができたと言われています。そんな、まるで聖徳太子のような分離集音技術を東芝が開発しました。
近年、音声認識性能は向上していますが、複数の人が同時に発言すると音声認識精度が低下するという問題がありました。同時発言を分離する技術の開発はもちろん進んでおり、会話をしている場所の音響特性や話し手の位置といった録音環境に対して最適な分離性能を得るには、話者ごとに分離するフィルタをシステムに学習させるために数十分程度の録音を行う必要があったそうです。
しかしながら、本技術では「事前に録音をしなくても正確に聞き分け可能」だといいます。フィルタを直接学習するのではなく、マイクからみた話者の位置情報を表す空間特性を学習させ、環境にあわせて時々刻々とフィルタを更新させることで高精度に分離する新方式となっています。1つの音声入力機器の中に複数のマイクを搭載したマイクロホンアレーを用いています。分離の正確さは従来技術と比べて約2倍に向上。高い精度で話者ごとの音声を認識しテキスト化することができます。
また、各話者からのマイクまでの音の到達時間差などの音源方向に関する対応表とのマッチングで、話者の相対的な位置関係を高速判定。これにより、会話する場所で事前録音を行わなくても、同時に話された音声を話者ごとに分離集音することが可能となったようです。
今後、音声や映像から人の意図や状況を理解し人にわかりやすく伝えさまざまな活動を支援する東芝のクラウドサービス「RECAIUS(TM)(リカイアス)」に本技術を来年度中に搭載することを目指し研究開発を進めていくそうです。