もし2016年中に起きたテクノロジーのパラダイムシフトを一つ挙げるとすれば、それは「音声入力」です。チャットボットからAmazonエコーまで、近い未来に私たちの「声」はコンピュータとコミュニケーションをとる主要な方法になるでしょう。
▼Amazonエコー動画
今週シリコンバレーのベンチャーキャピタリストであるMary Meeker氏が音声UIに関する膨大なレポートを発表しました。本稿ではそのレポートの一部をご紹介することにします。
現在音声入力はどのように使われているか?
上図は現在の「音声入力」が使用されている状況を調査したデータですが、まず音声入力を使う主要な理由は以下です。
- 両手や視線が塞がっているときに有用だから・・・61%
- より早く結果を得られるから・・・30%
- 機種の仕様上、文字入力が困難だから・・・24%
- おもしろい/かっこいいから・・・22%
- どのメニューを使っていいか迷いたくないため・・・12%
- その他・・・1%
ここで注目すべきは1/4ほど「文字入力をするのに困難を覚えている層」が確認できることです。このように不便さを覚えている層は新しい技術である音声入力へ真っ先に適合する層でもあります。
また音声入力の利用シーンでは「自宅(43%)」、「車内(36%)」が約8割ほどを占め、プライベートな空間で用いられていることがわかります。
続いてのグラフは、Googleが発表した「音声入力によるクエリ」の推移です。「自宅へのナビ」「母親への電話」「父親への電話」のいずれもが2013年の序盤から急増していますが、人々は「音声入力」でこのようなクエリを入力しているそうです。
音声入力技術は「最後の4%」の戦いへ
最後に、これまでの音声入力テクノロジーの開発の長い戦いの歴史を簡単に振り返っておきましょう。Googleによると、1970年代に音声入力された言葉をマシーンが認識する正確さは10%でした。それが2010年になりその精度は70%まで向上、そして2016年に一気に90%まで向上しました。
しかしこの最後の90%台から向上させるのが、最も困難を伴い難しいことなのです。この点に関しては中国の大手検索サイト「Baidu」のチーフサイエンティストAndrew Ng氏が次のように述べています。
「音声認識の精度が95%から99%に向上すると、誰もがその技術に飛びつくようになります。多くの人は95%と99%の違いを過小評価しすぎなんです。99%というのはゲームチェンジャーです。誰も応答があるまで10秒も待てません。正確さと認識速度の二つが音声認識機能をもったプロダクトのキーとなるでしょう」
また同氏は今から4年以内に音声認識技術は飛躍的に発達すると予想しています。2020年までのオンラインで行われる検索の半分は、テキスト入力ではなく音声入力によって入力されるようになるそうです。
(※本稿は「How Voice Interfaces Are Colonizing
Our Lives, By The Numbers」を翻訳・要約したものです)