音声がUIの覇権を握る日は来るのか

日本人には馴染みが薄い？「VUI」とは

「スマートスピーカー元年」といわれた2017年。以降もGoogle、Amazonや追随する他メーカーが次々に製品を発表・発売しており、「音声UI」は引き続き注目度の高い分野だ。最近では、日本人には馴染みの薄かった「音声検索」や「音声入力」の利用率も高まってきているという。

　とはいえ今はまだ、日常的に音声UIの恩恵を受けている人は限られるかもしれない。現状の音声UIで何ができるのか、将来的にどういった領域に応用されていくのか考察していこう。

CUI、GUI、そしてVUIへ

　主にデバイスとユーザーとの接点（Interface）を示すのが、UI（User Interface）。その中でも最新のトレンドである音声UI（VUI）について見ていく前に、コンピュータが登場した当初広く使われていた「CUI」から、現在主流の「GUI」へと移り変わってきた背景について見ていこう。

●CUI（Character User Interface）
　キーボード入力のみを用いたソフトウェアの操作方法。画面に表示されるのは文字情報のみ。マイクロソフトのパソコン用OS、MS-DOS等で採用されていた。現在のWindows PCでも「コマンドプロンプト」を開けばCUIを体感できる。

●GUI（Graphical User Interface）
　現在のOSやアプリケーションの大多数で使われているUI。画面に表示されたアイコンや画像を見ながら、マウスや指を使って直感的にコンピュータを操作できる。1970年前半、米Xeroxのパロアルト研究所で開発されたものが原型。Apple Computerが1984年に発売したMacintoshに標準搭載されたことで脚光を浴び、現在に至る。タブレットPCのタッチUIもGUIの一種といえる。

●VUI（Voice User Interface）
　声によりデバイスのコントロールや情報のやり取りを行うUI。音声認識や自然言語処理、音声合成技術の発達やAIの進化によって急速に注目が集まっている。

　2018年9月6日に電通イージス・ネットワークのiProspect Japanが発表した、アジア太平洋地域における音声技術に関するマーケット調査結果「The Future is Voice Activated - 未来は音声認識 -」を見ると、調査対象者の62％が過去6ヶ月以内に音声認識機能を使用したと回答、56％が過去6ヶ月の間に音声技術の利用頻度が上昇したと回答している。さらに95％がこの先一年間音声認識を使い続ける意思があると回答しており、VUIの普及・発展を予感させる結果となっている。

　だが、こと日本においてはスマートフォン利用者の40％しか音声技術を使用していないことが判明しており、インド（82％）や中国（77％）に比べるとVUIの普及が遅れているといえる。また、日本の回答者の内30％は一度も音声技術を使用したことがないと回答。その原因として同調査では、2017年10月5日にKDDIが発表した「日本人の音声操作に対する意識調査2017」等でも度々指摘されてきた、日本人の「人前で音声操作することに抵抗（羞恥）を覚える」という国民性や、「正確に質問を理解できないといったストレスを経験したことも重なっている」と推測されている。方言等、微妙なイントネーションの違いによって意味が全く異なる同音異義語も多い日本語の難しさも一因となっているのだろう。

　しかし、ジャストシステムが1月23日に発表した「人工知能（AI）＆ロボット月次定点調査 2018年総集編」によると、調査対象である全国の17歳から69歳の男女1100名の内、約8割が「AI音声アシスタント」を認知しており、約4割は利用経験があると回答している。さらに、2017年11月度調査では4.5％だったスマートスピーカーの所有率は、2018年12月度調査では9.3％と倍増。およそ10人に1人がスマートスピーカーを所有しているという結果に。スマートスピーカーに関しては、認知率も飛躍的に高まっており、2017年6月度調査では43.5％だったものが2018年12月度調査では82.1％にまで上昇している。諸外国に比べると緩やかではあるが、日本でも着実にVUIが浸透しつつあるのだ。

現在のVUI応用事例

　日本でもその有用性が認知されつつあるVUI。現時点では、どういった物に採用されているのだろうか？具体例を見ていこう。

●スマートスピーカー
　Amazonの「Amazon Echo」やGoogleの「Google Home」に代表される、対話型の音声アシスタントが搭載されたスピーカー。音声による検索や音楽再生、予定や受信メール、ニュースの読み上げだけでなく、対応するスマート家電やIoT機器との連携によって照明や家具、テレビといった家中の家電を音声で操作することも可能。できることが分かっていればVUIの大きなメリットである「ハンズフリー」の便利さを体感できるが、「スキル」や「アプリ」と言われる各機能の呼び出し方（話しかけ方）を知らないと、できることはかなり限られてしまう。

　また、一般家庭だけでなく、ショッピングセンターや飲食店の店頭に設置されるケースも。パルコの一部店舗ではエスカレーター前等、店内に設置されたスマートスピーカーに話しかけることで、ショップや取り扱い商品等の情報を検索できる。飲食店を運営するロイヤルダイニングは、音声でメニュー注文を行う実証実験として、Amazonの小型スマートスピーカー「Amazon Echo Dot」を設置した音声注文専用席を用意して話題を呼んだ。

●スマートフォン
　基本的に画面ありきのデバイスだが、音声のみで端末を利用できる手段も用意されている。例えばiPhoneであれば、画面上に表示されている文字の読み上げや画像の内容を声で説明してくれる「VoiceOver」を使用できるし、Android端末でも画面上の文字を読み上げてくれる「TalkBack」を使用できる。これらは「出力」に関する機能だが、テキスト入力をはじめとする「入力」に関しては、今や各端末に標準搭載されている音声アシスタント（iPhoneならSiri、Android端末ならGoogle Assistant）によってかなりの範囲をサポートされている。

　さらに米Googleは2018年10月2日、音声のみでAndroid端末を操作できる「Voice Access」アプリを公開している。声掛けによって画面のスクロールやスワイプ、ホーム画面へ戻るといった「入力」を行うことができるのだ。現在は英語のみに対応しているが、今後サポートする言語は増えていくという。

　こうした機能は主に身体的にハンディキャップを抱えた人々に向けて提供されているもので、今後も進化していくだろう。また、最近ではAppleの「AirPods」やソニーモバイルコミュニケーションズの「Xperia Ear Duo」をはじめとする「ヒアラブル端末」が注目されていることもあり、簡単なメッセージの送受信等はわざわざスマートフォンを取り出すことなく行うことが当たり前になっていくのかもしれない。

●クルマ
　自動運転技術の発達と共に注目されている分野。メルセデス・ベンツ日本が2018年10月18日に発表した新型「Aクラス」には、対話型インフォテインメントシステム「MBUX」が搭載されている。自然言語認識により高い精度で車両操作関連の文章を認識・理解できるとしており、「温度24度」という具体的な指示でなくとも、「暑い」の一言で車内の温度を下げることができるという。このように、自動車メーカーが独自開発した音声アシスタントが採用されることは少数派で、スマートスピーカーやスマートフォンで使われている他社製の既存アシスタントが用いられることが多い。

　例えば2018年10月15日、LINEは同社の音声アシスタント「Clova」と車載器を連携させる「Clova Auto」をトヨタ自動車のナビゲーション基盤と統合し、ナビゲーション機能までを統合したスマートフォンアプリケーションを2019年夏より提供することを発表した。これにより、車を運転しながら家の電気を消す、目的地の天気を調べる、LINEメッセージの送受信といったことが音声のみで実現できるだけでなく、「ねぇClova、東京タワーまでの行き方を教えて」「東名高速道路の渋滞情報を教えて」といった声かけで目的地検索やカーナビゲーションまでできるようになる。

　運転中は当然よそ見はできないし、ハンドルを握っているため両手が塞がっている。「ながら」操作ができるという特徴を持つVUIとの相性は抜群だ。

音声UIが覇権を握る日

　既存のスマートスピーカーからだけでは、VUIの必然性は感じ辛いかもしれない。「使いこなせれば便利なのかもしれないが、生活必需品ではない」というのが大方の意見ではないだろうか。

　しかし、見てきたように「ながら」作業が強いられる場面や、視覚からの情報収集が困難なユーザーにとって、VUIは多くの可能性を秘めている。

　2018年2月13日にビデオリサーチが発表した「Senior＋／ex（シニアプラスエクス）サマリーレポート」とオプションレポート「シニアとデジタル・コミュニケーション」に関するプレスリリースによれば、デジタル関連の調査はあらゆる項目において若年層のスコアがシニアを上回る傾向にあるものの、「スマホの音声検索機能の利用率」に関しては全く逆の傾向を示している。年齢が上がる毎に利用率も高まっており、18～34歳の利用率が5.8％であるのに対して70～74歳は15.7％と、3倍近い開きがある。

　特定の知識を持つユーザーにしか使用できなかったCUIに比べれば、GUIは多くの人にとって視覚的・直感的に使用できるインターフェースだ。しかし、PCやスマートフォンに初めて触れた日のことを思い出せばわかるように、GUIも始めは基本操作や求める機能を呼び出す手順を学ぶ必要がある。ここに加齢による身体機能の衰えも加われば、GUIは「感覚的に使えるUI」とは言い難い。

　これに対し、特別な入力の仕方を学ぶ必要もなく「声をかける」「会話する」という日常的に行っている動作のみで利用できるVUIはシニア層にとって、より取っつきやすいUIなのだろう。加えて、先述のKDDIの調査では、「人前で音声でインターネット検索をするのは恥ずかしい」かどうかという問いに「非常にそう思う」と答えた人の割合が最も少なかったのは、男女共に60代（同調査の対象者は15～69歳）。先進国の中でも深刻な少子高齢化問題を抱える日本では、シニア層からVUIが普及していくのかもしれない。

　音声のみで行えることは限られており、VUIは万能ではない。例えば、音声検索によって読み上げられる結果は基本的に一件だけ。一覧性が無いため、PCやスマートフォンでの検索のように、複数提示された検索結果を自分で見比べて判断するといったことはできない。しかしそれでも、これまで見てきた通りVUIが相応しい場面は存在する。視覚的・触覚的なUIを補うものとして進化していくはずだ。あらゆる人が平等に、同じ質・量の情報を容易にやり取りできる手掛かりとなるUI。VUIを含め、今後の進化を見守りたい。

画面から音声へ。ユーザー体験のパラダイムシフトがもたらすもの

CUI、GUI、そしてVUIへ

現在のVUI応用事例

音声UIが覇権を握る日

最新記事