音声AIの分野で起きている変化

 近ごろ生成AIの進化が急速に起きているが、それと並行する形で、音声を通じて人間とコミュニケーションするAI、通称「音声AI(voice AI)」にも大きな進化が起きている。

 機械が人間に近づいたときに感じる違和感、いわゆる「不気味の谷」を超えて、ほぼ人間にしか聞こえないという音声で語り掛けてくれるAIも登場しているほどだ。

 たとえば、上の動画では、VRヘッドセットの開発で知られていた米Oculusのブレンダン・イリーブ元CEOらが立ち上げた新たなスタートアップ企業、Sesameが発表した音声AIを実際に使っている様子が紹介されている。

 この動画の1分30秒当たりから、Sesameが同社のウェブサイト上で先月末に公開したデモ用AI「Miles」(マイルズ)と会話しているシーンになる。

 その場面では、「最近、米国に引っ越してきたばかりなんだけど、どうやって知り合いを増やせば良い?」と尋ねるユーザーに対し、Milesは「まずは飛び込んでみなよ」(just hop in)と答えている。

 ユーザーはその答えを途中で遮り、「飛び込んでみろって、つまりどういうこと? もう少し具体的に言って」と尋ね直す。するとMilesは、最初の答えが曖昧だったことを認め、「じゃあ、どんなことに興味がある?」と質問を返している。

 ユーザーはその答えに笑い声を交えて返す。すると、Milesも少し明るいトーンになって……と会話が続いていく。

 このデモから分かるように、Sesameの音声AIは、ユーザーの発話をリアルタイムで認識しており、Sesame側が返答している途中でも、ユーザーはそれを遮って発言できる。またユーザーの発話内容だけでなく、込められている感情も把握して、文脈と感情に応じた反応を返答する。

 さらにこの音声AIは、息遣いや笑い声、言葉の言いよどみや訂正といった、人間特有の「不完全さ」を意図的に模倣している。そういった、単に発話の流ちょうさだけを目指していないところも、不気味の谷を超えたという評価につながっているのだろう。

 もちろん、こうしたAIが進化することには、大きなメリットがあると考えられる。

 インターネットや各種のモバイルツールが進化し、仕事でもPCが欠かせない環境となっているいま、多くのコミュニケーションがテキストベースで発生しているものの、やはり音声を通じたコミュニケーションが人間にとって最も原初的で、馴染みやすいものだ。

 したがって、音声AIはカスタマーサポートやカウンセリングといった場面で活躍が予想されるだけでなく、単なる寂しい時の話し相手にもなってくれるだろう。しかし、機械が人間のようにしゃべるようになったとき、まだ見えていない悪影響が社会にもたらされるかもしれない――。そうした懸念のひとつが、方言の衰退である。