音声AIがもたらす言語の標準化
実はこの懸念は、少し前から研究が進んでいた。
たとえば、フロリダ大学の研究者らが2022年に発表した論文では、Amazonのエコー(Alexaと呼ばれる音声認識AIが搭載されている)など、人間の音声を認識・コマンドとして受け入れる端末が社会に浸透することで、人々が「機械に通じやすい発音」をするようになるというシナリオが示されている。
そうした音声認識技術は標準語話者に最適化されており、方言話者の誤認識率が高いためだ。これはちょうど、前述の電話が普及し始めたころの状況に似ていると言えるだろう。
また現在でも、SiriやGeminiなどの音声アシスタントを使う際には、「普段よりもはっきり、ゆっくりしゃべる」ようにしているという人は多いのではないだろうか。
では、Sesamiのように高度な音声AIが普及するとどうなるのか。それを検討した研究結果のひとつが、米ノースイースタン大学のShira Michelを筆頭とする研究チームが、2025年4月に発表した論文である。
この研究チームは、複数の英語の地域方言話者に対し、先進的な音声AIサービス(SpeechifyやElevenLabsなど)を使って実験した。その結果、音声AIが発話する合成音声は、一部の方言話者にとって自分の発音やアクセントを「矯正」されたように感じさせることが明らかになった。
現在の音声AIでは、米国英語や英国英語など「標準」とみなされるアクセントでは非常に自然で高品質な音声を生成できるが、地域独特の方言や訛りにおいては品質や再現性に差があり、そのため利用者が自分の方言が正しく再現されないことに違和感を覚えるケースが見られたのである。
さらにはAIに合わせようとして、自分の話し方を無意識に標準語寄りに変えてしまう被験者も見られたと報告されている。こうした結果を受けて、研究チームは現状のAI音声技術が、社会的に優勢な話し言葉すなわち「標準語」を無意識に強化し、アクセントによる差別を助長しかねないと主張している。