ワンパターンのノイズをヒトは記憶しない

 例えば、皆さん自身が電車や飛行機に乗った状況を考えてみてください。

 乗ってすぐの頃は、線路をまたぐ「ガタンガタン」といったノイズ、最初はジェットの噪音などうるさくて気になると思います。

 ところが、しばらくするとどうでしょう。あまり意識しなくなりますよね?

「昨日乗った電車のレールの音を覚えているか?」と尋ねられれば、プロの運転士などでもないかぎり、まず覚えていない。

 でも、飛行機に乗っていたら、突然爆音がして、そのまま航路が乱れ、最後は胴体着陸・・・なんて事故があったら、その瞬間の「ボコ」など、異常な音というのは、たった一回しか聴いていないはずなのに、明瞭に記憶に残っていたりしませんか?

 私も2015年、ボストンから成田に帰って来た後、都内への帰路で真っ赤なスポーツカーに突っこまれて死にかける、自動車事故の被害者になったことがあります。

 200キロほどのスピードで爆走してきたスポーツカー、突然開いたピンクのエアバックなど、細かな情景や音を、10年経過した現在でも鮮明に記憶しています。

 ヒトは「微細」な「変化分」を認識・記銘し、記憶、判断の根拠とする・・・。

「微細な変化分」ですから「微分」と呼んでおきましょう。これは実は正確な話になります。

・・・という、視聴覚の脳認知側の結論を先に記しておきます。

 より細かくは、私たちの共同研究者であり、画家としても活躍される塚田稔教授時空間学習則に続いていきます。

 しかし、学部1、2年レベルでは、まず現象を深く知り、感じ考えるのが大事ですから、統計的な解析などの話題はここでも避け、まず現象を詳細に確認することから始めたいと思います。

 個性的な緩急、リズムやテンポの変化に満ちた久米宏氏(でなくても構いません、普通の人間の生き生きとした語り)と比較するとき、生成出力「ゆっくり霊夢」の合成音声はどのような特徴を持っているでしょうか?

「ゆっくり霊夢です」 波形とソナグラム

「単調」なのです、あらゆる点で。

 音の強さ、高さ、アクセント、話すスピード・・・あらゆるものに「ゆらぎ」が少ない。

 また、すべての音素、シラブルを発音するので、軽妙な話術とはなり得ず、べた~っ、のぺ~っとしたしゃべりになっているのが、上に示す音波の「波形」からも「スペクトル」からも明らかでしょう。

 学部3,4年や大学院に進めば、相関解析その他、進んだ算数の道具を使って検証を進め、邦文英文での学会発表、論文投稿、修士や博士の学位取得・・・と進みますが、そういうのはテクニカルな細部で、まずは現象そのものをナイーブに直視するのが、大局を見失わない上で大事です。

 2024年時点で、ネット上に流布する「AIが生成した音声コンテンツ」は、英語だろうと日本語だろうと、言語の違いによらず、すべてこうした「均一な成分」が特徴的で、緩急の変化など「ゆらぎ」の成分は乏しい。

 つまり、それらの音声は、仮に繰り返し耳にしても、飛行機のジェットや電車のノイズ同様、ヒトの記憶には残り難いのです。

 幼い子供たちに、こうした合成音声を聴かせた場合、仮に同じ1時間なら1時間を費やしても、記憶に残る内容は、人語を介した場合より、有為に低くなることが予測されます。

 そのような検証を、実は私たちのラボでは行っています。

「子供にAI音声を聴かせるとバカになる」と書けばやや大げさですが、少なくとも単位時間あたりで脳に記憶、記銘される情報量が少ないことは、学術的に実証することができそうです。