「マルチモーダルAI」も大規模「言語」システムで駆動

 さて、こんなふうに出力されてきた各国語の「短詩」各々で、画像出力を試みてみましょう。

 こうした展開は、因襲的なSTEMやSTEAMとSTREAMMが本質的に異なる創造的な側面の典型と言えるでしょう。

 まず英語の「Cherry blossoms bloom, With a school bag on my back, Measuring my height.」を入力してみると・・・。

 なぜ子供は1人なのでしょう。英語を読めば理由ははっきりします。

「on my back, measuring my height」などと一人称単数になっているではないですか。

 だから子供は1人でイメージが出力される。他方、日本語の「せいくらべ」は子供が複数で比べ合うから数人の子が集まるイメージになる。

 入力される「言葉」が違いますから、当然出力も違ってきます。

「マルチモーダルAI」といっても、本質的には「大規模言語システム」で計算しているので、言葉一つひとつが問題になり、言語が変われば出力にも変化が出るわけです。

 ということで、次にフランス語で出力してみると・・・。

Les cerisiers fleurissent, Mon cartable sur le dos, Je mesure ma taille.

 フランス語の講釈はここでは行いませんが、やはり一人称単数で書かれているので子供は1人、また「cartable」という特定のカバンを指定しているので、そのように描かれます。

 さらに中国語の五言絶句

桜 花 爛 漫 時 
背 負 小 学 包 
自 覚 身 軀 長 
相 凌 較 短 長 

 でイメージを出力してみると、なぜだか分かりませんが、

 アニメ風の「日本の」少女が登場してきました。遠方に描かれた神社の鳥居で、風景が「日本」であることが分かります。

 この先、カリキュラムは各国語のテキストを付けて「音声動画化」するのですが、今回は紙幅が尽きつつありますので、本稿ではまず「テキスト→イメージ」までの範囲での教育効果を考えてみましょう。