「マルチモーダルAI」も大規模「言語」システムで駆動
さて、こんなふうに出力されてきた各国語の「短詩」各々で、画像出力を試みてみましょう。
こうした展開は、因襲的なSTEMやSTEAMとSTREAMMが本質的に異なる創造的な側面の典型と言えるでしょう。
まず英語の「Cherry blossoms bloom, With a school bag on my back, Measuring my height.」を入力してみると・・・。

なぜ子供は1人なのでしょう。英語を読めば理由ははっきりします。
「on my back, measuring my height」などと一人称単数になっているではないですか。
だから子供は1人でイメージが出力される。他方、日本語の「せいくらべ」は子供が複数で比べ合うから数人の子が集まるイメージになる。
入力される「言葉」が違いますから、当然出力も違ってきます。
「マルチモーダルAI」といっても、本質的には「大規模言語システム」で計算しているので、言葉一つひとつが問題になり、言語が変われば出力にも変化が出るわけです。
ということで、次にフランス語で出力してみると・・・。
Les cerisiers fleurissent, Mon cartable sur le dos, Je mesure ma taille.
フランス語の講釈はここでは行いませんが、やはり一人称単数で書かれているので子供は1人、また「cartable」という特定のカバンを指定しているので、そのように描かれます。

さらに中国語の五言絶句
桜 花 爛 漫 時
背 負 小 学 包
自 覚 身 軀 長
相 凌 較 短 長
でイメージを出力してみると、なぜだか分かりませんが、

アニメ風の「日本の」少女が登場してきました。遠方に描かれた神社の鳥居で、風景が「日本」であることが分かります。
この先、カリキュラムは各国語のテキストを付けて「音声動画化」するのですが、今回は紙幅が尽きつつありますので、本稿ではまず「テキスト→イメージ」までの範囲での教育効果を考えてみましょう。