ヤオ族の女性たちがつくり上げた「女書」
たとえば、米ダートマス大学の研究者が、ChatGPTでお馴染みのOpenAI社が開発したLLM「GPT-4turbo」を使って、「NüshuRescue」という仕組みを開発したことを発表している。
NüshuRescueの「Nüshu」とは、日本語では「女書(にょしょ)」と訳されている言語だ。
中国南部の湖南省で使われている言葉で、特に今回の取り組みで焦点を当てているのは、中国の少数民族であるヤオ族で使われている女書である。
その名の通り、女書は女性だけが使用した独自の言語体系で、ヤオ族の女性たちがつくり上げたものとされている。
その目的は、女性が女性同士の交流や自己表現を行うこと。かつてヤオ族の女性は、教育を受ける機会が限られており、そのため漢字に比べて簡単な形状である女書を体系化したと考えられている。
また男性中心社会で抑圧された女性がコミュニケーションするために、秘密の手紙や歌などに用いる言語として使われたことからも、女性たちの連帯や自己表現の手段として確立されていったそうだ。
こうした成り立ちもあり、女書は積極的に広められたり、記録されたりすることが少なく、デジタル化も進んでいない。現在、女書を母語として使う人はおらず、2004年に最後の話者が亡くなったとされている。まさに絶滅の瀬戸際にある言語と言えるだろう。
発表された論文によれば、研究者らはまず、女書500文から成るデータセット「NCGold」を作成。これは同じ意味の中国語の文章が併記されたデータセットで、専門家の考察に基づく、正しい情報がまとめられている。
次にこのデータセットをGPT-4turboに与え、中国語を入力すると、それと同じ意味の女書が出力されるようトレーニングした。ただし出力されるのは、あくまでGPT-4turboが「正しいと考えた」女書の文章であり、正確性は担保されていない。
実際に、この段階で出力された女書の正答率は、およそ49%に留まったそうである。ほぼ絶滅した言語において、出力の半分が正解であるというのはなかなか健闘した方ではないだろうか。とはいえ逆に半分が不正解であるというのも好ましくない状況であり、さらなるデータによるAIのトレーニングが必要であることが認識された。
そこで研究者らは、改めてGPT-4turboに対し、学習データとして使用できるような女書の文章を98件生成させた。これを改めて専門家に検証してもらい、正しい文章とした上で、最初に作成された「NCGold」を補完するデータセット「NCSilver」として整理したそうである。