AIによる偏見が生じる理由

 たとえば、スタンフォード大学の研究者らは、2023年7月に発表した論文の中で、そうした技術は「英語のネイティブスピーカーではない人々による英文を、AIが作成したものとして誤って分類することが多く、公平性と頑健性について懸念が持たれている」と結論付けている。

 また同じくスタンフォード大学の研究者らによる別の研究では、生成AIのエンジンに相当する技術であるLLM(大規模言語モデル)について、それが「方言偏見という形で隠れた人種差別を体現しており、アフリカン・アメリカン・イングリッシュ(AAE)の話者に対する人種言語学的ステレオタイプを示すこと」が確認されたと述べている。

 そしてこの偏見により、LLMが「AAE言語話者に人々があまりやりたがらない仕事を割り当てたり、裁判において彼らを有罪にしたり、死刑判決を下したりする」可能性すらあると指摘している。

 なぜこのような誤差が生じるのか。それは現在の生成AIが依拠するデータの多くが、白人の英語話者によって作成された各種コンテンツであるためだ。

 生成AIの開発には膨大なデータが必要になる。AIに過去のデータを学ばせ、それに基づいて考えられるように教育するためだ。ただ、それに求められるデータ量は、短期間で新しく生み出せるような規模ではない。そこで多くの生成AI開発企業が、ネット上に存在するコンテンツや、既存のメディア企業によって生み出されたコンテンツに頼っており、その作成者の中心が白人の英語話者というわけである。

 その結果、非白人や非ネイティブスピーカーを対象とした分析が行われる場合、結果の精度が白人・ネイティブスピーカー系を対象とした場合と比べて落ちるという状況になっている。それが何らかの問題を引き起こすという懸念が、杞憂ではなく、現実の学校の中で起きているということが、コモン・センス・メディアの調査結果によって示されていると言えるだろう。

 学校の宿題に関して先生から勘違いされて、怒られる程度であれば、さほど問題ではないだろう。しかし、期末の成績を決定するような重要な場面で誤検知が行われたとしたら、そして生徒に申し開きの場が与えられないとしたら、AIが行った差別的判断が、生徒の一生を左右することになってしまう。

 いうまでもなく、生成AIは非常に便利な技術であり、人類や社会の未来を大きく改善する可能性があると言っても過言ではない。しかしそれは今回のような偏見、あるいはハルシネーション(生成AIが生み出す誤回答)といった問題を抱えていること、常に頭の片隅に置いておく必要がある。

 特に他人の人生に大きな影響を与える場合には、必ず人間による再確認や当事者による反論の機会を設けるといった対策を整備しておくことが、その推進者には求められるだろう。

【小林 啓倫】
経営コンサルタント。1973年東京都生まれ。獨協大学卒、筑波大学大学院修士課程修了。
システムエンジニアとしてキャリアを積んだ後、米バブソン大学にてMBAを取得。その後コンサルティングファーム、国内ベンチャー企業、大手メーカー等で先端テクノロジーを活用した事業開発に取り組む。著書に『FinTechが変える! 金融×テクノロジーが生み出す新たなビジネス』『ドローン・ビジネスの衝撃』『IoTビジネスモデル革命』(朝日新聞出版)、訳書に『ソーシャル物理学』(草思社)、『データ・アナリティクス3.0』(日経BP)、『情報セキュリティの敗北史』(白揚社)など多数。先端テクノロジーのビジネス活用に関するセミナーも多数手がける。
Twitter: @akihito
Facebook: http://www.facebook.com/akihito.kobayashi