逆効果だった生成AIによるカウンター

 それぞれの反論の投稿後、削除率(ヘイトスピーチ投稿が削除された割合)、ヘイトスピーチ数(反論後、投稿者が新たに投稿したヘイトスピーチの数)、有害度変化率(投稿内容の「有害度」がどれほど変化したか)という3つの観点から、効果が測定された。

 まず全体的な傾向として、効果があったのは「文脈に依存しないカウンタースピーチ」、特にその中で「行動の結果を警告するメッセージ」だった。

 これは要するに、元の投稿内容がどうであれ、「そんな投稿をするとマズいことになるぞ」と指摘するものである。この種類のメッセージは、投稿後のヘイトスピーチの削減率がもっとも高くなっただけでなく、ヘイトスピーチ数、有害度変化率においても効果が認められた。

 では「文脈に依存しないカウンタースピーチ」の「共感を促すメッセージ」ではどうだったかというと、こちらは反論メッセージを一切送られなかった場合と比較して、逆に削減率、ヘイトスピーチ数が悪化する傾向が見られた。ただし有害度変化率については、一定の効果が見られたそうである。

 次に、問題の「文脈に沿ったカウンタースピーチ」だ。こちらはDebunkBotのように、生成AIによってカスタマイズされた反論が行われたわけだが、全体として期待に反する結果となってしまった。

 この場合、「共感を促すメッセージ」と「行動の結果を警告するメッセージ」のいずれにおいても、削減率と有害度変化率が悪化するという傾向が確認された。

 ヘイトスピーチ数については、前者では若干の改善傾向が見られたものの、後者では逆に増加してしまっていた。つまり生成AIによる「文脈に沿ったカウンタースピーチ」は、完全に逆効果で、特に敵対的行動を助長する可能性すら認められたわけである。

 こうした結果について研究者らは、反論される人物(この場合は元のヘイトスピーチを投稿したユーザー)が、その反論がAIによって生成されたと認識した場合、メッセージを「不誠実」「機械的」と感じ、それによって説得力が低下したのではないかと推察している。

 また、反論が投稿者に対して個別にカスタマイズされていると、プライバシー侵害や個人的攻撃と感じられる可能性があるのではないか、という指摘もなされている。その場合、投稿者の敵対心を煽り、さらなるヘイトスピーチを引き起こす恐れすらあるというのだ。

 具体的にどのような心理的メカニズムで反発が起きたのか、詳しい考察にはさらなる研究が必要だが、少なくとも現時点では、「SNS上のデマには生成AIで対抗すれば良い」というような楽観的な姿勢は取らない方が良いかもしれない。