わずか0.2%のアカウントがネット世論の流れを作る
教師あり機械学習とは、人間が対象にラベルを付けることによって教師データ(「お手本」となるデータ)を作成し、それをAIが学習することによって、未知の対象があらわれた時にAIが適切にラベル付けできるようにすることをいいます。今回は、分析対象の投稿から1500件をランダムに抽出し、筆者及び共同研究者が目視で「反自民党」「ニュートラル」「親自民党」のラベルを貼っていきました。これを教師データとしてAIが学習し、残りの50万件以上の投稿に3つのラベルのうちどれかを貼っていくのです。
このようにして、AIによって投稿の分類を行った結果を図表1に示します。結果は、全投稿の過半数(51.7%)が反自民党でした。次いで多いのは、ニュートラル・態度不明に分類される投稿(31.1%)、親自民党に分類される投稿は一番少ないという結果になりました(17.2%)。
反自民党的な投稿約190万件の拡散の様子について、もう少し詳しく見てみましょう。この拡散のもととなったオリジナルポスト約29.3万件は、8万6118のアカウントによってなされました。一人が複数のアカウントを運営していることを度外視すると、10月19日から30日までの間に、少なくとも8万6118人の人が自民党に批判的なポストをしたことになります。
図表2をご覧ください。この図表は、y軸が拡散数、x軸に拡散数が多いアカウントを上位から順に並べています。つまり、一番左端のアカウントは反自民党ポスト拡散数1位(ちなみに拡散数は5万3446です)のアカウント、その右隣り(というより下)は拡散数2位のアカウント……という形となります。ほとんどのアカウントがx軸に平行な直線のように見えるのは、多くのアカウントが拡散数1(つまり一度もリポストされておらず自身の1回のポストのみ)ということを表しています。
この図表から分かることは、少数のアカウントによるオリジナルポストが世論形成の大部分を担っているということです。実際、約190万件の拡散のうち、約52%の拡散数が、わずか200のアカウント(約0.2%)によるオリジナルポストから発生しています。すなわち、少なくとも10月19日から10月30日の投稿においては、0.2%のアカウントが約52%のX世論を作っていたことになります。