親自民はリポストを頑張ったが、投稿総数で反自民にはかなわず
一番多い分類は親自民党に分類される投稿でした(8.12回)。次いで反自民党の分類(5.43回)、ニュートラル(4.27回)でした。親自民党派の人たちが、リポストを頑張ったということでしょう。あるいは、親自民党に分類される投稿には、自民党候補者による宣伝ポストも含まれているため、それが突出してリポストされやすく、平均値を引き上げているのかもしれません。
実際に、親自民党に分類される投稿の上位100ポストを分析してみたところ、自民党関係者(自民党候補者、自民党の公式アカウント)による投稿が46件で、約半数を占めていました。その中には、安倍元首相や岸田文雄総理自らの投稿も含まれています(図表4)。投稿の内容は、自民党候補者への投票を呼び掛けるとともに、演説の時間をお知らせするものが多いように見受けられました。
注意が必要なのは、リポスト数という数字に関して、平均値がどの程度代表的か(どの程度情報を要約できているか)という問題です。平均値は、極端に大きい数や極端に小さい数(外れ値)の影響を強く受けてしまいます。従って、仮にそれぞれの投稿のリポスト数は少なくても、ある1つの投稿が極端にバズって何回もリポストされると、平均値は跳ね上がってしまうのです。また、ほとんどの投稿のリポスト数は0なので、その影響も強く受けます。
実際、リポスト数の分布が正規分布(分布の中央付近にデータが集中している山なりの分布のこと)かどうかの検証を行ったところ、正規分布であるとする仮説は棄却されました。つまり、リポスト数の分布が正規分布であった場合、今回のデータのような分布が現れる確率は限りなく小さいということです。
この場合、ノンパラメトリック検定という特殊な統計的検定を行って、各分類におけるリポスト数の水準に差があるかどうかを検定します。その結果、リポスト数の水準の大小関係は、リポスト数の平均値の大小関係と同じ差があることが検証されました。つまり、親自民党>反自民党>ニュートラルという大小関係が支持されました。
以上確認してきたように、リポストに関しては親自民党派の人々が頑張ったものの、トータルの投稿数では反自民党派が圧倒的でした。次にこれを、実際の選挙結果と比べてみましょう。