いかにノイズを取り除くか

 ノイズの排除には様々な手法がある。一つの分け方としては、手作業か、それともコンピューターを介したものか、である。SNSを手作業で分析する人がいるのかと驚く人もいるかもしれないし、自分は手作業で分析しているが何が悪いんだと思う人もいるかもしれない。正解はなく、どちらも目的に応じて一長一短がある。

 もう一歩進んだ分け方としては、ファイヤーホース(消火ホース)方式か、キュレーション(展覧)方式か、という違いがあり、これは分析範囲の設定手法に関するものである。

 例えば、2023年のアルゼンチンの選挙情勢についてSNS分析をしたい研究者がいるとする。ファイヤーホース方式を採る場合、研究者はまずその議題「アルゼンチンの選挙」に関わる重要キーワード(アルゼンチン、選挙、ミレイなど)をアルゼンチンの公用語であるスペイン語でリストアップする。その後、ソフトウェアを用いて、それらの単語を一言でも使用しているスペイン語の公開ツイートを全てダウンロードし、それがその研究者の「分析範囲」となる。

本コラムは新潮社の会員制国際情報サイト「新潮社フォーサイト」の提供記事です。フォーサイトの会員登録はこちら

 このファイヤーホース方式では、消火ホースからとめどなく流れる水の如く大量の、関連する単語を含むポストを全て収集して分析範囲とするため、網羅性が高く、「アルゼンチンの選挙に関する言及が先月と比べてどう増減したか」などの分析に向いている。

 課題は、ノイズの確率が高いことである。この例で言えば、「アルゼンチン」という単語を含むツイートを全てダウンロードしてしまうと、そのほとんどがサッカーや、音楽など、選挙とは無関係のものになりうる。たとえ「選挙」と検索しても、その内容は前回のものを含むかもしれないし、アルゼンチンではなくペルーやスペインの選挙関連ツイートを集めてしまうかもしれない。

キュレーション方式やその組み合わせにも長短がある

 その難点をクリアするのがキュレーション方式だ。この方法では、研究者はまず、アルゼンチンの選挙に常に関心をもって頻繁に発信しているSNSアカウントをコツコツと探し出し、リスト化する。次に、ソフトウェアを用いてそれらのアカウントの投稿を全てダウンロードし、それを「分析範囲」とする。

 この方法では信頼あるソースを研究者が、まるで学芸員(キュレーター)のように手作業で集めるので、データの関連性が高くノイズの確率が下がる。特に「アルゼンチンの選挙に関心のある人たちの間で今週は何が注目トピックなのか」などの分析に向いている。課題は、「信頼ある」「関連深い」の定義が研究者の一存に委ねられているので、バイアスが入り込む可能性が高いことである。

 例えば、研究者ならば長年の知識を元にアルゼンチンの与野党の有名議員のSNSアカウントを探すことはたやすいだろうが、一方で「昨年から若者の間でバズり始めた、イグアスの滝の環境保全に情熱を燃やす現地の匿名の大学生のアカウント」などは見落とすかもしれない。SNSならではの新しい、無名の、しかし拡大中のムーブメントを分析に含み損ねれば、新聞を分析するのと何が違うんだという批判を受けかねない。要するに、網羅性という点ではファイヤーホース方式に劣る。

◎新潮社フォーサイトの関連記事
スーダン「最後のアラブの春」の挫折と南スーダン「独裁下の小康」が投げかける問い
金正恩「2024年の施政方針」6つの議題を読み解く
「経済と気候中立」両立へ舵を切った「環境先進国」スウェーデン