ビッグデータという言葉に、近頃ますます脚光が当たっている。雑誌ハーバード・ビジネス・レビューの2012年10月号(英文版)でも、“GETTING CONTROL OF BIG DATA”という特集が組まれている。

 マーケティングの雑誌でビッグデータが取り上げられることは非常に良いことである。また、多くの議論がなされることも望ましい。

 ますます科学的なマーケティングが進むことになるはずである。しかし、課題もある。それは、日本企業のマーケティング担当者中には、統計の専門家、数学の専門家が少なく、基本的なデータの理解に間違いが生じやすい点である。

 そこで、今日は平均値という、一番なじみの多い値のマジックについて、少し考えてみたい。

平均値は、統計の1つの代表値にすぎない

 読者に平均値の定義の説明をする必要はないだろう。だれでも、平均値は計算できるだろうし、報道やビジネスにおいても、例えば、「平成22年度調査の厚生労働省の調査による平均年収は549.6万円」というように、平均や平均値という言葉は頻繁に使われる。

 ところで、皆さんはこの平均値という言葉に違和感を覚えることはないだろうか。

 以下に、4つの分布の例を示す。ここでは、簡単に10点満点のテストの得点における人数の分布ということにしよう。

(1) 中央にピークがある対象分布
(2) 2つのピークを持つ対象分布
 
(3) 中央対象ではあるが、中央にピークのない分布
(4) 分布が0点に一番多いもの
 

 実は、このいずれのデータも、人数は36人、平均点は5点なのである。平均点は同じ5点なのに、(1)と(4)では大きく印象が違うと思う。

 多くの場合、人は平均点5点というと、(1)のような平均点に一番人の多い、ピークが1つの分布を頭の中に描くのではないだろうか。まさか、最初から(2)から(4)、いやそれ以外の分布を想像するのは、あまり自然な発想ではないかもしれない。

 しかし、事実は(1)から(4)すべてが平均点は5点なのだ。