最近、統計の専門家の話を聞く機会があったんです。
確率・統計の基本的な説明だったのですが、そこで非常にイイ事を言ってたんです。それは何かというと、
「あるデータの平均値ってのは、そのデータがもつ情報の一つの表現方法に過ぎないんです。」
と言ってたんです。
私はこれを聞いたときに、確かにな!!と頷いてしまったんですよ。
言わずもがな、日本人の平均年収が400万とかいう記事が出ると、イヤイヤ俺の年収はもっと低いぞ。年収高いやつが平均値を引き上げてるはずなんだから中央値を示せよ、騒ぐ人が出てきます。(まあ彼の年収が中央値に近いからと言って、だからどうなんだって話なんですが w)
平均値は「データの総和をデータの数で割った値」。
中央値は「データを小さい値から大きい値まで並べて中央にくる値」。
定義は異なれど、どちらも「分布の真ん中」を示すものです。
ちょっと初心に立ち返って、なんで平均値とか中央値を使うのかを考えてみます。例えば日本国民の年収のヒストグラムのような元データを見てもどの辺が真ん中なのか目で見て正確には分からないから、平均値や中央値を使うんです。
ところが面白いことに、ヒストグラムを見ずに平均値だけを見ると、一部の特集な集団のために平均値が大きくなってしまう点が見抜けない。
じゃあ中央値を見ればいいかというと、確かに中央値の方がヒストグラムの真ん中を示すよい指標にはなるんですが、なぜ平均値と中央値が乖離するかその理由が見えない。
私の考えでは、統計データを分析する際は視覚に訴えるデータの分布と、分布から得られる統計量 (平均値・統計値)の両方をセットで見た方が良い、ということなんです。
「平均値はこうでした」ってニュース記事は確かに分かりやすいんですが、何となく木を見て森を見ずというか、欠落感が否めない。
平均値がミスリードになり得ることはレバレッジの過去記事でも書いてますが、やはりデータの分布に立ち返ってみるのが良いと思います。
つまりヒストグラムのような元データを見ろと言うこと。
マスコミの切り取り報道と似てますね。怪しいと思ったらソースまで調べる方が良い。(個人的な主観を言えばマスコミはやりたい放題だからな・・・。)
関連記事:
Twitterでブログ記事の更新通知を受け取れます: