2022/08/06

待て、あわてるな、これはトウケイの罠だ

ひろゆき氏のディベートでの必殺技のひとつとして「それって何かデータとかあるんですか?」というのがあるけど、最近は、論拠としてのデータを示しつつ論を展開する、というのが増えているよね。
報道なんかでもいろんなデータが出てくるようになったのだ。
そもそも自分に都合のよいデータをうまいこと探してくる、っていうのもあるんだけど、それだけでなく、データには読み方っていうのもあるんだよね。
それが基礎知識として理解できていないと誤解が生じるおそれがあるのだ。

典型的なのは、「国民の貯蓄額」みたいなデータ。
ここで出てくる「平均値」は実態を反映していないことが特に多いのだ。
40代の平均貯蓄額は○○万円でした、みたいな報道が出ると、多くの場合、「え、みんなそんなに貯蓄あるの?」といったコメントがつくんだよね。
でも、これはごく自然なこと。
というのも、この平均額付近の貯蓄額のそうっていうのは人数的には多くなくて、そこそこの数の「お金持ち」と、けっこうな数の「お金なし」の人たちがいて二極化しているから。
ヒストグラムのような手法で貯蓄額の分布を見てみると、定額の方に大きなひとつの山、光学の方にもう一つ小さな山があることが多いんだよね。
こういう場合、単純に平均を取ってしまうと、その山と山の間の、実は人数的にはさほど多くないところに平均値が来てしまうんだよね。

一般に、平均値がその集団のメインボリュームを代表できるのは、分布図を取ったときに大きな山がひとつの場合。
山がひとつでもあまり大きな山でなくなだらかな場合だと、一番人数が多いところから平均がずれてしまうのだ。
そして、山が1つでも極端なはずれ値がないこと。
所得なんかの場合、極端に所得額の多い人が一人いるだけでも平均がずれるんだよね。
例えば、99人の平均所得が100だったところに、100,000の人が一人はいると・・・。
100人になったときの平均所得が1,001になってしまうのだ!
現実世界でも、年間数百万くらいの年収の人が多い中、桁外れな人の年収は数十億円なんてことはあって、この場合、平均年収が数千万円と出てしまうんだよね。
ネットで有名な、平均という概念を壊した「校長」の効果なのだ。

一番盛り上がっているところに平均値が来るのは正規分布に近い分布をしている時なんだよね。
偏差値なんかは平均値からどれだけ離れているかをわかりやすく数値で表したものだけど、例えば小学生に大学入試共通試験の択一型試験を受けさせた場合、学力では問題を解けないので基本はすべてランダムに回答が記入されることとなり、理想型に近い正規分布が得られるのだ。
これはもう運だけの世界で、偏差値が高い人=たまたま運良くマークした箇所が正解になった数が多かった人、ということになるんだよね。
ところが、ある程度解ける問題が混ざってくると、この分布が正規分布から外れてくるのだ。
例えば、超天才だけが解ける試験問題を作ると、ほとんどの人は零点なのに、数人だけ100点をとったりすると、平均は10点と出たりするんだけど、実際には零点と100点の人しかいないのだ。
また、ふたつある問題集のうち、A問題集をやった人は解けるけど、B問題集をやった人は解けないような問題があった場合を考えると、A問題集をやった人の集団とB問題集をやった人の集団の2つの集団の重ね合わせになって、山が2つある分布になったりするんだよね。
こういうときにはあまり平均値や偏差値のような指標が集団の特徴を表さなくなるのだ。

こういう場合、事前に世の中にはふたつの問題集があって、そのどちらかだけをやっている人が試験を受けている、ということが事前にわかっていれば、最初から集団を2つに分けて統計解析ができるんだけど、実際にはそんな単純はないんだよね。
超天才がいるかどうかも超難問の試験をしてみないとわからない。
ヒストグラムを作ってみて、実際の分布の様子を確かめるしかないのだ。
その上で、山が2つあったりすると、何かの要員で集団が2つの層に分かれそうだ、という推測をしていくことになるんだよね。
そういうのを分析するのがまさに「目利き」の技なんだけど。
はずれ値の場合はヒストグラムで明らかに変な一にデータが出てくるので、それを除外してあげればいいのだ。

ではでは、こういう平均値があまり意味をなさないようなとき、この集団の特徴をどうやって表現するか、ということが問題になるよね。
毎回毎回ヒストグラムを書いて載せるというのも大変だし。
こういうときによく使われる簡単な指標が最頻値とか中央値と呼ばれるもの。
平均値(mean)は単純にデータの合計をデータ数で割ったもの。
これに対して、最頻値(mode)は、ヒストグラムを作ったときに、もっともデータの出現数が多かったところ。
そして、中央値(median)は、ちょうど真ん中にあたるデータの値(データが101個あれば上から数えても下から数えても51番目に当たるところ、データが100個の場合は、50番目と51番目の平均。)。
さっきの零点と100点しかいない例だと、どちらも零点になるよ。
中央値の応用技で、さらに分布の様子を知りたいときは、四分位点をとることもあって、上位25%点、50%点(=中央値)、75%点ととることで、なんとなくヒストグラムの様子がわかるようになるのだ。
こういうのが仕えると、ちょっと統計をわかっている人になれるんだよね。

逆に言うと、あんまり説得力のあるデータ出ない場合でも、こういうわかりやすい指標をあえて避けて、本来その集団の特徴を表していないはずの平均値なんかを使って説明する悪い人もいるのだ。
そこまで悪い事例ではないけど、みなさん月々保険料はこれくらいお支払いです、みたいな感じで保険の勧誘時に平均値で説明してくる場合なんかがそう。
保険は入る層と入らない層がまずわかれ、手厚くお金をかける層と、そこそこ入っておけばよい層とその下位分類もあるので、保険料支払額の分布を見ると山がいくつもあるようながたがたの分布図になるはずなのだ。
そんな状態で「平均値」をそのまま使っても、その平均値近くの保険料を納めている人たちは「一般的」とは言えないんだよね。
これは年収別とか、既婚・未婚別とか、条件付で出した値ならまだしも、あれこれ全部ひっくるめての平均じゃほぼほぼ意味のない数字だよ。
データを示せといっても、こういうように読み解く力がないとなんとなくわかった風になってダマされるだけになるんで危険なのだ。

0 件のコメント: