「クリぼっち」のバカらしさを統計から攻めてみる
クリスマスといえば、この前Twitterに流れてきたこの画像を見て日本の統計リテラシーの低さを痛感しました。
なにを問題としているか説明するために、まずは統計の手法について復習してみましょう。
日本に暮らしている人のなかでクリスマスをひとりきりで過ごす割合がどれくらいか調べたいと思った時、考えられる方法はざっくり分けて2つあります。
1つめは、日本に暮らしているひと全員に「あなたはクリスマスをひとりぼっちで過ごす予定ですか?^^」と聞いて回ることです。これを全数調査と呼びます。しかし、1.2億人ほどいる対象にそんなことをするのは非現実的です*1。
そんなわけで、ほとんどの計量調査は2つめの手法、標本調査をつかって行われます。全数調査が不可能な場合、母集団(この場合は日本人全体?)の情報をうまく推定するため、構成因子(この場合は個人)を何人か抽出して統計分析を行います。
ここで気をつけなければいけないのが、「どれだけ調査結果を信用できるか?」という問題です。 全数調査の場合は全部の因子を総当りしているので、調査に使われた集団、つまり標本が母集団そのものと等しいわけですから、調査結果は母集団の性質そのものを表していると自信を持って良いでしょう。
しかし、標本調査の場合は、常に標本誤差を意識しなければなりません。これは、標本の集団が母集団の一部である関係上、母集団の真の性質と、標本から得られた性質が必ずしも一致しないことから起きる誤差のことです。たとえば、本来は日本人の中のたった数%しかいないキリスト教徒だけを標本として調査して、そのデータを元に「日本人の100%がキリスト教徒である」と言ってしまう危険性を意識しなければならないということです。
こういう事態を避けるために、標本調査を行う際は必ず標本の偏りを小さくする努力が行われます。それは、一般的に標本に使う因子を無差別に抽出することで成し遂げられます*2。先の例で言えば、1.2億人いる日本人をランダムに調査すれば、おそらくキリスト教徒は100回のうち数回しか出てこないので、そのデータを元により「真の性質」に近いデータを出すことが可能となります。身近なところだと、政党支持率などの世論調査で使われる、無作為に生成した電話番号に電話をかける手法ですね。
以上のことを踏まえて最初の画像を見なおしてみましょう。
僕はこのようなデータをみたときに、「誰が調査したのか?」と「どうやって調査したのか?」の二点が一番気になります。標本調査の場合、それが「どれくらいこのデータを信用できるのか」に関わってくるからです。 この数字の調査元のネオマーケティング社は、インターネット上のアイリサーチというアンケートプラットフォーム上でこんなかんじで調査を行っている会社です。 つまり、アイリサーチのモニターとして登録してアンケートに答えた奇特な方々が調査対象なのですね。おやおや、標本としてめちゃくちゃ偏っていそうですね。
実際の調査レポートを見てみましょう。 こちらからダウンロードできます。https://www.i-research.jp/report_dl/dl68.html
人数は500人、性別は男女およそ半々、年齢層は20代のみ、そして未婚。 未婚の20代に絞った調査とは、日本人全体を推定するにはずいぶん条件が厳しいですね。
結果はこちら。
あれ?「クリスマスに一緒に過ごす異性のパートナーはいますか」?? この質問、クリスマスをひとりぼっちで過ごすのかではなく、一緒に過ごす異性のパートナーの有無を聞いていますね。 もはや調査内容そのものが違っていました。
そしてアイリサーチによる要約文がこちら。
いや〜傑作ですね。クリスマスに異性のパートナーと過ごさない割合の項目のタイトルが「クリスマスに一人きり」ですよ。よっぽどの馬鹿か、よっぽどの悪意をもった馬鹿が書いたのでしょう。そして女性のほうが男性に比べて「クリスマスは異性と過ごす」と答えた割合が高かったというデータの結論(感想?)が「近年、‘草食系男子’という言葉が流行したように、恋愛に奥手な男性が増えているのかもしれません。 」ときました。このデータから非リア男子が増えていることがわかるんですか?^^
以上、当調査の問題をまとめると
- モニター登録者の20代未婚者というめちゃ偏った標本集団
- 少人数(男女約250人ずつ)
- 質問内容と結論の乖離
という感じですね。
いやはや、20代のネットユーザー対象の統計をさも日本人一般の性質と言わんばかりに放映したNHKの統計リテラシーの低さもさることながら、調査元のネオマーケティング社による「クリスマスを異性のパートナーと過ごさないならお前は一人ぼっちだ!」という超論理にも脱帽です。
よいこのみんな、まねしないでね。