« ケータイ小説 | メイン | トランプに喩えれば »

統計学者が苦手なもの

庄内拓明さんの「知のヴァーリトゥード」(→URL)内の「今日の一撃」に、「統計と直観」という記事がある(→URL)。

そのネタ元になった記事が、「人は統計的な発想が苦手だ」(林康史氏、→URL )。

この元記事には、二つの問題が紹介されている。第一の問題については、私はそもそもの「青いタクシー」と「緑のタクシー」の比率を逆に取り違えていたので誤答した……そもそも統計的発想以前のレベルである(汗)(ま、考え方は間違っていなかったので正答はできたはず)

で、庄内さんのブログで話題になっているのが、もう一つの方の問題。短いので引用しておこう。

【問題】例えば、Aさんに子どもが2人いるとする。うち1人は女の子であることがわかっている。残りが男の子の可能性はどうだろうか。

むろん、面倒なので、男女が生まれる確率は1:1であると仮定する。

とっとと書いてしまうと、答えはもちろん1/2。

……ではなく、2/3であるらしい。

林氏の説明は、こうだ。

【解説】2名の兄弟姉妹として考えられるパターンは、「男・男」「男・女」「女・男」「女・女」の4つであり、それぞれの確率はいずれも「1/2×1/2=1/4」である。つまりそれぞれのパターンの比率は「1:1:1:1」。で、1人が女ということは「男・男」の組み合わせはありえないから、残るは3パターン。そのうち男が含まれるのは2パターンなので、答えは「2/3」。

これが統計的な発想であるらしい。

この「解説」は完全に正しい。つまり、確率が1/2であるような独立事象XとYが続けて2回生じる場合、一方がXであるとき、他方がYである確率はどうか、ということだ(たぶん)。

でも……。どうもおかしい。直観には反している。残りの1人は男か女かしかありえないし、一方が女だからといって、もう一方の確率が変化するわけではないから、確率は1/2に決まっているじゃないか。

なんでだろう。

直観的には、考えられるパターンは林氏の言う「3つ」ではなくて「4つ」なのだ。性別が分かっている子を、ここで「B」と呼んでおくと:

兄B
姉B
 B弟
 B妹

こうして見ると、林氏の【解説】について、あることに気づく。

男が含まれる組み合わせについては、件の「性別既知の子」が長子(姉)であるか次子(妹)であるか区別して2通りと数えているのに(「男・女」「女・男」)、「女・女」という組み合わせについては、長子(姉)であるか次子(妹)であるかを区別していないのである。

むろん、場合分けについても各々の確率についても、これはこれで問題はないのだけど、統計と直観のズレが生じる原因は、このあたりにあるのではないか。

同じ林氏の記事に、こんな説明もある。

任意の「兄弟姉妹」100組を集める(200名)。男女が生まれる比率が半々だとすると、男子100名、女子100名である。その組み合わせは「男・男」「男・女」「女・男」「女・女」の4パターンであり、その比率は1:1:1:1だから、それぞれ25組いることになる。

したがって、「少なくとも1人が女」である組は75組、そのうち「男が含まれる」組は50組、だから男が含まれる確率は3分の2である……というのが、林氏の結論だ。

では、ここで各パターンに含まれる女子の数を考えてみよう。当然ながら「0:25:25:50」である。

さて、この100名の女子から任意の1名を選び、「あなたには男のきょうだいがいますか?」と聞いた場合、答えが「はい」になる確率はどれくらいか? 言うまでもなく、「はい」と答える可能性があるのは50名しかいない。残りの50名は「いいえ、女のきょうだいがいます」と答える。

50/100。確率は1/2。

……あれ、なんだか直観にぴったり来る答えが得られたんですけど?

前提となる(想定上の)現実は、まったく同一である。なのに、なぜ違う結論が出るのか。

要は、【問題】に示された状況を、どのように解釈するかという違いだ。「1人が女の子である場合、このAさんの2人の子供が男女の組み合わせになる可能性はどれくらいか」と読めば、林氏の結論になるだろうし、「この女の子のきょうだいが男である可能性はどれくらいか」と読めば、上述の計算のように私の結論になる(たぶん)。多くの人は、そのように【問題】の状況を解釈したのだろう。

繰り返しになるが、林氏の【解説】はまったくもって正しい。それにもかかわらず、多くの人からの反発を浴びた。そして、反発した人は、その反発の真意をうまく説明できず、林氏に愚弄されてしまうのだ(林氏の態度は「愚弄している」という表現に相当すると思う)。

しかし、反発を招いた原因は林氏自身にある。組み合わせのパターンを数えれば、それだけで【問題】の解釈として事足りると考えて、その内実たる個々の要素を数えていない。「女・女」は25組しかないが、そこには「姉・妹」は50名いる。25組しかないのに、「女のきょうだいがいる」という回答は50件集まるのだ。

結局のところ、林氏はXとかYとか言っていれば良かったのかもしれない。もう一件の問題に関する「質問の仕方が悪い」というクレームに対して、林氏は「国語の読解力も不足している」と斬って捨てているが、果たしてそこに、自身の作文力に対する反省、あるいは「この問題文ならこの統計的解釈が唯一にして十分」という統計学を学んだ者ゆえの思い込みに対する反省はあるのか。

林氏の記事の表題は「人は統計的な発想が苦手だ」であったが、その理由は、「統計的な発想は不自然だから」なのかもしれない。あるいは……まぁいいや、これ以上は言わぬが花だろう。

いずれにせよ、最終的な結論としては、私と林氏はまったく合致している。

本当に、人は、ちゃんと学ぶことができないものだと思う。

トラックバック

このエントリーのトラックバックURL:
http://uta34n.net/cgi/mt3.33/mt-tb.cgi/343

この一覧は、次のエントリーを参照しています: 統計学者が苦手なもの:

» 「家族の破壊」がどうとか言われて「威嚇」される女性と行政 送信元 村野瀬玲奈の秘書課広報室
サイバー政治団体の秘書をやっていて最もむなしくなるのが、意味不明で根拠不明だけどある種の「政治力」がバックにある非民主的で暴力的... [詳しくはこちら]

コメントを投稿

About

2007年12月17日 14:58に投稿されたエントリーのページです。

ひとつ前の投稿は「ケータイ小説」です。

次の投稿は「トランプに喩えれば」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。