庄内拓明さんの「知のヴァーリトゥード」(→URL)内の「今日の一撃」に、「統計と直観」という記事がある(→URL)。
そのネタ元になった記事が、「人は統計的な発想が苦手だ」(林康史氏、→URL )。
この元記事には、二つの問題が紹介されている。第一の問題については、私はそもそもの「青いタクシー」と「緑のタクシー」の比率を逆に取り違えていたので誤答した……そもそも統計的発想以前のレベルである(汗)(ま、考え方は間違っていなかったので正答はできたはず)
で、庄内さんのブログで話題になっているのが、もう一つの方の問題。短いので引用しておこう。
【問題】例えば、Aさんに子どもが2人いるとする。うち1人は女の子であることがわかっている。残りが男の子の可能性はどうだろうか。
むろん、面倒なので、男女が生まれる確率は1:1であると仮定する。
とっとと書いてしまうと、答えはもちろん1/2。
……ではなく、2/3であるらしい。
林氏の説明は、こうだ。
【解説】2名の兄弟姉妹として考えられるパターンは、「男・男」「男・女」「女・男」「女・女」の4つであり、それぞれの確率はいずれも「1/2×1/2=1/4」である。つまりそれぞれのパターンの比率は「1:1:1:1」。で、1人が女ということは「男・男」の組み合わせはありえないから、残るは3パターン。そのうち男が含まれるのは2パターンなので、答えは「2/3」。
これが統計的な発想であるらしい。
この「解説」は完全に正しい。つまり、確率が1/2であるような独立事象XとYが続けて2回生じる場合、一方がXであるとき、他方がYである確率はどうか、ということだ(たぶん)。
でも……。どうもおかしい。直観には反している。残りの1人は男か女かしかありえないし、一方が女だからといって、もう一方の確率が変化するわけではないから、確率は1/2に決まっているじゃないか。
なんでだろう。
直観的には、考えられるパターンは林氏の言う「3つ」ではなくて「4つ」なのだ。性別が分かっている子を、ここで「B」と呼んでおくと:
兄B
姉B
B弟
B妹
こうして見ると、林氏の【解説】について、あることに気づく。
男が含まれる組み合わせについては、件の「性別既知の子」が長子(姉)であるか次子(妹)であるか区別して2通りと数えているのに(「男・女」「女・男」)、「女・女」という組み合わせについては、長子(姉)であるか次子(妹)であるかを区別していないのである。
むろん、場合分けについても各々の確率についても、これはこれで問題はないのだけど、統計と直観のズレが生じる原因は、このあたりにあるのではないか。
同じ林氏の記事に、こんな説明もある。
任意の「兄弟姉妹」100組を集める(200名)。男女が生まれる比率が半々だとすると、男子100名、女子100名である。その組み合わせは「男・男」「男・女」「女・男」「女・女」の4パターンであり、その比率は1:1:1:1だから、それぞれ25組いることになる。
したがって、「少なくとも1人が女」である組は75組、そのうち「男が含まれる」組は50組、だから男が含まれる確率は3分の2である……というのが、林氏の結論だ。
では、ここで各パターンに含まれる女子の数を考えてみよう。当然ながら「0:25:25:50」である。
さて、この100名の女子から任意の1名を選び、「あなたには男のきょうだいがいますか?」と聞いた場合、答えが「はい」になる確率はどれくらいか? 言うまでもなく、「はい」と答える可能性があるのは50名しかいない。残りの50名は「いいえ、女のきょうだいがいます」と答える。
50/100。確率は1/2。
……あれ、なんだか直観にぴったり来る答えが得られたんですけど?
前提となる(想定上の)現実は、まったく同一である。なのに、なぜ違う結論が出るのか。
要は、【問題】に示された状況を、どのように解釈するかという違いだ。「1人が女の子である場合、このAさんの2人の子供が男女の組み合わせになる可能性はどれくらいか」と読めば、林氏の結論になるだろうし、「この女の子のきょうだいが男である可能性はどれくらいか」と読めば、上述の計算のように私の結論になる(たぶん)。多くの人は、そのように【問題】の状況を解釈したのだろう。
繰り返しになるが、林氏の【解説】はまったくもって正しい。それにもかかわらず、多くの人からの反発を浴びた。そして、反発した人は、その反発の真意をうまく説明できず、林氏に愚弄されてしまうのだ(林氏の態度は「愚弄している」という表現に相当すると思う)。
しかし、反発を招いた原因は林氏自身にある。組み合わせのパターンを数えれば、それだけで【問題】の解釈として事足りると考えて、その内実たる個々の要素を数えていない。「女・女」は25組しかないが、そこには「姉・妹」は50名いる。25組しかないのに、「女のきょうだいがいる」という回答は50件集まるのだ。
結局のところ、林氏はXとかYとか言っていれば良かったのかもしれない。もう一件の問題に関する「質問の仕方が悪い」というクレームに対して、林氏は「国語の読解力も不足している」と斬って捨てているが、果たしてそこに、自身の作文力に対する反省、あるいは「この問題文ならこの統計的解釈が唯一にして十分」という統計学を学んだ者ゆえの思い込みに対する反省はあるのか。
林氏の記事の表題は「人は統計的な発想が苦手だ」であったが、その理由は、「統計的な発想は不自然だから」なのかもしれない。あるいは……まぁいいや、これ以上は言わぬが花だろう。
いずれにせよ、最終的な結論としては、私と林氏はまったく合致している。
そのネタ元になった記事が、「人は統計的な発想が苦手だ」(林康史氏、→URL )。
この元記事には、二つの問題が紹介されている。第一の問題については、私はそもそもの「青いタクシー」と「緑のタクシー」の比率を逆に取り違えていたので誤答した……そもそも統計的発想以前のレベルである(汗)(ま、考え方は間違っていなかったので正答はできたはず)
で、庄内さんのブログで話題になっているのが、もう一つの方の問題。短いので引用しておこう。
【問題】例えば、Aさんに子どもが2人いるとする。うち1人は女の子であることがわかっている。残りが男の子の可能性はどうだろうか。
むろん、面倒なので、男女が生まれる確率は1:1であると仮定する。
とっとと書いてしまうと、答えはもちろん1/2。
……ではなく、2/3であるらしい。
林氏の説明は、こうだ。
【解説】2名の兄弟姉妹として考えられるパターンは、「男・男」「男・女」「女・男」「女・女」の4つであり、それぞれの確率はいずれも「1/2×1/2=1/4」である。つまりそれぞれのパターンの比率は「1:1:1:1」。で、1人が女ということは「男・男」の組み合わせはありえないから、残るは3パターン。そのうち男が含まれるのは2パターンなので、答えは「2/3」。
これが統計的な発想であるらしい。
この「解説」は完全に正しい。つまり、確率が1/2であるような独立事象XとYが続けて2回生じる場合、一方がXであるとき、他方がYである確率はどうか、ということだ(たぶん)。
でも……。どうもおかしい。直観には反している。残りの1人は男か女かしかありえないし、一方が女だからといって、もう一方の確率が変化するわけではないから、確率は1/2に決まっているじゃないか。
なんでだろう。
直観的には、考えられるパターンは林氏の言う「3つ」ではなくて「4つ」なのだ。性別が分かっている子を、ここで「B」と呼んでおくと:
兄B
姉B
B弟
B妹
こうして見ると、林氏の【解説】について、あることに気づく。
男が含まれる組み合わせについては、件の「性別既知の子」が長子(姉)であるか次子(妹)であるか区別して2通りと数えているのに(「男・女」「女・男」)、「女・女」という組み合わせについては、長子(姉)であるか次子(妹)であるかを区別していないのである。
むろん、場合分けについても各々の確率についても、これはこれで問題はないのだけど、統計と直観のズレが生じる原因は、このあたりにあるのではないか。
同じ林氏の記事に、こんな説明もある。
任意の「兄弟姉妹」100組を集める(200名)。男女が生まれる比率が半々だとすると、男子100名、女子100名である。その組み合わせは「男・男」「男・女」「女・男」「女・女」の4パターンであり、その比率は1:1:1:1だから、それぞれ25組いることになる。
したがって、「少なくとも1人が女」である組は75組、そのうち「男が含まれる」組は50組、だから男が含まれる確率は3分の2である……というのが、林氏の結論だ。
では、ここで各パターンに含まれる女子の数を考えてみよう。当然ながら「0:25:25:50」である。
さて、この100名の女子から任意の1名を選び、「あなたには男のきょうだいがいますか?」と聞いた場合、答えが「はい」になる確率はどれくらいか? 言うまでもなく、「はい」と答える可能性があるのは50名しかいない。残りの50名は「いいえ、女のきょうだいがいます」と答える。
50/100。確率は1/2。
……あれ、なんだか直観にぴったり来る答えが得られたんですけど?
前提となる(想定上の)現実は、まったく同一である。なのに、なぜ違う結論が出るのか。
要は、【問題】に示された状況を、どのように解釈するかという違いだ。「1人が女の子である場合、このAさんの2人の子供が男女の組み合わせになる可能性はどれくらいか」と読めば、林氏の結論になるだろうし、「この女の子のきょうだいが男である可能性はどれくらいか」と読めば、上述の計算のように私の結論になる(たぶん)。多くの人は、そのように【問題】の状況を解釈したのだろう。
繰り返しになるが、林氏の【解説】はまったくもって正しい。それにもかかわらず、多くの人からの反発を浴びた。そして、反発した人は、その反発の真意をうまく説明できず、林氏に愚弄されてしまうのだ(林氏の態度は「愚弄している」という表現に相当すると思う)。
しかし、反発を招いた原因は林氏自身にある。組み合わせのパターンを数えれば、それだけで【問題】の解釈として事足りると考えて、その内実たる個々の要素を数えていない。「女・女」は25組しかないが、そこには「姉・妹」は50名いる。25組しかないのに、「女のきょうだいがいる」という回答は50件集まるのだ。
結局のところ、林氏はXとかYとか言っていれば良かったのかもしれない。もう一件の問題に関する「質問の仕方が悪い」というクレームに対して、林氏は「国語の読解力も不足している」と斬って捨てているが、果たしてそこに、自身の作文力に対する反省、あるいは「この問題文ならこの統計的解釈が唯一にして十分」という統計学を学んだ者ゆえの思い込みに対する反省はあるのか。
林氏の記事の表題は「人は統計的な発想が苦手だ」であったが、その理由は、「統計的な発想は不自然だから」なのかもしれない。あるいは……まぁいいや、これ以上は言わぬが花だろう。
いずれにせよ、最終的な結論としては、私と林氏はまったく合致している。
本当に、人は、ちゃんと学ぶことができないものだと思う。