ベイズ理論の直感的な説明

スパムメールをフィルタリングするプログラムに「ベイズ理論」が使われているというIT系の記事からリンクが張られていたので、いまこちらのページ「An Intuitive Explanation of Bayesian Reasoning」を読み進めているところだ。
ベイズ理論の直感的な説明ということで、かなり分かりやすい解説であることには違いないのだが、最近、英語をほとんど読んでいなかったせいで意外に苦心している。しかし面白いことは確かに面白い。たしか『行動経済学入門』の中にも、古典主義経済学が前提とするほど人間の判断は完全に合理的ではないという論証の部分で、このベイズ理論が登場したと記憶している。
この長い英文の入門記事で、最初の例としてあげられているのは、乳がんとマンモグラフィ検査の例だ。
「マンモグラフィ定期健診に参加する女性の1%が乳がんである。乳がんの女性のうち80%がマンモグラフィで『がんがある』と診断される。しかし乳がんではない女性の9.6%もマンモグラフィで『がんがある』と誤診される。ここにマンモグラフィで『がんがある』と診断された一人の女性がいる。この女性が本当に乳がんである確率はどれくらいか」
この問題に正しく答えられない方は(僕もそうなのだが)、ぜひ上述の「An Intuitive Explanation of Bayesian Reasoning」を読み始めて頂きたい。このベイズ理論とスパムメールのフィルタリングがどう関係するのかは、4分の3くらいを読み進めたところで分かってくる。
僕もまだ最後まで読んだわけではないので、偉そうなことは書けないのだが、ベイズ理論は、ある事象が起こる確率を正しく特定することに対して、何が影響を及ぼし、何が影響を及ぼさないか、そして、影響を及ぼすとすれば、どれくらいの影響を及ぼすかを知るための手がかりになる、らしいのだ。
おそらくは、スパムメールの場合、メールの中にAという単語が含まれる確率が、そのメールがスパムメールであるかどうかの判断にどの程度影響するかを、ベイズ理論を使えば定量的に計算できるのだろう。そして、判断材料となる単語の数を増やしていけば、スパムメールをより正しく特定できるようになる、ということなのだろう。
ともかく最後まで読んでみないことには。以上、「山手線でココだけ」ではないが、ココだけの話、というわけでもないココだけではない話であった。(←『ワールドビジネスサテライト』に取り上げられたら、すぐキーワードを挿入しておく。これも一種の検索エンジン最適化)