シャロン・バーチュ・マグレイン『異端の統計学ベイズ』

ベイズ統計学の歴史についての本
あくまで歴史なので、ベイズ統計についての説明はあまりないが、関わった人物のエピソードなどが中心となっている。
アレックス・ローゼンバーグ『科学哲学』 - logical cypher scape2ラプラス『確率の哲学的試論』(内井惣七訳) - logical cypher scape2が、ベイズだったので、ベイズの勉強。
統計学の中では、頻度主義というのが主流で、ベイズ派はずっとマイノリティだった。
まず、ベイズ自身がそもそもベイズの定理を公表しておらず、続いて数学的な定式化を行ったラプラスも晩年は頻度主義に転向し、19世紀は完全に頻度主義の時代で、第二次大戦で実際に使われるようになるも軍事機密扱いで世の中に広まらず、戦後少しずつベイズ派が広まり始めるも計算が大変でなかなか実用化されず……
と、ベイズ的な考え方はずっと不遇の日々を送ってきたわけだが、その都度その都度誰かに見出されてきた。
統計学の主流においては、ずっと頻度主義が隆盛を誇っており、ベイズ的な考え方は「非科学的」とされて忌避されてきた。
が、そういう統計学オーソリティがどうなっているのかなんてことは知らない、統計学からすれば周縁の側から、何度となくベイズ的な考え方が採用され、少しずつ力をつけていくという歴史である。


ベイズ的な考え方とは
信念の度合についての確率
原因が何であるかの確率
稀にしか起きないこと、今まで起こってないことに対しての確率
事前確率から事後確率へ、データを与えることによってどのように変化するか
これに対して、頻度主義というのは、今までに起こった大量のデータをもとにそこから確率を出す
データが沢山ある場合は、頻度主義の方がよい
頻度主義が「客観的」であるのに対して、ベイズ主義は「主観的」であるがゆえに、批判された
また、事前確率の設定をどうするかが恣意的になるので、それゆえに忌避された
とはいえ、頻度主義では答えの出しようのないこと(つまり、今まで起こっていなかったことに対しての確率とか)に使えるので、頻度主義では解決できない問題に取り組む人たちは、どうしてもベイズを使うしかなかった
事前確率は、実は何でもいいので、そこらへんで頻度主義を混ぜるとかして、「主観的」という印象を和らげたりするとか、そういう工夫が色々となされてきた



話の本筋と離れるけど、へぇと思ったこと
アメリカの大学には統計学部がある。
核兵器関連の事故起きすぎ(紛失とか起爆用の爆薬が誤爆して放射性物質まき散らすとか)で、核爆弾そのものの誤爆が何で今まで起きてないのかちょっと不思議になるくらい。

  • 第1部 黎明期の毀誉褒貶

第1章 発見者に見棄てられた大発見
第2章 「ベイズの法則」を完成させた男
第3章 ベイズの法則への激しい批判

  • 第2部 第二次大戦時代

第4章 ベイズ、戦争の英雄となる
第5章 再び忌むべき存在となる

  • 第3部 ベイズ再興を志した人々

第6章 保険数理士の世界からはじまった反撃
第7章 ベイズを体系化し哲学とした三人
第8章 ベイズ、肺がんの原因を発見する
第9章 冷戦下の未知のリスクをはかる
第10章 ベイズ派の巻き返しと論争の激化

  • 第4部 ベイズが実力を発揮しはじめる

第11章 意志決定にベイズを使う
第12章 フェデラリスト・ペーパーズを書いたのは誰か
第13章 大統領選の速報を支えたベイズ
第14章 スリーマイル島原発事故を予見
第15章 海に消えた水爆や潜水艦を探す

  • 第5部 何がベイズに勝利をもたらしたか

第16章 決定的なブレークスルー
第17章 世界を変えつつあるベイズ統計学

第1章 発見者に見棄てられた大発見

1740年代〜1764
長老派の牧師であるベイズが、逆確率について考える
仕組みは簡単。まず、推測する、これにデータを与える、より正確な考えに至る。
しかし、ベイズは結局この考えを発表しない
ベイズの死後、友人のプライスによって発表される。
しかし、このときもほとんど話題になっていない

第2章 「ベイズの法則」を完成させた男

1773〜1827
ラプラスは、ベイズとは独立にベイズの理論を見出し(その後、ベイズの論文を読んでいる)、一般的な形での定理を完成させるに至っている。
筆者は、ベイズの法則は、現代風に呼ぶなら、ベイズ−プライス−ラプラス、略してBPLの法則と呼んだ方がよいかもしれない、と言っている。数学的に展開して、社会科学に応用したのはラプラスだった。
ラプラスは、ダランベールのもと、科学者としてのキャリアを歩み出し、若くしてかなり業績をあげる。フランス革命以前のフランスは、教育機関がすごく充実していたらしい。フランス革命では、ラヴォアジェが刑死、コンドルセが獄死しているものの、ラプラスは生き延びて、ナポレオンのもとで大臣になったりしている。
確率論を、天文学や、人口統計調査に応用している。

第3章 ベイズの法則への激しい批判

1827〜1930年代
ラプラスの死後、ラプラスは誤解から攻撃されるようになって、確率論の世界で葬り去られる
一方で、フランス軍の砲術においてベイズの法則は生き延びる
また、20世紀初頭、第一次大戦が始まる前のアメリカでは、電話会社で、交換機の自動化を行うにあたり、また保険会社で、労災の保険料を算出するにあたり、ベイズの法則が使われていた。
イギリスでは、反ベイズ派として、カール・ピアソンと遺伝学者のフィッシャー、さらに、カールの息子エゴンと共に理論を展開したネイマンが出てくる。
この、ピアソン、フィッシャー、ネイマンというのが、ベイズを攻撃したのだが、一方で、フィッシャーとネイマンとの間にも論争があった。
一方で、フランスのボレル、イギリスのラムゼイ(哲学者でもあるラムゼイ)、イタリアのデ・フィネッティが、主観的な信念としての確率の理論をそれぞれ考え出す。ただ、当時は全く注目されていなかった。
1930〜40年代、地球物理学者のジェフリーズが、ただひとり、ベイズを反ベイズ派の攻撃から守っていた。彼は、実はフィッシャーとは友人なのだけど。
フィッシャーは遺伝学者でデータはたくさん持っていた。一方、ジェフリーズは地球物理学者で、扱うものがまれにしか起こらない事例だった
ジェフリーズは穏やかな性格だったので、フィッシャーと友人になれたが、論争ではそれが不利に働いた、とか

第4章 ベイズ、戦争の英雄となる

1939〜1954
ドイツの暗号エニグマを解読するために、チューリングとその弟子のグッドがベイズの法則を使う。
同時期に、品質管理や弾薬調査のために、バーナードやワルドがベイズの法則を応用していた
ロシアでは、コルモゴロフが砲術のためにベイズの法則を使っていた。
イギリスの対ユーボート作戦のための研究が、オペレーションズリサーチと呼ばれて、ここでもベイズの法則が使われた
暗号解読には、コロッサスという世界初のコンピュータも使われていた。
でも、ここらへんのことはみんな軍事機密扱いになる。コロッサスは、ENIACよりも早かったのだけど、軍事機密だったので知られていなかった。
チューリングのその後もご存知の通り。

第5章 再び忌むべき存在となる

1945〜1950年代

第6章 保険数理士の世界からはじまった反撃

1950〜1960年代前半
保険数理士アーサー・ベイリー
もともとフィッシャーの流れの統計学を学んでいたベイリーは、保険料率の設定においてベイズ的な考え方が使われているのに驚いたのだが、色々計算してみると、フィッシャー流よりベイズ的にやった方がいいことがわかり、ベイズ派に転向。

第7章 ベイズを体系化し哲学とした三人

1950〜1960年代
アメリカでは、第二次大戦の経験から、軍事予算が応用数学統計学におりてくるようになる。
グッド、サヴェッジ、リンドレーの3人がベイズを広める
グッドは、チューリングの弟子だった。有能ではあったけれど、性格が独特だったのと、経歴上、軍事機密が多かったので、ベイズ派の中心人物とはならなかった
サヴェッジは、元々ベイズ派ではなかったけれど、ボレル、ラムゼイ、ド・フィネッティの論文を読んで、主観主義へと転向。次第に、ベイズ信者となっていった。
リンドレーは、イギリスでベイズ派の拠点を築いた

第8章 ベイズ、肺がんの原因を発見する

1950〜1979年
国立衛生研究所のコーンフィールドが、疫学にベイズを導入する
コーンフィールドは、もともと学者ではなくて官僚。学位は、歴史の学士しかもっていない。入省後、農務省が運営していた「大学院」で統計学の講座をとっただけである。
で、国立衛生研究所で、肺がんの原因がタバコであるという論文を発表した
フィッシャーらはこれに反発、タバコと肺がんが関係があってもそれは原因とはならないし、タバコ以外の仮説を出して、タバコが原因ではないと反論
しかし、コーンフィールドは、フィッシャーの出した仮説を裏付けるデータがないし、観察されたデータについて実際的な説明が1つしか見つかれなければ、それは原因を見つけたといっていいはずだと反論
さらに、コーンフィールドは、心臓疾患とコレステロールの関係についても研究した
ベイズを使っていたけれど、統計学の論文として出すときは、頻度主義を使っていた
「統計は科学の同衾者(ベッドフェロー)」

第9章 冷戦下の未知のリスクをはかる

1957〜1958
ランド・コーポレーションという、米軍系のシンクタンク
ここで、水爆の事故についての研究が行われていて、サヴェッジェからマダンスキーへとそれが託される
これまで事故は起きていないが、これからも起きないのか、というのが問題
頻度主義だと、これまで起きてないなら、これからも起きないということになる。でも、それはおかしいとマダンスキーは考えた
実際に、核兵器絡みの事故が起きる。
マダンスキーは、事前確率を使って計算し、事故が起きる確率は結構高いということを見出し、軍の安全基準の提案を行った。

第10章 ベイズ派の巻き返しと論争の激化

1957〜1960年代半ば
ベイズ理論の多様化
ベイズ派の中でもベイズを使ってあり
次第に、ベイズと反ベイズの折衷が現実的なのではという路線へ

第11章 意志決定にベイズを使う

1957〜1965年
ベイズ派は、しかし実際的な問題への応用ができていなかった
ハーバード大学ビジネススクールの、シュレイファーとライファは、意志決定に使えるものを探して、ベイズへと行き着く。
決定木や共役事前分布といった、計算を簡単にするための手法を作る

第12章 フェデラリスト・ペーパーズを書いたのは誰か

1955〜1964年
ハーバード大学のモステラー
社会科学などにおいて、どちらなのか判別するような問題を解こうと思っていた。
その例題として、フェデラリスト・ペーパーズの問題に目をつけた。これは、匿名で書いていたために、マディソンが書いたのかハミルトンが書いたのか分からない論文があるという歴史学の問題。
使っている単語の頻度とかを手がかりに、まだまだ使いにくいコンピュータを導入し、ベイズの法則を使ってこの問題を解いた

第13章 大統領選の速報を支えたベイズ

1960〜1980
テューキー
戦中からオペレーションズリサーチに関わり、戦後も軍事研究に関わっていたテューキー。「ビット」や「ソフトウエア」とった言葉を作った人として知られている。
1960年、大統領選速報について、NBCの仕事を受ける。大量のデータとコンピュータを使えるというのが魅力だったらしい。
当時のテレビ局は、大統領選挙の予測で失敗をやらかしていて、世論調査って役に立たないと世間から思われていた。
テューキーは、ベイズ派とも反ベイズ派ともいえる人だった。
明らかにベイズの法則を使っていたのだが、自分の造語をつけていた。
大統領選の予測をよくあてたのだが、ベイズについては箝口令をしいてしまい、ベイズが使われていたことは知られずじまいだった。

第14章 スリーマイル島原発事故を予見

1970〜1981年
70年代はベイズ派停滞の時期。コンピュータが普及していなくて、実際的な問題を解けなかった。また、ベイズ派の中でも色々と立場の違いがあった
ラスムッセンが、原発事故について、ベイズの名前は出来る限り出さずに、しかしベイズの考え方を使って報告書を出す
結果的に、スリーマイル島の事故を予見していた

第15章 海に消えた水爆や潜水艦を探す

1966〜1976
クレイヴンとリチャードソン
スペイン沖で米海軍が水爆を紛失した事故での水爆探し
行方不明になったアメリカ潜水艦探索や、ソビエト潜水艦追尾
これらにベイズ的アプローチを使った
最初から、ベイズをうまく使えたわけではないのだけど、次第に使えるようになっていく
局地有効性確率とか、モンテカルロ法とか

第16章 決定的なブレークスルー

1980〜2008
公衆衛生学や社会学ベイズが使われるようになる。特に、社会学では頻度主義よりも社会学者のやり方とあっていて正確な結果が得られるようになる。1986年のラフテリーの論文は、いまなお社会学でよく引用される。
また、画像処理にも使われるようになる
マルコフ連鎖モンテカルロ法(MCMC)という呼び名が出来る
モンテカルロ法自体は、統計学以外の分野では既に使われていた技法だった
で、このMCMCがどんどん使われるようになり、さらに、BUGSというソフトウェアが開発され、様々な分野に広がっていく
製薬や捕鯨調査にも

第17章 世界を変えつつあるベイズ統計学

ベイズと関係している業績がノーベル経済学賞をとったり
あと、スパムメール除去とか機械翻訳とか、日常的に使われている技術にも使われてたり
とにかくあちこちに広まったよ、と

追記(20140717)

補遺について書くの忘れてた
統計学での論争を宗教的な争いに喩えた文章と
偽陽性について解説文章がついてた

異端の統計学 ベイズ

異端の統計学 ベイズ