先述の[ベイズ推定の一般公式]の構成要素らにあって[ベイズ更新]のプロセスが働くということはいかようなことなのかについての概説的説明として
(先立っての頁よりベイズ確率論の根幹をなす要素である[事後確率][事前確率][尤度]にまつわっての解説をなしはじめているわけではあるも、それら概念が核となる確率論分析をいかように進めていくのか、その説明の部に入る)
(つい最前の段での言及事項、その整理のための図として)
さて、[事後確率][事前確率][尤度]がいかようにベイズ確率論にあって重要なものとなるのか、その解説をこれよりなす。
ここで再度もってして繰り返すが、
[事後確率]
および
[事前確率]
との言葉でもって
[P(H|D) ―特定のデータ(D)がそこにある場合、そのデータによって特定仮説(H)の確率的具現化度合いが規定されきっている場合の確率;[DならばHであるとの条件付き確率]― ]
および
[P(H) ―特定の仮説H具現化の確率とあらかじめ想定される確率― ]
をとらえるとのことがベイズ確率論の特色をなすと直前の段にて言及したわけだが、そうもしたベイズ確率論の肝となるところは、である。 [事後確率]、先立っての段でその式としての意味合い・成り立ちについて順を追って細々と解説なしてきたとのベイズ推定モデルにおける一般公式たる、
P(Hx|D)=P(D|Hx) × P(Hx) / ( P(H1) × P(D|H1) + P(H2) × P(D|H2) + P(H3) × P(D|H3) + ・・・ + P(Hn) × P(D|Hn) ) ・・・・ [14] (仮説(ないし特定の事柄が起こる原因)がH1からHnまでのn個だけ存在すると想定される場合にあって特定のデータ(D)が与えられた際、そちらデータによって(H1からHnのうちの)仮説Hxが正しいものと示される割合を呈示しているとの式)
の(左辺にあっての)P(H|D)として規定されるものでもあるそちら[事後確率]の検証が[確率分析プロセスにあたってのデータ連続顧慮]にあって活かせるとのことにある。
以上のこと、ベイズ確率論の肝となるところが
[事後確率が確率分析プロセスにあたっての連続データ顧慮に活かせるとのことにある]
とのことについて順次説明をなす。
まずもって先立ってその適用なしようについて解説してきた[14]式を用いて特定のデータが得られた場合にあって各仮説H(仮説H1からHnのn個の仮説ら)がその原因ともいうべき紐付き度合いでそちらデータの背後に控えているとのことを算定したとみたとしよう。詰まるところそれは、なんのことはない、特定データ(D)に対するP(H1|D)からP(Hn|D)の値を求めたに等しいわけではあるが、の後、追加のデータが出てきたすればどうか。
ベイズ確率論の特質をなすことだが、そこで、追加のデータが出てきた時点で直前求めもした事後確率(P(H|D))をもってして
[「所与の」(既に確定している)確率的状況]
に仕切り直しして見、それを続いてのデータ顧慮時にあっての[事前確率] (再述するが、[事前確率]はP(H)にて示されるものとなり、その意味するところはある仮説Hが成り立つ可能性を指す)に仕切り直して代入するとのことをなすのである(:[直前データにまつわるものとして求めた事後確率 ―あるデータが得られた折に、によって、特定の仮説が成りたつと判じられる確率(P(H|D))― ]を[次データにまつわる確率計算での事前確率 ―特定の仮説が成り立つ可能性としてあらかじめ顧慮されているところの確率(P(H))― ]に仕切り直ししての計算をなす、従前[事後確率]の新規[事前確率]への採用をなす、とのことをなすのである)。
特定データ(D)が捕捉された折、その原因であるといった紐付き度合いで特定の仮説(たとえばハイポーセシスxたるHx)が成り立つ可能性P(Hx|D)が既に捕捉されているとの状況でその事後確率の値を仮説xが成り立ついわばもってしての素地たるP(Hx)に代入し、「一連の」確率的状況の分析プロセスにあたっての続いてのデータ捕捉時の事前確率ととらえての確率分析をなそうというわけである。
(:直上表記の数式処理 ―従前[事後確率]の新規[事前確率]に向けての採用(代入)をなすとのベイズ確率論の特色たる数式処理― の背景にある思考法(この場合、思考法というが、それは[数学という純粋理論の世界にあっての数式処理のアイディア]との極めて厳密なものとご理解いただきたい)についてであるが、それは
[【事象】 (先立って定義したようにサイコロを振った折の賽の目の出目が1である、2であるといったその確率的ありようが問題になる[試行]に対応する結果が【事象】だ) の束がそこにある]
とのありよう、そう、いくつもいくつもデータとしての【事象】が導出されてくるとの環境 ―確率論の分析対象としての環境― がある中でそうした続々と捕捉されてくるデータ (【事象】ないし【事象】選り分けの基礎となる情報) と紐付きうるものとして顧慮される【仮説】ら (それら自体の中身はあらかじめ計数的に硬直的に定義されている【仮説】らでもある) のどれが最もデータ現出動向に適合しているのか、絶えず状況を仕切り直しながら考える思考法とも言える。
が、などと詰め込みすぎのきらいがあるかたちで書いてもイメージしづらいことか、とは当然に思う。
であるから、できるだけイメージしやすいようにつとめて書きもすれば、そう、物事を出来るだけ分解・単純化して説明するとのやりようにて書きもすれば、(直上言及のこと、ベイズ確率論では従前[事後確率]の新規[事前確率]への採用をなすとのことをなすとのことについては)、次のような説明がなせもするところである。
第一。
「ベイズ確率論にあって顧慮される仮説(ら) ―Hypothesisの頭文字を取ってのHら― に各々いかような意味での違いがあるのか、とのことについてから説明しはじめる(仮説らH1とH2を分かつのは何か、とのことについてから説明しはじめる)。確率論における仮説らに差異性をもたらすものはなにかだが、一言で述べれば、それは尤度(ゆうど)設定である。たとえば、サイコロの目を振った場合に1から6の目が均等に出る等等との予測に依拠して[尤度(ゆうど)]が設定され、その尤度の計数的ありよう「のみ」が(ベイズ推定における)仮説らの違いをもたらしているとのかたちとなっている。
と、述べはしても、当該の分野に明るくはないとの向きにはまだ、お分かりいただけないかとも思う。
であるから、よりもって噛み砕いて述べるが、まずもって尤度(ゆうど/Likelihood)とは(先述なしてきたところでもあるのだが)不変の値としてあらかじめ仮説毎に設定されているとのものであり、数式上の要素としては、(先立っても述べているように)、
【P(D|H)(高校生程度の知識でその導出の仕方、数式上の意味合いを先程来、延々解説してきたとのベイズ推定一般公式である[14]式の右辺の一部を構成するP(D|H))】
の部のことを指しもする、すなわち、[尤度]とは
【ある仮説(H)が成り立つ場合に特定データ(D)もがそれと紐付けられて具現化するとの条件付き確率(極めて基本的なところからその一般公式(先述の[2]式)の意味合いを解説してきた条件付き確率)】
のことを指しもする。
ベイズ確率論でそうもした[尤度]に基づいて仮説の差異性が規定されているということについては、単純化させて述べれば、サイコロの1から6の目の出方(データたる【事象】)を問題視しているとのケースでは
【[尤度]としてのP(D|H)について [P(賽の目の出目が1であるデータ|H)] から [P(賽の目の出目が6であるデータ|H)] と計6通りのサイコロの目の具現化確率が仮説設定者によって「各仮説毎に」主観であらかじめ事前に不変なるものとして定められている】
とのその状況を指しもする。そう、たとえば、分析者が自儘(じまま)に目分量で設定しての仮説1では1から6の目が均等に出ると推定しているから、[P(賽の目の出目が1であるデータ|H1)]から[P(賽の目の出目が6であるデータ|H1)]の条件付き確率(1から6の目の出方にまつわっての尤度)のすべてが1/6に設定されている (換言すれば、「H1」との仮説がまず先に顧慮されるとの状況で個々のデータ(目の出方)が具現化する可能性たるP(D|H1)は6通り設定されており、それらはすべからく6分の1であるとのかたちになる) とのことになる。 対して、仮説2ではサイコロの2の目に微妙な重さの分銅が仕組まれている「かもしれない」から、2を除く1から6の目の出目の出方は13分の2、2だけ13分の3で出るといった(そうした按配でカモ(犠牲者)をひんむくために仕組まれた悪辣なイカサマ賭博での1から6の目の出方、計100%となる配分が決せられている)かたちでの[推定]をなしての尤度設定をなす。
この段階ではまだイメージいただけないかもしれないが(後に仮説の尤度設定のなしよう、そしてその具体的計算での利用については細かくも解説する)、ベイズ推定の分野ではそうもして仮説らが純・計数的に定義されている ―計数的に硬直的にあらかじめ定義されもするそれら仮説らについては(計算リソースが追いつくのなら)10個でも1000個でも何個、仮説設けてもいい.なんにせよ[14式]でもってしてデータの捕捉動向([事象]の捕捉動向)に応じて死に堪える仮説ら、検討に値する仮説らの違いはおのずと次第次第に見極めがついてくる(その見極めプロセスがどういうものになるのかについても具体的手法込みで後に呈示する)― 」。
第二。
「上に言及のように(ベイズ確率論にみる)仮説らは ―尤度というものに応じて― 計数的に定義されているわけだが、そう、(ベイズ確率論にみる)仮説らはあらかじめ分析者に指定されているそちら尤度(P(D|H))に応じてのみ独自な顔を持つものとして定義されているわけだが、要はそうもした仮説らのうちどれが[現実世界のデータの束のありよう]に一番近しくもあるのかの近似的判断がなされる、それこそが[ベイズ推定]となるとのことである。
サイコロの出目に関しての仮説定立があらかじめ予測されてなされている状況であれば、何度もサイコロを振り続ける、でもってして、1から6の目の出方との事象がどういう傾向で現実世界にあって出るかに応じてどの仮説が適切なのか(言い換えれば、どのような尤度が現実的状況に最も近似的に設定されていると言えそうなのか)が計られるわけであるが、といった思考プロセスの中ではデータは連続して顧慮されることが「はなから折り込み済み」である、というより、データは連続して顧慮されなければ、仮説らの現実的近似性度合いの検討は「はなからなせない」との発想がある。
データは次々と入力されてこそのものとして顧慮されるとは述べるが、そも、そこにいうデータとは何か。詰まるところ、それは【事象】である。
その【事象】が明確に定義されていることが
[単純な離散的なる対象を想定しての確率論]
を展開するうえにあってマスト、不可欠であるとは本稿の先立っての段でも詳述しているわけだが(そもそもサイコロの目が1から6であること自体があやふやならば本稿で取り上げるような確率論の対象にはならないとは細かくも先立って解説しているとおりである)、 そのありようが明確に定義されている場合、【事象】たるデータが次々と特定されてくる状況では仮説の検証プロセスにあって先立ってのデータの事後確率を次のデータ特定時にあっての事前確率に代入するとの発想・思考法が「自然なるもの」として出てくる。
聡い向きはここまでの話でお分かりいただけていることかもしれないと思うのだが、
(先立ってもそうした言われようを引いているところとして)
[トマス・ベイズとの18世紀の牧師、次いで、フランス人数学者ラプラスが強力な単純ながらも強力な数式を案出した]
とのことは詰まるところ、そういう発想・思考法とワンセットとなる(とも本当にベイズ確率論が理解できている向きには分かりもする)ところとなりもし、そのことは各仮説が硬直・不変なるものとして尤度に(先述のように)規定されきったものとして存在しているとのその中で、硬直不変なるそれら仮説がいかに現実的状況に合致しているのか、合致していないのかについて先行するデータらの具現化度合いから絶えず修正されて考えられていきもする、仮説の存立性向にまつわる目分量は(仮説らそれ自体が硬直的なものであっても)絶えずもってして「状況修正」されていくとのことと同義となる ―再三再四述べるが、死に絶える仮説(適切な尤度設定をなしていない仮説)と検証に値する仮説(より現実的状況に近似的な尤度設定をなしている仮説)の見極めがついてくる― 。
先立って導出方法と数式の意味合いを段階的に解説していったベイズ推定の一般式([14]式)の左辺に相当するP(H|D)、すなわち、
[Dの具現化状況が確実にH成立に直結している確率](DならばHの条件付き確率)
は
[あるデータの顧慮時にあっての「事後」確率 ―特定データ入力時に「事後的に」導出されてくるとの各々の仮説成立にまつわっての確率― ]
を厳として意味するのだが、その事後確率の導出によって各々、硬直的に存在しているとの仮説らのありえやすさのトレンドに対する目分量は絶えず変化していくことになる (:数式に依拠して表現すると、P(Hx)、「一連のデータの出方の配分比率たる尤度によって各々ユニークさを呈している」仮説Hxらが「一連のデータ」の背後にあって成立していると「事前に」見繕われているとのその確率P(Hx)が変化するとの状況が具現化する)。
サイコロの目が2ばかり出てきたらば、サイコロの目に分銅など入っていないと想定するH1の成立可能性は次第次第に縮減していく、そして、サイコロの2の目に分銅が仕組まれていると考えるH2などの別仮説の成立見込みが相対的に多め多めに見られていく、そういうことになるとのことである (ここで理解しているとの向きには思い出していただきたい、理解していないとの向きにはそこからして確認いただきたいところでもあるだが、本稿で既に意味合いを解説しているベイズ推定における一般式である[14]式、[事後確率](と呼び慣わされてのもの)をそれひとつで右辺に置く同式は[複数ある仮説のうち、どの仮説がどのような比率で成立しやすいのか、成立しにくいのかとの総計100%を想定しての中での相対的仮説成立度合いにまつわる式]となる) 。
そうもした各仮説のトレンド変化を適正に一連のデータ(がそこにあってそれが次々と具現化しているとのありよう)に即応するようにするとの自然なる数式処理とは何かだが、それはなんのことはない(だが、しかし、ベイズ確率論の本質をなすところでもある)ところとして先立って特定ているデータ(事象)に対応するものとして導出されてきたP(H|D) ―意味合い・導出の仕方を先立って詳説してきた[14]式の右辺に相当する事後確率― の値を次いでのデータ(事象)を特定してそれを顧慮する際にP(H)の部に代入する、すなわち、(先立ってのデータに照応するものとしてもたらされていた各仮説成立度合いにまつわっての)[事後確率]を(次データ顧慮時にあっての各仮説の成立度合いにまつわってのいわばもってして逐次「更新」されていく「事前」確率である)P(H) ―(修正される方向性にある)仮説Hの成立確率を意味する要素― に代入するとのことをなす、との数式処理となる(具体的にどういう数式処理をなすかは本稿のこれ以降の段で微に入ってのかたちで詳述する))
以上のような数式処理 ―先立ってのデータ入力時に(ベイズ推定の一般公式から)事後的に導出された事後確率(P(H|D))の値を次いでもってしてのデータ入力時にあっての事前確率(P(H))の部に代入するとの数式処理― をもってして日本語では俗に
[ベイズ更新]
のプロセスと言う。
式にあってのP(H|D)およびP(H)の意味が分かっていれば、また、ベイズ確率論というもので顧慮されている状況が次々と投入されるデータに応じての確率のありようであるとのことが分かっていれば、以上のプロセスは数学的操作として理に適っていると理解出来るようなものとはなる (ただし、直上、いささか細々とした説明をなしもした同じくものことについては理解なそうという意思がある向きにあっても具体的な例示をなさねば理解に窮するところがあるか、とも当然に思う。そもそも、どういうやりようをなすのか漠然としすぎている、計算モデルからして分からない、と。であるから述べておくが、以上の理念、ベイズ更新の理念を体現しての具体的確率計算がいかようなるものなのかはこれよりの確率モデル呈示の過程にてきちんと入念に呈示する所存である)。
その点、[ベイズ更新]についてどういう数式上の処理をなすかは取りあえずもってしての下の図を参照されたい。
上掲図にてまとめたような式で[ベイズ更新]のプロセスが発生するからこそベイズ確率論は「強力な現実分析ツール」と見られているし、そうしたものとして利用され、
[標的となる捜索物の所在地絞り込み]
[スパムメール振り分けに対するメールフィルター]
などの分野で成果をあげている。
同じくものことを示すところとして次の先立っての引用(出典(Source)紹介の部114にての引用)を繰り返そう。
(直下、2008年に世に出た英国の数学者兼サイエンス・ライター、そして、スタンフォード大の影響力ある職員でもあるとのキース・デブリンの手になる The Unfinished Game: Pascal, Fermat, and the Seventeenth-Century Letter that Made the World Modern(邦題)『世界を変えた手紙 パスカル、フェルマーと<確率>の誕生』(岩波書店刊行)の130頁から133頁よりの「再度の」引用をなすとして)
保険などに確率論を応用する場合の未来予測は、本質的に同じタイプのものがたくさんあるとき、その平均の意味で信頼できるに過ぎない。しかし今日の我々は、また別の方法で確率論を用いている。つまり、我々が「ある特定のできごと」を予測しようとするとき、その予測が正しい可能性を測ることである。この発想が実りをもたらすにはコンピュータの発展を待たねばならなかったが、今日のリスク管理社会へ向け、この問題を解決するための最後の数学的ステップは、とてつもなく強力で巧妙な数学公式だった。この公式は、趣味として数学を研究していた、一八世紀イギリスの目立たない長老派牧師によって開発された。トーマス・ベイズは一七〇二年にロンドンで生まれた。
・・・(中略)・・・
今日では、ベイズは輝かしい数学的精神の持ち主として知られているが、存命中には一つも独自の数学論文も出版しなかった。(死後に私的なノートが発見され、そこには確率論、三角法、幾何学、方程式の解法、級数、微分学、電気学、光学、天文力学についての研究が残されていたのである)。
・・・(中略)・・・
ベイズの方法は「新たな」仮説の確率をどのように計算するかを教えてくれるのではない。むしろ、新たな情報がもたらされたときに確率を「更新する」方法なのである。まず、ある仮説Hの確率を表す値から出発する。この数値を仮説Hの「事前確率」と呼ぶ。いま、ある新しい情報Eがもたらされたとき、Hの確率を更新するための計算をする。この新しい値を「事後確率」と言う。この更新は、ベイズの公式(ベイズ則)として知られる数学的公式に適切な値を代入することで得られる。事前確率は当て推量や見積りでよい。新しい情報が十分に与えられれば、ベイズの更新手続きによって、もっと正確な確率が導かれる。ベイズの方法を繰り返す用いることで(普通はコンピューターを用いる)、相当に乏しい事前確率からでも、毎回新しい情報が得られるたびに、十分に信頼できる事後確率へと変換していくことができるのだ。(とは言え、この方法もコンピュータに頼り過ぎることへの、有名な金言から免れているわけではない。つまり、「ガベージイン、ガベージアウト(ゴミを入れれば、ゴミが出てくる)」。)
この方法は(最初の)事前確率である「種」となる初期値に依存するので、ベイズの方法が知られてから二〇〇年もの間、統計学や確率論分野の人々からほとんどに無視されてきた。しかしながら、一九七〇年代からは、強力なコンピューターによって膨大な量の情報を繰り返して処理できるようになり、しばしば最初の事前確率の不正確さを乗り越えられるようになったため、一般的に広まるようになった。
(邦訳版よりの再度の引用部はここまでとする ―※― )
(※上にては「新たな情報Eがもたらされたとき、、、、」と表記されているが、本稿では[新たな情報D]との表現を用いている)
上だけで納得いただけないかもしれない。そこでベイズ更新を利用するがゆえにベイズ確率論は強力な力を有している....、 そのことに通ずるところの[ベイズ確率論の応用]にまつわる引用を(いままで未言及のソースより)続けてなすこととする。
(直下、上著作と同じくもの著者たるキース・デブリンらの手になる THE NUMBERS BEHIND NUMBE3RS : SOLVING CRIME WITH MATHEMATICS(邦題)『数学で犯罪を解決する』(ダイアモンド社)よりの引用をなすとして)
サイト・プロファイラーは一九九九年にアメリカ国防総省の認可を受けて、統合脆弱性分析ツールという企業規模のテロリスト管理システムを開発した。
・・・(中略)・・・
標的候補の弱点を理解して攻撃に対する防御法を知るには、一般的に様々な専門家によるインプットが必要だ:物理的セキュリティ専門家、エンジニア、科学者、軍事参謀。一つか二つのリスクを理解して対処できる専門家なら多少はいるかもしれないが、何百というリスクの構成要素をすべて同時に処理できる人間はいない。解決法はコンピュータで数学的手法を実行することにある。
サイト・プロファイラーは――ある程度の精度で――巨大リスクのポートフォリアを推定し、ユーザに対処を可能にしてくれる数多いシステムの一つだ。これはベイズ推定(ベイズ・ネットワークという形態で提供されているが、これについては後述)を使って以下の異なるデータソースからの証拠を統合している:分析モデル、シミュレーション、歴史的データ、ユーザの判断だ。一般的にこのようなシステムのユーザ(専門分析班であることが多い)は、たとえば軍事施設の強み情報などを、税金の確定申告書類作成ソフトに似た質問・回答のインターフェースで入力する(サイト・プロファイラーは本当に確定申告ソフトのターボ・タックスのインターフェースをモデルにしている)。ソフトウェアは集めた情報から、その施設の様々な強みと脅威を示す数学的オブジェクトを構築して全体の状況をベイズ・ネットワークとしてあらわし、ネットワークを利用して様々なリスクを評価し、最終的に脅威リストを出力する。各脅威は可能性、結果の重大性などに基づいて数値で順位付けされる。ここで興味があるのは、こうしたシステムの「中身」である数字だ。
(以上、引用部とした ―※― )
(※1ちなみに上の書籍『数学で犯罪を解決する』の原題にみとめられる THE NUMBERS BEHIND NUMBE3RSのNUMBE3RSとは米国でロングランを記録した数学者を主人公に据えての犯罪者追い詰めテレビドラマである (「滑稽」かつ「悪辣」と受け取れるのは、(高度な数学を利用して犯罪者を追い詰めるのは良いとしても)、この世界では[より下等な数学](たとえば本稿で意図して用いているようなそれ)の応用だけで悪質性が示せるような重要なことらが「悉く無視されている」節があるとのことだが、そうもした申しようの至当性については本稿での従前の段での危難にまつわる指し示し内容および本稿の続いての段を検討いただきながら判じていただきたいものである) )
(※2上にての引用部にて引き合いになされているベイジアン・ネットワークとは[ベイズ確率論]に有向グラフ(ある方向性が矢印付きで示唆されている対象同士の関係性を示す図、とでも単純にとってもらって構わない)の観念を差し挟んでの分析手法のことを指す(これよりなす本稿での分析では往々に人工知能の処理構造に用いられているそちらベイズ・ネットワークの概念は顧慮しない)。 そうしたベイジアン・ネットワークを利用して取得情報の連なり度合いから[脅威]を察知、細かくもその脅威の程度を示すソフトを米国保安筋 (度々、茶々を入れるようで何ではあるが、何に対する保安か、[やらせの花戦争]に対する保安ならば、「内側に敵がいるのに外側に敵を無理矢理、求めさせられてのこれ実に醜悪な[人形]劇にすぎない」と受け取れるところようなところとなるだろう) が用いていると上にては表記されているわけである。
本稿ではそうした、[資金や人員が大量に投入されての大規模システム]など用いなくとも[[選り分けた情報]で[危険の度合い]を呈示する手間暇かからぬ原始的仕組み]をこれより呈示することとする。
につき、メソッドは多くの人間が簡単に思いつけるところでも、そも、メソッドに流す情報それ自体について
「[情報処理]の初期手順の時点でけつまずく、[重要な事実]らを[事実]として認識することが「できない」(あるいは認識しては「ならない」)ような状況を押しつけられている」
「無意味(非本質的)あるいは信憑性が薄いとの情報ばかりが却(かえ)って重大な情報として処理されるようにこの人間世界ができあがっている」
とのことが散見されるもするとのことが人類の問題捕捉に付きまとうところとしてあるように受け取れる、そのようにここでは ―要らずもがな、とも思うのだが― 言及なしておく(:Dataとしてnonsenseなゴミ、狂人や詐欺師の類に由来する捏造事物としてのゴミが横溢している中でそうした取り合うに足らぬものばかりを[云われたようにしか情報処理しない語りあうに値せぬ人形のような空っぽの存在]が分析しようともゴミしか出てこない....先にての引用部で言及されている[ Garbage in , Garbage out ]とは単純化して述べれば、そういうことでもある.それを言ってしまえば、『下らぬ人形劇・猿芝居の類が魂(本当の人間としての内面の実質)のない政治屋などに演じられ、それを同文に実質が欠を見ているマス・メディアおよびその関係者なぞにさも大事のように報じさせしめているのが家畜小屋であろう』などと斜に構えて見てとれるようなことがこの下らぬ世界にはなくもない、そうも見えもしてしまうのだが、ここ本段ではそれについては取りあえずも置く) )
さらに事後確率を事前確率にすげ替えることに特質を持つとのベイズ確率論が威力を発揮することにまつわる引用を続ける ―法廷にてもベイズ確率論が意味なすものとなると認知されていることについて英文Wikipedia記載を引いておく― 。
(続けて、直下、英文Wikipedia[ Bayesian inference ]項目にての現行記載内容よりの原文引用をなすとして)
Bayesian inference can be used by jurors to coherently accumulate the evidence for and against a defendant, and to see whether, in totality, it meets their personal threshold for 'beyond a reasonable doubt'. Bayes' theorem is applied successively to all evidence presented, with the posterior from one stage becoming the prior for the next.
The benefit of a Bayesian approach is that it gives the juror an unbiased, rational mechanism for combining evidence.
It may be appropriate to explain Bayes' theorem to jurors in odds form, as betting odds are more widely understood than probabilities. Alternatively, a logarithmic approach, replacing multiplication with addition, might be easier for a jury to handle.
If the existence of the crime is not in doubt, only the identity of the culprit, it has been suggested that the prior should be uniform over the qualifying population. For example, if 1,000 people could have committed the crime, the prior probability of guilt would be 1/1000.
(補いもしての訳として)
「ベイズ推定 Bayesian inferenceは陪審員が被告にまつわる証拠を正確に見積もるのに用いられうるもの、そして、概して[「合理的な疑いを越えて」の法理]の個人的見極めに通ずるとのことになりうるものである(訳注:ここで引き合いに出されている[「合理的な疑いを越えて」の法理]、すなわち、 beyond reasonable doubtの法理がいかなものかだが、端的に述べれば、それは検察側は被告が有罪であるとの点について合理的な疑いを差し挟む余地すらないとのレベルにまでの証明をなすことを要されるとの法理のことである)。 ベイズ理論は[事後](事後確率の顧慮)が[次なる事前](事前確率の顧慮)のステージに至るとのありようで所与のすべての証拠に適用されえる( Bayes' theorem is applied successively to all evidence presented, with
the posterior from one stage becoming the prior for the next.
)。
ベイズ確率論を用いての分析の利点は陪審員に
[偏見から解放され、合理的に証拠を結合してものを見るメカニズム]
を提供することである (本稿筆者が強くも述べておきたいところとしての訳注:ただし、法廷に供されるデータ属性それ自体が犯罪的挙動にて捏造されたものならば(たとえサイコロを振って偶数が出ているのに関わらず奇数が出ているといった捏造データが捏造証拠としてあたかもそれ自体が実体のように呈示されているのならば)、先にての引用部にても取り上げられているように Garbage in, Garbaged out「ゴミを入れてもゴミしか出てこない」との問題は残置し続けることになる)。
賭け事のオッズ比は確率論の話より幅広くも理解されているわけだから、ベイズの公理を陪審員らに説明するには「オッズ」形態にて説明するのが有効かもしれない。加重しながら(確率を)重複計算で示していくとのやりように代えての代替的やりようとして対数概念に着目しての訴求手法もまた陪審員らには扱いやすいことか、とも思われる。
犯罪の存在それ自体については疑いようがなしとのこと、犯人の特定化に至るとのことのみが問題であるのならば、(容疑の)対象となる人間の数を凌駕する(打ち消しの反対効力として陵駕する)との事前確率が導出されるべきであろうとの提案がなされもしてきたところである。たとえばもし1000人の人間が犯罪を犯しえたというのならば、犯人特定の計算のための事前確率は1000分の1以下となろうとのことである」
(訳を付しての引用部はここまでとする ―※― )
(※上の引用部に見る物言いは(この世界にて数式を振りまわす類に往々にみとめるられる兆候であるとは思うのだが)重要なポイントがひとつ抜けている、それゆえに、「極めて危ういものである」と筆者は見ている。
すなわち、
[当局から呈示された証拠が捏造を完全に排除しうるのか]
とのこと、そして、
[事実認定をなす人間らに予断の虜(とりこ)となるような事情がないか否か]
とのことが何ら顧慮されていないとのことがそうである(たとえば、当局に悪辣な[無罪化工作]や[冤罪化工作]を仕掛けるような犯罪的紐帯、カルトや秘密結社などでもいいが、その成員が紛れ込んでいたりしてその影響力を行使し得ないか、あるいは当局そのものが人形遣いに操られての人形劇の舞台装置のように用いられている力学が何ら介在していないか、そういうことを一切、顧慮に値しないとの[絶対的善性]の前提を置かないと、そう、法廷にて提出される当局由来の証拠が全て完全に信用に値すると述べられるとの前提を置かないと、法廷におけるベイズ主義も画餅と成り下がりうる、というわけである(そも、法廷にあって[事実を見る能力すらない判断者]しかそこにいないのならば裁判など[愚劣なショー]になりうるとのことに通底するところでもある)。 尚、筆者は[入力データ捏造]にまつわる問題がベイズ確率論にも伴うことをよく「識っ」ているから、本稿この段での確率論分析では[第三者が容易にその通りであると確認できる公衆に流布されている事実(文献的事実、そして、映像記録上の事実)の類]しか(「何故、そうしたものと言えるのか」との論拠を呈示しつつも)本稿では問題にしないこととしている)
直前の部をもってしてベイズ確率論がいかように現実的局面で利用されている・利用されうるかの紹介、そう、[従前データ投入時に求められた事後確率を次データ投入時の事前確率に代入するとのかたちで実行されるベイズ更新]にまつわる言及を含んでの現実世界でのベイズ確率論の利用のされよう(それは先立って導出方法・数式の意味性を延々解説しているとの[14]式をいかに応用するのかとの話ともなる)にまつわる紹介を終えるとし、これ以降は
[ここまで解説してきたベイズ確率論モデルに基づいて本稿でいかような分析モデルを構築していくかの話に入る]
ことにする。
さて、ここで繰り返すが、
P(Hx|D)=P(D|Hx) × P(Hx) / ( P(H1) × P(D|H1) + P(H2) × P(D|H2) + P(H3) × P(D|H3) + ・・・ + P(Hn) × P(D|Hn) ) ・・・・ [14]
との[ベイズ推定における一般公式]に関し、その意味が一言で述べれば、
[仮説(ないし特定の事柄が起こる原因)がH1からHnまでのn個存在していると考えられる場合にあって特定のデータ (D;サイコロの目の出目などの厳密に分類付けされた事象) が与えられた際、そのデータ取得時にあって(H1からHnのうちの)特定の仮説Hxがデータと確実に紐付いたものとなっているとのその確率を示す式] ([DならばHxの条件付き確率]とのことでいわばもってしてのDの具現化の背後にある実体的状況の成り立ち具合にまつわる確率)
となるとのことを説明なしてきた (:「分かりづらい」と思われる向きもあろうが、といった向きにおかれて(一点目として)いかに[11]式から[14]式を導き出せるかについての先行するところの解説を検討いただき(それ以前に遡るところとして理解が及んでいないのならばそれ以前の部の解説の読解をあわせてなすとのかたちで検討いただき)、かつ、(二点目として)[14]式の意味合いを病因検査の事例などとの絡みで図示しながら解説しているとの先立っての段の内容を検討いただければ、「14式の意味合いが何故そうしたものとなっているのか」、理解に窮する・難渋するとのことは基本的にはないことか、とも思う ――本稿では確率論の基礎の基礎から入るとの式をとっての仔細なる解説を付しての段階的説明方式を採択しもし、のような式は[高校生程度の知識とこれまた高校生程度の(知識を活用するうえでの)知能程度があれば理解に窮することはないようにしているとのものである(と任じている)]つもりはである。 だが、しかし、理を解する上での作用不全が[意志の欠如]にあるところが大きいと考えてもいる人間として申し述べれば、いくら単純明朗なる段階的解説を心がけても理解する気がそもそもない、生理的に数学的なる話はNGであるとの向きに対しては理解は求められないとも見ている。 といった申しよう、「水を飲む気がない馬を水場に連れて行こうとする行為には意味がない」などと神経を逆撫でするような典型的な言い様で教育現場などで引き合いにだされる申しように通ずるところの口上を「敢えても」前面に出したうえで書くが、「であっても(そういう性向の読み手に拒絶反応が引き起こされてしまっても)問題にならない」と見ている。 というのもここでの話は念には念を押しての付録としての位置づけを与えているものにすぎぬからである、 そう、 大学で用いられる基礎的数学の話を高校生レベルに完全に落とし込んでの[付録]と位置付けてのこの部(本稿本筋についての訴求を既になし終えもしている段階で[付けたしの部]として付しているにすぎないと断っての部)は理解する気がないとの向きを想定して書き記しているとのものでは「そもそもない」とのことがあり、そして、計数的な話・初等数学にまつわっての話について理解する気がない向きらに対して「も」既に[おのが足下状況を示すだけのことら]はここまでの段にあって十二分に摘示してきたとの認識が筆者にはある、であるから、ここでの話についての理解を無理に求める必要も無いと判じているのである (などと述べもする筆者は人間が生きることそれ自体に対する意志の力を有しているのか有していないのか、(重要なるところでの)意志の欠にいざなわれた歪なる者らで満ちあふれている節ある[このような世界]でも試したい、それ自体も窮理の対象としているとの人間でもある))―― )。
上にて[14]式(の意味)への振り返りをなしたうえで書くが、先立っての段までにて取り上げてきた[ベイズ更新]が同じくもの[14]式に適用されていくとのケース ―繰り返すと先行して求めた[事後確率P(H|D)]が「続いての」計算で[事前確率P(H)]に代入されていくとのケース― というのは
[複数のデータの顧慮]
が問題視されているケースであり(かする程度に先述したことである)、それはとりもなおさず、
[複数のデータの背後に特定の仮説がそれらデータに関わるものとして存在していることを顧慮している―複数のデータの投入に応じて仮説Hxらの成立可能性の変動を検討していく―]
とのケースでもある(ベイズ推定の本質的発想法に関わる重要なところである)。
それについて
『データが投入されることで(問題となる)仮説Hxの可能性が変動していく?どういうことなのだ?』
と思う向きもあろうことかと考えるが(それが前提知識を有していない健全な頭脳の働きか、とも思う)、についてはほんのつい先立ってサイコロの目を例に出しての(不十分ながらもの)端的なる説明を講じたところとなり、繰り返すも、そのこと、複数のデータの投入に応じて仮説Hxらの成立可能性が変動するとのことは
(具体例でもって後にどういうことか指し示すところとしてそれは)
「仮説Hxというものが「計数的に定義されている」、そう、データの性質を色づけするなどしてあからじめ分類してその可能性配分を定めるといったかたち「でのみ」定義されているとの純・計数的なるものであることと表裏をなす」
とのことでもある(:仮説などと述べれば自然言語で書かれたものを想起するかもしれないが、そも、自然言語は計数分析では、否、ありとあらゆる科学的分析で意味をなさない。であるから、ここでの数式計算にて問題視している仮説も黒白明確化する数によって「のみ」定義されているものとなる(これはある意味、当たり前のことなのだが、知識水準の意味で文系人間などと世間的には分類されている向きらを想定しての話をなしているとお断りしておく)。たとえば、である。極々単純化させて述べれば、[特定の病気の陽性・陰性比率がまさしくも問題になっている]とのケース(仮説をいくつか定立して分析なそうとしているとのケース)にあって仮説H1が[病気[陽性][陰性]の人間の割合を3%、97%と見繕うもの]となっており、別の仮説H2は[病気[陽性][陰性]の人間の割合を10%、90%と見繕っているもの]となっている...それが数的に定義されての仮説というものである。そういうケースで次々と仮説と照らしあわせての検証に用いられるべくも与えられていくデータが病気[陽性][陰性]患者らの膨大なるデータとなりもし、それら入力データに照応するものとして構築された各仮説らのうちのどの比率的状況(尤度設定のありよう)が現実的状況に照応するものとなっているのか、詰まるところ、現実的状況にもっとも近似的なのかと見繕う、推し量るというのがベイズ推定が作用するとのケースなのである。などと細々と述べてもこの段階ではイメージしてもらいがたいであろうから、[複数のデータの投入に応じての仮説Hxらの成立可能性の変動(の検証)]とのことについては具体的計算事例を示していくこれ以降の内容でもってしてどういうことなのか、ご理解求めたい次第である)。
以上、くだくだと申し述べた上でここではこれよりのベイズ推定に関わるところとして仮説を「便宜的に」五つほど設定・呈示する。
具体的には
H1:明らかに[執拗なる意志]の賜物がゆえに「特定の」事実関係が現出していると判じられる (判断の確度としては[明らかである][歴然としている]とのことで「強」)
H2:おそらく[執拗なる意志]の賜物がゆえに「特定の」事実関係が現出していると判じられる (判断の確度としては[おそらくそうであろう]とのかたちで上のH1に劣る)
H3:[執拗なる意志]か[部分的思惑の発露]か[偶然]かにつき「予断・楽観的見方をまったく許さない」との灰色の状況に由来するものとして「特定の」事実関係が現出していると想定される (尚、[ことの本質]があまりに重要なものである、体系的に[皆殺しにするとのオペレーションの実施]にまつわる「執拗な」意思表示がなされてきたか否かに直に関わる、との領域では「予断・楽観的見方をなんら許さない」とのことはすなわち[危機の分析と回避]に全力を尽くして然るべき状態と同義であろう)
H4:おおよそ(おそらく)にして[部分的思惑の発露]ないし[極めてよくできた偶然]として「特定の」事実関係が現出していると想定される(判断の確度としては[おそらく]との程度で「弱」)
H5:ほぼ確実に[部分的思惑の発露]ないし[極めてよくできた偶然]として「特定の」事実関係が現出していると想定される(判断の確度としては「強」)
以上の仮説1(H1)から仮説5(H5)までのいずれかの五類型に落とし込ん「でのみ」特定の事実関係 ―データ(D)にまつわる事実関係― の確率論的枠組みを考えるようにする、そうした近似的ありようのみしか問題にしないように意図的にするとのスタンスをここでは採択する(話を[初等レベルの数学]に[簡易化]するために敢えてもってして擬制的にそうする)。
そうした[仮説ら(確率の枠組み)の擬制的モデル付け]に関してここでは
P(H1|D1)+P(H2|D1)+P(H3|D1)+P(H4|D1)+P(H5|D1)=一〇〇%
P(H1|D2)+P(H2|D2)+P(H3|D2)+P(H4|D2)+P(H5|D2)=一〇〇%
・
・
・
・
P(H1|Dx)+P(H2|Dx)+P(H3|Dx)+P(H4|Dx)+P(H5|Dx)=一〇〇%
との見方を「便宜的に」なすこととする ―H1からH5の和が四〇%でもいいのだが(それでもベイズ確率論を用いることができる)、ここではH1からH5が全ての現実的状況を全てカヴァーしているとの見方を「便宜的に」なすこととする― (※)。
(※[無視して貰っても結構である]との話として:
ここではH1からH5の仮説が
[D(データ)らにまつわる確率分布の全領域をカヴァーする]
と(擬制し)見ての話をなしている。
その点、たとえばもってして、
[H6:予謀・策謀などの類は「絶対に」なく、完全に偶然と言い切れる]
との仮説らも据え置くべきと受け取れもする。が、そうもしたことは(現実に「状況を楽観視出来ない」材料がある中で)[およそ断言できぬこと]との観点で近似的にH5がそちらを包含するものとしての話をなすこととする。
また、さらに述べれば、本来的には[H1からH5の仮説]との5つ程度の仮説で[サイコロの目]のようにそれらしかないとの点(スポット)として確率分布を語ることも妥当なることではない。単純なこととしてそうした状況を無理に煮詰めんとすれば、仮説を事細かに計数的定義なしながら100ぐらい定立してもよさそうなものと見えもする。しかし、に対しては現実的状況に近しいと思われる仮説らをあらかじめ選定、スクリーニングを(表に出していない計算で)あらかじめかけもする(たとえば、限りなく成立ゼロパーセントに近しい仮説らを端折って、そうならずに生き残るであろうとの仮説のみを顧慮対象とすることにする)とのかたちでの仮説呈示をなしているとのことで納得いただきたい(これは良心的なやりようであるとも正しいやりようでもあるとは思わないが、説明の手間暇の問題を考えてそうもする)。
また、H1からH5の仮説らの中身は性質上、―「ほぼ」「多分」「ないし(あるいは)」との言いまわしを用いることで― 「以上」「以下」の問題を扱うものら「でも」あるように見える(とのかたちにて定義している)。 となれば、そう、「境界線がスポット(点)として存在しているわけではなく[連続]関係の中で存在している」とのことの確率を考えているとのことで、といったものの確率分布というものは Probability Density Function[確率密度関数]として分析しなければならないのでは、より根源的なところで不適切improperであるのでは、とも受け取られるところであろうかと思う (そも、離散的ではないデータを扱う統計学などにおいて積分のプロセスが重んじられるのはそうした確率密度関数との概念と不可分な関係にあり、といったことは多くの人間に周知されていることとなる)。 だが、ここではそうした問題を全て端折りもして(何度も何度も断るが)[高校生でも理解出来るとの数式処理のみに落とし込んでの単純化・標準化で擬制的にそうもならす(equate)とのかたちでの話] をなすこと、斟酌いただきたい次第である)
向きによっては「説明するまでもないことをくどくどと....」と受け取られるかもしれないが、上にて呈示の式らの意味は
「D(D1やD2といったデータら)との情報(事象)が提示されてきた時にそれらデータが仮説1(H1)から仮説(H5)のうちのどれかに完全に紐付いている可能性(P(H1|D)からP(H5|D))を顧慮し、[それしか現実的枠組みの顧慮対象は存在しないとのモデル][それらで現実的なデータにまつわる仮説の枠組みをほぼ決せられもするとのモデル]で(P(H1|D)からP(H5|D))の和を ―それら仮説に重複が無いとの想定の下でのこととして― [顧慮される状況の全て]と便宜的に見繕っている」
とのものとなる(:つい先立っての段にて述べた同趣旨のことをくどくも繰り返しておくが、どうして直上の如き観点が導出されるかは[陽性・擬陽性][陰性・偽陰性]のデータの出方 ―それらしかデータの出目がないとの出方― にまつわる先立っての[11]式に絡んでの話、そして、それに先行する解説を読み直していただければ納得はいくことかとは思う。ゆえにそちらの方、乞う御検討、と申し述べておきたい)。
ここで繰り返すが、
H1:明らかに[執拗なる意志]の賜物がゆえに「特定の」事実関係が現出していると判じられる (判断の確度としては[明らかである][歴然としている]とのことで「強」)
H2:おそらく[執拗なる意志]の賜物がゆえに「特定の」事実関係が現出していると判じられる (判断の確度としては[おそらくそうであろう]とのかたちで上のH1に劣る)
H3:[執拗なる意志]か[部分的思惑の発露]か[偶然]かにつき「予断・楽観的見方をまったく許さない」との灰色の状況に由来するものとして「特定の」事実関係が現出していると想定される (尚、[ことの本質]があまりに重要なものである、体系的に[皆殺しにするとのオペレーションの実施]にまつわる「執拗な」意思表示がなされてきたか否かに直に関わる、との領域では「予断・楽観的見方をなんら許さない」とのことはすなわち[危機の分析と回避]に全力を尽くして然るべき状態と同義であろう)
H4:おおよそ(おそらく)にして[部分的思惑の発露]ないし[極めてよくできた偶然]として「特定の」事実関係が現出していると想定される(判断の確度としては[おそらく]との程度で「弱」)
H5:ほぼ確実に[部分的思惑の発露]ないし[極めてよくできた偶然]として「特定の」事実関係が現出していると想定される(判断の確度としては「強」)
というのが問題視している仮説H1から仮説H5の概要となる。
では、上記のような仮説H1から仮説H5を
「計数的に」
そうしたものとならしめるとの事柄は何か。
それは仮説が[データの具現化度合い](事象の具現化度合い)に対してどのような
[比率]
を顧慮しているのか、に拠る(物事を計数的かつ確率論的に考えれば、当然にそうした発想法に帰着するようなところである)。
そうも述べたうえで本稿では上に言う[データの具現化度合いの比率]に関わるところとしてまずもってデータとはなにか、問題となる事象とはどういうものなのかについて
[特定の事実関係]
を「厳密に属性・性質定義されている」手順 ―誰が見ても異動が生じえないとの「厳密に属性・性質定義されている」手順― でもってしてそれらをデータ(事象)に昇華する。
(既に手順を先掲しているところなのだが、具体的には
[共有要素それ自体に基づいての分類]
[共有要素の個数に基づいての分類]
に基づき
[事実関係]
を
[際立ったもの;恣意的関係性としての「黒さ」が窺われるもの]
[それなりに際立ったもの;恣意的関係性としての「灰色さ」が窺われるもの]
[ありふれたもの;恣意的関係性としての「白さ」が窺われるもの]
のいずれかに分類するとのことをなす)
次いで本稿では【データ(D)として属性定義している事実関係の比率】を各[仮説]ら(ここではH1からH5と設定している)毎に割り振るとのことをなす(さらに後ほどにも言及するが、それは各仮説毎に総計100%となるデータの特定仮説の枠組みの中での配合比率、すなわち[尤度]の設定をなすとの行為である ――先立ってLikelihood[尤度]というものについて[ベイズ推定の主軸をなす[14]式]にあっての(右辺一要素たる)P(D|H)のことを指すと言及していたわけだが、それは(P(D|H)というものが本然的に[「HならばD」の条件付き確率]を意味することと表裏をなすことである(これまた繰り返しての話ともなるのだが、P(D|H)が【まずもってそこにて成立している仮説・原因たるHがそちら仮説の方向からデータ(D)の確率的ありようを規定しているとのその確率】を数式として本然的に意味しもする中で特定仮説(任意のH)に紐付いたデータの比率、たとえば、「特定仮説にあって」黒(のデータ;事象)は何%で出るのか灰は何%で出るのか白は何%で出るのか、との比率を設定するとのその行為、データ現出における尤(もっと)もらしさ:尤度を設定するとの行為は[P(D|H)]を定義することでもってして【仮説を他と区別するうえでのユニークさ】を定義する行為と同文のものとなる)―― )。
以上のような手法(ベイズ推定の一般的手法)でこれ以降、問題視することになる仮説ら(H1からH5)は
[純・計数的に]
定義できるものとなる(同様の話は先にもなしたところだが、ここではH1からH5なるものを持ち出してのよりもって本稿やりように即しての話をなしていること、お含みいただきたい)
端的に述べれば、ベイズ確率論における[仮説]とは
「[(特定のデータの配合比率としてあらかじめ設定した)尤度(P(D|H))]の違いに応じて他の仮説らと差異化されてそこに存在しているとのものとなる」
ということであり、本稿ではそうもした仮説としてH1からH5なるものを用意し、に対する尤度設定のためにデータ(としての事実関係)の分類を厳密な式でなさんとしているのである(その点について理解を求めるべくものより微に入っての解説はこれ以降の段でも入念になす)。