2021-11-12

DXってやっぱりDが重要じゃない？という考察

この文章は、草稿段階の記事になります。コメント等いただけると考察を深められると思うので幸いです。

目的

2021年現在、DXが謳われて久しいところですが、その中で、DX人材には

ITスキル必要派
ITスキルより企画力や業務変革力派

といった意見がが入り乱れている事態かなと感じています。デジ庁の人事とかの議論もそんな感じですよね。。。

これら言説の流れを見ていくと、ML・DNNの流行に伴いDXが謳われ出した時は、1が多かったものの、その後やっぱり2の方が重要だよねといった議論に流れている感が個人的にあります。

この議論の流れ自体は、そんなに珍しかったり愚かだったりすることではなく、古くからIT界隈では1と2の両立が目指されてきたわけで、経産省（傘下のIPA）が所管するIT系の国家資格（笑）の体系を見ても、基本＆応用情報技術者の次のステップとして、ITストラテジストが設置されているところからしても、さもありなんなところかなと感じています。

一方で、人材のリスキリングの文脈で見るとプログラミングといったハードスキルを中途半端に身につけてもプログラマーとして喰える訳ではないので、

「（本音では1は無理だから）2だよ！これだから現場とビジネスを知らない素人は困る！ぷんスカ！」

という主張もよくあるように思います。

（ここら辺の主張はコンサルに多いですかね。こういった主張の方が客（ITについては素人の大企業の役員）が楽＆喜ぶので、そういうコンサルが継続受注＆社内で出世して、それを見た周囲が真似るんでしょうけど。。。あと単にコンサル本人の嗜好として、技術者を下に見ているケースも多いと思います。技術者を心からリスペクトしていたら、技術者になろうとする人が多いでしょう。）

（通常は企画人員よりも実行部隊の方が必要人数が多くなるので、企画者を大量に用意しても、企画だらけで何もできないと思うんですが。。。もしかしてコンサルはそれの実行部分を受注して、一儲けしようと企んでいるとかですかね。。。）

（ただ、「高い山ほど裾野が広い」という言葉にはなぜか説得力がありますよね。本当かどうかはデータで検証したいところですが。（相関はあっても、因果は逆というのも想定できるので。））

私自身は総研系コンサルでIT部門の経営管理コンサルに従事した後、AIベンチャー→多摩川辺りでDSとして勤めているので、その立場から、「やっぱり、1が大事でしょ！」と言いたいので、この記事はそれを目的に書かれたものになります。

（本当はここら辺の議論をしようとすると、歴史研究的に言説の時系列や主義主張の体系化＆定義の精緻化みたいのが必要なんですけど、私には無理なので誰かやってくれませんかね。。。というかこういった研究をする経営学者・社会学者・文学者・MOTってないんですんかね？だいぶ実りの多い領域の様に思うのですが。。。人文系もその存在価値を「リベラルアーツ」だけで主張しないで、ここら辺の技術言説の興亡の研究でサクッと事例を作っちゃえばいいのに。。。）

主張

「DX人材にはITスキルや開発（プログラミング）・運用経験が必要である」

理由

DXを進めると、業務分掌（要は役割分担）の再・新規構築が必要になる。業務分掌の再・新規構築に当たっては新業務の内実・特性を理解して分掌の検討をするのが求められ、既存の業務分掌を超えて企画側（分掌検討側）が業務を理解することが必要である。（既存の業務の分掌のままIT化すると、DXというより「単なるIT化」になりがち。）
業務分掌の再・新規構築に当たっては、（既存）業務自体に詳しいことは必須であるが、より高品質な業務分掌を検討するには、ツールであるITの特性についても詳しい必要である。ITの特性を生かした分掌を作ることこそがDXのイノベーション感（差別化要因）の根幹である。
ITの理解を深める方法は多種あるが、現在の多くのエキスパートが経験した代表的な学習方法として、「実際にITスキルを身につけITの開発・運用を経験する」が挙げられる。

補足

現状のユーザー系企業のシステム化の分掌は、「利用側は業務に詳しければ良い。IT部分はベンダーに丸投げ。」と想定しています。なのでDXのためには現状のシステム開発（「単なるIT化」）の分掌（企画は業務に詳しければ良い。IT部分はベンダー任せ）を超えて、ITの理解を深める必要があると主張したいです。
想定される反論として、社外のITの専門家を検討チームに含めれば良いというものがあると思います。ただ社内にITに詳しい人がいないと業務分掌とITの高度なすり合わせが困難になるので（業務と社外専門家間の連携すら困難になるので）、社内にITに詳しい人がいるべきだと思います。その詳しい人のレベル感として、「簡単な業務改善ツールくらい自力で開発・運用できる必要ありませんか？」というのが主張です。（あと社内でも有望株と思われる（超優秀な）企画人材の方々が、高々年収数百万円の派遣SEの仕事が「能力的に無理です」ということはないですよね。。。）
「GAFAとかでも、ビジネス人材はITそんなに詳しくないよ」という論もあると思いますが、それはGAFAとかだと「ITの特性を生かした業務分掌」の構築ノウハウが文化や暗黙知として組織に浸透しているので、ビジネス人材がITに詳しくなくても成り立っているのだと思います。（もしかしたら、GAFAのビジネス人材はそんな文化や暗黙知があることにすら、気づいてないのかも知れませんが。）
もし、DXで本当にXが本質なら、みんなタピオカ屋や唐揚げ屋をやって、儲かんなくなったらサクッと辞めれば良いんですよ。すごく優秀なXですよ。でも、DX感ないですよね。
「業務分掌の失敗事例を出せよ！」となると思います。いい例思いつくまで少々お待ちください。

(「データ分析用にtfやStan等のライブラリを使いたいにも関わらず、長大なセキュリティアセスが必要になる」や、「みんなが適当にゴミデータを突っ込んだ、使われない＆保守費は高額なDataLake」、「デジタルサービスの利用者数増加には新機能の開発が必要だけど、leanやPMFを知らずに初期開発で予算使い切っちゃった」)

2019-05-12

バイアスーバリアンス（＋ノイズ分解）を導出する。（初歩なんだけど、誤解していたという次第。）

バイアス-バリアンス分解（+ノイズ）とは

バイアスーバリアンス分解は回帰の二乗誤差をバイアス（モデルの表現力不足）とバリアンス（過学習（偶然を必然と勘違いすること）による悪影響）に分解するものです。

これ自身は数学的な帰結ではあるものの、実際に誤差を分解する使い方はしないで、観念的に利用するのがメインの使い方になります。例えば、バイアス-バリアンスのトレードオフを示して、モデル選択や改善時にモデルの表現能力を調整したり、データ数を増やすか否かの判断を行うための（素人向けの）論拠とするために使うといった感じになります。まあ、機械学習や統計学界隈では基本的で知ってて当然といった内容なので、通常の議論ではわざわざ話にするようなものでもないのです。

ってな感じで、この分解の証明を初心者向け勉強会でしようとしたところ、意外と手間取り、色々とwebを探しても納得いく証明がなく苦労しました。（なんというか、分かってるのか？、勉強がてらに写経しているのか？といったブログが検索の上位にくる感じで苦労しました。Googleの技術力向上に期待笑）

結局、下記の東大の教科書の証明を確認したところ、「バイアスーバリアンス分解」ではなく、「バイアスーバリアンスーノイズ分解」になっていて、意外や意外という感じだったので、記事にしようと思った訳です。（実は下記の教科書を丁度2年くらい前に読んだはずなのに、完全に忘れていました。笑）

東京大学工学教程情報工学機械学習

作者: 中川裕志,東京大学工学教程編纂委員会
出版社/メーカー: 丸善出版
発売日: 2015/11/01
メディア: 単行本
この商品を含むブログを見る

https://www.amazon.co.jp/dp/4621089919

バイアス-バリアンス-ノイズ分解

説明変数 $x$ と対応する目的変数 $t$ について考えます。（ここで説明変数が $x$ であった時の目的変数を $t_{x}$ と表記するとします。また、説明変数も目的変数も、現実世界からサンプルして取得するため、確率変数であるとします。）

ここで二乗誤差の評価を行う予測モデル $y$ を考えます。学習に用いたデータ $D$ を用いて学習を行い、 $x$ について予測するとすると予測結果は $y(x,D)$ と表すとします。

ここで、二乗誤差 \begin{align} E_{D}E_{x}E_{t_{x}} \left[ \left( t_{x} - y(x , D) \right)^{2} \right] \end{align} について考えます。

\begin{align} E_{D}E_{x}E_{t_{x}} \left[ \left( t_{x} - y(x , D) \right)^{2} \right] = & E_{x}E_{D}E_{t_{x}} \left[ \left( (t_{x} - E_{t_{x}}[t_{x}]) - (y(x , D) - E_{t_{x}}[t_{x}]) \right)^{2} \right]\\ = & E_{x}E_{D}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2} - (y(x , D) - E_{t_{x}}[t_{x}])^{2} \right]\\ & + E_{x}E_{D}E_{t_{x}} \left[2(t_{x} - E_{t_{x}}[t_{x}]) \cdot (y(x , D) - E_{t_{x}}[t_{x}]) \right]\\ \end{align} とできますが、第二項は \begin{align} E_{x}E_{D}E_{t_{x}} \left[2(t_{x} - E_{t_{x}}[t_{x}]) \cdot (y(x , D) - E_{t_{x}}[t_{x}]) \right] &= 2E_{t_{x}} \left[(t_{x} - E_{t_{x}}[t_{x}]) \right] \cdot E_{x}E_{D} \left[(y(x , D) - E_{t_{x}}[t_{x}]) \right]\\ &= 2(E_{t_{x}}[t_{x}] - E_{t_{x}}[t_{x}]) \cdot E_{x}E_{D} \left[(y(x , D) - E_{t_{x}}[t_{x}]) \right] \\ &= 2E_{x}E_{D}\left[(0) \right] \cdot E_{x}E_{D} \left[(y(x , D) - E_{t_{x}}[t_{x}]) \right]\\ &= 0 \end{align} となるため、 \begin{align} E_{D}E_{x}E_{t_{x}} \left[ \left( t_{x} - y(x , D) \right)^{2} \right] = & E_{x}E_{D}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2} + (y(x , D) - E_{t_{x}}[t_{x}])^{2} \right]\\ & - E_{x}E_{D}E_{t_{x}} \left[2(t_{x} - E_{t_{x}}[t_{x}]) \cdot (y(x , D) - E_{t_{x}}[t_{x}]) \right]\\ =& E_{x}E_{D}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2} + (y(x , D) - E_{t_{x}}[t_{x}])^{2} \right]\\ =& E_{x}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2}\right] + E_{x}E_{D}\left[ (y(x , D) - E_{t_{x}}[ t_{x} ])^{2} \right]\\ =& E_{x}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2}\right] + E_{x}E_{D}\left[ \left( \left(y(x , D) - E_{D}[y(x , D)] \right) - \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right) \right)^{2} \right]\\ =& E_{x}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2}\right] + E_{x}E_{D}\left[ \left(y(x , D) - E_{D}[y(x , D)] \right)^{2} + \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)^{2} \right]\\ & -E_{x}E_{D}\left[2\left(y(x , D) - E_{D}[y(x , D)] \right) \cdot \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right] \end{align} とできます。上式の第三項は \begin{align} &E_{x}E_{D}\left[2\left(y(x , D) - E_{D}[y(x , D)] \right) \cdot \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right]\\ & =2E_{x}E_{D}\left[\left(y(x , D) - E_{D}[y(x , D)] \right)\right] \cdot E_{x}\left[\left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right]\\ & =2E_{x}\left[\left(E_{D}\left[y(x , D)\right] - E_{D}[y(x , D)] \right)\right] \cdot E_{x}\left[\left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right]\\ & = 2 \cdot 0 \cdot E_{x}\left[\left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right]\\ & = 0 \end{align} となるので、結局 \begin{align} E_{D}E_{x}E_{t_{x}} \left[ \left( t_{x} - y(x , D) \right)^{2} \right] =& E_{x}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2}\right] + E_{x}E_{D}\left[ \left(y(x , D) - E_{D}[y(x , D)] \right)^{2} + \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)^{2} \right]\\ & -E_{x}E_{D}\left[2\left(y(x , D) - E_{D}[y(x , D)] \right) \cdot \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)\right]\\ =& E_{x}E_{t_{x}} \left[ (t_{x} - E_{t_{x}}[t_{x}])^{2}\right] + E_{x}E_{D}\left[ \left(y(x , D) - E_{D}[y(x , D)] \right)^{2} \right]\\ & + E_{x}\left[ \left(E_{t_{x}}[ t_{x} ] - E_{D}[y(x , D)] \right)^{2} \right] \end{align} とできます。

第一項 $E_{x}E_{t_{x}} [ (t_{x} - E_{t_{x}}[t_{x}$ )^{2}] ]は目的変数の平均からの乖離（分散）を表しているため、説明変数上のノイズとして解釈でき、第二項 $E_{x}E_{D}[ \left(y(x , D) - E_{D} ( y(x , D) ) \right)^{2}$ ] は学習データ $D$ によるモデルのバラツキを表しているので、モデルのバリアンスと解釈できます。最後の第三項 $E_{x}[ \left(E_{t_{x}}( t_{x} ) - E_{D}(y(x , D)) \right)^{2}$ ]は、目的変数 $t$ の平均（ノイズを除いたもの）と予測モデルの平均 $y(x , D)$ （過学習を除いたもの）の差の二乗なので、バイアスの二乗と解釈できます。

したがって、 \begin{align} 二乗誤差 = ノイズ + バリアンス + バイアス^{2} \end{align} と二乗誤差を分解できることが分かります。

まとめ

二乗誤差をバイアス-バリアンス(+ノイズ)への分解を導出しました。内容としては簡単な導出ですが、このくらいの基礎的な内容でも意外と誤って認識していることがあるんだなといった良い教訓が得れました。（以後気をつけよう笑）

2019-03-10

WAICの導出を追ってみる。その5

概要

前回の記事では、繰り込まれた事後分布による平均操作を定義して、 $E[ f(x,u)^{s} ]$ や $\langle t \rangle$ について求めて行きました。この記事では、汎化損失 $G_{n}$ と経験損失 $T_{n}$ の展開をキュムラントより求めた後、汎関数分散と正規確率過程の関係を求めて、WAICを導出します。

キュムラント母関数

汎化損失のキュムラント母関数 $\mathcal{G}_{n}(\alpha)$ と経験損失のキュムラント母関数 $\mathcal{T}_{n}(\alpha)$ を次の様に定義します。 \begin{align} \mathcal{G}_{n}(\alpha) = E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ], \quad \mathcal{T}_{n}(\alpha) = \frac{1}{n}\sum^{n}_{i = 1}\log{E_{w}}[ p(X|w)^{\alpha} ] \end{align} 以下では、キュムラント母関数を使って汎化損失や経験損失を表すための準備をします。

ここで汎化損失のキュムラント母関数 $\mathcal{G}_{n}(\alpha)$ を対数尤度比関数 $f(x,w) = \log{\frac{p(x|w_{0})}{p(x|w)}}$ を使って表すと \begin{align} \mathcal{G}_{n}(\alpha) &= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ]\\ &= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} - \log {p(X|w_{0})^{\alpha}} + \log {p(X|w_{0})^{\alpha}}]\\ &= - E_{X} \left[ \log {E_{w} \left[ \frac{p(X|w_{0})^{\alpha}} {p(X|w)^{\alpha}} \right]}\right] + E_{X} \left[ \log {p(X|w_{0})^{\alpha}} \right]\\ &= - E_{X} \left[ \log {E_{w} \left[ \left( \frac{p(X|w_{0})} {p(X|w)} \right) ^{\alpha} \right]}\right] + \alpha E_{X} \left[ \log {p(X|w_{0})} \right]\\ &= - E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, \log{\frac{p(X|w_{0})} {p(X|w)} } \right) \right]}\right] - \alpha L(w_{0})\\ &= -\alpha L(w_{0}) -E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, f(x,w) \right) \right]}\right] \\ &= - \alpha L(w_{0}) +E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right] \end{align} となります。ここで $\mathcal{G}^{(1)}_{n}(\alpha) = \frac{d}{d\alpha}\mathcal{G}_{n}(\alpha)$ ]とすると \begin{align} \mathcal{G}^{(1)}_{n}(\alpha) &= \frac{d}{d\alpha} \mathcal{G}_{n}(\alpha)\\ &=\frac{d}{d\alpha} \left( - \alpha L(w_{0}) + E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right] \right) \\ &= -L(w_{0}) - E_{X} \left[ \frac{E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right]} \right]\\ &= - L(w_{0}) - E_{X} \left[ \mathcal{L}_{1}(X)\right] \end{align} となります。ただし、 \begin{align} \mathcal{L}_{k}(A) = \frac{E_{w} \left[
\left( f(x,w) \right) ^{ k } exp \left( -\alpha \, f(A,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(A,w) \right) \right]} \end{align} としています。また、 $\mathcal{G}^{(2)}_{n}(\alpha) = \frac{d}{d^{2}\alpha}\mathcal{G}_{n}(\alpha)$ は、 \begin{align} \mathcal{G}^{(2)}_{n}(\alpha) =& \frac{d}{d^{2}\alpha}\mathcal{G}_{n}(\alpha)\\ =& \frac{d}{d \alpha} \left( - L(w_{0}) - E_{X} \left[ \frac{ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right] \right)\\ =& E_{X} \left[ \frac{d}{d \alpha}\left( - E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \right)\frac{ 1 } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right] \\ &+ E_{X} \left[ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \frac{d}{d \alpha}\left( \frac{ -1 } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right) \right]\\ =& E_{X} \left[ E_{w} \left[ f(x,w)^{2} exp \left( -\alpha \, f(x,w) \right) \right] \cdot \frac{ 1 }{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right]\\ &+ E_{X} \left[ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \left( \frac{ - E_{w} \left[f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {\left( E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] \right) ^{2} } \right) \right]\\ =& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right] \end{align} と出来ます。経験損失のキュムラント母関数 $\mathcal{T}_{n}(\alpha)$ にも同様の計算をする事で（ $E_{X}$ を $\frac{1}{n} \sum _{i=1} ^{n}$ と置き換える事で） \begin{align} \mathcal{T}^{(1)}_{n}(\alpha) &= - L_{n}(w_{0}) - \frac{1}{n} \sum _{i=1} ^{n} \left[ \mathcal{L}_{1}(X)\right]\\ \mathcal{T}^{(2)}_{n}(\alpha) &=\sum _{i=1} ^{n} \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \end{align} とする事が出来ます。

キュムラントと損失関数

キュムラント母関数 $\mathcal{G}_{n}(\alpha)$ 、 $\mathcal{T}_{n}(\alpha)$ より損失関数 $G_{n}$ 、 $T_{n}$ を求めます。まず汎化損失 $G_{n}$ について考えます。汎化損失のキュムラント母関数 $\mathcal{G}(\alpha)$ を $\alpha = 0$ の近傍で、中間値の定理を用いて3次まで展開すると、 \begin{align} \mathcal{G}_{n}(\alpha) = \mathcal{G}_{n}(0) + \alpha \mathcal{G}^{(1)}_{n}(0) + \alpha ^{2} \mathcal{G}^{(2)}_{n}(0) + \alpha ^{3} \mathcal{G}^{(3)}_{n}(\alpha^{ * }) , \quad \alpha^{*} \in (0,\alpha)\\ \end{align} と出来ます。ここで \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| = o \left( \frac{1}{n} \right) \end{align} として、 $\alpha=1$ とすると、 \begin{align} \mathcal{G}_{n}(0) &= E_{X}[\log {E_{w}[ p(X|w)^{0} ]}]\\ &=E_{X}[\log {E_{w}[ 1 ]}] = E_{X}[\log { 1 }] =0 \end{align} となるため、 \begin{align} \mathcal{G}_{n}(1) &= \mathcal{G}_{n}(0) + 1 \cdot \mathcal{G}^{(1)}_{n}(0) + 1 ^{2} \cdot \mathcal{G}^{(2)}_{n}(0) + 1 ^{3} \cdot \mathcal{G}^{(3)}_{n}(\alpha^{ * }) \\ &= 0 + \mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ &=\mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} と出来ます。ここで、汎化損失 $G_{n}$ と汎化損失のキュムラント母関数 $\mathcal{G}_{n}(\alpha)$ には \begin{align} G_{n} &= -E_{X} \left[ log{ E_{w} \left[ p(X|w) \right]}\right]\\ &= -E_{X} \left[ log{ E_{w} \left[ p(X|w)^{1} \right]}\right]\\ &= -\mathcal{G}_{n}(1) \end{align} の関係があるので、汎化損失 $G_{n}$ は汎化損失のキュムラント母関数 $\mathcal{G}_{n}(\alpha)$ によって次の様に表せます。 \begin{align} G_{n}　&= -\mathcal{G}_{n}(1)\\ &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} 同様に経験損失 $T_{n}$ は経験損失のキュムラント母関数 $\mathcal{T}_{n}(\alpha)$ によって次の様に表せます。 \begin{align} T_{n}　&= -\mathcal{T}_{n}(1)\\ &= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align}

汎化損失 $G_{n}$ 、経験損失の $T_{n}$ の繰り込まれた事後分布による表現と汎関数分散

この節では、次の関係を導出します。 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} この関係を導くために \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} の関係を利用します。この関係を使うには、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} である事が必要となります。ここで \begin{align} E_{w} \left[ f(x,w)^{s} \right] &= \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} となるため、 $s \in (2,\infty)$ の時について考えると、 $s$ > $1$ なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +\left( \frac{d}{ds} \frac{1}{n^{\frac{s}{2}}} \right)\cdot \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + \frac{d}{ds} o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &= \quad ...\\ &=\frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d^{3}}{ds^{3}} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ &= o \left( \frac{1}{n} \right) \end{align} となります。また、 $s \in [0,2$ ]の時は、 $s \le 1$ なので、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \le& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u)\right) ^{2} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \end{align} と出来ます。このため、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \le o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} となります。また、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \ge 0 + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \ge o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} であるとも言えます。よって、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} & = o \left( \frac{1}{n^{\frac{s}{2}+3}} \right)\\ & = o \left( \frac{1}{n} \right) \end{align} と言えます。 \begin{align} E_{w} \left[ f(x,w)^{s} \right] = E_{w} \left[ \left( \log{ p(x|w_{0})} - \log{ p(x|w)} \right)^{s} \right] \end{align} であるため、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} であると言えます。

このため、汎化損失 $G_{n}$ 、経験損失の $T_{n}$ を求める為には、 $\mathcal{G}^{(1)}_{n}(0)$ 、 $\mathcal{G}^{(2)}_{n}(0)$ 、 $\mathcal{T}^{(1)}_{n}(0)$ 、 $\mathcal{T}^{(2)}_{n}(0)$ を求めればいい事がわかります。

$\mathcal{G}^{(1)}_{n}(0)$ については、 \begin{align} - \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + E_{X} \left[ \mathcal{L}_{1}(X)\right]\\ =& L(w_{0}) + E_{X} \left[ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] } {E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}\right]\\ =& L(w_{0}) + E_{w}\left[ K(w) \right]\\ =& L(w_{0}) + \langle \frac{t}{n} \rangle + o \left( \frac{1}{n} \right)\\ =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right) \end{align} となります。また $\mathcal{G}^{(2)}_{n}(0)$ については、汎関数分散 $V(\xi_{n})$ \begin{align} V(\xi_{n}) = E_{X} \left[ E_{w} \left[ \langle t a(x,u)^{2} \rangle \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] \end{align} によって次の様に定義されます。 \begin{align} \mathcal{G}^{(2)}_{n}(0) =& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right]\\ =& E_{X} \left[ E_{w} \left[ f(x,w)^{2} \right] - E_{w} \left[ f(x,w) \right]^{2} \right]\\ =& \frac{1}{n} E_{X} \left[ E_{w} \left[ \langle t a(x,u)^{2} \rangle \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] + o \left( \frac{1}{n} \right)\\ =& V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} と出来ます。

$\mathcal{T}^{(1)}_{n}(0)$ は、 \begin{align} - \mathcal{T}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n} \sum^{n}_{i=1}{\mathcal{L}_{1}(x_{i})} \\ =& L(w_{0}) + \frac{1}{n} \sum^{n}_{i=1}{ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] } {E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}}\\ =& L(w_{0}) + E_{w}\left[ K_{n}(w) \right]\\ =& L(w_{0}) + \langle \frac{t - \sqrt{t} \xi _{n}(u)}{n} \rangle + o \left( \frac{1}{n} \right)\\ =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right) \end{align}と出来きます。また $\mathcal{T}^{(2)}_{n}(0)$ は、 \begin{align} \mathcal{T}^{(2)}_{n}(0) =& \frac{1}{n} \sum^{n}_{i=1} { \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} } \\ =& \frac{1}{n} \sum^{n}_{i=1}{ E_{w} \left[ f(x,w)^{2} \right] - E_{w} \left[ f(x,w) \right]^{2}} \\ =& \frac{1}{n^{2}} \sum^{n}_{i=1} { E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} } + o \left( \frac{1}{n} \right)\\ \end{align} ここで関数の大数の法則より \begin{align} &\frac{1}{n} \sum^{n}_{i=1} { E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} }\\ &\quad = E_{X} \left[ E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] +o(1) \end{align} より、 $n\mathcal{G}^{(2)}_{n}(0)$ と $n\mathcal{T}^{(2)}_{n}(0)$ の差は $n \to \infty$ の時 $0$ に収束する。よって、 \begin{align} \mathcal{T}^{(2)}_{n}(0) = & V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} となります。

以上の $\mathcal{G}^{(1)}_{n}(0)$ 、 $\mathcal{G}^{(2)}_{n}(0)$ 、 $\mathcal{T}^{(1)}_{n}(0)$ 、 $\mathcal{T}^{(2)}_{n}(0)$ に関する議論と \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} より、 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} となる事が示ました。

正規確率過程と汎関数分散の関係

ここでは、前の節で登場した $\langle \sqrt{t}\xi_{n}(u) \rangle$ と $V(\xi_{n})$ の関係を確認します。ここで、サンプルの出方の期待値（偶然片寄ったサンプルが得られることを確率的に扱う）を $E[ \,$ ]と表記します。すると、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =& E\left[ E_{X}\left[ \log{ E_{w} \left[ p(X|w) ^{\beta} \right] } \right]\right]\\ =& E\left[ E_{X}\left[ \log{\left( \int_{W} p(X|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\right]\\ =& E\left[ \log{\left( \int_{W} p(x_{n}|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& E\left[ - \log{\left( \int_{W} p(x_{n}|w) ^{- \beta} \cdot \frac{ \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& - E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ \end{align} と出来ます。この式は、 $x_{1},x_{2},...,x_{n}$ で平均を取っているので、 $x_{1},x_{2},...,x_{n}$ のどれを入れ替えても値は同じであるから、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =&- E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ =& - E\left[ \frac{1}{n} \sum^{n}_{i=1} \log{ E_{w}\left[ p(x_{i} | w) ^{-\beta} \right] }\right]\\ =& E[\mathcal{T}_{n - 1}(-\beta)] \end{align} となります。ここで、中間値の定理を使って、 $-\beta = 0$ 近傍で3次の項まで両辺を展開したのち、 $-\beta = 1$ を代入し、定数項が $0$ になり3次の項が $o(\frac{1}{n})$ であるとすると、（本記事の上記で行った様に両辺を展開すると） \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] = E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} と出来ます。ここで、 \begin{align} - \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right)\\ \mathcal{G}^{(2)}_{n}(0) =& V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} であるため、 $\mathcal{G}^{(1)}_{n}(0)$ と $\mathcal{G}^{(1)}_{n - 1}(0)$ の違いや、 $\mathcal{G}^{(2)}_{n}(0)$ と $\mathcal{G}^{(2)}_{n - 1}(0)$ の違いは、 $o\left(\frac{1}{n} - \frac{1}{(n-1)} \right)=o\left(\frac{-1}{(n-1)n} \right)$ つまりは $o\left(\frac{1}{n}\right)$ と出来る事が分かります。したがって、 \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] =&\\ E[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) =&\\ E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} とできます。 $\mathcal{G}^{(1)}_{n}(0)$ 、 $\mathcal{G}^{(2)}_{n}(0)$ 、 $\mathcal{T}^{(1)}_{n}(0)$ 、 $\mathcal{T}^{(2)}_{n}(0)$ に関する結果を使う事で両辺は、 \begin{align} E \left[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right)\\ \\ E \left[\mathcal{T}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L_{n}(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \end{align} とできます。これらより、 \begin{align} &- L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right) \\ & \qquad = - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \\ \end{align} とでき、両辺を整理すると \begin{align} E \left[\langle \sqrt{t} \xi_{n}(u) \rangle \right] &= E \left[\beta V(\xi_{n}) \right] + o(1) \end{align} となる事が分かります。

WAICの導出

ここではこれまでの議論を使ってWAICを導出します。経験対数損失 $L_{n}(w_{0})$ と平均対数損失 $L(w_{0})$ について、サンプリングに関する変動に関する平均操作を $E[ \,$ ]で表すと、 \begin{align} L(w_{0}) = E\left[ L(w_{0}) \right] = E\left[ L_{n}(w_{0}) \right] \end{align} とできます。この関係を使って \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} を $L_{n}(w_{0})$ 、 $L(w_{0})$ について代入すると、 \begin{align} &E\left[ T_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \\ & \qquad= E\left[ G_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \end{align} となり、整理すると、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{ 1 }{ n } \right)\\ &= E\left[ T_{n} + \frac{1}{n}\beta V(\xi_{n}) \right] + o \left(\frac{ 1 }{ n } \right) \end{align} とできます。汎関数分散 $V(\xi_{n})$ については、広中の特異点解消定理によって、パラメータが変更されているため、そのままでは計算する事ができないので、漸近的に同じとなる次の汎関数分散 $V_{n}$ を考えます。 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} } \end{align} ここで、 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( -\log{ p(x_{i} |w)} \right) ^{2} \right] + \left( \log{ p(x_{i} |w_0)} \right)^{2} - \left( \log{ p(x_{i} |w_0)} \right)^{2} - E_{w} \left[ -\log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right) ^{2} \right] - E_{w} \left[ \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ f(x|w) ^{2} \right] - E_{w} \left[ f(x|w) \right]^{2} }\\ &= \sum^{n}_{i=1} { \langle t a(x,u)^{2}\rangle - \langle \sqrt{t} a(x,u) \rangle ^{2} } + o \left(\frac{ 1 }{ n } \right)\\ &= \sum^{n}_{i=1} { V( \xi_{n} ) } + o \left(\frac{ 1 }{ n } \right)\\ \end{align} となるため、 $V_{n}$ と $V(\xi_{n})$ が漸近的に一致する事が分かります。

上記の議論より、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V(\xi_{n}) \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V_{n} \right] + o \left(\frac{1}{n} \right) \end{align} の関係が導け、これをベイズ統計学の状態方程式と呼びます。ここでWAIC $W_{n}$ を次の様に定義します。 \begin{align} W_{n} = T_{n} + \frac{\beta}{n}V_{n} \end{align} すると、 \begin{align} G_{n} = W_{n} + o \left(\frac{1}{n} \right) \end{align} が成り立つためWAICを計算する事で、汎化損失の近似値を得る事ができます。

まとめ

以上より、WAICが導出されました。WAICは汎化損失の近似値ですが、汎化損失の近似方法として、one leave out cross validationやその近似法であるパレート重点サンプリング等があります。どの手法がいいか実験を行って挙動を比較する必要があります。また、対数周辺尤度の近似であるWBICや実対数閾値を使って対数周辺尤度の計算を行うsinguler BICがあるので、汎化損失以外の方法でモデルの評価を行いたい時は、WAICでない方法を選ぶと良いです。ただし、今回は示しませんでしたが、「ベイズ統計の理論と方法」において、WAICとone leave out cross validationは $\left(\frac{1}{n^{2}} \right)$ で汎化損失に収束するため、WBICと比べて少ないサンプルで収束する性質があるとされています。このため、データサイズが小さい場合は、WAICで評価するのが望ましい様に思います。（実は「ベイズ統計の理論と方法」の著者である渡辺先生の研究室の学生がWBICの収束を改善したものを（統計系の学会で）日本語のみで報告したとの噂を聞いた事があります。真偽の程は分かりませんが。。。）

WAICの導出は五つの記事に渡る長編でしたが、最後までお付き合い頂き有難うございました。

2019-02-26

WAICの導出を追ってみる。その4

概要

本記事では、事後分布の微小積分 $\Omega(w)dw = exp(-n \beta K_{n}(w))\phi(w)dw$ をサンプル数で収束する部分とサンプリングによる確率的変動で収束する部分に分かれた形に変形します。この様に分けることで、事後分布で期待値を計算する際に、分母と分子でサンプル数で収束する部分同士でキャンセルさせて、サンプリングによる変動のみを考えればいい様出来ます。そのあと、事後分布での積分を考えて、WAIC導出の準備を行います。

正規化された分配関数の主要項 $Z^{(1)}_{n}(\beta)$ と積分範囲

その3の記事で示した通り、 \begin{align} Z^{(0)}_{n}(\beta)&=Z^{(1)}_{n}(\beta)+Z^{(2)}_{n}(\beta)\\ Z^{(1)}_{n}(\beta) &= \int_{K(w) < \epsilon} \exp \left( -n \beta K_{n}(w) \right)\\ Z^{(2)}_{n}(\beta) &= \int_{K(w) \geq \epsilon}\exp\left( -n \beta K_{n}(w) \right) \end{align}

\begin{align} \lim_{x \to \infty} \epsilon(n) &=0 \end{align}

\begin{align} \lim_{x \to \infty} \sqrt{n}\epsilon(n) &= \infty \end{align}

と言う風に正規化された分配関数 $Z^{(0)}_{n}(\beta)$ は主要項 $Z^{(1)}_{n}(\beta)$ と非主要項 $Z^{(2)}_{n}(\beta)$ に分けることが出来き、非主要項は $o(\exp(-\sqrt{n}))$ のオーダーで $0$ に収束するので、主要項に該当する部分 \begin{align}K(w)<\epsilon\end{align}について考えます。また本記事で示すことですが、主要項は $\frac{\left( \log n \right)^{m -1}}{n^{\lambda}}$ で収束します。

標準形・変数変換

これまでの議論から、事後微小積分を標準化して変形します。 \begin{align} \Omega(w)dw &= exp(-n \beta K_{n}(w))\phi(w)dw\\ &= exp(-n \beta K_{n}(g(u))\phi(g(u))|g'(u)|du\\ &= exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \end{align} ここでデルタ関数 $\delta(t)$ を使って \begin{align} \Omega(w) dw &= \int^{\infty} _{0} d \chi \delta(\chi - u^{2k}) u^{h} exp(-n \beta \chi + \sqrt{n\chi} \beta \xi_{n}(u)) b(u) du \end{align}

ここで変数の変換 $\chi = t/n$ を行い $exp(x)$ の指数の中から $n$ を外に出します。（ $u \in (0,\infty)$ なので、絶対値を外す事が出来ます。）微分すると $d\chi = dt/n$ となるので、 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} と出来ます。ここで $\delta(t/n - u^{2k}) u^{h} b(u) du$ といった項が出てきていますが、このままでは扱いにくいので、これから一旦 $\delta(t/n - u^{2k}) u^{h} b(u) du$ の性質について調べて( $n \to \infty$ とサンプル数が増えることを想定して、その時に何にどのくらいの速さで収束するかをしらべます)、デルタ関数 $\delta(t)$ を扱い易い形へ変形します。

デルタ関数の近似

\begin{align} \Delta(t,u)=\delta(t-u^{2k})|u^{h}| \end{align} について考えます。この時、多重指数 $k=(k_{j})$ と $h=(h_{j})$ に関して、 \begin{align} \left( \frac{h_{j}+1}{2k_{j}} \right) \end{align} を考えます。この値は、あとで $\Delta(t,u)$ にメリン変換を行い近似を行うのですが、その挙動を示す複素関数の極の位置を表します。上式の値に関して最小の値を \begin{align} \lambda= \min^{d}_{j=1}\left(\frac{h_{j}+1}{2k_{j}}\right) \end{align} とし、最小値を取る $j$ の個数を $m$ とし、多重度と呼びます。 $\lambda$ を実対数閾値といい、多重度と実体数閾値は $\Delta(t,u)$ を複数の項に分解した際に最も収束が遅い項の収束のスピードを表すものになります。またパラメータ $u=(u_{1},u_{2},...,u_{d})$ の中で、 $\left( \frac{h_{j}+1}{2k_{j}} \right)$ が $\lambda$ となっている $u_{i}$ を集めて、 $u_{a} \in \mathbb{R}^{m}$ とし、それ以外のパラメータを $u_{b} \in \mathbb{R}^{d-m}$ として、 $u = (u_{a},u_{b})$ とします。

これらの記号の整理を元に次の定理を示します。次の微小積分 $du ^{ * }$ について考えます。 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} ただし、 $\mu = \{\mu_{i}|j=m+1,...,d\}$ は $\mu_{i} = -2\lambda k_{i} + h_{i}$ として値が決められるものになります。この $du^{ * }$ について、次の関係がなりたちます。 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right) \end{align} 上記の関係を示すために、メリン変換について確認します。メリン変換とはラプラス変換の仲間のようなもので、関数 $f(t)$ に関して、 \begin{align} (Mf)(z) = \int^{\infty}_{0}t^{z}f(t)dt \quad (z \in \mathbb{C}) \end{align} となっていて、逆変換は \begin{align} (M^{-1} F)(t) = \frac{1}{2\pi i }\int^{c+i \infty }_{c-i \infty} F(z) t^{-z}dz \end{align} ここで $Re(z) \in (a,b)$ において、メリン変換が複素関数として正則となる定数 $a,b$ があり、定数 $c$ は $c \in (a,b)$ を満たすものとします。

ここで、 $\Delta(t,u)$ についてメリン変換すると、 \begin{align} (M\Delta)(z,u) = \int^{\infty}_{0}t^{z}\delta\left( t - u ^{2k} \right)|u^{h}| dt = \left( u^{2k} \right) ^{z} u^{h} = u^{2kz + h} \end{align} と出来ます。ここで $u$ を $[0,1$ ]で積分するので、絶対値を外しています。このメリン変換した $\Delta(t,u)$ に無限回微分出来る任意の関数 $\Phi(u)$ をかけて $[0,1]^{d}$ 上で積分したものを \begin{align} \zeta(z) = \int_{[0,1]^{d}}u^{2kz + h}\Phi(u)du \end{align} とします。これより、上記の準備を用いて、上記の関係を導出します。 $\Phi(u)$ を原点の周りで $u_{a}$ についてのみ展開すると、 \begin{align} \Phi(u) = \Phi(0, u_{b}) + u_{a} \cdot \nabla _{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2} \nabla ^{2} \Phi( u^{ * } _{a}, u _{b}) \end{align} とできます。三つ目の項は中間値の定理で高次の項をまとめたものになります。これを用いると $\zeta(z)$ は \begin{align} \zeta(z) = \int_{[0,1]^{d}} \left( u^{2kz + h} \Phi(0, u_{b}) + u^{2kz + h} \left(u_{a} \cdot \nabla_{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2}\nabla^{2}\Phi(u^{ * }_{a},u_{b}) \right) \right) du \end{align} となります。ここで第一項は $u_{a}$ のみ積分を実行する事で \begin{align} \int_{[0,1]^{d}}u^{2kz + h} \Phi(0, u_{b})du &= \left( \prod^{m}_{j=1}\int^{1}_{0} u_{j}^{2k_{j}z + h_{j}}du_{j} \right)\int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &= \left( \prod^{m}_{j=1} \frac{1}{2k_{j}z + h_{j} +1} \right) \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &=\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \end{align} と出来ます。ここで、 $c_{1} = \left(\prod^{m}_{j=1}\frac{1}{2k_{j}} \right) > 0$ とします。ここで、第二項では展開した際に出てくる $\left( u_{a} \right) ^{n}$ の影響で、被積分関数中の $u_{a}$ の指数は上式中の $2k_{j} z + h_{j}$ より大きくなります。このため、積分を実行した際に極が $- \lambda$ より小さくなることが分かります。また、 $u_{b}$ の部分については、 $u_{a}$ と同様に原点近傍で展開することで極の位置が分りますが、 $\lambda= \min^{d}_{j=1}\left(\frac{h_{j}+1}{2k_{j}}\right)$ より、極の位置が $- \lambda$ より小さくなることが分かります。このため、 $\zeta(z)$ の最大の極は $- \lambda$ で位数が $m$ であることが分かりました。（「ベイズ統計の理論と方法」では、第一項以外の最大の極が $- \lambda$ の時は、位数が $m$ より小さくなるとしていますが、私には「極が $- \lambda$ となるケース」がよく分かりませんでした。）ここで $\mu_{j} = -2\lambda k _{j} + h_{j}$ として、上式の第1項を $z = - \lambda$ 周辺で展開することを考えると、 \begin{align} &\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} \left(z - (- \lambda) \right) \cdot \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ...\\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu } \Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m - 1}} \int_{[0,1]^{d - m}} \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ... \end{align} となり、ここでの第一項以外の項の $z = - \lambda$ での極の位数は $m$ より小さくなることが分かります。ここで、第一項について、「 $u$ の $[0,1]^{d}$ 上で積分」の逆の操作（ $u$ の全ての成分について微分する）事を考え、この操作を $\frac{d }{du}$ と表記すると \begin{align} \frac{d \left( \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u} &= \frac{c_{1}}{(z+\lambda)^{m}} \frac{d \left( \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \frac{ d \left( \int_{[0,1]^{d}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u)du \right) }{du}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u) \end{align} と出来ます。これらの操作を展開した全ての項に対して行う事で、 $\Delta(t,u)$ のメリン変換を、 \begin{align} (M\Delta(t,u))(z) = \sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \end{align} とすることが出来ます。ただし、 $\lambda_{i},m_{i}$ は $\lambda_{i} \ge \lambda$ かつ $m_{i} \le m$ であり、 $i=1$ の時のみ $\lambda_{1} = \lambda, m_{1} = m$ となります。

ここで、 $(t \in (0,1))$ の時は $f_{m}(t) = t^{\lambda -1} (- log(t))^{m - 1}$ となり、それ以外の時は $0$ となる関数 $f_{m}(t)$ のメリン変換について考えます。すると \begin{align} &(Mf_{m}(t))(z) = \int ^{\infty}_{0} t^{z}f_{m}(t)dt = \int ^{1}_{0} t^{z}t^{\lambda - 1}(-\log (t))^{m - 1}dt\\ &= \left[ \frac{1}{z + \lambda}t^{z+\lambda}(-\log(t))^{m - 1} \right]^{1}_{0} + \frac{m - 1}{ z + \lambda}\int^{1}_{0}t^{z + \lambda - 1}(- \log(t))^{m - 2} dt \\ &=\frac{m - 1}{ z + \lambda}(Mf_{m}(t))(z) \end{align} となるため、これを $m - 1$ 回繰り返すことで、 \begin{align} (Mf_{m}(t))(z) = \frac{(m - 1)!}{(z + \lambda)^{m}} \end{align} となる事が分かります。

このため、 \begin{align} \Delta(u,t) &= \left(M^{-1}(M\Delta(u,t))(z)\right)(t)\\ & = \left(M^{-1} \left(\sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \right)\right)(t)\\ & = \sum _{i} \frac{c_{i}}{(m_{i} - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1} \end{align} となります。 $a, b \in (0,\infty)$ において、 \begin{align} t^{a} (- log(t))^{b} = t^{a} (log(\frac{1}{t}))^{b}\to 0 \,\,\,\,(t \to 0) \end{align} であり、 $0$ へ収束する速度は $a$ が小さく、 $b$ が大きいほど遅くなるので、 $t \to 0$ において、 \begin{align} \Delta(u,t) &= \sum _{i} \frac{c_{i}}{(m - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1}\\ &= \frac{c_{1}}{(m - 1)!} t^{\lambda - 1} (- log(t))^{m - 1} + o\left( t^{\lambda - 1} (- log(t))^{m - 1} \right) \end{align} となります。これより、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} ただし、 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} となることを示す事が出来ました。

事後微小微分の漸近挙動

上記の $\delta\left( t-u^{2k} \right)|u^{h}|b(u)$ の漸近挙動を用いて、 $\Omega(w) dw$ の $n \to \infty$ の漸近挙動について見ていきます。 $\Omega(w) dw$ は以下のように表すことが出来ます。 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} ここで、 $t/n \to 0$ として、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} を使うと、 \begin{align} \Omega(w) dw =& \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du\\ =& \int^{\infty} _{0} \frac{dt}{n} \left( \frac{t}{n}\right) ^{\lambda - 1}\left(- \log \frac{t}{n} \right)^{m -1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} \frac{dt}{n} o\left( (t / n)^{\lambda - 1}(- \log (t/n) )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * }\\ \\ =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \end{align} となる。ここで、 $\left( \log n - \log t \right)^{m -1}/n ^{\lambda}$ にの分子を展開した形について考えてみると、 $n \to \infty$ において、 $\left( \log n \right)^{m -1}/n ^{\lambda}$ の項が最も $0$ への収束が遅く、 $\int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * }$ の項は第一項（積分の項）よりも収束が早いため \begin{align} \Omega(w) dw =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } + o\left( \frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \right)\\ \end{align} となります。

スケーリング関係と繰り込まれた事後分布

事後微小積分の漸近挙動が判明したので、これを用いて事後分布の挙動を考える事が出来ます。その前に一旦、事後微小積分を導出する中で出てきた、パラメータ $(u,t)$ と元のパラメータ $w$ との関係（スケーリング関係）を確認します。特異点定理やデルタ関数の設定より \begin{align} w = g(w),\qquad K(w)=u^{2k} = \frac{t}{n} \end{align} となる事が分かります。また、対数尤度比関数 $f(x,w)$ に関する命題より、 \begin{align} f(x,w) = f(x,g(u)) = u^{k}a(x,u) = \sqrt{\frac{t}{n}}a(x,u) \end{align} となります。さらに、 \begin{align} K_{n})(g(u))=u^{2k} - \frac{1}{\sqrt{n}}u^{k} \xi _{n}(u) = \frac{1}{n}(t - \sqrt{t}\xi _{n}(u)) \end{align} となります。

ここで、事後分布による関数 $f(x,w)^{s} =f(x,u,t)^{s}$ の平均 $E_{w}[f(x,w)^{s}$ ]を考えてみます。平均を考えると次のようになります。 \begin{align} E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw} \end{align} ここで、分子に着目すると、 \begin{align} \int f(x,w)^{s} \Omega(w)dw =& \int \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \\ =& \int du \int ^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s}\cdot \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u)\\ =& \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =& \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)\\ \end{align} となります。ここで、関数 $F(t,u)$ の繰り込まれた事後分布による平均操作 $\langle \, \rangle$ を次の様に定義します。 \begin{align} \langle F(t,u) \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot F(t,u) \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } {\int du^{ * } \int^{\infty} _{0} dt\cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \end{align}

すると、 \begin{align} &E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw}\\ =& \frac{\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)} {\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}}\right)\ }\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \cdot\\ &\frac{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) - o\left( 1 \right) }{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ \\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle \left( 1 - \frac{ o\left( 1 \right)}{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } \right)+ o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle +\frac{1}{n^{s/2}} \cdot o\left( 1 \right) + o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle + o\left( \frac{1}{n^{s/2}} \right) \end{align} の様に出来ます。また \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} と出来ます。証明は次の通りです。 \begin{align} \langle t \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} {\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} \end{align} ここで、分子の $t$ に関する積分を部分積分すると、 \begin{align} \int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)}dt &= -\frac{1}{\beta}\left[ e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right]^{\infty}_{0} + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} \left( \frac{d}{dt} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right)dt \\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\xi_{n}(u)}{2\sqrt{t}}dt\\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\sqrt{t} \xi_{n}(u)}{2}dt \end{align} と出来ます。分母は $\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) = \int u^{ * } \int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt$ となるので、分子を $du^{ * }$ で積分して、分母で割ると \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} が得られます。

まとめ

以上より、事後微小微分において、サンプル数 $n$ の含まれる項を積分の外に出すことが出来ました。これによって、事後分布において、サンプルの影響を $\xi_{n}(u)$ のみに集約することが出来ました。

また、事後微小微分を用いて、事後分布による積分や $\langle \, \rangle$ による積分を計算しました。（この $\langle \, \rangle$ による積分を「ベイズ統計の理論と方法」では「繰り込まれた事後分布による平均操作」と言います。）

次の記事では、これらを用いてWAICの導出を行いたいと思います。

2019-01-13

WAICの導出を追ってみる。その3

概要

前回の記事で、経験誤差の標準形を導きました。これを用いて、分配関数（事後微小積分）を求めるのですが、そのために一旦、分配関数の主要部分を求めておきます。内容としては、「ベイズ統計の理論と方法」のp58-62に相当します。

正規化された分配関数 $Z^{(0)}_{n}(\beta)$

正規化された分配関数 $Z^{(0)}_{n}(\beta)$ ですが、次の様に定義されます。 \begin{align} Z^{(0)}_{n}(\beta) = \int \exp\left(-n \beta K_{n}(w)\right) \phi(w)dw = \int\Omega(w)dw \end{align} であり、 $\Omega(w)dw$ を事後微小積分といい、広中の特異点解消定理等を用いて、 \begin{align} \Omega(w)dw = \exp\left(-n \beta K_{n}(g(u))\right) \phi(g(u))|g'(u)|du \end{align} とすることが出来ます。

ここで一旦脇道に逸れますが、正規化された分配関数 $Z^{(0)}_{n}(\beta)$ と事後分布 $p(w|X)$ の関係を確認します。端的にいえば、事後分布は正規化された分配関数 $Z^{(0)}_{n}(\beta)$ と経験誤差 $K_{n}(w)$ から導くことが出来ます。以下は、その導出になります。

まず、「正規化されていない」分配関数 $Z_{n}(\beta)$ は次の様に定義されます。 \begin{align} Z_{n}(\beta)=\int _{W}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}dw \end{align} ここで、「正規化された」分配関数 $Z^{(0)}_{n}(\beta)$ と「正規化されてない」通常の分配関数 $Z_{n}(\beta)$ を比較すると \begin{align} Z_{n}(\beta)&=\int _{W}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}dw\\ &=\int _{W}\phi(w)\frac{\prod^{n}_{i=1}p(x_{i}|w)^{\beta}} {\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}} \cdot\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}dw\\ &=\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta} \int_{W}\phi(w)\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}dw\\ &=\exp\left(\log\left(\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}\right)\right) \int_{W}\phi(w)\exp\left(\log\left(\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}\right)\right)dw\\ &=\exp\left(\beta\sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)\int_{W}\phi(w)\exp\left(\beta\sum^{n}_{i=1}\log\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)\right)dw\\ &=\exp\left(-n \cdot \frac{-1}{n}\beta\sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)\int_{W}\phi(w)\exp\left( n \cdot \frac{1}{n} \beta \sum^{n}_{i=1} -f(x_{i}|w) \right)dw\\ &=\exp\left(-n \beta L_{n}(w_{0})\right) \int_{W}\phi(w)\exp\left(-n \beta K_{n}(w)\right)dw\\ &=\exp\left(-n \beta L_{n}(w_{0})\right) \cdot Z^{(0)}_{n}(\beta) \end{align} の様に、経験対数損失を介して二つは関係付けられます。この関係より事後分布 $P(w|X^{n})$ は次の様に表せます。 \begin{align} P(w|x^{n})&=\frac{1}{Z_{n}(\beta)}\phi(w)\prod^{n}_{i=1}p(x_{i}|W)^{\beta}\\ &=\frac{\exp\left(n \beta L_{n}(w_{0})\right)}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}\\ &=\frac{\exp\left(-\beta \sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}\\ &=\frac{\prod^{n}_{i=1}p(x_{i}|w_{0})^{-\beta}}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}\left(p(x_{i}|w)\right)^{\beta}\\ &=\frac{1}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}\\ &=\frac{1}{Z^{(0)}_{n}}\phi(w)\exp\left(\beta\sum^{n}_{i=1}\log\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)\right)\\ &=\frac{1}{Z^{(0)}_{n}} \phi(w) \exp\left( n \cdot \frac{1}{n} \beta \sum^{n}_{i=1} -f(x_{i}|w) \right)\\ &=\frac{1}{Z^{(0)}_{n}} \phi(w) \exp\left( -n \beta K_{n}(w) \right) \end{align}

この様に、事後分布 $P(w|X^{n})$ は正規化された分配関数 $Z^{(0)}_{n}(\beta)$ と経験誤差 $K_{n}(w)$ から導くことが出来ます。

正規化された分配関数の主要項 $Z^{(1)}_{n}(\beta)$ と非主要項 $Z^{(2)}_{n}(\beta)$

正規化された分配関数 $Z^{(0)}_{n}(\beta)$ ですが、 $n \to \infty$ での0への収束速度に応じて、主要項と非主要項に分けます。この記事では、非主要項の挙動（ $\exp(-\sqrt(n))$ で0に収束）を導いて、以降は主要項（後の記事で示しますが $n^{-\lambda}$ で0に収束）のみ扱えばいい様にします。

まず、正規化された分配関数 $Z^{(0)}_{n}(\beta)$ を次の様に主要項 $Z^{(1)}_{n}(\beta)$ と非主要項 $Z^{(2)}_{n}(\beta)$ に分けます。 \begin{align} Z^{(0)}_{n}(\beta)&=Z^{(1)}_{n}(\beta)+Z^{(2)}_{n}(\beta)\\ \end{align}

\begin{align} Z^{(1)}_{n}(\beta) &= \int_{K(w) < \epsilon} \exp \left( -n \beta K_{n}(w) \right)\\ Z^{(2)}_{n}(\beta) &= \int_{K(w) \geq \epsilon}\exp\left( -n \beta K_{n}(w) \right) \end{align} ここで $\epsilon>0$ は単調現象関数で \begin{align} \lim_{x \to \infty} \epsilon(n) &=0 \end{align}

\begin{align} \lim_{x \to \infty} \sqrt{n}\epsilon(n) &= \infty \end{align}

といった挙動を示します。

確率過程 $\xi_{n}(w)$ と中心極限定理

上記の分配関数の非主要項の挙動を確認するために、一旦、対数尤度比関数 $f(x|w)$ に関する確率過程 \begin{align} \xi_{n}(w) = \frac{1}{\sqrt{n}} \sum^{n}_{i=1} (K(w)-f(x_{i}|w)) \end{align} の挙動について考えます。この $\xi_{n}(w)$ ですが、平均 $0$ で、 $\xi_{n}(w')$ に対し相関が \begin{align} E_{x}[f(x|w)f(x|w')]-K(w)K)(w') \end{align} となる様です。（おそらくは、展開して $\sum$ を大数の法則で $E_{x}$ と置き換えたのだと思います。）また、この $\xi_{n}(w)$ は $\xi_{n}(w)$ と同じ平均と相関をもつ正規確率過程 $\xi(w)$ に法則収束する様です。「ベイズ統計の理論と方法」の8章に一応記載はあるものの、説明が荒く専門の書籍を当たった方が良さそうな感じですが、恐らくは、中心極限定理の関数版の定理から導かれている様です。

一応、中心極限定理について記載しておくと、

確率変数 $Y_{n}=\frac{1}{\sqrt{n}}\sum^{n}_{i=1}(X_{i}-E[x])$ は平均 $0$ で相関 $V[X] = E[XX^{t}]-E[X][X]$ の正規分布に $n \to \infty$ で法則収束する

というものです。

正規化された分配関数の非主要項 $Z^{(2)}_{n}(\beta)$ の挙動

上記、色々と説明してきましたが、ようやく本記事の本題に移ります。ここは「ベイズ統計の理論と方法」の補題12について説明します。補題12は下記のものになります。

非主要項 $Z^{(2)}_{n}(\beta)$ は \begin{align} Z^{(2)}_{n}(\beta) = o_{p}(exp(-\sqrt(n))) \end{align} のオーダーで $0$ に収束する。

導出は以下になります。まず、 \begin{align} K_{n}(w)&=K_{n}+K(w)-K(w)\\ &=K(w)+\frac{1}{n}\sum^{n}_{i=1}f(x_{i}|w) -K(w)\\ &=K(w)-\frac{1}{\sqrt{n}}\xi_{n}(w) \end{align} と出来ます。これにより非主要項は \begin{align} Z^{(2)}_{n}(\beta) &= \int_{K(w)\ge \epsilon}exp(-n \beta K_{n}(w))\phi(w)dw\\ &= \int_{K(w)\ge \epsilon}exp(-n \beta K(w) + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ \end{align} と出来ますが、 $K(w)\ge \epsilon$ なので、 \begin{align} Z^{(2)}_{n}(\beta) &= \int_{K(w)\ge \epsilon}exp(-n \beta K(w) + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ &\le \int_{K(w)\ge \epsilon}exp(-n \beta \epsilon + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ &\le \int_{K(w)\ge \epsilon}exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\phi(w)dw\\ &=exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\int_{K(w)\ge \epsilon}\phi(w)dw\\ &\le exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\int_{W} \phi(w) dw\\ &= exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w)) \end{align} となります。ここで、 $\sqrt{n\epsilon}$ と $\frac{\xi_{n}(w)}{\sqrt{\epsilon}}$ の相加相乗平均より \begin{align} \sqrt{n}\xi_{n} &\le \left( \frac{\sqrt{n\epsilon} + \frac{\xi_{n}(w)}{\sqrt{\epsilon}}}{2} \right)^{2}\\ &\le \frac{n\epsilon + 2\sqrt{n}\xi_{n}(w) + \frac{\xi_{n}(w)^{2}}{\epsilon}}{4} \\ \end{align} 上式の両辺2倍して整理すると、 \begin{align} \sqrt{n}\xi_{n} &\le \frac{n\epsilon + \frac{\xi_{n}(w)^{2}}{\epsilon}}{2} \end{align} となります。これより、 \begin{align} Z^{(2)}_{n}(\beta) &\le exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\\ &= exp\left(-\frac{n \beta \epsilon}{2} + \frac{\beta \xi^{2}_{n}(w)}{2\epsilon}\right)\\ &= exp\left(-\frac{\sqrt{n} \cdot \sqrt{n} \beta \epsilon}{2} + \frac{\sqrt{n} \beta \xi^{2}_{n}(w)}{\sqrt{n}2\epsilon}\right)\\ &= exp\left(-\sqrt{n} \cdot \left( \frac{ \beta \sqrt{n} \epsilon}{2} + \frac{ \beta \xi^{2}_{n}(w)}{2 \sqrt{n} \epsilon} \right) \right)\\ \end{align} となります。ここで、 $\sqrt{n} \epsilon \to \infty$ となるので、指数の括弧内の分数の和は $\infty$ となり、 $- \sqrt{n} \to - \infty$ なので、 $o_{p}(exp(-\sqrt{n}))$ で $0$ に収束することが分かります。

本記事では、非主要項 $Z^{(2)}_{n}(\beta)$ が $o_{p}(exp(-\sqrt{n}))$ で $0$ と収束することが分かったので、以降は主要項 $Z^{(1)}_{n}(\beta)$ のみ考えていきます。

2019-01-07

WAICの導出を追ってみる。その2

概要

この記事では、WAICの導出に出て来る、経験誤差 $K_{n}(w)$ の標準形の導出について確認して行きたいと思います。具体的には前回記事の

経験誤差関数 $K_{n}(w)=\frac{1}{n}\sum^{n}_{i=1}f(X_{i},w)$ を
$$ nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)}, \quad \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(X_{i},u)} $$
と変形する。

について確認します。（大体「ベイズ統計の理論と方法」のp.88~p.98の内容になります。）
この導出の狙いとしては、WAICの導出に向けて、経験誤差 $K_{n}(w)$ の $n \to \infty$ の挙動を知る必要がありますが、そのために $K_{n}(w)$ をサンプリングの確率的な変動の影響を受ける部分と確率的な変動を受けない部分（平均誤差 $K(w)$ に相当）に整理します

特異点定理の適用とその周辺

まず、平均誤差関数 $K(w)$ に広中の特異点定理を適用します。

特異点定理について説明すると、平均誤差 $K(w)$ について、パラメータ $w \in W$ を、 $\it{M}$ から $W$ へと写す関数 $g(u) , u \in\it{M}$ で $$ K(g(u))=u^{2k} =\prod_{i=1}^{d}u_{i}^{2k_{i}} $$ のようにパラメータを置き換えることができ、その時 $g(u)$ のヤコビアン $|g'(u)|$ は $$ |g'(u)|=b(u)|u^{h}|=b(u)|\prod_{i=1}^{d}u_{i}^{h_{i}}| $$ となります。ここで、 $b(u)$ は解析関数（たぶん、定義域（複素数領域）でテイラー展開が可能であること）です。また、 $g(u)$ は $u$ を要素とする多様体 $\it{M}$ の局所座標ごとに異なります。
（多様体や局所座標云々は、後で出て来る近似（メリン変換）の都合上、 $u$ の範囲を $0\le u_{i} \le 1$ としたいので、その範囲外は別の局所座標でカバーするようにしたいという感じだと思います。）

色々と出てきますが、つまる所 $K(g(u))=u^{2k}$ とできるということです。 (以後では上記の様に、パラメータ $u$ の複数の指数をまとめて、 $u^{k}=\prod^{}_{i}{u_{i}^{k_{i}}}$ と表記します。（この様な表記を多重指数という様です。）)

補題20　 $f(x,w)=u^{k}a(x,u)$ 　の証明

次に補題20の証明に入ります。
補題20では、相対的に有限な分散 $$\it{E}_{X}\left[ f(X,w)\right] \ge c \it{E}_{X} \left[ f(X,w)^{2} \right] $$ という条件の下、対数尤度比関数 $f(x,w)$ を $$ f(x,w)=f(x,g(u))=u^{k}a(x,u) $$ とできる事を証明します。この補題は、 $f(x,w)$ を確率的に変動する $x$ に依存する部分 $a(x,u)$ と依存しない部分 $u^{k}$ の積とすることで、経験誤差 $K_{n}(w)$ をサンプルサイズに依存する部分とサンプルの確率的ゆらぎの部分に分けるための下準備になっています。

証明は下記の流れになります。

$\it{E}_{X} \left[ f(x,w) \right]$ について、 $$ \it{E}_{X} \left[ f(x,w) \right]=K(w)=u^{2k} $$

と表すことができ、相対的に有限な分散より、 $$ u^{2k}=\it{E}_{X} \left[ f(x,w) \right] \ge c_{0} \it{E}_{X} \left[ f(X,w)^{2} \right] $$

となり、不等式の両辺を $u^{2k}$ で割ることで、 $$ 1 \ge c_{0}E_{X}\left[\left(\frac{f(X,w)}{u^{k}}\right)^{2}\right] $$ となります。
ここから、背理法を使います。「 $f(x,w)$ が $u^{k}$ で割り切れない」と仮定すると、 $$ f(x,w) = u^{k}a(x,u) + b(x,u) $$ と表せ、 $$ \frac{f(x,w)}{u^{k}} = a(x,u) + \frac{b(x,u)}{u^{k}} $$ となります。第二項の絶対値は $u^{2k} \to 0$ の時、有界とならないので、上記の不等式と矛盾することとなるので、「 $f(x,w)$ が $u^{k}$ で割り切れない」という仮定が誤りとなることが言えます。よって、 $$ f(x,w)=u^{k}a(x,u) $$ となることが示せました。

経験誤差の標準形の導出

次に経験誤差 $K_{n}(w)$ の標準形の導出に向けて、下記の様に経験過程 $\xi_{n}(u)$ を定義します。 $$ \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(x_{i},u)} $$

この経験過程 $\xi_{n}(u)$ を使って、経験誤差 $K_{n}(w)$ の標準形 \begin{align} nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align} を導出します。（定理7）

\begin{align} nK_{n}(g(u)) &=n \cdot \frac{1}{n}\sum^{n}_{i=1}{f(x_{i},w)}\\ &=\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=n \cdot u^{2k}-n \cdot u^{2k}+\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} - \sum^{n}_{i=1}{u^{2k}} - \sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} -\sqrt{n} \cdot \frac{1}{\sqrt{n}}u^{k}\sum^{n}_{i=1}{u^{k}-a(x_{i},u)}\\ &=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align}

定理７によって、経験誤差をサンプルサイズ $n$ に依存する部分とサンプルの確率的変動に依存する部分に分けることができました。

以降では、この結果を使って事後分布（事後微小積分）を求めていきます。

2018-12-18

WAICの導出を追ってみる。その1

WAIC導出のモチベーション

WAICの導出を追ってみたいと思います。データ分析の周辺界隈では、良く中身は分からなくとも使えればいい的な発言を聴くことが多々ありますが、専門が違うならいざ知らず、自分の専門を使えればいいというのは余りにも志しが低すぎるし、そういったスタンスだと、文字通り日進月歩の状態にあるデータ分析界隈の進歩について行けなくなる（論文や教科書を読んでも中身が理解できず、素人向けの意図的に不明瞭（SF的な）説明を誰かがするまで待たないといけなくなる）のは明白なので、自分の勉強がてら（誤り恐れずに笑）追って見たいと思います。（まあ正直なところは、学習理論を類似の分野に持って行けば、論文の元ネタにでもならないかなという下心は満載ですが笑）

WAICの導出を追うための本としては、「ベイズ統計の理論と方法」（渡辺澄夫　著）を使います。この本一応は専門分野外の人にも分かる様に簡単に書かれたと前書きにあるのですが、多分専門分野外の人はほぼ間違いなく挫折すると思います。感覚的には機械学習の専門家でも応用寄りの人だと、結構な割合で証明を読み飛ばしたり、途中で諦めたりすることになるんじゃないかなと思います。（WAICの利用を目的とすると本書を読むのは「コスパ悪いな」的になると思います。）

というのも、序盤から自由エネルギーやら、分配関数やら統計力学の援用が当然のごとく出てきますし、本丸のWAICの導出では、多様体やら、特異点解消定理やら、メリン変換やら、ゼータ関数やら色んな用語が出てきてほぼ間違いなく面を喰らうと思います。また、時々行間が飛び過ぎていたり、補題と定義と定理の連続に、まるでRPGで次から次へと出て来るダンジョンやボスを攻略している様な気持ちになります。（私だけか笑）しかしながら、本書は解説が厚く、式変形も基本的には平易に仕上がっていて、大分わかりやすい様に思います。

とりあえず、私としては全体の流れを掴みつつも、必要な行間は埋めることを目標として、内容を整理できればと考えています。

WAICの導出の構成

WAICの導出の大雑把な構成は

対数尤度比関数 $f(x,w)$ を特異点解消定理を用いて、 $f(x,w)=f(x,g(u))=u^{k}a(x,u)$ へと変形する。(ここで、WAICの前提となる「相対的に有限な分散」を用いる。)
経験誤差関数 $K_{n}(w)=\frac{1}{n}\sum^{n}_{i=1}f(X_{i},w)$ を
$nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)}, \quad \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(X_{i},u)}$
と変形する。また、事前分布 $\phi(w)$ を
$\phi(w)dw = |u^{h}|b(u)du$
と変形する。（ちなみに、正則の場合は、 $w_{0}$ 近傍で、 $nK_{n}(w)$ を2次式で展開（平均値の定理使用）した際に、 $(w-w_{0})^{2}$ の係数行列 $J$ が正則（逆行列や行列の $\frac{1}{2}$ 乗が定義可能）なので平方完成ができ、事後微小微分を正規分布で近似でき、以後の導出がシンプルになる。）
ちなみに、上記の $\xi_{n}(u)$ は正規確率過程 $\xi(u)$ に法則収束する。（個人的には多分ここ重要）
分配関数を主要項と非主要項（ $o(exp(-\sqrt{n}))$ オーダーで0に収束）に分ける。
主要項の領域（ $\frac{1}{\sqrt{n}}$ よりもゆっくり0に収束する $\epsilon$ に対して、 $K_{n}(w)\le\epsilon$ となる $w$ の領域）での、事後微小積分 $\Omega = exp(-nK_{n}(w))\phi(w)dw$ （正規化分配関数は $\int\Omega dx$ と表される。）の挙動を調べて（メリン変換後の最大の極を調べると、主要な部分が分かり整理できる。）主要な部分を求めて整理する（定理9の証明）
繰り込まれた事後分布による期待値、スケーリング則を求める
汎化損失 $G_{n}$ 、経験損失 $T_{n}$ と汎関数分散 $V(\xi_{n}) = E_{X}[\langle ta(X,u)^{2}\rangle - \langle ta(X,u)\rangle^{2}$ ]の挙動から、ベイズ統計学の状態方程式とWAICを導出する。

となっていると思っています。著者の別の資料にありましたが、5.までが主要なところ（工夫満載なところ）なので、それ以降は粛々とといった所だと思います。

WAICの理解ポイント

WAICの導出は上記の様に導かれますが、理解するためのポイントを下記にまとめておきます。

ベイズの定理の尤度をKLダイバージェンスのサンプルでの近似（経験誤差 $K_{n}(w)$ ）に置き換えて表現します。
広中の特異点解消定理を使いて、汎化誤差 $K(w)$ をパラメータ $u$ で、 $u^{2k}=\prod_{i} u^{2k_{i}} _{i}$ と $u^{h}=\prod_{i} u^{h_{i}} _{i}$ を用いて表現します。その時、パラメータが $u_{i} \in (0,1)$ となる様にします。
経験誤差 $K_{n}(w)$ （KLダイバージェンスのサンプル近似）を $K(w)$ とサンプルに依存する確率変数 $\xi_{n}$ で表現します（経験誤差関数の標準形）。ここで、 $\xi_{n}$ は大数の法則で、 $n \to \infty$ で正規分布に漸近する事に注意します。
経験誤差の標準形を用いてベイズの定理(事後微小微分 $\Omega(w) dw = exp( -n \beta u^{2k} + \sqrt{n} \beta u^{k} \xi_{n}(u))|u^{h}|b(u) du$ )を表現します。ここで、事後確率の大小について考えると $n \to \infty$ の時 $u^{2k}$ が小さく、 $|u^{h}|$ が大きくなる $u$ の事後確率が相対的に大きくなり、支配的になる事が分かります。ここで $u_{i} \in (0,1)$ であることから、 $k_{i}$ が大きく、 $h_{i}$ が小さい $i$ について、 $u_{i}$ が $0$ 近傍で、それ以外の $u_{j}$ が $1$ の近傍にある $u$ の事後分布が相対的に大きく支配的になります。このため $\frac{h_{j} + 1}{2k_{j}}$ が最小となる添字 $a$ について、 $u_{a} =0$ 近傍での挙動を調べる事ができれば（「ベイズ統計の理論と方法」では、メリン変換による解析接続によって挙動を調べます。）、事後分布（事後微小分布）の挙動を知る事が出来ます。
事後分布（ $n \to \infty$ の極限）で確率変数 $\xi_{n}$ を積分が、尤度関数 $\log{p(x|w)}$ からなる多項式の平均によってあらわせるため、MCMCを用いれば、 $\xi_{n}$ が評価でき、これを用いてWAICを導出します。