多摩川の辺りで働くデータサイエンティスト

ポートフォリオ的なもの(未完)

WAICの導出を追ってみる。その4

概要

本記事では、事後分布の微小積分\Omega(w)dw = exp(-n \beta K_{n}(w))\phi(w)dwをサンプル数で収束する部分とサンプリングによる確率的変動で収束する部分に分かれた形に変形します。この様に分けることで、事後分布で期待値を計算する際に、分母と分子でサンプル数で収束する部分同士でキャンセルさせて、サンプリングによる変動のみを考えればいい様出来ます。 そのあと、事後分布での積分を考えて、WAIC導出の準備を行います。

正規化された分配関数の主要項Z^{(1)}_{n}(\beta)積分範囲

その3の記事で示した通り、 \begin{align} Z^{(0)}_{n}(\beta)&=Z^{(1)}_{n}(\beta)+Z^{(2)}_{n}(\beta)\\ Z^{(1)}_{n}(\beta) &= \int_{K(w) < \epsilon} \exp \left( -n \beta K_{n}(w) \right)\\ Z^{(2)}_{n}(\beta) &= \int_{K(w) \geq \epsilon}\exp\left( -n \beta K_{n}(w) \right) \end{align}

\begin{align} \lim_{x \to \infty} \epsilon(n) &=0 \end{align}

\begin{align} \lim_{x \to \infty} \sqrt{n}\epsilon(n) &= \infty \end{align}

と言う風に正規化された分配関数Z^{(0)}_{n}(\beta)は主要項Z^{(1)}_{n}(\beta)と非主要項Z^{(2)}_{n}(\beta)に分けることが出来き、非主要項はo(\exp(-\sqrt{n}))のオーダーで0に収束するので、主要項に該当する部分 \begin{align}K(w)<\epsilon\end{align}について考えます。また本記事で示すことですが、主要項は\frac{\left( \log n \right)^{m -1}}{n^{\lambda}}で収束します。

標準形・変数変換

これまでの議論から、事後微小積分を標準化して変形します。 \begin{align} \Omega(w)dw &= exp(-n \beta K_{n}(w))\phi(w)dw\\ &= exp(-n \beta K_{n}(g(u))\phi(g(u))|g'(u)|du\\ &= exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \end{align} ここでデルタ関数\delta(t)を使って \begin{align} \Omega(w) dw &= \int^{\infty} _{0} d \chi \delta(\chi - u^{2k}) u^{h} exp(-n \beta \chi + \sqrt{n\chi} \beta \xi_{n}(u)) b(u) du \end{align}

ここで変数の変換\chi = t/nを行いexp(x)の指数の中からnを外に出します。(u \in (0,\infty)なので、絶対値を外す事が出来ます。) 微分するとd\chi = dt/nとなるので、 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} と出来ます。ここで\delta(t/n - u^{2k})
u^{h} b(u) duといった項が出てきていますが、このままでは扱いにくいので、これから一旦\delta(t/n - u^{2k})
u^{h} b(u) duの性質について調べて( n \to \inftyとサンプル数が増えることを想定して、その時に何にどのくらいの速さで収束するかをしらべます)、デルタ関数\delta(t)を扱い易い形へ変形します。

デルタ関数の近似

\begin{align} \Delta(t,u)=\delta(t-u^{2k})|u^{h}| \end{align} について考えます。この時、多重指数k=(k_{j})h=(h_{j})に関して、 \begin{align} \left( \frac{h_{j}+1}{2k_{j}} \right) \end{align} を考えます。この値は、あとで\Delta(t,u)にメリン変換を行い近似を行うのですが、その挙動を示す複素関数の極の位置を表します。上式の値に関して最小の値を \begin{align} \lambda= \min^{d}_{j=1}\left(\frac{h_{j}+1}{2k_{j}}\right) \end{align} とし、最小値を取るjの個数をmとし、多重度と呼びます。\lambdaを実対数閾値といい、多重度と実体数閾値\Delta(t,u)を複数の項に分解した際に最も収束が遅い項の収束のスピードを表すものになります。またパラメータu=(u_{1},u_{2},...,u_{d})の中で、\left( \frac{h_{j}+1}{2k_{j}} \right)\lambdaとなっているu_{i}を集めて、u_{a} \in \mathbb{R}^{m}とし、それ以外のパラメータをu_{b} \in \mathbb{R}^{d-m}として、u = (u_{a},u_{b})とします。

これらの記号の整理を元に次の定理を示します。 次の微小積分du ^{ * }について考えます。 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} ただし、\mu = \{\mu_{i}|j=m+1,...,d\}\mu_{i} = -2\lambda k_{i} + h_{i}として値が決められるものになります。 このdu^{ * }について、次の関係がなりたちます。 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right) \end{align} 上記の関係を示すために、メリン変換について確認します。メリン変換とはラプラス変換の仲間のようなもので、関数f(t)に関して、 \begin{align} (Mf)(z) = \int^{\infty}_{0}t^{z}f(t)dt \quad (z \in \mathbb{C}) \end{align} となっていて、逆変換は \begin{align} (M^{-1} F)(t) = \frac{1}{2\pi i }\int^{c+i \infty }_{c-i \infty} F(z) t^{-z}dz \end{align} ここで Re(z) \in (a,b)において、メリン変換が複素関数として正則となる定数a,bがあり、定数c c \in (a,b)を満たすものとします。

ここで、\Delta(t,u)についてメリン変換すると、 \begin{align} (M\Delta)(z,u) = \int^{\infty}_{0}t^{z}\delta\left( t - u ^{2k} \right)|u^{h}| dt = \left( u^{2k} \right) ^{z} u^{h} = u^{2kz + h} \end{align} と出来ます。ここでu[0,1]で積分するので、絶対値を外しています。 このメリン変換した\Delta(t,u)に無限回微分出来る任意の関数\Phi(u)をかけて[0,1]^{d}上で積分したものを \begin{align} \zeta(z) = \int_{[0,1]^{d}}u^{2kz + h}\Phi(u)du \end{align} とします。これより、上記の準備を用いて、上記の関係を導出します。 \Phi(u)を原点の周りでu_{a}についてのみ展開すると、 \begin{align} \Phi(u) = \Phi(0, u_{b}) + u_{a} \cdot \nabla _{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2} \nabla ^{2} \Phi( u^{ * } _{a}, u _{b}) \end{align} とできます。三つ目の項は中間値の定理で高次の項をまとめたものになります。これを用いると\zeta(z)は \begin{align} \zeta(z) = \int_{[0,1]^{d}} \left( u^{2kz + h} \Phi(0, u_{b}) + u^{2kz + h} \left(u_{a} \cdot \nabla_{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2}\nabla^{2}\Phi(u^{ * }_{a},u_{b}) \right) \right) du \end{align} となります。ここで第一項はu_{a}のみ積分を実行する事で \begin{align} \int_{[0,1]^{d}}u^{2kz + h} \Phi(0, u_{b})du &= \left( \prod^{m}_{j=1}\int^{1}_{0} u_{j}^{2k_{j}z + h_{j}}du_{j} \right)\int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &= \left( \prod^{m}_{j=1} \frac{1}{2k_{j}z + h_{j} +1} \right) \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &=\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \end{align} と出来ます。ここで、 c_{1} = \left(\prod^{m}_{j=1}\frac{1}{2k_{j}} \right) > 0とします。ここで、第二項では展開した際に出てくる\left( u_{a} \right) ^{n}の影響で、被積分関数中のu_{a}の指数は上式中の2k_{j} z + h_{j}より大きくなります。このため、積分を実行した際に極が - \lambdaより小さくなることが分かります。また、 u_{b}の部分については、 u_{a}と同様に原点近傍で展開することで極の位置が分りますが、\lambda= \min^{d}_{j=1}\left(\frac{h_{j}+1}{2k_{j}}\right)より、極の位置が - \lambdaより小さくなることが分かります。このため、\zeta(z)の最大の極は- \lambdaで位数がmであることが分かりました。(「ベイズ統計の理論と方法」では、第一項以外の最大の極が- \lambdaの時は、位数がmより小さくなるとしていますが、私には「極が- \lambdaとなるケース」がよく分かりませんでした。) ここで\mu_{j} = -2\lambda k _{j} + h_{j}として、上式の第1項を z = - \lambda周辺で展開することを考えると、 \begin{align} &\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} \left(z - (- \lambda) \right) \cdot \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ...\\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu } \Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m - 1}} \int_{[0,1]^{d - m}} \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ... \end{align} となり、ここでの第一項以外の項の z = - \lambdaでの極の位数は mより小さくなることが分かります。ここで、第一項について、「u[0,1]^{d}上で積分」の逆の操作(uの全ての成分について微分する)事を考え、この操作を\frac{d }{du}と表記すると \begin{align} \frac{d \left( \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u} &= \frac{c_{1}}{(z+\lambda)^{m}} \frac{d \left( \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \frac{ d \left( \int_{[0,1]^{d}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u)du \right) }{du}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u) \end{align} と出来ます。これらの操作を展開した全ての項に対して行う事で、 \Delta(t,u)のメリン変換を、 \begin{align} (M\Delta(t,u))(z) = \sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \end{align} とすることが出来ます。ただし、 \lambda_{i},m_{i} \lambda_{i} \ge \lambdaかつm_{i} \le mであり、i=1の時のみ \lambda_{1} =
 \lambda, m_{1} = mとなります。

ここで、(t \in (0,1))の時はf_{m}(t) = t^{\lambda -1} (- log(t))^{m - 1} となり、それ以外の時は0となる関数f_{m}(t)のメリン変換について考えます。すると \begin{align} &(Mf_{m}(t))(z) = \int ^{\infty}_{0} t^{z}f_{m}(t)dt = \int ^{1}_{0} t^{z}t^{\lambda - 1}(-\log (t))^{m - 1}dt\\ &= \left[ \frac{1}{z + \lambda}t^{z+\lambda}(-\log(t))^{m - 1} \right]^{1}_{0} + \frac{m - 1}{ z + \lambda}\int^{1}_{0}t^{z + \lambda - 1}(- \log(t))^{m - 2} dt \\ &=\frac{m - 1}{ z + \lambda}(Mf_{m}(t))(z) \end{align} となるため、これを m - 1回繰り返すことで、 \begin{align} (Mf_{m}(t))(z) = \frac{(m - 1)!}{(z + \lambda)^{m}} \end{align} となる事が分かります。

このため、 \begin{align} \Delta(u,t) &= \left(M^{-1}(M\Delta(u,t))(z)\right)(t)\\ & = \left(M^{-1} \left(\sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \right)\right)(t)\\ & = \sum _{i} \frac{c_{i}}{(m_{i} - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1} \end{align} となります。 a, b \in (0,\infty)において、 \begin{align} t^{a} (- log(t))^{b} = t^{a} (log(\frac{1}{t}))^{b}\to 0 \,\,\,\,(t \to 0) \end{align} であり、0へ収束する速度はaが小さく、bが大きいほど遅くなるので、 t \to 0において、 \begin{align} \Delta(u,t) &= \sum _{i} \frac{c_{i}}{(m - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1}\\ &= \frac{c_{1}}{(m - 1)!} t^{\lambda - 1} (- log(t))^{m - 1} + o\left( t^{\lambda - 1} (- log(t))^{m - 1} \right) \end{align} となります。これより、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} ただし、 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} となることを示す事が出来ました。

事後微小微分の漸近挙動

上記の\delta\left( t-u^{2k} \right)|u^{h}|b(u)の漸近挙動を用いて、\Omega(w) dwn \to \inftyの漸近挙動について見ていきます。 \Omega(w) dwは以下のように表すことが出来ます。 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} ここで、 t/n \to 0として、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} を使うと、 \begin{align} \Omega(w) dw =& \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du\\ =& \int^{\infty} _{0} \frac{dt}{n} \left( \frac{t}{n}\right) ^{\lambda - 1}\left(- \log \frac{t}{n} \right)^{m -1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} \frac{dt}{n} o\left( (t / n)^{\lambda - 1}(- \log (t/n) )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * }\\ \\ =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \end{align} となる。ここで、\left( \log n - \log t \right)^{m -1}/n ^{\lambda} にの分子を展開した形について考えてみると、 n \to \inftyにおいて、\left( \log n \right)^{m -1}/n ^{\lambda} の項が最も0への収束が遅く、 \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } の項は第一項(積分の項)よりも収束が早いため \begin{align} \Omega(w) dw =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } + o\left( \frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \right)\\ \end{align} となります。

スケーリング関係と繰り込まれた事後分布

事後微小積分の漸近挙動が判明したので、これを用いて事後分布の挙動を考える事が出来ます。その前に一旦、事後微小積分を導出する中で出てきた、パラメータ(u,t)と元のパラメータwとの関係(スケーリング関係)を確認します。特異点定理やデルタ関数の設定より \begin{align} w = g(w),\qquad K(w)=u^{2k} = \frac{t}{n} \end{align} となる事が分かります。また、対数尤度比関数 f(x,w)に関する命題より、 \begin{align} f(x,w) = f(x,g(u)) = u^{k}a(x,u) = \sqrt{\frac{t}{n}}a(x,u) \end{align} となります。さらに、 \begin{align} K_{n})(g(u))=u^{2k} - \frac{1}{\sqrt{n}}u^{k} \xi _{n}(u) = \frac{1}{n}(t - \sqrt{t}\xi _{n}(u)) \end{align} となります。

ここで、事後分布による関数f(x,w)^{s} =f(x,u,t)^{s}の平均 E_{w}[f(x,w)^{s}]を考えてみます。平均を考えると次のようになります。 \begin{align} E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw} \end{align} ここで、分子に着目すると、 \begin{align} \int f(x,w)^{s} \Omega(w)dw =& \int \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \\ =& \int du \int ^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s}\cdot \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u)\\ =& \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =& \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)\\ \end{align} となります。 ここで、関数F(t,u)の繰り込まれた事後分布による平均操作 \langle \, \rangleを次の様に定義します。 \begin{align} \langle F(t,u) \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot F(t,u) \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } {\int du^{ * } \int^{\infty} _{0} dt\cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \end{align}

すると、 \begin{align} &E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw}\\ =& \frac{\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)} {\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}}\right)\ }\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \cdot\\ &\frac{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) - o\left( 1 \right) }{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ \\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle \left( 1 - \frac{ o\left( 1 \right)}{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } \right)+ o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle +\frac{1}{n^{s/2}} \cdot o\left( 1 \right) + o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle + o\left( \frac{1}{n^{s/2}} \right) \end{align} の様に出来ます。 また \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} と出来ます。 証明は次の通りです。 \begin{align} \langle t \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} {\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} \end{align} ここで、分子のtに関する積分を部分積分すると、 \begin{align} \int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)}dt &= -\frac{1}{\beta}\left[ e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right]^{\infty}_{0} + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} \left( \frac{d}{dt} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right)dt \\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\xi_{n}(u)}{2\sqrt{t}}dt\\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\sqrt{t} \xi_{n}(u)}{2}dt \end{align} と出来ます。分母は\int du^{ * } \int^{\infty} _{0} dt
\cdot t ^{\lambda - 1}
exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) = \int u^{ * } \int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dtとなるので、分子をdu^{ * }積分して、分母で割ると \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} が得られます。

まとめ

以上より、事後微小微分において、サンプル数nの含まれる項を積分の外に出すことが出来ました。これによって、事後分布において、サンプルの影響を\xi_{n}(u)のみに集約することが出来ました。

また、事後微小微分を用いて、事後分布による積分\langle \, \rangleによる積分を計算しました。(この\langle \, \rangleによる積分を「ベイズ統計の理論と方法」では「繰り込まれた事後分布による平均操作」と言います。)

次の記事では、これらを用いてWAICの導出を行いたいと思います。