WAICの導出を追ってみる。その4
概要
本記事では、事後分布の微小積分をサンプル数で収束する部分とサンプリングによる確率的変動で収束する部分に分かれた形に変形します。この様に分けることで、事後分布で期待値を計算する際に、分母と分子でサンプル数で収束する部分同士でキャンセルさせて、サンプリングによる変動のみを考えればいい様出来ます。 そのあと、事後分布での積分を考えて、WAIC導出の準備を行います。
正規化された分配関数の主要項と積分範囲
その3の記事で示した通り、 \begin{align} Z^{(0)}_{n}(\beta)&=Z^{(1)}_{n}(\beta)+Z^{(2)}_{n}(\beta)\\ Z^{(1)}_{n}(\beta) &= \int_{K(w) < \epsilon} \exp \left( -n \beta K_{n}(w) \right)\\ Z^{(2)}_{n}(\beta) &= \int_{K(w) \geq \epsilon}\exp\left( -n \beta K_{n}(w) \right) \end{align}
\begin{align} \lim_{x \to \infty} \epsilon(n) &=0 \end{align}
\begin{align} \lim_{x \to \infty} \sqrt{n}\epsilon(n) &= \infty \end{align}
と言う風に正規化された分配関数は主要項と非主要項に分けることが出来き、非主要項はのオーダーでに収束するので、主要項に該当する部分 \begin{align}K(w)<\epsilon\end{align}について考えます。また本記事で示すことですが、主要項はで収束します。
標準形・変数変換
これまでの議論から、事後微小積分を標準化して変形します。 \begin{align} \Omega(w)dw &= exp(-n \beta K_{n}(w))\phi(w)dw\\ &= exp(-n \beta K_{n}(g(u))\phi(g(u))|g'(u)|du\\ &= exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \end{align} ここでデルタ関数を使って \begin{align} \Omega(w) dw &= \int^{\infty} _{0} d \chi \delta(\chi - u^{2k}) u^{h} exp(-n \beta \chi + \sqrt{n\chi} \beta \xi_{n}(u)) b(u) du \end{align}
ここで変数の変換を行いの指数の中からを外に出します。(なので、絶対値を外す事が出来ます。) 微分するととなるので、 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} と出来ます。ここでといった項が出てきていますが、このままでは扱いにくいので、これから一旦の性質について調べて(とサンプル数が増えることを想定して、その時に何にどのくらいの速さで収束するかをしらべます)、デルタ関数を扱い易い形へ変形します。
デルタ関数の近似
\begin{align} \Delta(t,u)=\delta(t-u^{2k})|u^{h}| \end{align} について考えます。この時、多重指数とに関して、 \begin{align} \left( \frac{h_{j}+1}{2k_{j}} \right) \end{align} を考えます。この値は、あとでにメリン変換を行い近似を行うのですが、その挙動を示す複素関数の極の位置を表します。上式の値に関して最小の値を \begin{align} \lambda= \min^{d}_{j=1}\left(\frac{h_{j}+1}{2k_{j}}\right) \end{align} とし、最小値を取るの個数をとし、多重度と呼びます。を実対数閾値といい、多重度と実体数閾値はを複数の項に分解した際に最も収束が遅い項の収束のスピードを表すものになります。またパラメータの中で、がとなっているを集めて、とし、それ以外のパラメータをとして、とします。
これらの記号の整理を元に次の定理を示します。 次の微小積分について考えます。 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} ただし、はとして値が決められるものになります。 このについて、次の関係がなりたちます。 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right) \end{align} 上記の関係を示すために、メリン変換について確認します。メリン変換とはラプラス変換の仲間のようなもので、関数に関して、 \begin{align} (Mf)(z) = \int^{\infty}_{0}t^{z}f(t)dt \quad (z \in \mathbb{C}) \end{align} となっていて、逆変換は \begin{align} (M^{-1} F)(t) = \frac{1}{2\pi i }\int^{c+i \infty }_{c-i \infty} F(z) t^{-z}dz \end{align} ここでにおいて、メリン変換が複素関数として正則となる定数があり、定数はを満たすものとします。
ここで、についてメリン変換すると、 \begin{align} (M\Delta)(z,u) = \int^{\infty}_{0}t^{z}\delta\left( t - u ^{2k} \right)|u^{h}| dt = \left( u^{2k} \right) ^{z} u^{h} = u^{2kz + h} \end{align} と出来ます。ここでを]で積分するので、絶対値を外しています。 このメリン変換したに無限回微分出来る任意の関数をかけて上で積分したものを \begin{align} \zeta(z) = \int_{[0,1]^{d}}u^{2kz + h}\Phi(u)du \end{align} とします。これより、上記の準備を用いて、上記の関係を導出します。 を原点の周りでについてのみ展開すると、 \begin{align} \Phi(u) = \Phi(0, u_{b}) + u_{a} \cdot \nabla _{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2} \nabla ^{2} \Phi( u^{ * } _{a}, u _{b}) \end{align} とできます。三つ目の項は中間値の定理で高次の項をまとめたものになります。これを用いるとは \begin{align} \zeta(z) = \int_{[0,1]^{d}} \left( u^{2kz + h} \Phi(0, u_{b}) + u^{2kz + h} \left(u_{a} \cdot \nabla_{a} \Phi(0, u_{b}) + \frac{u^{2}_{a}}{2}\nabla^{2}\Phi(u^{ * }_{a},u_{b}) \right) \right) du \end{align} となります。ここで第一項はのみ積分を実行する事で \begin{align} \int_{[0,1]^{d}}u^{2kz + h} \Phi(0, u_{b})du &= \left( \prod^{m}_{j=1}\int^{1}_{0} u_{j}^{2k_{j}z + h_{j}}du_{j} \right)\int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &= \left( \prod^{m}_{j=1} \frac{1}{2k_{j}z + h_{j} +1} \right) \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b}\\ &=\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \end{align} と出来ます。ここで、とします。ここで、第二項では展開した際に出てくるの影響で、被積分関数中のの指数は上式中のより大きくなります。このため、積分を実行した際に極がより小さくなることが分かります。また、の部分については、と同様に原点近傍で展開することで極の位置が分りますが、より、極の位置がより小さくなることが分かります。このため、の最大の極はで位数がであることが分かりました。(「ベイズ統計の理論と方法」では、第一項以外の最大の極がの時は、位数がより小さくなるとしていますが、私には「極がとなるケース」がよく分かりませんでした。) ここでとして、上式の第1項を周辺で展開することを考えると、 \begin{align} &\frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}}u_{b}^{2kz + h} \Phi(0, u_{b})du_{b} \\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} \left(z - (- \lambda) \right) \cdot \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ...\\ &= \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu } \Phi(0, u_{b})du_{b} + \frac{c_{1}}{(z+\lambda)^{m - 1}} \int_{[0,1]^{d - m}} \nabla _{z}u_{b}^{2kz + h} \cdot \Phi(0, u_{b})du_{b} + ... \end{align} となり、ここでの第一項以外の項のでの極の位数はより小さくなることが分かります。ここで、第一項について、「の上で積分」の逆の操作(の全ての成分について微分する)事を考え、この操作をと表記すると \begin{align} \frac{d \left( \frac{c_{1}}{(z+\lambda)^{m}} \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u} &= \frac{c_{1}}{(z+\lambda)^{m}} \frac{d \left( \int_{[0,1]^{d - m}} u_{b}^{ \mu }\Phi(0, u_{b})du_{b} \right) }{d u}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \frac{ d \left( \int_{[0,1]^{d}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u)du \right) }{du}\\ & = \frac{c_{1}}{(z+\lambda)^{m}} \delta ( u_{a} ) u_{b}^{ \mu }\Phi( u) \end{align} と出来ます。これらの操作を展開した全ての項に対して行う事で、のメリン変換を、 \begin{align} (M\Delta(t,u))(z) = \sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \end{align} とすることが出来ます。ただし、はかつであり、の時のみとなります。
ここで、の時はとなり、それ以外の時はとなる関数のメリン変換について考えます。すると \begin{align} &(Mf_{m}(t))(z) = \int ^{\infty}_{0} t^{z}f_{m}(t)dt = \int ^{1}_{0} t^{z}t^{\lambda - 1}(-\log (t))^{m - 1}dt\\ &= \left[ \frac{1}{z + \lambda}t^{z+\lambda}(-\log(t))^{m - 1} \right]^{1}_{0} + \frac{m - 1}{ z + \lambda}\int^{1}_{0}t^{z + \lambda - 1}(- \log(t))^{m - 2} dt \\ &=\frac{m - 1}{ z + \lambda}(Mf_{m}(t))(z) \end{align} となるため、これを回繰り返すことで、 \begin{align} (Mf_{m}(t))(z) = \frac{(m - 1)!}{(z + \lambda)^{m}} \end{align} となる事が分かります。
このため、 \begin{align} \Delta(u,t) &= \left(M^{-1}(M\Delta(u,t))(z)\right)(t)\\ & = \left(M^{-1} \left(\sum _{i} \frac{c_{i}}{(z+\lambda_{i})^{m_{i}}} \delta ( u_{a} ) u_{b}^{ \mu } \right)\right)(t)\\ & = \sum _{i} \frac{c_{i}}{(m_{i} - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1} \end{align} となります。において、 \begin{align} t^{a} (- log(t))^{b} = t^{a} (log(\frac{1}{t}))^{b}\to 0 \,\,\,\,(t \to 0) \end{align} であり、へ収束する速度はが小さく、が大きいほど遅くなるので、において、 \begin{align} \Delta(u,t) &= \sum _{i} \frac{c_{i}}{(m - 1)!} \cdot t^{\lambda_{i} -1} (- log(t))^{m_{i} - 1}\\ &= \frac{c_{1}}{(m - 1)!} t^{\lambda - 1} (- log(t))^{m - 1} + o\left( t^{\lambda - 1} (- log(t))^{m - 1} \right) \end{align} となります。これより、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} ただし、 \begin{align} du^{ * } = \left(\frac{1}{(m - 1)!2^{m} \prod^{m}_{j=1}k_{j}}\right)\cdot\delta(u_{a})u^{\mu}_{b}b(u)du \end{align} となることを示す事が出来ました。
事後微小微分の漸近挙動
上記のの漸近挙動を用いて、のの漸近挙動について見ていきます。 は以下のように表すことが出来ます。 \begin{align} \Omega(w) dw &= \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du \end{align} ここで、として、 \begin{align} \delta\left( t-u^{2k} \right)|u^{h}|b(u)du = t^{\lambda - 1}(- \log t )^{m -1} du^{ * } + o\left( t^{\lambda - 1}(- \log t )^{m -1} \right)\\ \end{align} を使うと、 \begin{align} \Omega(w) dw =& \int^{\infty} _{0} \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u) du\\ =& \int^{\infty} _{0} \frac{dt}{n} \left( \frac{t}{n}\right) ^{\lambda - 1}\left(- \log \frac{t}{n} \right)^{m -1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} \frac{dt}{n} o\left( (t / n)^{\lambda - 1}(- \log (t/n) )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * }\\ \\ =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \end{align} となる。ここで、にの分子を展開した形について考えてみると、において、の項が最もへの収束が遅く、の項は第一項(積分の項)よりも収束が早いため \begin{align} \Omega(w) dw =& \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ &+ \int^{\infty} _{0} dt \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int^{\infty} _{0} dt \,\, t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) du^{ * } + o\left( \frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \right)\\ \end{align} となります。
スケーリング関係と繰り込まれた事後分布
事後微小積分の漸近挙動が判明したので、これを用いて事後分布の挙動を考える事が出来ます。その前に一旦、事後微小積分を導出する中で出てきた、パラメータと元のパラメータとの関係(スケーリング関係)を確認します。特異点定理やデルタ関数の設定より \begin{align} w = g(w),\qquad K(w)=u^{2k} = \frac{t}{n} \end{align} となる事が分かります。また、対数尤度比関数に関する命題より、 \begin{align} f(x,w) = f(x,g(u)) = u^{k}a(x,u) = \sqrt{\frac{t}{n}}a(x,u) \end{align} となります。さらに、 \begin{align} K_{n})(g(u))=u^{2k} - \frac{1}{\sqrt{n}}u^{k} \xi _{n}(u) = \frac{1}{n}(t - \sqrt{t}\xi _{n}(u)) \end{align} となります。
ここで、事後分布による関数の平均]を考えてみます。平均を考えると次のようになります。 \begin{align} E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw} \end{align} ここで、分子に着目すると、 \begin{align} \int f(x,w)^{s} \Omega(w)dw =& \int \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot exp(-n \beta u^{2k} + \sqrt{n}\beta u^{k} \xi_{n}(u))|u^{h}|b(u)du \\ =& \int du \int ^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s}\cdot \frac{dt}{n} \delta \left(\frac{t}{n} - u^{2k} \right) u^{h} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) b(u)\\ =& \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{\frac{t}{n}}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =& \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} \frac{ \left( \log n - \log t \right)^{m -1}}{n ^{\lambda} } exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot o\left( n^{- \lambda} ( \log n )^{m -1}\right) exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ \\ =&\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) \\ &+ o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)\\ \end{align} となります。 ここで、関数の繰り込まれた事後分布による平均操作を次の様に定義します。 \begin{align} \langle F(t,u) \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot F(t,u) \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } {\int du^{ * } \int^{\infty} _{0} dt\cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \end{align}
すると、 \begin{align} &E_{w}[f(x,w)^{s}] = \frac{\int f(x,w)^{s} \Omega(w)dw}{\int \Omega(w)dw}\\ =& \frac{\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \cdot \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}} \cdot \frac{1}{n^{s/2}} \right)} {\frac{ \left( \log n \right)^{m -1}}{n ^{\lambda} } \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( \frac{\left( \log n \right)^{m -1}}{n ^{\lambda}}\right)\ }\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ =& \frac{ \frac{1}{n^{s/2}} \int du^{ * } \int^{\infty} _{0} dt \cdot \left(\sqrt{t}a(x,u) \right)^{s} \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } { \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) } \cdot\\ &\frac{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) - o\left( 1 \right) }{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } + o\left( \frac{1}{n^{s/2}} \right)\\ \\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle \left( 1 - \frac{ o\left( 1 \right)}{ \int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u)) + o\left( 1 \right) } \right)+ o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle +\frac{1}{n^{s/2}} \cdot o\left( 1 \right) + o\left( \frac{1}{n^{s/2}} \right)\\ =&\frac{1}{n^{s/2}}\langle \ \left(\sqrt{t}a(x,u) \right)^{s} \rangle + o\left( \frac{1}{n^{s/2}} \right) \end{align} の様に出来ます。 また \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} と出来ます。 証明は次の通りです。 \begin{align} \langle t \rangle = \frac{\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} {\int du^{ * } \int^{\infty} _{0} dt \cdot t ^{\lambda - 1} exp(-\beta t + \sqrt{t} \beta \xi_{n}(u))} \end{align} ここで、分子のに関する積分を部分積分すると、 \begin{align} \int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)}dt &= -\frac{1}{\beta}\left[ e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right]^{\infty}_{0} + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} \left( \frac{d}{dt} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \right)dt \\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\xi_{n}(u)}{2\sqrt{t}}dt\\ &= \frac{\lambda}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} dt + \frac{1}{\beta}\int^{\infty} _{0} e^{-\beta t} t ^{\lambda - 1} e^{\beta \sqrt{t} \xi_{n}(u)} \cdot \frac{\sqrt{t} \xi_{n}(u)}{2}dt \end{align} と出来ます。分母はとなるので、分子をで積分して、分母で割ると \begin{align} \langle t \rangle = \frac{\lambda}{\beta}+\frac{1}{2}\langle \sqrt{t} \xi_{n}(u) \rangle \end{align} が得られます。
まとめ
以上より、事後微小微分において、サンプル数の含まれる項を積分の外に出すことが出来ました。これによって、事後分布において、サンプルの影響をのみに集約することが出来ました。
また、事後微小微分を用いて、事後分布による積分やによる積分を計算しました。(このによる積分を「ベイズ統計の理論と方法」では「繰り込まれた事後分布による平均操作」と言います。)
次の記事では、これらを用いてWAICの導出を行いたいと思います。