多摩川の辺りで働くデータサイエンティスト

ポートフォリオ的なもの(未完)

WAICの導出を追ってみる。その5

概要

前回の記事では、繰り込まれた事後分布による平均操作を定義して、E[ f(x,u)^{s} ] \langle t \rangleについて求めて行きました。 この記事では、汎化損失G_{n}と経験損失T_{n}の展開をキュムラントより求めた後、汎関数分散と正規確率過程の関係を求めて、WAICを導出します。

キュムラント母関数

汎化損失のキュムラント母関数\mathcal{G}_{n}(\alpha)と経験損失のキュムラント母関数\mathcal{T}_{n}(\alpha)を次の様に定義します。 \begin{align} \mathcal{G}_{n}(\alpha) = E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ], \quad \mathcal{T}_{n}(\alpha) = \frac{1}{n}\sum^{n}_{i = 1}\log{E_{w}}[ p(X|w)^{\alpha} ] \end{align} 以下では、キュムラント母関数を使って汎化損失や経験損失を表すための準備をします。

ここで汎化損失のキュムラント母関数\mathcal{G}_{n}(\alpha)を対数尤度比関数f(x,w) = \log{\frac{p(x|w_{0})}{p(x|w)}}を使って表すと \begin{align} \mathcal{G}_{n}(\alpha) &= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ]\\ &= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} - \log {p(X|w_{0})^{\alpha}} + \log {p(X|w_{0})^{\alpha}}]\\ &= - E_{X} \left[ \log {E_{w} \left[ \frac{p(X|w_{0})^{\alpha}} {p(X|w)^{\alpha}} \right]}\right] + E_{X} \left[ \log {p(X|w_{0})^{\alpha}} \right]\\ &= - E_{X} \left[ \log {E_{w} \left[ \left( \frac{p(X|w_{0})} {p(X|w)} \right) ^{\alpha} \right]}\right] + \alpha E_{X} \left[ \log {p(X|w_{0})} \right]\\ &= - E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, \log{\frac{p(X|w_{0})} {p(X|w)} } \right) \right]}\right] - \alpha L(w_{0})\\ &= -\alpha L(w_{0}) -E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, f(x,w) \right) \right]}\right] \\ &= - \alpha L(w_{0}) +E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right] \end{align} となります。ここで\mathcal{G}^{(1)}_{n}(\alpha) = \frac{d}{d\alpha}\mathcal{G}_{n}(\alpha)]とすると \begin{align} \mathcal{G}^{(1)}_{n}(\alpha) &= \frac{d}{d\alpha} \mathcal{G}_{n}(\alpha)\\ &=\frac{d}{d\alpha} \left( - \alpha L(w_{0}) + E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right] \right) \\ &= -L(w_{0}) - E_{X} \left[ \frac{E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right]} \right]\\ &= - L(w_{0}) - E_{X} \left[ \mathcal{L}_{1}(X)\right] \end{align} となります。ただし、 \begin{align} \mathcal{L}_{k}(A) = \frac{E_{w} \left[
\left( f(x,w) \right) ^{ k } exp \left( -\alpha \, f(A,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(A,w) \right) \right]} \end{align} としています。また、\mathcal{G}^{(2)}_{n}(\alpha) = \frac{d}{d^{2}\alpha}\mathcal{G}_{n}(\alpha)は、 \begin{align} \mathcal{G}^{(2)}_{n}(\alpha) =& \frac{d}{d^{2}\alpha}\mathcal{G}_{n}(\alpha)\\ =& \frac{d}{d \alpha} \left( - L(w_{0}) - E_{X} \left[ \frac{ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right] \right)\\ =& E_{X} \left[ \frac{d}{d \alpha}\left( - E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \right)\frac{ 1 } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right] \\ &+ E_{X} \left[ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \frac{d}{d \alpha}\left( \frac{ -1 } {E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right) \right]\\ =& E_{X} \left[ E_{w} \left[ f(x,w)^{2} exp \left( -\alpha \, f(x,w) \right) \right] \cdot \frac{ 1 }{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right]\\ &+ E_{X} \left[ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] \left( \frac{ - E_{w} \left[f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] } {\left( E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] \right) ^{2} } \right) \right]\\ =& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right] \end{align} と出来ます。 経験損失のキュムラント母関数\mathcal{T}_{n}(\alpha)にも同様の計算をする事で( E_{X}  \frac{1}{n} \sum _{i=1} ^{n}と置き換える事で) \begin{align} \mathcal{T}^{(1)}_{n}(\alpha) &= - L_{n}(w_{0}) - \frac{1}{n} \sum _{i=1} ^{n} \left[ \mathcal{L}_{1}(X)\right]\\ \mathcal{T}^{(2)}_{n}(\alpha) &=\sum _{i=1} ^{n} \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \end{align} とする事が出来ます。

キュムラントと損失関数

キュムラント母関数\mathcal{G}_{n}(\alpha)\mathcal{T}_{n}(\alpha)より損失関数G_{n}T_{n}を求めます。 まず汎化損失G_{n}について考えます。 汎化損失のキュムラント母関数\mathcal{G}(\alpha)\alpha = 0の近傍で、中間値の定理を用いて3次まで展開すると、 \begin{align} \mathcal{G}_{n}(\alpha) = \mathcal{G}_{n}(0) + \alpha \mathcal{G}^{(1)}_{n}(0) + \alpha ^{2} \mathcal{G}^{(2)}_{n}(0) + \alpha ^{3} \mathcal{G}^{(3)}_{n}(\alpha^{ * }) , \quad \alpha^{*} \in (0,\alpha)\\ \end{align} と出来ます。 ここで \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| = o \left( \frac{1}{n} \right) \end{align} として、 \alpha=1とすると、 \begin{align} \mathcal{G}_{n}(0) &= E_{X}[\log {E_{w}[ p(X|w)^{0} ]}]\\ &=E_{X}[\log {E_{w}[ 1 ]}] = E_{X}[\log { 1 }] =0 \end{align} となるため、 \begin{align} \mathcal{G}_{n}(1) &= \mathcal{G}_{n}(0) + 1 \cdot \mathcal{G}^{(1)}_{n}(0) + 1 ^{2} \cdot \mathcal{G}^{(2)}_{n}(0) + 1 ^{3} \cdot \mathcal{G}^{(3)}_{n}(\alpha^{ * }) \\ &= 0 + \mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ &=\mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} と出来ます。ここで、汎化損失G_{n}と汎化損失のキュムラント母関数\mathcal{G}_{n}(\alpha)には \begin{align} G_{n} &= -E_{X} \left[ log{ E_{w} \left[ p(X|w) \right]}\right]\\ &= -E_{X} \left[ log{ E_{w} \left[ p(X|w)^{1} \right]}\right]\\ &= -\mathcal{G}_{n}(1) \end{align} の関係があるので、汎化損失G_{n}は汎化損失のキュムラント母関数\mathcal{G}_{n}(\alpha)によって次の様に表せます。 \begin{align} G_{n} &= -\mathcal{G}_{n}(1)\\ &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} 同様に経験損失T_{n}は経験損失のキュムラント母関数\mathcal{T}_{n}(\alpha)によって次の様に表せます。 \begin{align} T_{n} &= -\mathcal{T}_{n}(1)\\ &= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align}

汎化損失G_{n}、経験損失のT_{n}の繰り込まれた事後分布による表現と汎関数分散

この節では、次の関係を導出します。 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} この関係を導くために \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} の関係を利用します。この関係を使うには、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} である事が必要となります。ここで \begin{align} E_{w} \left[ f(x,w)^{s} \right] &= \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} となるため、 s \in (2,\infty)の時について考えると、 s >  1 なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +\left( \frac{d}{ds} \frac{1}{n^{\frac{s}{2}}} \right)\cdot \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + \frac{d}{ds} o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &= \quad ...\\ &=\frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d^{3}}{ds^{3}} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ &= o \left( \frac{1}{n} \right) \end{align} となります。また、 s \in [0,2]の時は、 s \le 1 なので、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \le& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u)\right) ^{2} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \end{align} と出来ます。このため、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \le o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} となります。また、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \ge 0 + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \ge o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} であるとも言えます。よって、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} & = o \left( \frac{1}{n^{\frac{s}{2}+3}} \right)\\ & = o \left( \frac{1}{n} \right) \end{align} と言えます。 \begin{align} E_{w} \left[ f(x,w)^{s} \right] = E_{w} \left[ \left( \log{ p(x|w_{0})} - \log{ p(x|w)} \right)^{s} \right] \end{align} であるため、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} であると言えます。

このため、汎化損失G_{n}、経験損失のT_{n}を求める為には、\mathcal{G}^{(1)}_{n}(0)\mathcal{G}^{(2)}_{n}(0)\mathcal{T}^{(1)}_{n}(0)\mathcal{T}^{(2)}_{n}(0)を求めればいい事がわかります。

\mathcal{G}^{(1)}_{n}(0)については、 \begin{align} - \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + E_{X} \left[ \mathcal{L}_{1}(X)\right]\\ =& L(w_{0}) + E_{X} \left[ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] } {E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}\right]\\ =& L(w_{0}) + E_{w}\left[ K(w) \right]\\ =& L(w_{0}) + \langle \frac{t}{n} \rangle + o \left( \frac{1}{n} \right)\\ =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right) \end{align} となります。また\mathcal{G}^{(2)}_{n}(0)については、汎関数分散V(\xi_{n}) \begin{align} V(\xi_{n}) = E_{X} \left[ E_{w} \left[ \langle t a(x,u)^{2} \rangle \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] \end{align} によって次の様に定義されます。 \begin{align} \mathcal{G}^{(2)}_{n}(0) =& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right]\\ =& E_{X} \left[ E_{w} \left[ f(x,w)^{2} \right] - E_{w} \left[ f(x,w) \right]^{2} \right]\\ =& \frac{1}{n} E_{X} \left[ E_{w} \left[ \langle t a(x,u)^{2} \rangle \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] + o \left( \frac{1}{n} \right)\\ =& V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} と出来ます。

\mathcal{T}^{(1)}_{n}(0)は、 \begin{align} - \mathcal{T}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n} \sum^{n}_{i=1}{\mathcal{L}_{1}(x_{i})} \\ =& L(w_{0}) + \frac{1}{n} \sum^{n}_{i=1}{ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] } {E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}}\\ =& L(w_{0}) + E_{w}\left[ K_{n}(w) \right]\\ =& L(w_{0}) + \langle \frac{t - \sqrt{t} \xi _{n}(u)}{n} \rangle + o \left( \frac{1}{n} \right)\\ =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right) \end{align}と出来きます。また\mathcal{T}^{(2)}_{n}(0)は、 \begin{align} \mathcal{T}^{(2)}_{n}(0) =& \frac{1}{n} \sum^{n}_{i=1} { \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} } \\ =& \frac{1}{n} \sum^{n}_{i=1}{ E_{w} \left[ f(x,w)^{2} \right] - E_{w} \left[ f(x,w) \right]^{2}} \\ =& \frac{1}{n^{2}} \sum^{n}_{i=1} { E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} } + o \left( \frac{1}{n} \right)\\ \end{align} ここで関数の大数の法則より \begin{align} &\frac{1}{n} \sum^{n}_{i=1} { E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} }\\ &\quad = E_{X} \left[ E_{w} \left[ \langle t a(x,u)\rangle^{2} \right] - E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right] +o(1) \end{align} より、n\mathcal{G}^{(2)}_{n}(0)n\mathcal{T}^{(2)}_{n}(0)の差はn \to \inftyの時0に収束する。 よって、 \begin{align} \mathcal{T}^{(2)}_{n}(0) = & V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} となります。

以上の\mathcal{G}^{(1)}_{n}(0)\mathcal{G}^{(2)}_{n}(0)\mathcal{T}^{(1)}_{n}(0)\mathcal{T}^{(2)}_{n}(0)に関する議論と \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} より、 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} となる事が示ました。

正規確率過程と汎関数分散の関係

ここでは、前の節で登場した\langle \sqrt{t}\xi_{n}(u) \rangleV(\xi_{n})の関係を確認します。 ここで、サンプルの出方の期待値(偶然片寄ったサンプルが得られることを確率的に扱う)をE[ \, ]と表記します。すると、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =& E\left[ E_{X}\left[ \log{ E_{w} \left[ p(X|w) ^{\beta} \right] } \right]\right]\\ =& E\left[ E_{X}\left[ \log{\left( \int_{W} p(X|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\right]\\ =& E\left[ \log{\left( \int_{W} p(x_{n}|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& E\left[ - \log{\left( \int_{W} p(x_{n}|w) ^{- \beta} \cdot \frac{ \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& - E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ \end{align} と出来ます。この式は、x_{1},x_{2},...,x_{n}で平均を取っているので、x_{1},x_{2},...,x_{n}のどれを入れ替えても値は同じであるから、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =&- E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ =& - E\left[ \frac{1}{n} \sum^{n}_{i=1} \log{ E_{w}\left[ p(x_{i} | w) ^{-\beta} \right] }\right]\\ =& E[\mathcal{T}_{n - 1}(-\beta)] \end{align} となります。ここで、中間値の定理を使って、 -\beta = 0近傍で3次の項まで両辺を展開したのち、 -\beta = 1を代入し、定数項が0になり3次の項がo(\frac{1}{n})であるとすると、(本記事の上記で行った様に両辺を展開すると) \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] = E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} と出来ます。ここで、 \begin{align} - \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right)\\ \mathcal{G}^{(2)}_{n}(0) =& V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} であるため、 \mathcal{G}^{(1)}_{n}(0)\mathcal{G}^{(1)}_{n - 1}(0)の違いや、\mathcal{G}^{(2)}_{n}(0)\mathcal{G}^{(2)}_{n - 1}(0)の違いは、  o\left(\frac{1}{n} - \frac{1}{(n-1)} \right)=o\left(\frac{-1}{(n-1)n} \right)つまりは o\left(\frac{1}{n}\right)と出来る事が分かります。 したがって、 \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] =&\\ E[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) =&\\ E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} とできます。 \mathcal{G}^{(1)}_{n}(0)\mathcal{G}^{(2)}_{n}(0)\mathcal{T}^{(1)}_{n}(0)\mathcal{T}^{(2)}_{n}(0)に関する結果を使う事で両辺は、 \begin{align} E \left[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right)\\ \\ E \left[\mathcal{T}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L_{n}(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \end{align} とできます。これらより、 \begin{align} &- L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right) \\ & \qquad = - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \\ \end{align} とでき、両辺を整理すると \begin{align} E \left[\langle \sqrt{t} \xi_{n}(u) \rangle \right] &= E \left[\beta V(\xi_{n}) \right] + o(1) \end{align} となる事が分かります。

WAICの導出

ここではこれまでの議論を使ってWAICを導出します。 経験対数損失L_{n}(w_{0})と平均対数損失L(w_{0})について、サンプリングに関する変動に関する平均操作を E[ \, ]で表すと、 \begin{align} L(w_{0}) = E\left[ L(w_{0}) \right] = E\left[ L_{n}(w_{0}) \right] \end{align} とできます。この関係を使って \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} をL_{n}(w_{0})L(w_{0})について代入すると、 \begin{align} &E\left[ T_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \\ & \qquad= E\left[ G_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \end{align} となり、整理すると、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{ 1 }{ n } \right)\\ &= E\left[ T_{n} + \frac{1}{n}\beta V(\xi_{n}) \right] + o \left(\frac{ 1 }{ n } \right) \end{align} とできます。汎関数分散V(\xi_{n})については、広中の特異点解消定理によって、パラメータが変更されているため、そのままでは計算する事ができないので、漸近的に同じとなる次の汎関数分散V_{n}を考えます。 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} } \end{align} ここで、 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( -\log{ p(x_{i} |w)} \right) ^{2} \right] + \left( \log{ p(x_{i} |w_0)} \right)^{2} - \left( \log{ p(x_{i} |w_0)} \right)^{2} - E_{w} \left[ -\log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right) ^{2} \right] - E_{w} \left[ \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ f(x|w) ^{2} \right] - E_{w} \left[ f(x|w) \right]^{2} }\\ &= \sum^{n}_{i=1} { \langle t a(x,u)^{2}\rangle - \langle \sqrt{t} a(x,u) \rangle ^{2} } + o \left(\frac{ 1 }{ n } \right)\\ &= \sum^{n}_{i=1} { V( \xi_{n} ) } + o \left(\frac{ 1 }{ n } \right)\\ \end{align} となるため、V_{n}V(\xi_{n})が漸近的に一致する事が分かります。

上記の議論より、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V(\xi_{n}) \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V_{n} \right] + o \left(\frac{1}{n} \right) \end{align} の関係が導け、これをベイズ統計学状態方程式と呼びます。 ここでWAICW_{n}を次の様に定義します。 \begin{align} W_{n} = T_{n} + \frac{\beta}{n}V_{n} \end{align} すると、 \begin{align} G_{n} = W_{n} + o \left(\frac{1}{n} \right) \end{align} が成り立つためWAICを計算する事で、汎化損失の近似値を得る事ができます。

まとめ

以上より、WAICが導出されました。WAICは汎化損失の近似値ですが、汎化損失の近似方法として、one leave out cross validationやその近似法であるパレート重点サンプリング等があります。どの手法がいいか実験を行って挙動を比較する必要があります。 また、対数周辺尤度の近似であるWBICや実対数閾値を使って対数周辺尤度の計算を行うsinguler BICがあるので、汎化損失以外の方法でモデルの評価を行いたい時は、WAICでない方法を選ぶと良いです。ただし、今回は示しませんでしたが、「ベイズ統計の理論と方法」において、WAICとone leave out cross validationは \left(\frac{1}{n^{2}} \right)で汎化損失に収束するため、WBICと比べて少ないサンプルで収束する性質があるとされています。このため、データサイズが小さい場合は、WAICで評価するのが望ましい様に思います。(実は「ベイズ統計の理論と方法」の著者である渡辺先生の研究室の学生がWBICの収束を改善したものを(統計系の学会で)日本語のみで報告したとの噂を聞いた事があります。真偽の程は分かりませんが。。。)

WAICの導出は五つの記事に渡る長編でしたが、最後までお付き合い頂き有難うございました。