WAICの導出を追ってみる。その5
概要
前回の記事では、繰り込まれた事後分布による平均操作を定義して、やについて求めて行きました。 この記事では、汎化損失と経験損失の展開をキュムラントより求めた後、汎関数分散と正規確率過程の関係を求めて、WAICを導出します。
キュムラント母関数
汎化損失のキュムラント母関数と経験損失のキュムラント母関数を次の様に定義します。 \begin{align} \mathcal{G}_{n}(\alpha) = E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ], \quad \mathcal{T}_{n}(\alpha) = \frac{1}{n}\sum^{n}_{i = 1}\log{E_{w}}[ p(X|w)^{\alpha} ] \end{align} 以下では、キュムラント母関数を使って汎化損失や経験損失を表すための準備をします。
ここで汎化損失のキュムラント母関数を対数尤度比関数を使って表すと
\begin{align}
\mathcal{G}_{n}(\alpha) &= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]} ]\\
&= E_{X}[\log {E_{w}[ p(X|w)^{\alpha} ]}
- \log {p(X|w_{0})^{\alpha}}
+ \log {p(X|w_{0})^{\alpha}}]\\
&= - E_{X} \left[ \log {E_{w} \left[ \frac{p(X|w_{0})^{\alpha}}
{p(X|w)^{\alpha}} \right]}\right]
+ E_{X} \left[ \log {p(X|w_{0})^{\alpha}} \right]\\
&= - E_{X} \left[ \log {E_{w} \left[ \left( \frac{p(X|w_{0})}
{p(X|w)} \right) ^{\alpha} \right]}\right]
+ \alpha E_{X} \left[ \log {p(X|w_{0})} \right]\\
&= - E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, \log{\frac{p(X|w_{0})}
{p(X|w)} } \right) \right]}\right]
- \alpha L(w_{0})\\
&= -\alpha L(w_{0})
-E_{X} \left[ \log {E_{w} \left[
exp \left( \alpha \, f(x,w) \right) \right]}\right] \\
&= - \alpha L(w_{0})
+E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right]
\end{align}
となります。ここで]とすると
\begin{align}
\mathcal{G}^{(1)}_{n}(\alpha) &= \frac{d}{d\alpha} \mathcal{G}_{n}(\alpha)\\
&=\frac{d}{d\alpha} \left( - \alpha L(w_{0})
+ E_{X} \left[ \log {E_{w} \left[
exp \left( -\alpha \, f(x,w) \right) \right]}\right] \right) \\
&= -L(w_{0})
- E_{X} \left[
\frac{E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] }
{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right]}
\right]\\
&= - L(w_{0}) - E_{X} \left[ \mathcal{L}_{1}(X)\right]
\end{align}
となります。ただし、
\begin{align}
\mathcal{L}_{k}(A) = \frac{E_{w} \left[
\left( f(x,w) \right) ^{ k } exp \left( -\alpha \, f(A,w) \right) \right] }
{E_{w} \left[ exp \left( -\alpha \, f(A,w) \right) \right]}
\end{align}
としています。また、は、
\begin{align}
\mathcal{G}^{(2)}_{n}(\alpha) =& \frac{d}{d^{2}\alpha}\mathcal{G}_{n}(\alpha)\\
=& \frac{d}{d \alpha} \left(
- L(w_{0})
- E_{X} \left[
\frac{ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] }
{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] }
\right]
\right)\\
=& E_{X} \left[ \frac{d}{d \alpha}\left( - E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right]
\right)\frac{ 1 }
{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] }
\right] \\
&+ E_{X} \left[
E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right]
\frac{d}{d \alpha}\left( \frac{ -1 }
{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] } \right)
\right]\\
=& E_{X} \left[
E_{w} \left[ f(x,w)^{2} exp \left( -\alpha \, f(x,w) \right) \right]
\cdot \frac{ 1 }{E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] }
\right]\\
&+ E_{X} \left[ E_{w} \left[
f(x,w) exp \left( -\alpha \, f(x,w) \right) \right]
\left( \frac{ - E_{w} \left[f(x,w) exp \left( -\alpha \, f(x,w) \right) \right] }
{\left( E_{w} \left[ exp \left( -\alpha \, f(x,w) \right) \right] \right) ^{2} } \right)
\right]\\
=& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right]
\end{align}
と出来ます。
経験損失のキュムラント母関数にも同様の計算をする事で(をと置き換える事で)
\begin{align}
\mathcal{T}^{(1)}_{n}(\alpha)
&= - L_{n}(w_{0}) - \frac{1}{n} \sum _{i=1} ^{n} \left[ \mathcal{L}_{1}(X)\right]\\
\mathcal{T}^{(2)}_{n}(\alpha)
&=\sum _{i=1} ^{n} \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2}
\end{align}
とする事が出来ます。
キュムラントと損失関数
キュムラント母関数、より損失関数、を求めます。 まず汎化損失について考えます。 汎化損失のキュムラント母関数をの近傍で、中間値の定理を用いて3次まで展開すると、 \begin{align} \mathcal{G}_{n}(\alpha) = \mathcal{G}_{n}(0) + \alpha \mathcal{G}^{(1)}_{n}(0) + \alpha ^{2} \mathcal{G}^{(2)}_{n}(0) + \alpha ^{3} \mathcal{G}^{(3)}_{n}(\alpha^{ * }) , \quad \alpha^{*} \in (0,\alpha)\\ \end{align} と出来ます。 ここで \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| = o \left( \frac{1}{n} \right) \end{align} として、とすると、 \begin{align} \mathcal{G}_{n}(0) &= E_{X}[\log {E_{w}[ p(X|w)^{0} ]}]\\ &=E_{X}[\log {E_{w}[ 1 ]}] = E_{X}[\log { 1 }] =0 \end{align} となるため、 \begin{align} \mathcal{G}_{n}(1) &= \mathcal{G}_{n}(0) + 1 \cdot \mathcal{G}^{(1)}_{n}(0) + 1 ^{2} \cdot \mathcal{G}^{(2)}_{n}(0) + 1 ^{3} \cdot \mathcal{G}^{(3)}_{n}(\alpha^{ * }) \\ &= 0 + \mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ &=\mathcal{G}^{(1)}_{n}(0) + \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} と出来ます。ここで、汎化損失と汎化損失のキュムラント母関数には \begin{align} G_{n} &= -E_{X} \left[ log{ E_{w} \left[ p(X|w) \right]}\right]\\ &= -E_{X} \left[ log{ E_{w} \left[ p(X|w)^{1} \right]}\right]\\ &= -\mathcal{G}_{n}(1) \end{align} の関係があるので、汎化損失は汎化損失のキュムラント母関数によって次の様に表せます。 \begin{align} G_{n} &= -\mathcal{G}_{n}(1)\\ &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} 同様に経験損失は経験損失のキュムラント母関数によって次の様に表せます。 \begin{align} T_{n} &= -\mathcal{T}_{n}(1)\\ &= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align}
汎化損失、経験損失のの繰り込まれた事後分布による表現と汎関数分散
この節では、次の関係を導出します。 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} この関係を導くために \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} の関係を利用します。この関係を使うには、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} である事が必要となります。ここで \begin{align} E_{w} \left[ f(x,w)^{s} \right] &= \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} となるため、の時について考えると、 > なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +\left( \frac{d}{ds} \frac{1}{n^{\frac{s}{2}}} \right)\cdot \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + \frac{d}{ds} o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &=\frac{d^{2}}{ds^{2}} \left( \frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d}{ds} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\right)\\ &= \quad ...\\ &=\frac{1}{n^{\frac{s}{2}}} \cdot \left(\frac{d^{3}}{ds^{3}} \langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle \right) +o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ &= o \left( \frac{1}{n} \right) \end{align} となります。また、]の時は、なので、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u) \right) ^{s} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \le& \frac{1}{n^{\frac{s}{2}}}\langle \left( \sqrt{t} a(x,u)\right) ^{2} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \end{align} と出来ます。このため、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \le o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} となります。また、 \begin{align} E_{w} \left[ f(x,w)^{s} \right] =& \frac{1}{n^{\frac{s}{2}}}\langle \left( \left( \sqrt{t} a(x,u)\right) ^{2}\right) ^{\frac{s}{2}} \rangle + o \left( \frac{1}{n^{\frac{s}{2}}} \right)\\ \ge 0 + o \left( \frac{1}{n^{\frac{s}{2}}} \right) \end{align} なので、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} \ge o \left( \frac{1}{n^{\frac{s}{2}+3}} \right) \end{align} であるとも言えます。よって、 \begin{align} \frac{d^{3} E_{w} \left[ f(x,w)^{s} \right]}{ds^{3}} & = o \left( \frac{1}{n^{\frac{s}{2}+3}} \right)\\ & = o \left( \frac{1}{n} \right) \end{align} と言えます。 \begin{align} E_{w} \left[ f(x,w)^{s} \right] = E_{w} \left[ \left( \log{ p(x|w_{0})} - \log{ p(x|w)} \right)^{s} \right] \end{align} であるため、 \begin{align} \left| \mathcal{G}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right)\\ \left| \mathcal{T}^{(3)}_{n}(\alpha) \right| =& o \left( \frac{1}{n} \right) \end{align} であると言えます。
このため、汎化損失、経験損失のを求める為には、、、 、を求めればいい事がわかります。
については、
\begin{align}
- \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + E_{X} \left[ \mathcal{L}_{1}(X)\right]\\
=& L(w_{0}) +
E_{X} \left[ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] }
{E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}\right]\\
=& L(w_{0}) + E_{w}\left[ K(w) \right]\\
=& L(w_{0}) + \langle \frac{t}{n} \rangle + o \left( \frac{1}{n} \right)\\
=& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right)
\end{align}
となります。またについては、汎関数分散
\begin{align}
V(\xi_{n}) = E_{X} \left[ E_{w} \left[ \langle t a(x,u)^{2} \rangle \right]
- E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2} \right]
\end{align}
によって次の様に定義されます。
\begin{align}
\mathcal{G}^{(2)}_{n}(0)
=& E_{X} \left[ \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} \right]\\
=& E_{X} \left[
E_{w} \left[ f(x,w)^{2} \right]
- E_{w} \left[ f(x,w) \right]^{2}
\right]\\
=& \frac{1}{n} E_{X} \left[
E_{w} \left[ \langle t a(x,u)^{2} \rangle \right]
- E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2}
\right] + o \left( \frac{1}{n} \right)\\
=& V(\xi_{n}) + o \left( \frac{1}{n} \right)
\end{align}
と出来ます。
は、
\begin{align}
- \mathcal{T}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n}
\sum^{n}_{i=1}{\mathcal{L}_{1}(x_{i})} \\
=& L(w_{0})
+ \frac{1}{n}
\sum^{n}_{i=1}{ \frac{E_{w} \left[
\left( f(x,w) \right) ^{ 1 } exp \left( 0 \cdot f(x,w) \right) \right] }
{E_{w} \left[ exp \left( 0 \cdot f(x,w) \right) \right]}}\\
=& L(w_{0}) + E_{w}\left[ K_{n}(w) \right]\\
=& L(w_{0}) + \langle \frac{t - \sqrt{t} \xi _{n}(u)}{n} \rangle + o \left( \frac{1}{n} \right)\\
=& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right)
\end{align}と出来きます。または、
\begin{align}
\mathcal{T}^{(2)}_{n}(0)
=& \frac{1}{n} \sum^{n}_{i=1} { \mathcal{L}_{2}(X) - \mathcal{L}_{1}(X) ^{2} } \\
=& \frac{1}{n} \sum^{n}_{i=1}{
E_{w} \left[ f(x,w)^{2} \right]
- E_{w} \left[ f(x,w) \right]^{2}}
\\
=& \frac{1}{n^{2}} \sum^{n}_{i=1} {
E_{w} \left[ \langle t a(x,u)\rangle^{2} \right]
- E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2}
}
+ o \left( \frac{1}{n} \right)\\
\end{align}
ここで関数の大数の法則より
\begin{align}
&\frac{1}{n} \sum^{n}_{i=1} {
E_{w} \left[ \langle t a(x,u)\rangle^{2} \right]
- E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2}
}\\
&\quad = E_{X} \left[
E_{w} \left[ \langle t a(x,u)\rangle^{2} \right]
- E_{w} \left[ \langle \sqrt{t} a(x,u)\rangle \right]^{2}
\right] +o(1)
\end{align}
より、との差はの時に収束する。
よって、
\begin{align}
\mathcal{T}^{(2)}_{n}(0) = & V(\xi_{n}) + o \left( \frac{1}{n} \right)
\end{align}
となります。
以上の、、 、に関する議論と \begin{align} G_{n} &= - \mathcal{G}^{(1)}_{n}(0) - \mathcal{G}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right)\\ T_{n}&= - \mathcal{T}^{(1)}_{n}(0) - \mathcal{T}^{(2)}_{n}(0) + o \left( \frac{1}{n} \right) \end{align} より、 \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} となる事が示ました。
正規確率過程と汎関数分散の関係
ここでは、前の節で登場したとの関係を確認します。 ここで、サンプルの出方の期待値(偶然片寄ったサンプルが得られることを確率的に扱う)を]と表記します。すると、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =& E\left[ E_{X}\left[ \log{ E_{w} \left[ p(X|w) ^{\beta} \right] } \right]\right]\\ =& E\left[ E_{X}\left[ \log{\left( \int_{W} p(X|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\right]\\ =& E\left[ \log{\left( \int_{W} p(x_{n}|w) ^{\beta} \cdot \frac{ \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{n - 1}_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& E\left[ - \log{\left( \int_{W} p(x_{n}|w) ^{- \beta} \cdot \frac{ \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } }{\int_{W} \phi(w) \prod^{ n }_{i = 1}{ p(x_{i} | w) ^{\beta} } dw}dw \right) }\right]\\ =& - E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ \end{align} と出来ます。この式は、で平均を取っているので、のどれを入れ替えても値は同じであるから、 \begin{align} E[\mathcal{G}_{n - 1}(\beta)] =&- E\left[ \log{ E_{w}\left[ p(x_{n} | w) ^{-\beta} \right] }\right]\\ =& - E\left[ \frac{1}{n} \sum^{n}_{i=1} \log{ E_{w}\left[ p(x_{i} | w) ^{-\beta} \right] }\right]\\ =& E[\mathcal{T}_{n - 1}(-\beta)] \end{align} となります。ここで、中間値の定理を使って、近傍で3次の項まで両辺を展開したのち、を代入し、定数項がになり3次の項がであるとすると、(本記事の上記で行った様に両辺を展開すると) \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] = E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} と出来ます。ここで、 \begin{align} - \mathcal{G}^{(1)}_{n}(0) =& L(w_{0}) + \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) + o \left( \frac{1}{n} \right)\\ \mathcal{G}^{(2)}_{n}(0) =& V(\xi_{n}) + o \left( \frac{1}{n} \right) \end{align} であるため、 との違いや、との違いは、 つまりはと出来る事が分かります。 したがって、 \begin{align} E[\mathcal{G}^{(1)}_{n - 1}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n - 1}(0)] =&\\ E[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) =&\\ E[\mathcal{T}^{(1)}_{n}(0) - \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)] + o\left(\frac{1}{n}\right) \end{align} とできます。 、、、に関する結果を使う事で両辺は、 \begin{align} E \left[\mathcal{G}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{G}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right)\\ \\ E \left[\mathcal{T}^{(1)}_{n}(0) + \frac{\beta}{2}\mathcal{T}^{(2)}_{n}(0)\right] + o\left(\frac{1}{n}\right) =& E \left[ - L_{n}(w_{0}) - \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n}) + o \left( \frac{1}{n} \right) \right] + o \left( \frac{1}{n} \right) \\ =& - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \end{align} とできます。これらより、 \begin{align} &- L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} - \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) +\frac{\beta}{2}V(\xi_{n}) \right]+ o \left( \frac{1}{n} \right) \\ & \qquad = - L(w_{0}) - E \left[ \frac{1}{n} \left( \frac{\lambda}{\beta} + \frac{1}{2} \langle \sqrt{t} \xi_{n}(u) \rangle \right) -\frac{\beta}{2}V(\xi_{n})\right] + o \left( \frac{1}{n} \right) \\ \end{align} とでき、両辺を整理すると \begin{align} E \left[\langle \sqrt{t} \xi_{n}(u) \rangle \right] &= E \left[\beta V(\xi_{n}) \right] + o(1) \end{align} となる事が分かります。
WAICの導出
ここではこれまでの議論を使ってWAICを導出します。 経験対数損失と平均対数損失について、サンプリングに関する変動に関する平均操作を]で表すと、 \begin{align} L(w_{0}) = E\left[ L(w_{0}) \right] = E\left[ L_{n}(w_{0}) \right] \end{align} とできます。この関係を使って \begin{align} G_{n} &= L(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right)\\ T_{n} &= L_{n}(w_{0}) + \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) + o \left(\frac{1}{n} \right) \end{align} を、について代入すると、 \begin{align} &E\left[ T_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} - \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \\ & \qquad= E\left[ G_{n} - \frac{1}{n}\left( \frac{\lambda}{\beta} + \frac{1}{2}\langle \sqrt{t}\xi_{n}(u) \rangle - \frac{1}{2}V(\xi_{n}(u)) \right) - o \left(\frac{1}{n} \right) \right] \end{align} となり、整理すると、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{ 1 }{ n } \right)\\ &= E\left[ T_{n} + \frac{1}{n}\beta V(\xi_{n}) \right] + o \left(\frac{ 1 }{ n } \right) \end{align} とできます。汎関数分散については、広中の特異点解消定理によって、パラメータが変更されているため、そのままでは計算する事ができないので、漸近的に同じとなる次の汎関数分散を考えます。 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} } \end{align} ここで、 \begin{align} V_{n} &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ p(x_{i} |w)} \right) ^{2} \right] - E_{w} \left[ \log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( -\log{ p(x_{i} |w)} \right) ^{2} \right] + \left( \log{ p(x_{i} |w_0)} \right)^{2} - \left( \log{ p(x_{i} |w_0)} \right)^{2} - E_{w} \left[ -\log{ p(x_{i} |w)} \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ \left( \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right) ^{2} \right] - E_{w} \left[ \log{ \frac{p(x_{i} |w_{0})}{p(x_{i} |w)} } \right]^{2} }\\ &= \sum^{n}_{i=1} { E_{w} \left[ f(x|w) ^{2} \right] - E_{w} \left[ f(x|w) \right]^{2} }\\ &= \sum^{n}_{i=1} { \langle t a(x,u)^{2}\rangle - \langle \sqrt{t} a(x,u) \rangle ^{2} } + o \left(\frac{ 1 }{ n } \right)\\ &= \sum^{n}_{i=1} { V( \xi_{n} ) } + o \left(\frac{ 1 }{ n } \right)\\ \end{align} となるため、とが漸近的に一致する事が分かります。
上記の議論より、 \begin{align} E\left[ G_{n} \right] &= E\left[ G_{n} + \frac{1}{n}\langle \sqrt{t}\xi_{n}(u) \rangle \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V(\xi_{n}) \right] + o \left(\frac{1}{n} \right)\\ &= E\left[ T_{n} + \frac{\beta}{n} V_{n} \right] + o \left(\frac{1}{n} \right) \end{align} の関係が導け、これをベイズ統計学の状態方程式と呼びます。 ここでWAICを次の様に定義します。 \begin{align} W_{n} = T_{n} + \frac{\beta}{n}V_{n} \end{align} すると、 \begin{align} G_{n} = W_{n} + o \left(\frac{1}{n} \right) \end{align} が成り立つためWAICを計算する事で、汎化損失の近似値を得る事ができます。
まとめ
以上より、WAICが導出されました。WAICは汎化損失の近似値ですが、汎化損失の近似方法として、one leave out cross validationやその近似法であるパレート重点サンプリング等があります。どの手法がいいか実験を行って挙動を比較する必要があります。 また、対数周辺尤度の近似であるWBICや実対数閾値を使って対数周辺尤度の計算を行うsinguler BICがあるので、汎化損失以外の方法でモデルの評価を行いたい時は、WAICでない方法を選ぶと良いです。ただし、今回は示しませんでしたが、「ベイズ統計の理論と方法」において、WAICとone leave out cross validationはで汎化損失に収束するため、WBICと比べて少ないサンプルで収束する性質があるとされています。このため、データサイズが小さい場合は、WAICで評価するのが望ましい様に思います。(実は「ベイズ統計の理論と方法」の著者である渡辺先生の研究室の学生がWBICの収束を改善したものを(統計系の学会で)日本語のみで報告したとの噂を聞いた事があります。真偽の程は分かりませんが。。。)
WAICの導出は五つの記事に渡る長編でしたが、最後までお付き合い頂き有難うございました。