WAICの導出を追ってみる。その2
概要
この記事では、WAICの導出に出て来る、経験誤差の標準形の導出について確認して行きたいと思います。 具体的には前回記事の
経験誤差関数を
$$ nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)}, \quad \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(X_{i},u)} $$
と変形する。
について確認します。(大体「ベイズ統計の理論と方法」のp.88~p.98の内容になります。)
この導出の狙いとしては、WAICの導出に向けて、経験誤差のの挙動を知る必要がありますが、そのためにをサンプリングの確率的な変動の影響を受ける部分と確率的な変動を受けない部分(平均誤差に相当)に整理します
特異点定理の適用とその周辺
まず、平均誤差関数に広中の特異点定理を適用します。
特異点定理について説明すると、平均誤差について、パラメータを、からへと写す関数で
$$
K(g(u))=u^{2k}
=\prod_{i=1}^{d}u_{i}^{2k_{i}}
$$
のようにパラメータを置き換えることができ、その時のヤコビアンは
$$
|g'(u)|=b(u)|u^{h}|=b(u)|\prod_{i=1}^{d}u_{i}^{h_{i}}|
$$
となります。ここで、は解析関数(たぶん、定義域(複素数領域)でテイラー展開が可能であること)です。また、はを要素とする多様体の局所座標ごとに異なります。
(多様体や局所座標云々は、後で出て来る近似(メリン変換)の都合上、の範囲をとしたいので、その範囲外は別の局所座標でカバーするようにしたいという感じだと思います。)
色々と出てきますが、つまる所 とできるということです。 (以後では上記の様に、パラメータの複数の指数をまとめて、と表記します。(この様な表記を多重指数という様です。))
補題20 の証明
次に補題20の証明に入ります。
補題20では、相対的に有限な分散
$$\it{E}_{X}\left[ f(X,w)\right] \ge c \it{E}_{X} \left[ f(X,w)^{2} \right]
$$
という条件の下、対数尤度比関数を
$$
f(x,w)=f(x,g(u))=u^{k}a(x,u)
$$
とできる事を証明します。
この補題は、を確率的に変動するに依存する部分と依存しない部分の積とすることで、経験誤差をサンプルサイズに依存する部分とサンプルの確率的ゆらぎの部分に分けるための下準備になっています。
証明は下記の流れになります。
について、 $$ \it{E}_{X} \left[ f(x,w) \right]=K(w)=u^{2k} $$
と表すことができ、相対的に有限な分散より、 $$ u^{2k}=\it{E}_{X} \left[ f(x,w) \right] \ge c_{0} \it{E}_{X} \left[ f(X,w)^{2} \right] $$
となり、不等式の両辺をで割ることで、
$$
1 \ge c_{0}E_{X}\left[\left(\frac{f(X,w)}{u^{k}}\right)^{2}\right]
$$
となります。
ここから、背理法を使います。
「がで割り切れない」と仮定すると、
$$
f(x,w) = u^{k}a(x,u) + b(x,u)
$$
と表せ、
$$
\frac{f(x,w)}{u^{k}} = a(x,u) + \frac{b(x,u)}{u^{k}}
$$
となります。第二項の絶対値はの時、有界とならないので、上記の不等式と矛盾することとなるので、「がで割り切れない」という仮定が誤りとなることが言えます。
よって、
$$
f(x,w)=u^{k}a(x,u)
$$
となることが示せました。
経験誤差の標準形の導出
次に経験誤差の標準形の導出に向けて、下記の様に経験過程を定義します。 $$ \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(x_{i},u)} $$
この経験過程を使って、経験誤差の標準形 \begin{align} nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align} を導出します。(定理7)
\begin{align} nK_{n}(g(u)) &=n \cdot \frac{1}{n}\sum^{n}_{i=1}{f(x_{i},w)}\\ &=\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=n \cdot u^{2k}-n \cdot u^{2k}+\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} - \sum^{n}_{i=1}{u^{2k}} - \sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} -\sqrt{n} \cdot \frac{1}{\sqrt{n}}u^{k}\sum^{n}_{i=1}{u^{k}-a(x_{i},u)}\\ &=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align}
定理7によって、経験誤差をサンプルサイズに依存する部分とサンプルの確率的変動に依存する部分に分けることができました。
以降では、この結果を使って事後分布(事後微小積分)を求めていきます。