多摩川の辺りで働くデータサイエンティスト

ポートフォリオ的なもの(未完)

WAICの導出を追ってみる。その2

概要

この記事では、WAICの導出に出て来る、経験誤差K_{n}(w)の標準形の導出について確認して行きたいと思います。 具体的には前回記事の

経験誤差関数K_{n}(w)=\frac{1}{n}\sum^{n}_{i=1}f(X_{i},w)
$$ nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)}, \quad \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(X_{i},u)} $$
と変形する。

について確認します。(大体「ベイズ統計の理論と方法」のp.88~p.98の内容になります。)
この導出の狙いとしては、WAICの導出に向けて、経験誤差K_{n}(w)n \to \inftyの挙動を知る必要がありますが、そのためにK_{n}(w)をサンプリングの確率的な変動の影響を受ける部分と確率的な変動を受けない部分(平均誤差K(w)に相当)に整理します

特異点定理の適用とその周辺

まず、平均誤差関数K(w)に広中の特異点定理を適用します。

特異点定理について説明すると、平均誤差K(w)について、パラメータw \in Wを、\it{M}からWへと写す関数g(u) , u \in\it{M}で $$ K(g(u))=u^{2k} =\prod_{i=1}^{d}u_{i}^{2k_{i}} $$ のようにパラメータを置き換えることができ、その時g(u)ヤコビアン|g'(u)|は $$ |g'(u)|=b(u)|u^{h}|=b(u)|\prod_{i=1}^{d}u_{i}^{h_{i}}| $$ となります。ここで、b(u)は解析関数(たぶん、定義域(複素数領域)でテイラー展開が可能であること)です。また、g(u)uを要素とする多様体\it{M}の局所座標ごとに異なります。
多様体や局所座標云々は、後で出て来る近似(メリン変換)の都合上、uの範囲を0\le u_{i} \le 1としたいので、その範囲外は別の局所座標でカバーするようにしたいという感じだと思います。)

色々と出てきますが、つまる所 K(g(u))=u^{2k}とできるということです。 (以後では上記の様に、パラメータuの複数の指数をまとめて、u^{k}=\prod^{}_{i}{u_{i}^{k_{i}}}と表記します。(この様な表記を多重指数という様です。))

補題20 f(x,w)=u^{k}a(x,u) の証明

次に補題20の証明に入ります。
補題20では、相対的に有限な分散 $$\it{E}_{X}\left[ f(X,w)\right] \ge c \it{E}_{X} \left[ f(X,w)^{2} \right] $$ という条件の下、対数尤度比関数f(x,w)を $$ f(x,w)=f(x,g(u))=u^{k}a(x,u) $$ とできる事を証明します。 この補題は、f(x,w)を確率的に変動するxに依存する部分a(x,u)と依存しない部分u^{k}の積とすることで、経験誤差K_{n}(w)をサンプルサイズに依存する部分とサンプルの確率的ゆらぎの部分に分けるための下準備になっています。

証明は下記の流れになります。

\it{E}_{X} \left[ f(x,w) \right] について、 $$ \it{E}_{X} \left[ f(x,w) \right]=K(w)=u^{2k} $$

と表すことができ、相対的に有限な分散より、 $$ u^{2k}=\it{E}_{X} \left[ f(x,w) \right] \ge c_{0} \it{E}_{X} \left[ f(X,w)^{2} \right] $$

となり、不等式の両辺をu^{2k}で割ることで、 $$ 1 \ge c_{0}E_{X}\left[\left(\frac{f(X,w)}{u^{k}}\right)^{2}\right] $$ となります。
ここから、背理法を使います。 「f(x,w)u^{k}で割り切れない」と仮定すると、 $$ f(x,w) = u^{k}a(x,u) + b(x,u) $$ と表せ、 $$ \frac{f(x,w)}{u^{k}} = a(x,u) + \frac{b(x,u)}{u^{k}} $$ となります。第二項の絶対値はu^{2k} \to 0の時、有界とならないので、上記の不等式と矛盾することとなるので、「f(x,w)u^{k}で割り切れない」という仮定が誤りとなることが言えます。 よって、 $$ f(x,w)=u^{k}a(x,u) $$ となることが示せました。

経験誤差の標準形の導出

次に経験誤差K_{n}(w)の標準形の導出に向けて、下記の様に経験過程\xi_{n}(u)を定義します。 $$ \xi_{n}(u) = \frac{1}{\sqrt{n}}\sum^{n}_{i=1}{u^{k} - a(x_{i},u)} $$

この経験過程\xi_{n}(u)を使って、経験誤差K_{n}(w)の標準形 \begin{align} nK_{n}(w)=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align} を導出します。(定理7)

\begin{align} nK_{n}(g(u)) &=n \cdot \frac{1}{n}\sum^{n}_{i=1}{f(x_{i},w)}\\ &=\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=n \cdot u^{2k}-n \cdot u^{2k}+\sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} - \sum^{n}_{i=1}{u^{2k}} - \sum^{n}_{i=1}{u^{k}a(x_{i},u)}\\ &=nu^{2k} -\sqrt{n} \cdot \frac{1}{\sqrt{n}}u^{k}\sum^{n}_{i=1}{u^{k}-a(x_{i},u)}\\ &=n{u^{2k} - \sqrt{n}u^{k}\xi_{n}(u)} \end{align}

定理7によって、経験誤差をサンプルサイズnに依存する部分とサンプルの確率的変動に依存する部分に分けることができました。

以降では、この結果を使って事後分布(事後微小積分)を求めていきます。