多摩川の辺りで働くデータサイエンティスト

ポートフォリオ的なもの(未完)

WAICの導出を追ってみる。その3

概要

前回の記事で、経験誤差の標準形を導きました。これを用いて、分配関数(事後微小積分)を求めるのですが、そのために一旦、分配関数の主要部分を求めておきます。内容としては、「ベイズ統計の理論と方法」のp58-62に相当します。

正規化された分配関数 Z^{(0)}_{n}(\beta)

正規化された分配関数 Z^{(0)}_{n}(\beta)ですが、次の様に定義されます。 \begin{align} Z^{(0)}_{n}(\beta) = \int \exp\left(-n \beta K_{n}(w)\right) \phi(w)dw = \int\Omega(w)dw \end{align} であり、\Omega(w)dwを事後微小積分といい、広中の特異点解消定理等を用いて、 \begin{align} \Omega(w)dw = \exp\left(-n \beta K_{n}(g(u))\right) \phi(g(u))|g'(u)|du \end{align} とすることが出来ます。

ここで一旦脇道に逸れますが、正規化された分配関数Z^{(0)}_{n}(\beta)と事後分布p(w|X)の関係を確認します。端的にいえば、事後分布は正規化された分配関数 Z^{(0)}_{n}(\beta)と経験誤差  K_{n}(w)から導くことが出来ます。以下は、その導出になります。

まず、「正規化されていない」分配関数 Z_{n}(\beta)は次の様に定義されます。 \begin{align} Z_{n}(\beta)=\int _{W}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}dw \end{align} ここで、「正規化された」分配関数 Z^{(0)}_{n}(\beta)と「正規化されてない」通常の分配関数Z_{n}(\beta)を比較すると \begin{align} Z_{n}(\beta)&=\int _{W}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}dw\\ &=\int _{W}\phi(w)\frac{\prod^{n}_{i=1}p(x_{i}|w)^{\beta}} {\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}} \cdot\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}dw\\ &=\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta} \int_{W}\phi(w)\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}dw\\ &=\exp\left(\log\left(\prod^{n}_{i=1}p(x_{i}|w_{0})^{\beta}\right)\right) \int_{W}\phi(w)\exp\left(\log\left(\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}\right)\right)dw\\ &=\exp\left(\beta\sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)\int_{W}\phi(w)\exp\left(\beta\sum^{n}_{i=1}\log\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)\right)dw\\ &=\exp\left(-n \cdot \frac{-1}{n}\beta\sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)\int_{W}\phi(w)\exp\left( n \cdot \frac{1}{n} \beta \sum^{n}_{i=1} -f(x_{i}|w) \right)dw\\ &=\exp\left(-n \beta L_{n}(w_{0})\right) \int_{W}\phi(w)\exp\left(-n \beta K_{n}(w)\right)dw\\ &=\exp\left(-n \beta L_{n}(w_{0})\right) \cdot Z^{(0)}_{n}(\beta) \end{align} の様に、経験対数損失を介して二つは関係付けられます。この関係より事後分布P(w|X^{n})は次の様に表せます。 \begin{align} P(w|x^{n})&=\frac{1}{Z_{n}(\beta)}\phi(w)\prod^{n}_{i=1}p(x_{i}|W)^{\beta}\\ &=\frac{\exp\left(n \beta L_{n}(w_{0})\right)}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}\\ &=\frac{\exp\left(-\beta \sum^{n}_{i=1}\log(p(x_{i}|w_{0}))\right)}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}p(x_{i}|w)^{\beta}\\ &=\frac{\prod^{n}_{i=1}p(x_{i}|w_{0})^{-\beta}}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}\left(p(x_{i}|w)\right)^{\beta}\\ &=\frac{1}{Z^{(0)}_{n}}\phi(w)\prod^{n}_{i=1}\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)^{\beta}\\ &=\frac{1}{Z^{(0)}_{n}}\phi(w)\exp\left(\beta\sum^{n}_{i=1}\log\left(\frac{p(x_{i}|w)}{p(x_{i}|w_{0})}\right)\right)\\ &=\frac{1}{Z^{(0)}_{n}} \phi(w) \exp\left( n \cdot \frac{1}{n} \beta \sum^{n}_{i=1} -f(x_{i}|w) \right)\\ &=\frac{1}{Z^{(0)}_{n}} \phi(w) \exp\left( -n \beta K_{n}(w) \right) \end{align}

この様に、事後分布P(w|X^{n})は正規化された分配関数 Z^{(0)}_{n}(\beta)と経験誤差  K_{n}(w)から導くことが出来ます。

正規化された分配関数の主要項Z^{(1)}_{n}(\beta)と非主要項Z^{(2)}_{n}(\beta)

正規化された分配関数Z^{(0)}_{n}(\beta)ですが、 n \to \inftyでの0への収束速度に応じて、主要項と非主要項に分けます。この記事では、非主要項の挙動( \exp(-\sqrt(n))で0に収束)を導いて、以降は主要項(後の記事で示しますが n^{-\lambda}で0に収束)のみ扱えばいい様にします。

まず、正規化された分配関数Z^{(0)}_{n}(\beta)を次の様に主要項Z^{(1)}_{n}(\beta)と非主要項Z^{(2)}_{n}(\beta)に分けます。 \begin{align} Z^{(0)}_{n}(\beta)&=Z^{(1)}_{n}(\beta)+Z^{(2)}_{n}(\beta)\\ \end{align}

\begin{align} Z^{(1)}_{n}(\beta) &= \int_{K(w) < \epsilon} \exp \left( -n \beta K_{n}(w) \right)\\ Z^{(2)}_{n}(\beta) &= \int_{K(w) \geq \epsilon}\exp\left( -n \beta K_{n}(w) \right) \end{align} ここで \epsilon>0は単調現象関数で \begin{align} \lim_{x \to \infty} \epsilon(n) &=0 \end{align}

\begin{align} \lim_{x \to \infty} \sqrt{n}\epsilon(n) &= \infty \end{align}

といった挙動を示します。

確率過程\xi_{n}(w)中心極限定理

上記の分配関数の非主要項の挙動を確認するために、一旦、対数尤度比関数f(x|w)に関する確率過程 \begin{align} \xi_{n}(w) = \frac{1}{\sqrt{n}} \sum^{n}_{i=1} (K(w)-f(x_{i}|w)) \end{align} の挙動について考えます。 この \xi_{n}(w)ですが、平均0で、 \xi_{n}(w')に対し相関が \begin{align} E_{x}[f(x|w)f(x|w')]-K(w)K)(w') \end{align} となる様です。(おそらくは、展開して\sum大数の法則E_{x}と置き換えたのだと思います。) また、この\xi_{n}(w)\xi_{n}(w)と同じ平均と相関をもつ正規確率過程\xi(w)に法則収束する様です。 「ベイズ統計の理論と方法」の8章に一応記載はあるものの、説明が荒く専門の書籍を当たった方が良さそうな感じですが、恐らくは、中心極限定理の関数版の定理から導かれている様です。

一応、中心極限定理について記載しておくと、

確率変数Y_{n}=\frac{1}{\sqrt{n}}\sum^{n}_{i=1}(X_{i}-E[x])は平均0で相関V[X] = E[XX^{t}]-E[X][X]正規分布n \to \inftyで法則収束する

というものです。

正規化された分配関数の非主要項Z^{(2)}_{n}(\beta)の挙動

上記、色々と説明してきましたが、ようやく本記事の本題に移ります。ここは「ベイズ統計の理論と方法」の補題12について説明します。補題12は下記のものになります。

非主要項Z^{(2)}_{n}(\beta)は \begin{align} Z^{(2)}_{n}(\beta) = o_{p}(exp(-\sqrt(n))) \end{align} のオーダーで0に収束する。

導出は以下になります。 まず、 \begin{align} K_{n}(w)&=K_{n}+K(w)-K(w)\\ &=K(w)+\frac{1}{n}\sum^{n}_{i=1}f(x_{i}|w) -K(w)\\ &=K(w)-\frac{1}{\sqrt{n}}\xi_{n}(w) \end{align} と出来ます。これにより非主要項は \begin{align} Z^{(2)}_{n}(\beta) &= \int_{K(w)\ge \epsilon}exp(-n \beta K_{n}(w))\phi(w)dw\\ &= \int_{K(w)\ge \epsilon}exp(-n \beta K(w) + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ \end{align} と出来ますが、K(w)\ge \epsilonなので、 \begin{align} Z^{(2)}_{n}(\beta) &= \int_{K(w)\ge \epsilon}exp(-n \beta K(w) + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ &\le \int_{K(w)\ge \epsilon}exp(-n \beta \epsilon + \sqrt{n}\beta\xi_{n}(w))\phi(w)dw\\ &\le \int_{K(w)\ge \epsilon}exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\phi(w)dw\\ &=exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\int_{K(w)\ge \epsilon}\phi(w)dw\\ &\le exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\int_{W} \phi(w) dw\\ &= exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w)) \end{align} となります。ここで、\sqrt{n\epsilon}\frac{\xi_{n}(w)}{\sqrt{\epsilon}}の相加相乗平均より \begin{align} \sqrt{n}\xi_{n} &\le \left( \frac{\sqrt{n\epsilon} + \frac{\xi_{n}(w)}{\sqrt{\epsilon}}}{2} \right)^{2}\\ &\le \frac{n\epsilon + 2\sqrt{n}\xi_{n}(w) + \frac{\xi_{n}(w)^{2}}{\epsilon}}{4} \\ \end{align} 上式の両辺2倍して整理すると、 \begin{align} \sqrt{n}\xi_{n} &\le \frac{n\epsilon + \frac{\xi_{n}(w)^{2}}{\epsilon}}{2} \end{align} となります。 これより、 \begin{align} Z^{(2)}_{n}(\beta) &\le exp(-n \beta \epsilon + \sqrt{n}\beta\sup_{w} \xi_{n}(w))\\ &= exp\left(-\frac{n \beta \epsilon}{2} + \frac{\beta \xi^{2}_{n}(w)}{2\epsilon}\right)\\ &= exp\left(-\frac{\sqrt{n} \cdot \sqrt{n} \beta \epsilon}{2} + \frac{\sqrt{n} \beta \xi^{2}_{n}(w)}{\sqrt{n}2\epsilon}\right)\\ &= exp\left(-\sqrt{n} \cdot \left( \frac{ \beta \sqrt{n} \epsilon}{2} + \frac{ \beta \xi^{2}_{n}(w)}{2 \sqrt{n} \epsilon} \right) \right)\\ \end{align} となります。ここで、\sqrt{n} \epsilon \to \inftyとなるので、指数の括弧内の分数の和は\inftyとなり、 - \sqrt{n} \to - \inftyなので、o_{p}(exp(-\sqrt{n}))0に収束することが分かります。

本記事では、非主要項Z^{(2)}_{n}(\beta)o_{p}(exp(-\sqrt{n}))0と収束することが分かったので、以降は主要項Z^{(1)}_{n}(\beta)のみ考えていきます。