Heavy Watal

PRML輪読会 3章4節

Pattern Recognition and Machine Learning (Information Science and Statistics) パターン認識と機械学習 上 パターン認識と機械学習 下 (ベイズ理論による統計的予測)

Author
Christopher M. Bishop
Book
Pattern Recognition and Machine Learning
Publisher
Springer
Materials
http://research.microsoft.com/en-us/um/people/cmbishop/prml/
輪読担当
岩嵜航
日程
2014-06-30

3. Linnear Models For Regression

3.1 Linear Basis Function Models: 八島さん、関口さん

3.2 The Bias-Variance Decomposition: チャッキーさん

3.3 Bayesian Linear Regression: 佐伯さん、永田さん

3.4 Bayesian Model Comparison

最尤推定における過学習の問題 → 点推定じゃなくて周辺化することで回避しよう

モデルの不確実さを確率で表し、加法定理・乗法定理を駆使して評価しよう

$$\begin{split} p(X) &= \sum^Y p(X,Y) \\ p(X,Y) &= p(Y \mid X) P(X) \end{split}$$

変数

新しい入力: $\mathbf x$
それに対する出力(予測したい): $t$
モデルの中のパラメータ: $\mathbf w$
観察(トレーニング)データ: $\mathcal D$
L 個のモデル: $\mathcal M_1, …, \mathcal M_L$


モデルの事後分布 $p(\mathcal M _i \mid \mathcal D)$ は、

の積に比例する (式 3.66)。

$$\begin{split} p(\mathcal M _i \mid \mathcal D) \propto p(\mathcal M _i) p(\mathcal D \mid \mathcal M _i) \end{split}$$

これを評価したいんだけど、 モデルの事前分布なんてだいたい分からないので、重要なのは後者のevidence。

Bayes factor ベイズ因子

モデル $\mathcal M _j$ に対する $\mathcal M _i$ のevidence比 $\frac {p(\mathcal D \mid \mathcal M _i)} {p(\mathcal D \mid \mathcal M _j)}$


Mixture distribution

モデルの事後分布が分かれば予測分布 predictive distribution (新しい $\mathbf x$ に対して $t$ がどんな値となるか) も加法定理と乗法定理より導かれる (式 3.67)

$$\begin{split} p(t \mid \mathbf x, \mathcal D) &= \sum _{i=1} ^L p(t, \mathcal M _i \mid \mathbf x, \mathcal D) \\ &= \sum _{i=1} ^L {p(t \mid \mathbf x, \mathcal M _i, \mathcal D) p(\mathcal M _i \mid \mathcal D)} \end{split}$$

これは、それぞれのモデルでの予測分布(入力に対してどういう出力になりそうか)を 事後分布(どのモデルっぽいか)で重み付けした平均した、混合分布。

例えば L=2 でモデルの片方の予測が $t = a$ らへんの鋭いピーク、 もう片方のモデルの予測が $t = b$ らへんの鋭いピークだった場合、 混合分布の予測はその中点 $t = (a + b) / 2$ にピークを持つのではなく、二山になってしまう。


Model selection

パラメータセット $w$ を持つモデル $\mathcal M_i$ のevidenceをまた加法定理と乗法定理でばらしてみると (式 3.68)

$$\begin{split} p(\mathcal D \mid \mathcal M _i) &= \int p(\mathcal D, \mathbf w \mid \mathcal M _i) \mathrm d \mathbf w \\ &= \int p(\mathcal D \mid \mathbf w, \mathcal M _i) p(\mathbf w \mid \mathcal M _i) \mathrm d \mathbf w \end{split}$$

パラメータセットの尤度をその確率分布で重み付けして積分したもの、 ってことで周辺尤度と呼ばれるのが納得できる。 また、そのモデルからデータセットが生成される確率 (ただしパラメータは事前分布からランダムに取ったもの) とも理解できる。 この $p(\mathbf w \mid \mathcal M_i)$ はモデルで想定してる何らかの事前分布ってことでいいのかな?

積分の中身からすると、パラメータの事後分布を求める式の正規化項になる (式 3.69)

$$\begin{split} p(\mathbf w \mid \mathcal D, \mathcal M _i) = \frac {p(\mathcal D \mid \mathbf w, \mathcal M _i) p(\mathbf w \mid \mathcal M _i)} {p(\mathcal D \mid \mathcal M _i)} \end{split}$$

あるひとつのパラメータ $w$ を持つモデルを考える。

Figure 3.12 近似

Figure 3.12

パラメータ $w$ の事前分布(青)と、それよりシャープな事後分布(赤)。 MAP推定値らへんで長方形に分布してるものとして近似。

Figure 3.12 のように近似すると式3.68の積分をただの掛け算で書き変えられる (モデル依存の表記を省略, 式 3.70, 3.71)。

$$\begin{split} p(\mathcal D) &= \int p(\mathcal D \mid w) p (w) \mathrm dw \\ &\simeq \frac 1 {\Delta w _\mathrm{prior}} \int p(\mathcal D \mid w) \mathrm dw \\ &\simeq \frac 1 {\Delta w _\mathrm{prior}} p(\mathcal D \mid w _\mathrm{MAP}) \Delta w _\mathrm{posterior} \\ &= p(\mathcal D \mid w _\mathrm{MAP}) \frac {\Delta w _\mathrm{posterior}} {\Delta w _\mathrm{prior}} \\ \ln p(\mathcal D) &\simeq \ln p(\mathcal D \mid w _\mathrm{MAP}) + \ln \left( \frac {\Delta w _\mathrm{posterior}} {\Delta w _\mathrm{prior}} \right) \end{split}$$

第一項は一番いいパラメータの当てはまりの良さ、 第二項はモデルの複雑性によるペナルティ (事後分布の幅が狭くなるほど大きな負になる)。

$M$ 個のパラメータを持つモデルを考える。 事前分布と事後分布の幅の比が全てのパラメータで等しいとすると (式 3.72)

$$\begin{split} p(\mathcal D) &= p(\mathcal D \mid w _\mathrm{MAP}) \left(\frac {\Delta w _\mathrm{posterior}} {\Delta w _\mathrm{prior}} \right)^M \\ \ln p(\mathcal D) &\simeq \ln p(\mathcal D \mid w _\mathrm{MAP}) + M \ln \left( \frac {\Delta w _\mathrm{posterior}} {\Delta w _\mathrm{prior}} \right) \end{split}$$

パラメータが増える(モデルの複雑性が増す)ごとに第一項は大きくなっていくかもしれないが、 第二項のペナルティも大きな負になっていく。 中程度が良さそう → 過学習しない!

長方形じゃなくてもっとちゃんとしたGaussian近似をSection 4.4.1で

Figure 3.13 どうして中程度の複雑性のモデルが好まれるか

Figure 3.13

横軸はデータセットが取りうる値を1次元で表現。 モデルの複雑性を $\mathcal M _1 < \mathcal M _2 < \mathcal M _3$ とする。

シンプルなモデル $\mathcal M _1$ は生成(説明)できるデータの範囲が狭く (いろいろパラメータを変えても似通ったデータセットしか出てこない)、 複雑なモデル $\mathcal M _3$ はいろんなデータを生成できるがそれぞれの重みは低い。 特定のデータセット $\mathcal D _0$ に対しては中程度の複雑さを持つモデル $\mathcal M _2$ が一番大きいevidenceを持つことになる。


Expected Bayes factor

$\mathcal M_1$ が真のモデルだとする。 ベイズ因子は個々のデータで見ると 正しくない $\mathcal M_2$ とかで大きくなる場合もあるが、 真の分布の上でを平均すると (式 3.73)

$$\begin{split} \int p(\mathcal D \mid \mathcal M _1) \ln \frac {p(\mathcal D \mid \mathcal M _1)} {p(\mathcal D \mid \mathcal M _2)} \mathrm d \mathcal D \end{split}$$

Kullback-Leibler divergence (Section 1.6.1 式 1.113) と同じ形になり(対数の中身と符号を入れ替え)、 常に正(ただし2つの分布が等しい場合は0)の値をとることが分かっているので、 平均的には正しいモデルのベイズ因子が大きくなり、好まれる。 ただし、データを生成する真の分布が L 個のモデルの中に含まれてれば、の話。


まとめ