PRML輪読会 3章4節
- Author
- Christopher M. Bishop
- Book
- Pattern Recognition and Machine Learning
- パターン認識と機械学習 上
- パターン認識と機械学習 下
- Publisher
- Springer
- Materials
- http://research.microsoft.com/en-us/um/people/cmbishop/prml/
- 輪読担当
- 岩嵜航
- 日程
- 2014-06-30
3. Linear Models For Regression
3.1 Linear Basis Function Models: 八島さん、関口さん
3.2 The Bias-Variance Decomposition: チャッキーさん
3.3 Bayesian Linear Regression: 佐伯さん、永田さん
3.4 Bayesian Model Comparison
最尤推定における過学習の問題 → 点推定じゃなくて周辺化することで回避しよう
- 訓練データだけでモデルを比較できる (確認データ不要)
- すべてのデータを訓練に使うことができる (cross-validation不要)
- 複雑性のパラメータも含めて同時に決められる e.g. relevance vector machine (Chapter 7)
モデルの不確実さを確率で表し、加法定理・乗法定理を駆使して評価しよう
変数
新しい入力: $\mathbf x$
それに対する出力(予測したい): $t$
モデルの中のパラメータ: $\mathbf w$
観察(トレーニング)データ: $\mathcal D$
L 個のモデル: $\mathcal M_1, …, \mathcal M_L$
モデルの事後分布 $p(\mathcal M _i \mid \mathcal D)$ は、
- $p(\mathcal M _i)$: どのモデルがアリかなという好み(事前分布)と、
- $p(\mathcal D \mid \mathcal M _i)$: そのモデルの下での観察データの出やすさ (model evidence; marginal likelihood 周辺尤度)
の積に比例する (式 3.66)。
これを評価したいんだけど、 モデルの事前分布なんてだいたい分からないので、重要なのは後者のevidence。
Bayes factor ベイズ因子
モデル $\mathcal M _j$ に対する $\mathcal M _i$ のevidence比 $\frac {p(\mathcal D \mid \mathcal M _i)} {p(\mathcal D \mid \mathcal M _j)}$
Mixture distribution
モデルの事後分布が分かれば予測分布 predictive distribution (新しい $\mathbf x$ に対して $t$ がどんな値となるか) も加法定理と乗法定理より導かれる (式 3.67)
これは、それぞれのモデルでの予測分布(入力に対してどういう出力になりそうか)を 事後分布(どのモデルっぽいか)で重み付けした平均した、混合分布。
例えば L=2 でモデルの片方の予測が $t = a$ らへんの鋭いピーク、 もう片方のモデルの予測が $t = b$ らへんの鋭いピークだった場合、 混合分布の予測はその中点 $t = (a + b) / 2$ にピークを持つのではなく、二山になってしまう。
Model selection
パラメータセット $w$ を持つモデル $\mathcal M_i$ のevidenceをまた加法定理と乗法定理でばらしてみると (式 3.68)
パラメータセットの尤度をその確率分布で重み付けして積分したもの、 ってことで周辺尤度と呼ばれるのが納得できる。 また、そのモデルからデータセットが生成される確率 (ただしパラメータは事前分布からランダムに取ったもの) とも理解できる。 この $p(\mathbf w \mid \mathcal M_i)$ はモデルで想定してる何らかの事前分布ってことでいいのかな?
積分の中身からすると、パラメータの事後分布を求める式の正規化項になる (式 3.69)
あるひとつのパラメータ $w$ を持つモデルを考える。
Figure 3.12 近似
パラメータ $w$ の事前分布(青)と、それよりシャープな事後分布(赤)。 MAP推定値らへんで長方形に分布してるものとして近似。Figure 3.12 のように近似すると式3.68の積分をただの掛け算で書き変えられる (モデル依存の表記を省略, 式 3.70, 3.71)。
第一項は一番いいパラメータの当てはまりの良さ、 第二項はモデルの複雑性によるペナルティ (事後分布の幅が狭くなるほど大きな負になる)。
$M$ 個のパラメータを持つモデルを考える。 事前分布と事後分布の幅の比が全てのパラメータで等しいとすると (式 3.72)
パラメータが増える(モデルの複雑性が増す)ごとに第一項は大きくなっていくかもしれないが、 第二項のペナルティも大きな負になっていく。 中程度が良さそう → 過学習しない!
長方形じゃなくてもっとちゃんとしたGaussian近似をSection 4.4.1で
Figure 3.13 どうして中程度の複雑性のモデルが好まれるか
横軸はデータセットが取りうる値を1次元で表現。 モデルの複雑性を $\mathcal M _1 < \mathcal M _2 < \mathcal M _3$ とする。シンプルなモデル $\mathcal M _1$ は生成(説明)できるデータの範囲が狭く (いろいろパラメータを変えても似通ったデータセットしか出てこない)、 複雑なモデル $\mathcal M _3$ はいろんなデータを生成できるがそれぞれの重みは低い。 特定のデータセット $\mathcal D _0$ に対しては中程度の複雑さを持つモデル $\mathcal M _2$ が一番大きいevidenceを持つことになる。
Expected Bayes factor
$\mathcal M_1$ が真のモデルだとする。 ベイズ因子は個々のデータで見ると 正しくない $\mathcal M_2$ とかで大きくなる場合もあるが、 真の分布の上でを平均すると (式 3.73)
で Kullback-Leibler divergence (Section 1.6.1 式 1.113) と同じ形になり(対数の中身と符号を入れ替え)、 常に正(ただし2つの分布が等しい場合は0)の値をとることが分かっているので、 平均的には正しいモデルのベイズ因子が大きくなり、好まれる。 ただし、データを生成する真の分布が L 個のモデルの中に含まれてれば、の話。
まとめ
- Bayesian frameworkでは過学習を避け、訓練データだけでモデル比較できる
- でもモデルの形に関する仮定は必要で、それが正しくないと誤った結論を導きうる
- 結論は事前分布の特性にかなり依存
- 非正則事前分布では正規化定数が定義できないためevidenceを定義できない
- じゃあ正則事前分布の極限(e.g. 分散∞の正規分布)をとればいいかというと、 それではevidenceが0に収束してしまう
- 先に2つのモデルのevidence比を取ってから極限をとるといいかも
- 実際の応用では独立なテストデータを評価用に取っとくのが賢明 (←え、結局?)