Pattern Recognition and Machine Learning

36：karino2：2017/01/10(火) 16:59:19: 勉強会に向けて8章読み始め。
今回は自分が当番なので真面目にやる。

まずはあらすじから。
冒頭でPGMの利点を述べている

1. 確率モデルの構造を可視化するシンプルな方法を提供し、それがモデルをデザインしたり新しいモデルを作るのをmotivateしたりする。

2. グラフ構造を解析する事で独立性などのモデルの性質を読み取る事が出来る

3. 複雑な計算や推論や学習をグラフの操作で表現出来て、下の数学はそれに暗黙に従うように出来る

自分的には最近は3が大切だと思うのだった。
トピックモデルとか勉強しようとするとPGMで書かれてるよね。

2はあんまり使わなくなってきてる気もするがどうだろう。
1は今でもある気もするが自分が使った事無いので良く分からない。

さて、そして8.1に入る。
8.1は何を扱ってるだろう？

8.1ではベイジアンネットワークのinformalな定義でグラフ構造と同時確率の関係を決めている。

8.1.1では線形回帰を例にグラフの表現と数式の対応を見て、プレートモデルもinformalに導入する。
またevidence や非確率変数のパラメータ表記などが出てくる。

8.1.2では同時確率の式を生成モデルとして使う時の簡単なサンプリング方法としてancestral samplingという方法が紹介されている。
ancestralは先祖代々の、みたいな意味。
ようするにルートから順番にサンプリングしていけば各条件付き確率の分布関数はknownなのだから出来るね、という物。
詳しくは11章で、との事。
ここでlatent variable と観測値の関係とかも出てくる。

8.1.3では離散値で単純に（8.9）式で表せるような奴を考察している。
で、二変数の分布から始めてすぐにパラメーター数が発散しちゃうという事を見て、なんとか収める為の工夫をグラフと対応させて考えている。

まずエッジを減らすとパラメータが減る、というのを見ていく。
独立なら相互作用の項が要らないので当然だが、それがエッジで表されている、というのを見ている訳かな。

もう一つの方法としてパラメータを同一の物にする、というのが挙げられている。

次にこのモデルをベイズ的に扱うべく、パラメーターの事前確率を導入してパラメーターの確率分布を考える。
これをグラフィカルモデルで表し、パラメーターを同一にした場合のモデルとグラフ構造がどう変わるかを示している（8.11、8.12）。

さらにパラメーターが少ない線形変換とsigmoid関数で表す例をグラフで表してみたりしている。

なんとなく内容にまとまりが無いが、基本的には離散変数でここまでやった内容をグラフで表してみる、という事かな。

※書き込む際の注意事項はこちら

※画像アップローダーはこちら

（画像を表示できるのは「画像リンクのサムネイル表示」がオンの掲示板に限ります）