34
1 章 統計的潜在意味解析とは 1 回「トピックモデルによる統計的潜在意味解析」 読書会 @ksmzn 会場:株式会社 ALBERT 西新宿 June 4, 2015 @ksmzn 1 章 統計的潜在意味解析とは June 4, 2015 1 / 34

「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

  • Upload
    ksmzn

  • View
    539

  • Download
    6

Embed Size (px)

Citation preview

Page 1: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

第1章統計的潜在意味解析とは第 1回「トピックモデルによる統計的潜在意味解析」

読書会

@ksmzn

会場:株式会社ALBERT西新宿

June 4, 2015

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 1 / 34

Page 2: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

自己紹介

Koshi @ksmzn某大学 M2→社会人一年目リサンプリング法を研究してましたSQLにまみれる日々

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 2 / 34

Page 3: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

はじめに

https://speakerdeck.com/yamano357/tokyowebmining46th

先日のTokyoWebminingでの資料がとても参考になるので、見ましょう!!

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 3 / 34

Page 4: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

目次

1 1.1潜在的意味・トピックと潜在的共起性

2 1.2潜在意味解析の歴史

3 1.4確率的潜在変数モデル

4 1.5確率的生成モデルとグラフィカルモデル

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 4 / 34

Page 5: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

目次

1 1.1潜在的意味・トピックと潜在的共起性

2 1.2潜在意味解析の歴史

3 1.4確率的潜在変数モデル

4 1.5確率的生成モデルとグラフィカルモデル

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 5 / 34

Page 6: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 6 / 34

Page 7: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

潜在的意味・トピックと潜在的共起性

潜在的意味▶ 「音楽」や「スポーツ」という単語が無かったとしても、単語群を見て想起できる

▶ 複数の単語の共起性によって創発される情報トピック

▶ 潜在的意味のカテゴリをトピックと呼ぶ→「単語の共起性をいかに数学的にモデル化するか?」

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 7 / 34

Page 8: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

目次

1 1.1潜在的意味・トピックと潜在的共起性

2 1.2潜在意味解析の歴史

3 1.4確率的潜在変数モデル

4 1.5確率的生成モデルとグラフィカルモデル

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 8 / 34

Page 9: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

潜在意味解析の歴史

▶ 行列分解 (1988)Latent Semantic Indexing/Analysis (LSI/LSA)

▶ 確率モデル (1998)Probabilistic LSI/LSA (PLSI/PLSA)

▶ 階層ベイズモデル (2003)Latent Dirichlet Allocation (LDA)

▶ 拡張モデル多数 (2004ごろ)▶ 大規模データのための高速化 (2007)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 9 / 34

Page 10: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

特異値分解

特異値分解▶ 単語文書行列 Xを 3つの行列に分解

X =US VT

▶ U, S, Vの各列ベクトルを特異値が大きい順にK個用いて、U, S , Vを作り、ランクKの低ランク近似行列 Xを得る

X =US VT

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 10 / 34

Page 11: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

特異値分解

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 11 / 34

Page 12: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

特異値分解による潜在意味解析文書に含まれている単語を抽出し、それらの頻度から単語文書行列 Xを作成する

▶ 「car」で検索しても、文書 1は発見できない▶ 「automobile」でも、文書 2は発見できない

→単語の持つ潜在的な意味を考える→特異値分解

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 12 / 34

Page 13: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

特異値分解の結果

文書 1・2ともに、「car」「automobile」の頻度が 0でない!→「drive」との共起性から、潜在的な意味が抽出されている

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 13 / 34

Page 14: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

Vの情報

各列べクトルは、複数の単語の共起性を表している。→潜在トピック

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 14 / 34

Page 15: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

Uの情報

各列べクトルは、文書とトピックの共起性を表している。→間接的に、文書と単語の共起性を抽出できる

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 15 / 34

Page 16: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

LSIの問題点

▶ U, S の解釈が難しい▶ 特異値分解の性質により、トピックの軸が互いに直交するため、トピックに対し非常に強い制約となる

→PLSI,階層ベイズモデル, etc...

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 16 / 34

Page 17: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

目次

1 1.1潜在的意味・トピックと潜在的共起性

2 1.2潜在意味解析の歴史

3 1.4確率的潜在変数モデル

4 1.5確率的生成モデルとグラフィカルモデル

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 17 / 34

Page 18: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

確率的潜在変数モデル

確率的潜在変数モデル1 観測できない潜在変数を仮定する数理モデル2 潜在変数をデータから推定することで、データ間の類似性とその意味を解析する

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 18 / 34

Page 19: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

例:データ間の類似性

▶ x = {x1, x2, . . . , xn} : 観測変数▶ z = {z1, z2, . . . , zn} : 潜在変数▶ ϕ = {ϕ1, ϕ2, . . . , ϕK} :

どのように類似しているのかを表す確率変数

z1 = z2 = k ⇒x1と x2は ϕkの意味で類似している

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 19 / 34

Page 20: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

目次

1 1.1潜在的意味・トピックと潜在的共起性

2 1.2潜在意味解析の歴史

3 1.4確率的潜在変数モデル

4 1.5確率的生成モデルとグラフィカルモデル

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 20 / 34

Page 21: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

確率的生成モデルとグラフィカルモデル

確率的生成モデルデータの生成過程を確率モデルで表現した数理モデル

グラフィカルモデル確率的生成モデルを視覚的に表現するもの

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 21 / 34

Page 22: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

生成過程

ある確率変数 xi(x = 1, . . . , n)が確率分布 p(xi|ϕ)に従うとき,

xi ∼ p(xi|ϕ) (i = 1, . . . , n)

と記述する。↓確率変数 xiの値が,確率分布 p(xi|ϕ)から生成されたことを示す。

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 22 / 34

Page 23: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

サイコロで考えるK個の目が出るサイコロを n回振ったときに出る目を生成モデルとして考える

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 23 / 34

Page 24: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

グラフィカルモデル

グラフィカルモデル▶ 確率変数間の条件付き依存構造のグラフ表現▶ サイコロ生成モデルの πと ziの関係をグラフィカルモデルで以下のように表す

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 24 / 34

Page 25: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

ベイズの定理と条件付き独立性グラフィカルモデルは、ベイズの定理や条件付き独立性によって同時確率を展開するのに役立つ。ベイズの定理

p (x|y) =p (y|x) p (x)

p (y)

条件付き独立性zが与えられた下での xと yの条件付き確率分布を p(x|z), p(y|z)とし, (x, y)の条件付き同時分布を p(x, y|z)とする。このとき、すべての x, yに対し p(x, y|z) = p(x|z)p(y|z)が成り立つとき、「zが与えられた下で xと yは条件付き独立である」といい、x y y|zと表す

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 25 / 34

Page 26: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

tail-to-tail型

tail-to-tail型条件付き独立性:a y b|c

⇒ p(a, b|c) = p(a|c)p(b|c)

グラフに対応する同時分布

p(a, b, c) = p(a|c)p(b|c)p(c)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 26 / 34

Page 27: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

head-to-tail型

head-to-tail型条件付き独立性:a y b|c

⇒ p(a, b|c) = p(a|c)p(b|c)

グラフに対応する同時分布

p(a, b, c) = p(b|c)p(c|a)p(a)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 27 / 34

Page 28: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

head-to-head型

head-to-head型条件付き独立性:a y b|c

⇒ p(a, b|c) , p(a|c)p(b|c)

グラフに対応する同時分布

p(a, b, c) = p(c|a, b)p(a)p(b)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 28 / 34

Page 29: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

サイコロ生成モデルの同時分布同時分布 p(x, z, π,ϕ, η)を展開する

▶ πの生成確率は p(π)▶ ηの生成確率は p(η)▶ πが与えられた下で zは

tail-to-tail型なので、

p(z|π) =n∏

i=1

p(zi|π)

▶ ηが与えられた下でϕはtail-to-tail型なので、

p(ϕ|η) =K∏

k=1

p(ϕk|η)@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 29 / 34

Page 30: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

サイコロ生成モデルの同時分布▶ zとϕが与えられた下で xは tail-to-tail型なので、

p(x|z,π,ϕ, η) = p(x|z,ϕ)

=

n∏i=1

p(xi|zi,ϕ)

▶ 同時分布は以下のように展開できるp(x, z, π,ϕ, η) = p(x|z,π,ϕ, η)p(z,π,ϕ, η)

= p(x|z,ϕ)p(z|π)p(π)p(ϕ|η)p(η)

=

n∏i=1

p(xi|zi,ϕ)n∏

i=1

p(zi|π)p(π)K∏

k=1

p(ϕk|η)p(η)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 30 / 34

Page 31: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

サイコロ生成モデルの条件付き分布1条件付き分布 p(z|x, π,ϕ, η)を計算する

▶ πおよび xは zと繋がっているので依存関係がある

▶ xが与えられているので、ϕは zに対し独立にならない (head-to-head型)

▶ ϕが与えられているので、ηと xは条件付き独立(head-to-tail型)。従って、ηと zも条件付き独立

▶ よって、p(z|x, π,ϕ, η) = p(z|x, π,ϕ)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 31 / 34

Page 32: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

サイコロ生成モデルの条件付き分布2条件付き分布 p(ϕ|x, π, z, η)を計算する

▶ ηおよび xはϕと繋がっているので依存関係がある

▶ xが与えられているので、ϕは zに対し独立にならない (head-to-head型)

▶ zが与えられているので、πと xは条件付き独立(head-to-tail型)。従って、πとϕも条件付き独立

▶ よって、p(ϕ|x, z, π, η) = p(ϕ|x, z, η)

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 32 / 34

Page 33: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

まとめ

1. 潜在的意味のカテゴリをトピックと呼ぶ2. 特異値分解を行い、文書の潜在的な意味を解析した

3. グラフィカルモデルを書くことで、同時分布の展開が容易になった

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 33 / 34

Page 34: 「トピックモデルによる統計的潜在意味解析」読書会「第1章 統計的潜在意味解析とは」

ご清聴ありがとうございました.

@ksmzn 第 1 章統計的潜在意味解析とは June 4, 2015 34 / 34