11
IPSJ SIG Technical Report Markov 1,a) 2,b) Markov (HMM) , . , Stick-breaking (Adams+ 2010) , Markov (iTHMM) . , , . . , Markov , PCFG . Stick-breaking , , , The Infinite Tree Hidden Markov Model for Unsupervised Hierarchical Part-of-speech Induction Daichi Mochihashi 1, a) Hiroshi Noji 2 , b) Abstract: Hidden Markov models (HMM) is widely used in statistics and machine learning. However, it cannot learn latent states where these states are actually structured. Extending the tree-structured stick- breaking processes (Adams+ 2010) hierarchically as from DP to HDP, this paper proposes an Infinite Tree Hidden Markov models (iTHMM) whose states constitute a latent hierarchy. Experimental results on natural language texts show the validity of the proposed algorithm. Keywords: Tree-structured stick-breaking process, Hidden Markov models, Nonparametric Bayes, Unsu- pervised learning 1. Markov (HMM)[1] , , , , , , , [2]. , HMM , ( ) HMM . , 90 [3][4], 2000 [5], Markov [6][7] . , HMM 1 The Institute of Statistical Mathematics 2 Nara Institute of Science and Technology a) [email protected] b) [email protected] [8]. 2010 [9] , . HMM K ( HMM K ) , , ,“ . , HMM , . , , , . , s k ∈{1..K} , 1..M k , M 1 ··· M K , K k=1 M k , , . , [10][11] c 2016 Information Processing Society of Japan 1

無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

  • Upload
    voduong

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

無限木構造隠れMarkovモデルによる階層的品詞の教師なし学習

持橋 大地1,a) 能地 宏2,b)

概要:隠れMarkovモデル (HMM)は情報科学の基本的なモデルであるが, たとえば自然言語の品詞にみられるような階層的な状態を学習できないという問題があった. 本論文ではこれに対し, 木構造 Stick-breaking

過程 (Adams+ 2010)をそれ自体階層化することで,無限の深さと幅を持つ隠れた木構造上での状態遷移確率と階層的な出力確率を持つ無限木構造隠れ Markovモデル (iTHMM)を提案する. これにより, 原理的に無限の複雑度を持つ隠れた木から,データに合わせた適切な状態の階層を学習することが可能となる. 英語および日本語のテキストで実験を行った. 提案法は自然言語処理に限らず,情報科学一般に適用できる隠れMarkovモデルの本質的な拡張であり, PCFGなど隠れ状態を持つ多くのモデルへの適用が期待できる.

キーワード:木構造 Stick-breaking過程, 隠れマルコフモデル, ノンパラメトリックベイズ, 教師なし学習

The Infinite Tree Hidden Markov Modelfor Unsupervised Hierarchical Part-of-speech Induction

Daichi Mochihashi1,a) Hiroshi Noji2,b)

Abstract: Hidden Markov models (HMM) is widely used in statistics and machine learning. However, itcannot learn latent states where these states are actually structured. Extending the tree-structured stick-breaking processes (Adams+ 2010) hierarchically as from DP to HDP, this paper proposes an Infinite TreeHidden Markov models (iTHMM) whose states constitute a latent hierarchy. Experimental results on naturallanguage texts show the validity of the proposed algorithm.

Keywords: Tree-structured stick-breaking process, Hidden Markov models, Nonparametric Bayes, Unsu-pervised learning

1. はじめに隠れMarkovモデル (HMM)[1]は情報科学の基本的な統

計モデルであり, 自然言語処理だけでなく, 音声認識, 経済学, 生態学, ロボティクス, バイオインフォマティクスのような多くの領域で, モデル化の重要な方法となっている [2].

特に自然言語処理においては, HMMは単語列が隠れ状態として品詞列を持つような形態素解析のモデルであり,

実際に初期の形態素解析 (茶筌)は HMMの教師あり学習として定式化されていた. さらに,品詞自体を単語列のみから学習する教師なし品詞学習は 90年代前半に始まり [3][4],

2000年代に入ってベイズ学習によって高精度化され [5], 特に無限隠れMarkovモデル [6][7]によって品詞数も学習できるようになった. 半教師あり学習は先に教師なし学習のモデルを必要とするため, HMMは半教師あり学習におい

1 統計数理研究所 数理・推論研究系The Institute of Statistical Mathematics

2 奈良先端科学技術大学院大学 情報科学研究科Nara Institute of Science and Technology

a) [email protected]) [email protected]

ても不可欠なモデルである [8]. 2010年には [9]によって経過がまとめられ, 研究は一見収束したかのように見える.

HMMはK 個 (無限HMMではK を学習する)の整数で表される状態を持ち, この系列が観測値の裏に隠れているとしてそれを学習するものであるが, 実際の京大コーパス等で使われている品詞は, “名詞–固有名詞–地名”のように階層化されている. しかし, 通常の HMMでは, こうした階層的な隠れ状態を教師なし学習することはできない. なぜならば, 隠れ変数の下に隠れ変数を考える場合,

• 何個の分岐を考えればよいのか• どの深さまで階層を考えるべきなのかについて無限の可能性を考える必要が生じ, これらを全て数え上げることは不可能だからである. 具体的には,各状態sk ∈ {1..K} について, その一段階の細分化は 1..Mk 個の可能性があり, この細分化の数 M1 · · ·MK は未知な上に,

すべての状態は∏K

k=1Mk 個に達し, これをさらに細分化する場合…を考えると, 無数のモデル選択問題と状態数の指数的増加に直面することになる.

構文解析の分野では, シンボル細分化 [10][11] によって名詞句や動詞句といった既知の文法的カテゴリを細分化す

c© 2016 Information Processing Society of Japan 1

Page 2: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

ることで, より高精度な学習を可能にしている. しかし, この場合でも細分化は上で述べた問題から 1段階に限られており, また既知の品詞体系を必要とする. 未知の言語を解析する場合や, たとえば動詞句と形容詞句がより上の階層で統合されるような可能性も考えると, 計算言語学の立場からは, こうした品詞階層自体を言語データから学習できる統計的枠組が求められているといえる.

そこで本論文では,ノンパラメトリックベイズ法の立場から上の問題をすべて解決し,隠れ状態が無限の分岐と無限の深さをもつ木構造上で定義される無限木構造隠れMarkov

モデル (iTHMM)および, それに基づいた階層的な品詞の教師なし学習法を提案する. 提案法はディリクレ過程が木の縦方向の深さおよび横方向のそれぞれの分岐に存在する木構造 Stick-breaking過程 [12]をそれ自体無限木構造上で階層化したものであり, こうして得られる無限木構造上の状態遷移確率と, この上で拡散過程として生成される出力確率分布によって観測系列が生成される. この iTHMMは自然言語処理に限らず, 情報科学一般に適用できる HMM

の本質的な拡張であり, 多くの分野での適用が期待できる.

以下, 2章で提案法の基礎となる無限隠れMarkovモデルおよびディリクレ過程, その具体的実現である Stick-

breaking 過程について説明する. 3 章では木構造 Stick-

breaking過程 (TSSB)とそのポリアの壷表現について説明し, 4章でTSSBを階層化した階層的木構造Stick-breaking

過程 (HTSSB)とそれに基づいた無限木構造隠れ Markov

モデルと特別なMCMC法による学習について述べる. 5章でHHMMなどの関連研究との違いについて述べた後, 6章で日本語や英語のテキストに対して実験を行って優位性を示し, 特に半教師あり学習に用いることも可能であることを示す. 7章で展望を示し, 全体をまとめる.

2. 無限隠れMarkovモデルと Stick-break-

ing過程HMMは図 1のように, 観測列 w = w1w2 · · ·wT の背後

に隠れ状態列 s = s1s2 · · · sT があり, s から w が生成されたとする確率モデルである. 1次の HMMでは時刻 tでの状態 st は一つ前の状態 st−1 のみに依存すると考え, w とs が生成される同時確率は

p(w, s) =

T∏

t=1

p(wt|st)p(st|st−1) (1)

で表される. ただし, s0 は初期状態である. 隠れ状態を名詞や動詞のような品詞とみなすと, これは品詞学習のモデ

図 1 隠れMarkovモデルの構造. ●は観測値を, ○は未知の確率変数を表す.

-2

0

2

-2

0

2

0.00

0.02

0.04

0.06

=⇒

-2

0

2

-2

0

2

0.00

0.02

0.04

0.06

0.08

基底測度 G0 G ∼ DP(α,G0) .

図 2 ディリクレ過程による基底測度 G0 からの G の生成.

ルであり, HMMは初期の形態素解析 (茶筌)に使われたほか, 現在でも半教師あり学習に用いられている [8].

品詞の教師なし学習は最初は最尤推定 (EMアルゴリズム)によっており性能が低いとみなされていたが [3], Gold-

waterら [5]はこれをMCMC法によりベイズ推定することで, 局所解を避け, 高精度な解が得られることを示した.

これらの研究では状態数=品詞数K は既知であるとしているが, このK も学習できるのが無限隠れMarkovモデル(Infinite HMM, iHMM)[6][13]である.

2.1 iHMMとHDP

まず, HMMでは生成モデルから, 状態は状態遷移確率p(st|st−1) によって生成されることに注意しよう. 通常のHMMでは, これは決まったK 個の状態への確率分布となるが, iHMMでは, これが可算無限個の要素を持つディリクレ過程から生成されたと考える. ディリクレ過程とは,

図 2のように基底測度とよばれる親の分布 G0 に似た無限次元の離散的な測度を生成する確率過程であり,

G ∼ DP(α,G0) (2)

と書かれる. 集中度パラメータ α > 0 が大きいほど G はG0 に似たものとなるが, 期待値は常に E[G] = G0 である.

ただし, 各状態 k で別々にこの遷移確率 Gk を G0 からサンプルすると, 他の状態との重なりが 0になってしまい,

HMMの状態が共有されなくなってしまう. そこで, iHMM

ではまず全体の離散的な G ∼ DP(η,H) をサンプルし, これを基底測度として各 Gk ∼ DP(α,G) (k = 1 · · ·∞) を生成する階層ディリクレ過程 (HDP)によって, 遷移する状態を共有し, その事前分布をGで与える. このとき α によって, Gk が事前分布 Gと平均的にどれほど似ているかが制御されることになる.

2.2 Stick-breaking過程と CDP表現上ではディリクレ過程およびそれに基づく iHMMの構

成を測度論的に述べた. よく知られているように, ディリクレ過程に基づく G ∼ DP(α,G0) からのサンプルは図 3

のような CRP(中国料理店過程)で表すことができる [14].

ここでは, Gからのサンプル x1, x2, · · · , xn が与えられたとき, 次の xn+1 のとる値の確率は G を積分消去することにより,

p(xn+1|x1 · · · xn) =

p(xn+1|G) p(G|x1 · · ·xn)dG (3)

=

nk/(n+α) (k = 1, · · · ,K)

α/(n+α)G0(xn+1) (k = K+1)

(4)

c© 2016 Information Processing Society of Japan 2

Page 3: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

となることを利用している. ここで K は x1 · · ·xn の中での値の異なり数, nk は k番目の値が現れた回数である. これから, Gからのサンプルを図 3における客とみなし, (4)

式に従って kで番号づけられるテーブルに順番に着席するCRPが得られる.

CRPでは Gは積分消去されていたが, Gは実際に, 次のような Stick-breaking(棒折り)過程で明示的に生成することができる [15].

γk ∼ Be(1, α) (5)

πk = γk

k−1∏

j=1

(1− γj) (6)

G =

∞∑

k=1

πkδ(θk), θk ∼ G0 . (7)

ここで Be(α, β) はベータ分布, δ(x) は点 xのみで測度 1

となる離散測度を表す. これは図 4のように, 長さ 1の棒を次々と γk (k = 1, 2, 3, · · · )の割合で折り, その左端の長さ πk の棒を基底測度 G0 からランダムにサンプルした位置 θk に立てていったものがGであることを意味している(図 2). {θk}

∞k=1 が定まれば, Gを特徴づけるのは無限次元

の多項分布 π = (π1, π2, · · · ) であり, これをGEM分布, あるいは本論文では SBP(α) とよぶ.

CDP表現 SBPはベータ分布の確率変数 γk の積で定義されるから, π からの実現値 D = {x1, x2, · · · } が与えられたとき, π の事後分布は各 γk の事後分布の積で表現することができる.

すなわち, (6)式は k番目の値が選ばれる確率 πk は,各 xn

が 1 · · · k−1番目まで折った棒の右側を選びつづけ, 最後にk番目で左側を選んだ確率と等しいことを意味するから, γk

の事後分布はDの中で kで止まった回数を n0(k),止まらず折り続けた回数を n1(k) とすれば, Be(1+n0(k), α+n1(k))

であり, 期待値は

E[γk|D] =1+n0(k)

1+α+n0(k)+n1(k)(8)

と計算できる. したがって, πk の事後確率の期待値は

E[πk|D] =1+n0(k)

1+α+n0(k)+n1(k)

k−1∏

j=1

α+n1(j)

1+α+n0(j)+n1(j)

(9)となる.

この πk は, 図 5のように領域 1の中に領域 2があり, さらにその中に領域 3が…と入れ子になっているとき, 各領域の入口に門番が立っており, これまでに門を通過した人数と止めた人数を数えて確率 (8)によってランダムに客を

図 3 CRP(中国料理店過程)による客の配置.

π1

π2

π3

1−γ1

1−γ2

1−γ3

· · ·

γ1

γ2

γ3

図 4 Stick-breaking過程による π = (π1, π2, · · · ) の生成. 長さ 1

の棒をベータ分布に従う γk ∼Be(1, α) で次々と折り, 無限次元の多項分布 π を生成する.

k=1 k=2 k=3 k=4

図 5 Chinese District Process (CDP) [16]. 無限にネストした各領域について, そこを通過した人数と止まった人数が数えられており, 番人が確率的に客を止める. これは SBP をポリアの壷として表現したものである.

止める場合に, 領域 k で止まる確率と等しい. このことから, 上の過程は Chinese District Process (CDP)と呼ばれており [16], これは SBPの CRP表現であるといえる.

2.3 学習例と問題SBPでは G が明示的に表現されるため, HMMでの取

り扱いが簡単になるといった長所があり,実際に [16]ではCDPによりHMMを表現し, Gibbsサンプリングおよび変分ベイズ法による学習を行っている. さらに, Gaelらはスライスサンプリング [17] を用いることで, (7)式の和を打ち切ることなく動的計画法によるサンプリングを可能にする無限隠れMarkovモデルの学習法を示した [7]. 図 1に, この iHMMで『不思議の国のアリス』(1431文, 26689語)を学習した際の, 各潜在状態からの出力確率の上位語を示す.

ここではデータが小さいため, K はほぼ 7と学習されている. 図から, 状態 1=名詞, 状態 2=冠詞, 状態 3=動詞といった品詞が, まったく人手を介することなく自動的に学習されていることが見てとれる.

これらの方法はすべて, 品詞, すなわち HMMの状態が名詞, 動詞, 形容詞, …のようにフラットであることを前提にしている. しかし, 実際の品詞は京大コーパスにおいても「助動詞–ナ形容詞–語幹」のように階層化されており,*1

しかも, こうした人手による階層が最適であることは何ら保証されていない. 名詞–固有名詞–地名という既存の分類以外にも, 名詞–抽象名詞–心理状態 (嬉しさ, 悲しさなど)

といった分類も適切かもしれない. しかしながら, こうした階層を教師なしで学習するためには, 隠れ変数の下に隠れ変数があり, さらにその下に…という無限に続く統計モデルが必要であり, はじめに述べたように, この問題は通常の方法では解くことができない. これを可能にするのが,

木構造 Stick-breaking過程 [12]である.

*1 状態が木構造で表現されるのではなく,隠れた素性の組み合わせ,すなわちベータ過程 [18] によって表すことも考えられる. しかし, ベータ過程について AR的でない任意の遷移を許す統計モデルはまだ提案されていない.

c© 2016 Information Processing Society of Japan 3

Page 4: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

1she 432to 387i 324it 265you 218alice 166and 147they 76there 61he 55that 39who 37

2the 1026a 473her 116very 84its 50my 46no 44his 44this 39an 37your 36as 31

3was 277had 126said 113be 77is 73went 58were 56see 52could 52know 50thought 44herself 42

4and 466of 343in 262said 174to 163as 163that 125for 123at 122but 121with 114on 83

5way 45mouse 41thing 39queen 37head 36cat 35hatter 34duchess 34well 31time 31tone 28rabbit 28

6little 92great 23very 22long 22large 22right 20same 17good 17white 11other 11poor 10first 10

表 1 『不思議の国のアリス』で iHMMの隠れ状態に割り当てられた単語とその回数.

3. 木構造 Stick-breaking過程とその学習木構造 Stick-breaking過程 (Tree-structured Stick-brea-

king process, TSSB) [12]は階層クラスタリングのために提案されたベイズ事前分布であり, 原理的に無限の深さと無限の分岐を持つ木構造を離散確率分布として生成する確率過程である. TSSBにより, 深さや分岐の数が場所によって異なり, データによって決まる階層クラスタリングが可能になる. またこれは, 著者による無限Markovモデル [19]

の一般化ともみることができる.

階層クラスタリングのモデルで最も簡単なのは, 先のSBPで生成された無限個の棒 πk をさらに SBPで分割し,

それをさらに…と無限に分割していく方法であろう. これは Polya木 [20]とよばれている. しかし, この方法ではデータは最も細分化された末端のカテゴリにだけ存在することになり, 中間の一般的なカテゴリに存在することはできない. Nested CRP [21][22] または Nested HDP [23] ではさらに木の深さに対して別のDPを事前分布とすることでこれを許しているものの, この事前分布は分割とは別であり木の場所によらないため, 現実のように一部のノードが特に深くなる様子を表現することができず, 状態数の指数的増加を抑えられないという問題がある.

これに対し, TSSBでは棒を単に再帰的に分割するのではなく, 先に「そのカテゴリで止まる確率」を導入する. 具体的には, 長さ 1の棒から始めて

ν ∼ Be(1, α) (10)

ν[] 1− ν[]

· · ·

SBP(α)π[]

φ[1] = ψ[1]

φ[2] = ψ[2](1−ψ[1])

π[1]

図 6 ベータ分布に従う確率変数 νs, ψs による TSSB π の構成.

で左端を折り, このノードに止まる確率を生成する. 止まらない場合は, 残った長さ (1− ν) の棒を SBP(γ) で分割し, 子供であるそれらの各棒に同じ操作を再帰的に繰り返す (図 7).

こうして得られるTSSBの各ノードは, 可変長の整数列s = s1s2s3 · · · でインデックスされる. たとえば, ノードs = [] (空列)は木構造の根ノードを, s = [2 4 1] は根から2番目の子供→ 4番目の子供→最初の子供と順にたどったノードを表している. 木構造なので, 各分岐を表す整数の意味は木構造上の場所によって異なることに注意しよう.

たとえば, 動詞の 3番目の細分と名詞の 3番目の細分の意味は, もちろん異なっている.

3.1 TSSBの定義上の TSSBは, 次のようなポリアの壷で表すことができ

る. まず, 無限木構造のすべてのノード s について, 確率νs ∼ Be(1, α) および ψs ∼ Be(1, γ) が生成される. 客が木の根ノード [] に到着すると, ν[] の確率で表が出るコインを投げ, 表が出れば客はここに止まり,裏が出れば子供に降りることにする. どの子供に降りるかは, SBP(α) で決定される. すなわち, CDPに従って子供を [1], [2], [3], · · · と順番に訪れ, ψ[k] のコインを投げて表が出ればその子供を選び,

裏が出れば次の子供に進む. こうして選ばれた子供 [k] に降り, そこに止まるかどうか ν[k] のコインを投げ…という操作を, この客が止まるまで再帰的に繰り返す.

いま,根ノード [] には止まらず,次に子供 [1], [2], [3]は通過して [4] で止まったとしよう. 次に, [4] で止まるかどうかを ν[4] で決め, 止まらなければ, [4 1], [4 2] と順に訪れ,

たとえば [4 2] で終わると次にここで止まるかを ν[4 2] で決め, 表が出ればこの客は [4 2] に追加されることになる.

これから, 数学的には TSSBは下のように定義することができる. πs を TSSB π においてノード s に止まる確率とし, s′ ≺ s は木構造上で s′ が s の親ノードにあることを表すものとすると,

πs = νsφs

s′≺s

φs′(1− νs′) (11)

= νs∏

s′≺s

(1− νs′) ·∏

s′�s

φs′ (12)

となり, ここで

νs ∼ Be(1, α), ψsk ∼ Be(1, γ) (13)

φsk = ψsk

k−1∏

j=1

(1− ψsj) (14)

c© 2016 Information Processing Society of Japan 4

Page 5: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

TSSB(1, 1, 1) TSSB(5, 0.2, 10)

TSSB(2, 0.2, 2) TSSB(1, 0.5, 5)

図 7 様々なパラメータから生成した TSSB(α0, λ, γ). 2 行目ではStick-breaking の切れ目を省略した. 無限次元の離散分布が構造を持ち, かつ総和が 1になっている様子が見てとれる.

である.

(12)式および SBPの定義 (6)式から, これは ν で定義される縦方向の SBPすなわちディリクレ過程と, ψ で定義される横方向のディリクレ過程の積になっていることがわかる. 図 7に, こうしてランダムに生成された TSSBの例を示した. 実際には (12)式だけでは木が深くなりすぎるため,

ノードが深くなるほど止まる確率が上がるよう, (13)式のαを [12]と同様に

α(s) = α0 · λ|s| (15)

とし, パラメータ 0 < λ ≤ 1 によって減衰率の事前分布をコントロールする. ここで, |s| はノード sの深さである.

ただし (15)式はあくまで平均的な事前確率であり,実際にはノードは場所によって深くなることも浅くなることもあることに注意されたい.

全体として, TSSBのパラメータは (α0, λ, γ) であり, この値によって図 7のような様々な木構造が得られる.

3.2 TSSBの CDP表現TSSBは (12)式より SBPの積となっているから, TSSB

における客の追加は複数の CDPで表される. 前節のポリアの壷の議論から, 客があるノード s = s1s2 · · · sn に到達

図 8 TSSB の CDP. 黒の客に対応する深さ方向の CDP と, 白の客に対応する各分岐の CDPにそれぞれ客を追加/削除する.

スライス ρ

rr′0 1

尤度 p(dn|s)

図 9 Slice sampling+Retrospective samplingによる TSSBからの MCMC サンプリング. 一様乱数 r に対応する TSSB のノード s において, それぞれ尤度 p(dn|s) が存在する.

したことは• sに至る横方向の各 CDPにおいて s1, · · · , sn を選び,

• sから根に至る縦方向のCDPにおいて sで止まったことを意味するから,これは図 8のように, 深さを表す縦方向の CDPと各分岐を表す横方向の CDPにそれぞれ客, すなわちカウントが追加されたことを表す.

このとき, 縦の CDPでノード s を垂直に通過した客の数を n1(s), 止まった数を n0(s) とし, 横の CDPでノードsを水平に通過した客の数を m1(s), 止まった数を m0(s)

とおけば, νs, ψsk の事後分布の期待値は同様に

E[νs|D] =1+n0(s)

1+α+n0(s)+n1(s)(16)

E[ψsk|D] =1+m0(s)

1+γ+m0(s)+m1(s)(17)

となり,これから (12)式で πs を計算することができる. 原論文 [12]では横方向の SBPを CRPとして表現しているが, こうして全て CDPで表せることに注意されたい.

3.3 無限階層クラスタリングTSSB によるベイズ無限階層クラスタリングでは, N

個のデータ d1 · · · dN が与えられたとき, それぞれの dn

を TSSB のどれかのノード sn に割り当てる. これにはGibbsサンプリングにより,図 10のようなアルゴリズムでp(sn|dn) ∝ p(dn|s)πs に従った確率でランダムに sn をサンプリングしていけばよい.

しかし, TSSB では通常の混合モデルと異なり, ノードs が木構造化されて無限に存在するため, 端からサンプルする対象を数え上げることはできない. ここで, TSSBの構成から図 7のように, sはその確率 πs の長さで [0, 1) の中の区間を占めていることに注意しよう. ゆえに, πs に従ってランダムに s をサンプルするには, まず一様乱数r = Unif[0, 1) をサンプルしてから, TSSBの中で r に対応するノードを探せばよい. 先に乱数を決めてからそれに対応する候補を選ぶこの方法は, Retrospective sampling [24]

とよばれている.

図 9のように p(dn|s)πs に従って sn をサンプルするためには, スライスサンプリングと併用すれば,まず現在のノード sn での密度 p(dn|sn)πsn と 0の間の一様分布からサンプリングしてスライス ρを作り, p(dn|s)πs > ρとなる s から一様に選べばよい. これは上の Retrospective sampling

でまずランダムに s を選び, これがスライスより上になる

c© 2016 Information Processing Society of Japan 5

Page 6: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

まで繰り返せば得られる. 実際には [0, 1) の間の二分探索に似た方法で効率的にサンプリングできるが, 詳細は後の図 12または [12]を参照されたい.

4. 無限木構造隠れMarkovモデル木構造 Stick-breaking 過程により, 無限の深さと分岐を

もつ木構造上での階層クラスタリングを行うことができる.

ここで木構造のノードは階層化されたクラスタを表しているから, これを時系列に展開して隠れ状態とみなせば,無限木構造を状態空間にもつ隠れMarkovモデルが原理的に構成できるはずである.

4.1 木構造上の状態遷移確率ただし, 時系列モデルの HMMとするためには, 状態か

ら状態への遷移確率, すなわち木構造のノード間の遷移確率を定義しなければならない. K 個の状態からなる通常のHMMでは, これは各行が次のK 個の状態への遷移確率分布からなるK ×K の遷移行列で簡単に表すことができる.

しかし, いま状態は木構造をなしているから, これは無限の木構造の各ノードに, 次の時刻の無限の木構造のノード上への遷移確率分布が必要となることを意味している. この分布はTSSBで表すことができるから,これはすなわち,

TSSBの無限個の各ノード s にそれぞれ, 次のノードへの状態遷移確率を表す TSSBがあることを示している. これを上つき添字を使って, πs と書くことにしよう (図 11).

ただし, ノードは木構造をなしているから,各ノードからの遷移を表す πs は独立ではなく, 親子間の依存関係を持っているはずである. たとえば, ノード s = [2 3] が「名詞–固有名詞」に相当するノードであったとしよう. このとき,

[2 3] からの状態遷移 π[2 3] は親ノードである [2], つまり「名詞」からの遷移確率 π[2] を反映しており, それはさらに状態全体の遷移の事前確率 π[] (冠詞には遷移しやすいが,

感動詞へは遷移しにくいなど)を反映しているはずである.

4.2 階層的 TSSB

そこで, 本研究では πs を独立とするのではなく, 親のTSSB πs

′ からそれ自体階層的に生成することを考える.

3.1節で述べたように, TSSBは縦方向および横方向の無数の Stick-breaking 過程, すなわちディリクレ過程の積となっているから, これには πs を構成するそれぞれのDP

を, 対応する πs′ の DPから生成する階層ディリクレ過程

を考えればよい. 具体的には, π = SBP(γ) で表されるディリクレ過程が SBP β = (β1, β2, · · · ) で表されるディリクレ過程から

1: for iter = 1 · · · iters do

2: for n in randperm(1 · · ·N) do

3: p(dn|sn) から dn, π から sn を削除.

4: Draw sn ∝ p(dn|sn)πsn5: p(dn|sn) に dn, π に sn を追加.

6: end for

7: end for

図 10 TSSBによる無限階層クラスタリングのGibbsサンプリング.

π ∼ DP(α,β) (18)

と生成されるとき, HDPの Stick-breaking表現から, π を構成する確率変数 γk (k = 1, 2, · · · ) の分布は

γk ∼ Be(

αβk, α(

1−

k∑

j=1

βj

))

(19)

となるから [13], われわれの場合, ノード s での ν, ψ の分布は階層的に

νs ∼ Be(

αν′s, α

(

1−∑

u�s

ν′u

))

, (20)

ψsk ∼ Be(

αψ′sk, α

(

1−k

j=1

ψ′sj

))

(21)

と与えられる. ここで ν′s, ψ′

sk は親の TSSBにおける νs,

ψsk の値である. 根ノードでは親がないため, (13)式によって νs, ψsk を生成する. このとき, 客が与えられた後の事後確率の期待値は (16) (17)式と同様にして,

E[νs|D] =αν′

s+n0(s)

α(1−∑

u≺sν′u)+n0(s)+n1(s)

(22)

E[ψsk|D] =αψ′

sk+m0(sk)

α(1−∑k−1

j=1 ψ′sj)+m0(sk)+m1(sk)

(23)

となる. 上の確率は親のTSSBの ν′s, ψ′

sk の値に依存し,それはさらにその親の ν′′

s, ψ′′

sk に依存し…と再帰的な計算が必要となることに注意しよう. トップレベルの TSSBでは,

値は (16)(17)式で与えられる.

なお, HDPにおいて (19)式の事後確率の期待値を変形すると, n = n0 + n1, β

lk =

∑l

j=k βj として

E[γk|n0, n1] =αβk+n0

αβ∞k +n

(24)

=αβ∞

k

αβ∞k +n

·αβkαβ∞

k

+n

αβ∞k +n

·n0

n(25)

= µ · p+ (1− µ) · p (26)

ただしp =

n0

n, p =

βkβ∞k

(27)

µ =n

αβ∞k +n

(28)

と書けるから,これは現在のノードでのBernoulli分布の最尤推定値 p と親 TSSBでの期待値 p を割合 µ で線形補間したものとみることができる. n が大きいほど µの値は大きくなるから, (26)式は現在のノードのカウントが大きいほどノードでの推定値を, 小さいほど親ノードでの期待値を使うベイズ的な適応補間になっていることがわかる. 同様の構造が提案法にもあり, このときさらに α によって,

親の情報をどれほど受け継ぐのかが制御される.

提案法では, こうして生成された π からさらに π′ が生成され…と, 無限木構造上で π 自体が階層的に生成される. (16)(17)式で定義されるこの過程を, 階層的木構造Stick-breaking過程 (HTSSB) [25]*2 と呼ぶことにし,

*2 [25] で概略のみ提案されている方法では TSSB を構成するベータ分布を独立に扱っており, HDP に基づく本論文とは異なる.

c© 2016 Information Processing Society of Japan 6

Page 7: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

図 11 HTSSBの概念図. 無限個の分岐を持つ木構造の各ノードに次の時刻でのノードへの状態遷移を表す TSSB があり, 親から階層的に生成されている. この木構造自身と, TSSB の持っている木構造は自己同型になっている.

π ∼ HTSSB(α, π0) (29)

と書くことにする. HTSSBに基づく無限木構造上の隠れMarkovモデルを HTSSB-HMM, または iTHMM (Infinite

Tree HMM, 無限木構造隠れMarkovモデル)と呼ぶことにする.

iTHMMの生成モデル iTHMMでは,状態は次のようにして生成される. まず, トップレベルの π[] ∼ TSSB(α0, λ, γ)

を生成する. 次にこれを親として, π[1] ∼ HTSSB(α, π[]),

π[2] ∼ …が生成され, 次にそれらの子供である π[1 1] ∼

HTSSB(α, π[1]), π[1 2] ∼ …が無限に生成される.

次にある初期ノード s0 から始め, (1)式の HMMの生成モデルに従って状態 s1, s2, s3, · · · 及び, それらからの出力w1, w2, w3, · · · が得られる.

なお, この HTSSB は各ノードの持っている π 自体が,

ノードのなす無限木構造と同型であるという自己相似構造を持っていることに注意されたい. こうして TSSB自体を階層的に生成することにより, HDPや階層 Pitman-Yor過程と同様に, 現在の TSSBのノード s に信頼できる確率を計算できる充分なカウントがなくても,親 TSSBでの同じノードの確率と再帰的に混合することにより, より安定した推定値が得られることも利点の一つである.

4.3 iTHMMとHCDP

TSSBの事後確率は 3章の CDPで求めることができる.

それでは iTHMM,すなわちHTSSBの事後確率はどうやって求めればよいだろうか.

ここで HTSSBでは, TSSBを構成する個々のディリクレ過程が対応する親から引き継いだ階層ディリクレ過程であったことを思い出そう. ディリクレ過程は CRPとしても表せるから, たとえば垂直な νの SBPにおいて深さ kのノード sに客が追加されたとき, この客が自分の分布から生成されたか, それとも親の基底測度から生成されたかの確率は (4)式で与えられる. ゆえに, s に着いた垂直の SBP

の客の総数を前節の定義を使って n(s) = n0(s) + n1(s) と表すと,

[

n(s)

n(s)+α,

α

n(s)+αν′s

]

(30)

に比例する Bernoulli試行で後者が出た場合 *3, 客を基底*3 実際には基底測度から出た数を管理するため, 後者が出た場合に新しいテーブルを用意し, 現在のテーブル数+1 の多項分布から

測度, すなわち親のTSSBの同じノードに追加すればよい.

同様にして水平な ψのSBPもCRPとみなせるから,ノード sに水平の客が追加されたとき, m(s) = m0(s) +m1(s)

とおいて[

m(s)

m(s)+α,

α

m(s)+αψ′s

]

(31)

に比例するBernoulli試行を行い,後者が出た場合に客を親の TSSB に追加する. これを HCDP(階層的 CDP)とよぶことにする.

このとき, 親の TSSBにおいても同様にして, さらにその親へと再帰的に客が追加される可能性があることに注意しよう. 上の Bernoulli試行はカウント n()が 0のとき必ず後者を返すから, 初めてのノードに客が追加された際には, 自動的に上のノードも作成されて最初の客が追加されることになる. また, 削除の際には上の過程を逆にたどることで, 必要に応じて再帰的に客をTSSBから削除する.

4.4 iTHMMの学習こうして無限木構造上の状態遷移確率を HTSSB から

計算し, 更新できるようになったので, これに基づいてiTHMMの学習を行うことができる. iTHMMの隠れ状態st は [4 2 3] のように構造化されているももの, HMMとしての構造は図 1と同じである. よって, Gibbsサンプリングを用いれば,学習には観測値 (単語) wt について,その隠れ状態 st を確率

p(st|wt,w−t, s−t) ∝ p(wt|st) p(st+1|st) p(st|st−1) (32)

に比例して次々とサンプルすればよい [5]. ここで第 1項は後で述べるように状態 st から単語 wt が生成される出力確率, 第 2項と第 3項は HTSSBで計算される状態遷移確率である. また, w−t は wt 以外のすべての観測値, s−t はst 以外のすべての隠れ状態を表す.

ただし, iTHMMでは st は [s1s2s3 · · · ] のように構造化された無限個の分岐と深さを持っており, 通常の HMMのように 1 · · ·K の有限個, あるいは iHMMのように確率的打ち切りにより簡単に数え上げられるわけではない. すなわち, st は図 7にみるように [0, 1) のある区間に対応するが, こうした区間は無限個の数があり,これを全て数え上げてその中から (32)式の確率で選ぶことは不可能である.

そこで, 3.3節と同様に Retrospective sampling と Slice

samplingを組み合わせることで学習を行う. st は [0, 1)の区間にあるから, 乱数 r ∼ Unif[0, 1) をサンプルして対応するノードを求めれば, TSSBからランダムにノードをサンプルすることができる. ここで (32)式に従ってランダムにサンプリングすることは, まず p(st|st−1) からランダムに st を選び, そこから重み p(wt|st)p(st+1|st) に従って選ぶことと同じであるから, これは 3.3節の無限階層クラスタリングの学習において「尤度」が出力確率 p(wt|st) だけでなく, 次の状態への遷移確率との積 p(wt|st)p(st+1|st) となっている場合とみなすことができる. したがって, 同様にして

サンプリングを行う.

c© 2016 Information Processing Society of Japan 7

Page 8: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

1: function draw state (st−1, st, st+1, wt)2: slice = p(wt|st) p(st+1|st) ·Unif[0, 1)3: st := 0; ed := 14: while true do

5: u := Unif[st, ed)6: s := st−1→TSSB→find node(u)7: p := p(wt|s) p(st+1|s)8: if p > slice then9: return s

10: else11: if s < st then12: st := u13: else

14: ed := u15: end if16: end if17: end while

図 12 スライスサンプリングによる iTHMMの状態 st のサンプリング. u < s は状態 uが辞書順で状態 sより前にあることを表す. TSSB→find node(u) は [ 0, 1) の実数 u に対応するTSSBのノードを返す関数であり, [12] を参照のこと.

( 1 ) 現在の st について, スライス ρ = p(wt|st)p(st+1|st) ·

Unif[ 0, 1) を作る. st = 0, ed = 1.

( 2 ) r ∼ Unif[st, ed) をサンプルし, p(st|st−1) の TSSBからこれに対応するノード s′t を求める.

( 3 ) p(wt|s′t)p(st+1|s

′t) > ρ ならば受理. そうでなければ,

st, ed を適切に変更して (2)に戻る.

というスライスサンプリングで st をサンプルすることができる. このアルゴリズムを図 12に示した.

階層的出力確率 ここまでの議論ではノード s における単語の出力確率分布 p(·|s) については複雑さを避けるために特にふれなかったが, s は木構造をなしているから,親子関係にある p(·|s′) と p(·|s) には依存関係があるのが自然である. 一般には [12]で述べられているように, ノード sにおける出力分布は例えばガウス分布であれば, 親のガウス分布の平均 µs

′ を期待値とする拡散過程N(µs′ , σ2) などを考

えればよい. いま, 我々の観測値は離散的な単語であるから, 本研究ではGs = {p(·|s)} は階層 Pitman-Yor過程 [26]

Gs ∼ HPY(Gs′ , d|s|, θ|s|) (33)

を用いた.*4 これにより, 下位のノードほど出力分布の尖った特別なカテゴリが学習されることになる.

EOSの取り扱い 実際の解析では, 文頭および文末に特別な状態 EOSを置くことで, 先頭または末尾であるという情報を表現することが多い. 状態が独立である通常のHMM

では状態 0を EOSとし, 状態 1から先を学習すべき状態とすればよいが, 我々の iTHMMにおいてはノード [] はすべての状態遷移確率および出力確率の事前分布を表す特別なノードであり, EOSとして用いることはできない.

*4 上の拡散過程において, 基底測度に κ の割合でノイズを加えた

Gs ∼ HPY(κG0+(1− κ)Gs′ , d|s|, θ|s|) (34)

とした方がノードのもつ出力確率分布のバラエティが増える可能性があるが [12], ハイパーパラメータ d, θ の学習が困難になるため, 本研究では採用しなかった. G0 は一様分布 1/V などにとる.

このため, 本研究では EOSとそこからの状態遷移確率を表す単独の TSSBを用意することにした. このとき, 各状態 s について EOSを含む遷移確率の総和を 1にするため,

s ごとに EOSへの遷移確率 qs = p(EOS|s) を別に計算する. qs がベータ事前分布

qs ∼ Be(τ0, τ1) (35)

に従うとすると, s から EOSへ遷移した回数を c0(s), それ以外の状態へ遷移した回数を c1(s) とすれば, qs の事後確率は

E[qs|c0(s), c1(s)] =τ0+c0(s)

τ0+τ1+c0(s)+c1(s)(36)

となる. 本研究では, (τ0, τ1) = (1, 100) とした. 残った(1 − qs) の確率を TSSBによって分配し, 通常の状態への遷移確率として用いる. これは, 一種のディリクレツリー分布 [27]とみることができる.

以上をまとめると, iTHMMの学習アルゴリズムは図 13のようになる. 上の (32)式では 2つの状態遷移確率p(st|st−1)

と p(st+1|st) を独立に計算しているが, 厳密には生成モデルに従えばこの 2つの確率には依存関係があり, st+1 = st

だった場合に p(st|st−1) で 1増えた頻度が p(st+1|s) に影響を与えるため, Metropolis-Hastings法により補正する必要がある [28]. ただし, HCDPでの確率の変化はきわめて複雑であり, 単純にカウントの ±1 でMHに必要な正しい確率を求めることはできない. 本研究では実際に p(st|st−1)

の客を HCDPに追加してから p(st+1|st) を計算し, 客を再び削除するという方法で正しい確率を計算することにした.

実験では, この補正による MHの受理確率は 99.99%以上であった.

5. 関連研究「階層的」な HMMとしては階層型 HMM (Hierarchical

HMM, HHMM) [29]が知られており,その無限化も提案されている [30]. しかし, これは通常の HMMの潜在状態を上位の HMMの出力とみることで, 抽象度を上げて水平方

1: for iter = 1 · · · iters do2: for n in randperm(1 · · ·N) do3: remove (wt, st−1, st, st+1)4: Draw s′t = draw state(wt, st−1, st, st+1)5: if MH-accept(s′t, st) then6: st = s′t7: end if8: add (wt, st−1, st, st+1)9: end for

10: end for11: function add (wt, st−1, st, st+1)12: st→add customer (wt)13: st−1→add customer(st)14: st→add customer(st+1)15: function remove (wt, st−1, st, st+1)16: st→remove customer (wt)17: st→remove customer(st+1)18: st−1→remove customer(st)

図 13 iTHMMの Gibbs サンプリングによる学習アルゴリズム.

c© 2016 Information Processing Society of Japan 8

Page 9: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

表 2 『不思議の国のアリス』での予測精度. “iHMM” は提案法で木の最大の深さ M を 1 に制限したものである. iTHMM における λ の設定では, 木の最大の深さは∞ である.

モデル PPL

γ=1 384.351iHMM γ=2 348.773

γ=4 329.830γ=8 316.036

M=3 302.336iTHMM λ=0.1 350.846

λ=0.2 357.951

向 (時間軸)に隠れ状態を粗視化するものであり, 提案法のように時間軸の解像度を保持したまま, HMMで得られる隠れ状態自体を垂直方向に微視化するものとは異なる. また, 通常の HMMの延長である HHMMとは違い, これには本論文で述べたような新しいモデル化を必要とする.

この意味で, 提案法はむしろ Jordanらの隠れMarkov決定木 (HMDT) [31] に似ている. ただし, HMDTやHHMM

と異なり, 提案法は階層の深さが固定ではなく木の場所によって可変長であることや, HMDTと違い状態遷移が単純に深さ別にあるのではなく, 無限木構造上で自然に定義されること, また全体が統一された統計モデルとなっており,

MCMC法で近似なしに解かれるという特徴がある.

6. 実験英語と日本語の標準的なコーパスで実験を行った. 実装

は C++で 7000行程度である. 学習するモデルの複雑さにもよるが, 現在の実装ではXeon 3.7GHzで 1秒あたり数千語の隠れ状態をサンプリングすることができる.

6.1 教師なし学習とその性能『不思議の国のアリス』のテキストで実験を行った. 最

初の 1200文を学習データ, 残りの 231文をテストデータとした. 提案法の隠れ状態は木構造をなしているが, 確率は独立に計算できるため, 事前にすべてのノードの間の遷移確率を計算しておくことで, 前向き計算と Viterbiデコーディングは効率的に行うことができる.

表 2にテストデータでの予測精度 (パープレキシティ)を示す. 木の高さが常に 1の通常の HMMと比べて, 構造化された状態が適切にスムージングされる iTHMMは高い性能を見せることがわかる. 木の深さを無限まで取ると予測精度が落ちるが, これはデータ量が少ないせいもあると考えられ,理由を探ってゆきたい. このとき学習された状態の一部を表 3に示す. 木の根では確率分布がフラットになっており, 動詞や名詞を表すと思われる状態 2や状態 4の中で, さらに自動的に細分化が起きていることがわかる.

6.2 半教師あり学習提案手法は教師あり学習だけでなく, 半教師あり学習も

行うことができる. これには図 13のアルゴリズムにおいて, 9行目の後に教師データをモデルに加え,そのデータは更新しないようにすればよい. これにより, 既存の品詞体

[ ]next 13 0.0027one 9 0.0004that 8 0.0017mind 7 0.0004two 7 0.0004indeed 6 0.0004round 6 0.0004bill 6 0.0004

[0 0]don’t 50 0.0650could 43 0.0563are 31 0.0404can 30 0.0391would 28 0.0358must 27 0.0351might 24 0.0311should 23 0.0298

[2 3]know 69 0.1976think 41 0.1172say 20 0.0568wish 18 0.0489wonder 16 0.0431tell 16 0.0453see 14 0.0343do 12 0.0357

[2 7]be 80 0.2478have 47 0.1451go 14 0.0397remember 11 0.0322do 11 0.0296get 11 0.0328take 10 0.0300talk 9 0.0266

[4]mock 52 0.0413queen 49 0.0389gryphon 48 0.0381hatter 34 0.0263mouse 33 0.0261duchess 29 0.0228caterpillar 27 0.0212cat 25 0.0196

[4 0]voice 33 0.0542way 29 0.0495tone 26 0.0431thing 19 0.0313side 13 0.0202bit 13 0.0211face 13 0.0211cat 12 0.0208

表 3 『不思議の国のアリス』で学習された状態と単語出力確率の例. 2 番目の数字はその単語が状態に割り当てられた回数を表している. 表 1 と比べて単語がよりクラスタ化されており, 動詞が [2] の下位カテゴリにそれぞれまとまるなど, 興味深い動作がみられる.

系と整合性を持ちつつ, 必要に応じて詳細化された品詞が得られると期待できる.

表 6 に, 京大コーパスにおいて 10000 文の品詞を教師データとした上で, 37400文の教師なしデータを学習した半教師あり学習の結果の一部を示す. 教師データの品詞と隠れ状態の対応は, 品詞の頻度順に表 4のようにした. ここでは細分類は与えていないが, 表 6 にみられるように,

iTHMMが適切に細分類および新しい状態を学習していることがわかる.

6.3 未知の言語最後に, 提案法はそもそも品詞体系が知られていない未

知の言語に対して特に有益であろうと考えられる. 表 5に,

クリンゴン語で書かれた「ハムレット」*5 を解析した様子

表 4 京大コーパスの半教師あり学習での潜在状態と品詞の対応.

状態 品詞0 名詞 8 判定詞1 助詞 9 接頭辞2 特殊 10 助動詞3 動詞 11 接続詞4 接尾辞 12 連体詞5 形容詞 13 感動詞6 副詞 14 未定義語7 指示詞

*5 https://en.wikipedia.org/wiki/The Klingon Hamlet

c© 2016 Information Processing Society of Japan 9

Page 10: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

表 5 クリンゴン語「ハムレット」の解析結果の一部.

[1]

tugh 48 0.0417*Hamlet* 38 0.0333ta’ 32 0.0296not 28 0.0243jIHvaD 25 0.0213*polonyuS* 25 0.0199’eH 20 0.0161

[1 1]

DaH 116 0.1578vaj 70 0.0957reH 40 0.0546tugh 26 0.0407jIHvaD 19 0.0236chIch 16 0.0198yo’ 13 0.0169

[2 0 0]

’el 58 0.2703mej 37 0.1764Ha’ 22 0.1018joH 17 0.0787naDev 11 0.0505wa’ 10 0.0450Hegh 7 0.0319

[2 1]

vaj 70 0.6278je 18 0.1493po’ 6 0.0469pol 1 0.0016vIDa 1 0.0016ta’be’nal 1 0.0016jabbI’ID 1 0.0016

を示す. これは 3,733行, 19,927語の小さなテキストである. クリンゴン語辞書によれば, DaH(=now), vaj(=then)

といった言葉は間投詞を, ’el(=go), mej(=leave) といった言葉は動詞を表しており, これは統計モデルの結果とほぼ符合しているといえる.

7. まとめと展望本論文では, ディリクレ過程を階層ディリクレ過程に

拡張したのと同様に, ディリクレ過程の積である木構造Stick-breaking 過程 [12]を階層化した階層的木構造 Stick-

breaking過程とその学習法を示し,各状態がもつ出力分布を拡散過程として階層 Pitman-Yor過程にとることで, 通常の HMMと異なり, 状態の隠れた階層構造も学習できる無限木構造隠れMarkovモデル (iTHMM)を提案した. 提案法は, TSSBによる階層クラスタリングを時系列上で行うものととらえることができる.

学習には局所的な Gibbsサンプラーを用いたが, これは無限 HMMの Beamサンプラーと異なり, 無限個の状態を容易にスライスで有限化し, 前向き–後向き計算を行うことができないためである. しかし, 提案法は状態がすべて[0, 1) の間の実数の区間で表されるという特徴があり,これを利用して状態をランダムに離散化してから前向き–後向き計算を行う Nealの Embedded HMM [32]が適用できる可能性がある. そうした効率的な学習法についても考慮していきたい.

提案法は隠れ状態を階層的にとらえるための最初のステップであり, ハイパーパラメータの学習や MCMCを用いても残る局所解の問題など, 課題は多く残されている.

自然言語処理内外の適用を含め, モデルの可能性をさらに探っていきたい.

参考文献[1] Rabiner, L. R.: A Tutorial on Hidden Markov Models

and Selected Applications in Speech Recognition, Pro-ceedings of the IEEE, Vol. 77, No. 2, pp. 257–286 (1989).

[2] Bishop, C. M.: Pattern Recognition and MachineLearning, Information Science and Statistics, Springer(2007).

[3] Merialdo, B.: Tagging English Text with a Probabilis-tic Model, Computational linguistics, Vol. 20, No. 2, pp.155–171 (1994).

[4] Kupiec, J.: Robust part-of-speech tagging using a hiddenMarkov model., Computer Speech & Language, Vol. 6,No. 3, pp. 225–242 (1992).

[5] Goldwater, S. and Griffiths, T.: A Fully Bayesian Ap-proach to Unsupervised Part-of-Speech Tagging, Pro-ceedings of ACL 2007, pp. 744–751 (2007).

[6] Beal, M. J., Ghahramani, Z. and Rasmussen, C. E.: TheInfinite Hidden Markov Model, NIPS 2001, pp. 577–585(2001).

[7] Van Gael, J., Saatci, Y., Teh, Y. W. and Ghahramani,Z.: Beam sampling for the infinite hidden Markov model,ICML 2008, pp. 1088–1095 (2008).

[8] Suzuki, J. and Isozaki, H.: Semi-Supervised SequentialLabeling and Segmentation Using Giga-Word Scale Un-labeled Data, ACL:HLT 2008, pp. 665–673 (2008).

[9] Christodoulopoulos, C., Goldwater, S. and Steedman,M.: Two decades of unsupervised POS induction: Howfar have we come?, EMNLP 2010, pp. 575–584 (2010).

[10] Matsuzaki, T., Miyao, Y. and Tsujii, J.: Probabilis-tic CFG with latent annotations, ACL 2005, pp. 75–82(2005).

[11] Shindo, H., Miyao, Y., Fujino, A. and Nagata, M.:Bayesian Symbol-Refined Tree Substitution Grammarsfor Syntactic Parsing, ACL 2012, pp. 440–448 (2012).

[12] Adams, R. P., Ghahramani, Z. and Jordan, M. I.: Tree-Structured Stick Breaking for Hierarchical Data, NIPS2010, pp. 19–27 (2010).

[13] Teh, Y. W., Jordan, M. I., Beal, M. J. and Blei,D. M.: Hierarchical Dirichlet Processes, JASA, Vol. 101,No. 476, pp. 1566–1581 (2006).

[14] Blackwell, D. and MacQueen, J. B.: Ferguson Distribu-tions via Polya Urn Schemes, Annals of Statistics, Vol. 1,No. 2, pp. 353–355 (1973).

[15] Sethuraman, J.: A Constructive Definition of DirichletPriors, Statistica Sinica, Vol. 4, pp. 639–650 (1994).

[16] Paisley, J. and Carin, L.: Hidden Markov models withstick-breaking priors, IEEE Transactions on Signal Pro-cessing, Vol. 57, pp. 3905–3917 (2009).

[17] Neal, R. M.: Slice sampling, Annals of Statistics, pp.705–741 (2003).

[18] Hjort, N. L., Holmes, C., Muller, P. and Walker, S. G.:Bayesian Nonparametrics, Cambridge University Press(2010).

[19] Mochihashi, D. and Sumita, E.: The Infinite MarkovModel, Advances in Neural Information Processing Sys-tems 20 (NIPS 2007), pp. 1017–1024 (2008).

[20] Mauldin, R. D., Sudderth, W. D. and Williams, S. C.:Polya Trees and Random Distributions, Annals ofStatistics, Vol. 20, No. 3, pp. 1203–1221 (1992).

[21] Blei, D. M., Griffiths, T. L. and Jordan, M. I.:The Nested Chinese Restaurant Process and BayesianNonparametric Inference of Topic Hierarchies, JACM,Vol. 57, No. 2, pp. 1–30 (2010).

[22] Ahmed, A., Hong, L. and Smola, A.: Nested ChineseRestaurant Franchise Processes: Applications to UserTracking and Document Modeling, ICML 2013, pp.1426–1434 (2013).

[23] Paisley, J., Wang, C., Blei, D. and Jordan, M. I.: Nestedhierarchical Dirichlet processes, IEEE Transactions onPattern Analysis and Machine Intelligence, Vol. 37,No. 2, pp. 256–270 (2015).

[24] Papaspiliopoulos, O. and Roberts, G. O.: Retrospective

c© 2016 Information Processing Society of Japan 10

Page 11: 無限木構造隠れMarkovモデルによる 階層的品詞の …chasen.org/~daiti-m/paper/nl226ithmm.pdf情報処理学会研究報告 IPSJ SIG Technical Report 無限木構造隠れMarkovモデルによる

情報処理学会研究報告IPSJ SIG Technical Report

Markov chain Monte Carlo methods for Dirichlet pro-cess hierarchical models, Biometrika, Vol. 95, No. 1, pp.169–186 (2008).

[25] Noji, H., Mochihashi, D. and Miyao, Y.: Hierarchi-cal Tree-Structured Stick-Breaking Priors, NIPS 2013workshop: Modern Nonparametric Methods in MachineLearning (2013).

[26] Teh, Y. W.: A Bayesian Interpretation of InterpolatedKneser-Ney, Technical Report TRA2/06, School of Com-puting, NUS (2006).

[27] Minka, T.: The Dirichlet-tree distribution (1999).http://research.microsoft.com/˜minka/papers/dirichlet/minka-dirtree.pdf.

[28] Johnson, M., Griffiths, T. L. and Goldwater, S.:Bayesian Inference for PCFGs via Markov Chain MonteCarlo, Proceedings of HLT/NAACL 2007, pp. 139–146(2007).

[29] Fine, S., Singer, Y. and Tishby, N.: The HierarchicalHidden Markov Model: Analysis and Applications, Ma-chine Learning, Vol. 32, No. 1, pp. 41–62 (1998).

[30] Heller, K. A., Teh, Y. W. and Gorur, D.: Infinite Hi-erarchical Hidden Markov Models, AISTATS 2009, pp.224–231 (2009).

[31] Jordan, M. I., Ghahramani, Z. and Saul, L. K.: HiddenMarkov decision trees, Advances in Neural InformationProcessing Systems (1997), pp. 501–507 (1997).

[32] Neal, R. M., Beal, M. J. and Roweis, S. T.: Inferringstate sequences for non-linear systems with embeddedhidden Markov models, Advances in Neural Informa-tion Processing Systems 16 (2004), pp. 401–408 (2004).

表 6 京大コーパスの半教師あり学習で導出された隠れ状態.

[ ]

OOV 4702 0.0639関係 74 0.0010首相 50 0.0004何 49 0.0004代表 48 0.0004建設 48 0.0004推進 47 0.0004支持 46 0.0004

[0]

OOV 796 0.0581日本 124 0.0082それ 87 0.0056選挙 66 0.0044この 66 0.0042外 52 0.0033関係 52 0.0033する 51 0.0034

[0 0]

れて 356 0.2108なら 176 0.1041れ 173 0.1023い 123 0.0727なって 66 0.0389せ 39 0.0229せて 35 0.0205どう 31 0.0181

[0 0 0]

に 228 0.2563が 228 0.2563の 196 0.2203を 156 0.1753も 40 0.0449する 16 0.0179、 14 0.0156会 6 0.0066

[0 1]

OOV 658 0.1225中 173 0.0322こと 104 0.0194問題 91 0.0170声 67 0.0124ため 66 0.0122人 62 0.0114責任 51 0.0095

[0 1 2]

方 81 0.4144者 36 0.1838問題 30 0.1533性 21 0.1070OOV 9 0.0469例 7 0.0353規定 7 0.0353データ 2 0.0096

[3 1]

ついて 231 0.2009OOV 92 0.0838よって 73 0.0632とって 64 0.0554対し 63 0.0545対して 56 0.0484より 31 0.0266して 25 0.0216

[3 1 6]

よる 297 0.5674対する 97 0.1852関する 41 0.0781おける 17 0.0323基づく 17 0.0323かかわる 12 0.0227伴う 10 0.0189OOV 9 0.0171

[5]

OOV 385 0.1192同 61 0.0186大阪 56 0.0165両 40 0.0124東京 40 0.0118関根 31 0.0090神戸 30 0.0093各 23 0.0066

[5 0]

「 513 0.2102その 262 0.1073この 217 0.0888OOV 158 0.0675まだ 47 0.0193同じ 37 0.0150さらに 36 0.0146こうした 32 0.0129

[5 3]

金融 37 0.1494自由 35 0.1412可能 35 0.1412両 34 0.1376安全 24 0.0962労働 21 0.0840民主 20 0.0799国際 9 0.0348

[5 5]

一 521 0.1091二 358 0.0750三 314 0.0658OOV 245 0.0522四 189 0.0395五 143 0.0299八 118 0.0247十 117 0.0244

[11]

これ 293 0.1017それ 236 0.0822OOV 124 0.0436日本 74 0.0253そこ 42 0.0145昨年 41 0.0138米国 38 0.0125今年 33 0.0111

[11 0 1]

大蔵 35 0.2139外務 25 0.1526村山 23 0.1422通産 13 0.0791厚生 13 0.0791運輸 12 0.0730文部 11 0.0668警視 9 0.0544

c© 2016 Information Processing Society of Japan 11