Tokyo nlp #8 label propagation

1

ラベル伝搬法入門～日本の若手 NLPer の仕事を垣間見る～

@niamTokyoNLP

11/23

2

3

経緯ラベル伝搬に関連する日本の NLPer は割と多い一方， TokyoNLP ではあまり聞かない気が→ 一度どんな研究があるか話してみよう

アルゴリズム自体は行列 * ベクトルの演算ができればすぐ実装できるものが多い．→ 興味があれば実装は割と楽簡単な実装→自作ライブラリに凝りすぎて千行超え（ C++11) ．僕には使いやすい．… 博士が取れる頃には公開できる？その前に博士を…

4

ラベル伝搬法とは？

負

正

？

？

l

u

インスタンスパターン

M

素性（特徴）例：単語 , 文 , 文書など

…

枝の太さ＝重みは色々

シード

シードからラベルをグラフ上に伝搬させてu の部分のラベルを推定する方法の総称

5

なぜ言語処理でグラフ？→分布仮説Wikipedia によると：“words that occur in the same contexts tend to have similar meanings.” [Harris, 1954]

Context:• Social context

– 例：誰の発言か？• Verbal context

– 例： words that occur in the same• 下線部が occur に対する context

6

グラフ→行列

負

正

？

？

l

uM

…

X

l

u

M

TXXW (l+u) x (l+u) 類似度行列

ijW

i

j

ij

2

2

exp

ji

ijWxx

Tix

Tix jx

の取り方は色々その他にも

ijW

Y

7

ラベル伝搬←→逆行列 1/2GRF [Zhu and Ghahramani, ICML2003]

．に収束することを証明

とすると，

luluuu

u

l

uuul

lull

YWWIY

Y

YY

WW

WWW

1

,

Wij>=0 かつ，W は正定値（すべての固有値 > ０）

確率行列とみなせる

lu

jij

ijij

W

WWD

1

1

8

ラベル伝搬←→逆行列 2/2LLP [Zhou+, NIPS2004], [Ito+, KDD2005]Regularized Laplacian Kernel:

1 WLIWK regreg

ρ(W) をスペクトル半径（絶対値最大の固有値）とすると， β<1/ρ(Lreg(W)) の時，無限和に分解できる

0

1

t

treg

tregreg WLWLIWK

T 回で止める

yff

yyf

TregT

T

t

treg

T

t

treg

tT

WL

WLWL

1

00

9

グラフラプラシアン

ul

i

ul

jjiij

ul

iii ffwfy

1 1

2

1

2min f

スコアベクトル fをなるべくシードに近づける

グラフ上で類似度の高いノード同士のスコアは似たものにする

これを解くと…

yf 1* uLI

1jijii

u

WD

WDL ffff

2/12/12/12/1 WDDIDLDL ureg

1 WLIWK regreg c.f.:

10

Simplified Espresso [Komachi+,

EMNLP2008], [Pantel+, ACL2006] をラベル伝搬で定式化

i0: yi: インスタンスのスコア f

0||||

1iit

TMMPI

t 回目：

11

LLP > Espresso [Komachi+, EMNLP2008]NLP2008 最優秀発表賞 , JSAI2010 論文賞

• ずっと繰り返すと， () 内の行列の最大固有値に対応する固有ベクトルに漸近して， i0の影響はなくなる→意味ドリフト

• 正規化ラプラシアンカーネルなら，正規化によって，次数の高いノードの重みがより大きく減じられるので，意味ドリフトを避けやすい

0||||

1iit

TMMPI

12

g-Monaka [ 萩原 +, NLP2009, 最優秀発表賞 ]文字 n-gram 間の有向グラフ M ← 正方非対称行列

東京近辺では…東

東京

近

近辺

辺京

低頻度のものなどを除外

mm

ij

Tm

ij

Tij MM

VMM

VW

22 ||

1

||

1

2

1

Wij に対して LLP などを行う左右の続きやすさを一般化重み付き平均で同時に考慮する

目的例：日本語生文からの地名の発見

地名に対応する文字 n-gramに対応するノードをシードに

13

グラフスパース化 [Ozaki+, CoNLL2011]

ハブ：グラフ中で多くのノードに隣接するノード「グラフ上で類似度の高いノード同士は同じラベルに割り当てられやすい」に反するので誤識別の原因に．

• グラフ構築の際にハブを取り除きたい• ラベル伝搬の多くは行列 * ベクトルを iterative

に回す手法– 行列を疎にすれば計算も高速に！

Mutual k-NN: 互いの k 近傍に入っているノード同士を繋ぐ

この話とは別にハブを作らないグラフ構築法→今年の山下記念賞

14

まとめ

• ラベル伝搬は NLP では近年定番化しつつある– ACL 2011 Best Paper などでも使われている

• 日本の若手 NLPer にもラベル伝搬に関わった／ている方は多いので垣間見た– 一方， TokyoNLP ではラベル伝搬の話はあまり紹介されていないように思われたので概観してみました．

• 個人的には分布仮説と直結するので，重要な分野だと思います．

• 顔写真は検索してみるといいと思います．

15

参考文献リスト

• Zhu, X., Ghahramani, Z., & Lafferty, J. (2003). Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions. ICML.

• Zhou, D., Bousquet, O., Lal, T. N., Weston, J., & Scholkopf, B. (2004). Learning with Local and Global Consistency. NIPS.

• Ito, T., & Shimbo, M. (2005). Application of kernels to link analysis. KDD.

• Pantel, P., & Pennacchiotti, M. (2006). Espresso: Leveraging generic patterns for automatically harvesting semantic relations. ACL.

• Komachi, M., Kudo, T., Shimbo, M., & Matsumoto, Y. (2008). Graph-based Analysis of Semantic Drift in {Espresso}-like Bootstrapping Algorithms. EMNLP.

• 萩原正人，小川泰弘，外山勝彦 . ” グラフカーネルに基づく非分かち書き文からの意味的語彙カテゴリの抽出” , NLP 2009, 最優秀発表賞．

• Ozaki, K., Shimbo, M., Komachi, M., & Matsumoto, Y. (2011). Using the Mutual k-Nearest Neighbor Graphs for Semi-supervised Classification of Natural Language Data. CoNLL.

16

参考ブログ

• 生駒日記• Standard ML of Yukkuri

– https://github.com/smly

https://github.com/smly

https://github.com/smly

17

ご清聴ありがとうございました

Technology

Tokyo nlp #8 label propagation