20150415 automatic retirieval_and_clustering_of_similar_words

文献紹介(2015/4/16)Automatic Retrieval and

Clustering of Similar Words

長岡技術科学大学電気電子情報工学専攻

自然言語処理研究室高橋寛治

文献について

•Automatic Retrieval and Clustering of

Similar Words

•Dekang Lin, Department of Computer

Science University of Manitoba, 1998,

ACL’98,Coling’98, Vol.2, pp.768-774

文献紹介：A Baseline System for Chinese Near-Synonym Choice 2

概要

•Dependency tripleを用いた単語類似度を定義

•定義した類似度測定手法を用いてシソーラスを作成

•自動構築したシソーラスと既存のシソーラスの類似度

を測る方法を提案


はじめに

•A bottle of tezguino is on the table.

•Everyone likes tezguino.

•Tezguino makes you drunk.

•We make tezguino out of corn.


「tezguino」が「beer,wine,vodka」と似ていると分かることが、本研究のゴール

はじめに

•ブートストラップ法によりテキストから意味を取

得することがゴール

≒自動的にシソーラスを構築する

•統計的自然言語処理のデータスパースネス問題を

軽減する手段の一つとなる


単語の類似度

•Dependecy triplesを利用(broad-coverage parser Lin,1993)

•文中の２つの単語の文法関係を記述

“I have a brown dog”

(have subj I), (I subj-of have), (dog obj-of

have),(dog adj-mod brown), (brown adj-mod-of

dog), (dog, det a), (a det-of dog)


Dependency triples

• ||w,r,w‘||は(w,r,w’)の総数を示す

•ワイルドカードを使用する

• ||*,*,*||はコーパスから解析された全てのdependency

triplesを含む

• dependency triplesの頻度はそれぞれ独立と仮定


出現しない組み合わせは共起情報から推定

•無作為に選択したそれぞれの要素をもとに最尤推定を

行う

• 𝑃𝑀𝐿𝐸 𝐴, 𝐵, 𝐶 = 𝑃𝑀𝐿𝐸 𝐵 𝑃𝑀𝐿𝐸 𝐴|𝐵 𝑃𝑀𝐿𝐸 𝐶|𝐵

• 𝑃𝑀𝐿𝐸 𝐵 =||∗,𝑟,∗||

||∗,∗,∗||, 𝑃𝑀𝐿𝐸 𝐴|𝐵 =

||𝑤,𝑟,∗||

||∗,𝑟,∗||, 𝑃𝑀𝐿𝐸 𝐶|𝐵 =

||∗,𝑟,𝑤′||

||∗,𝑟,∗||


相互情報量を求め、類似度を計算

• 𝐼 𝑤, 𝑟, 𝑤′

= − log 𝑃𝑀𝐿𝐸 𝐵 𝑃𝑀𝐿𝐸 𝐴|𝐵 𝑃𝑀𝐿𝐸 𝐶|𝐵 − − log 𝑃𝑀𝐿𝐸 𝐴, 𝐵, 𝐶

単語1と単語2の類似度


使用するコーパス

•全6400万語

•Wall Street Journal(2400万語)

• San Jose Mercury(2100万語)

• AP Newswire(1900万語)

•5650万のdependency triplesを取得

• 各語は頻度100で足切り


類似度を計算しシソーラスを構築

•w(pos):w1,s1,w2,s2,…,wN,sN

• brief(noun):affidavit 0.13, petition 0.05,

memorandum 0.05

• brief(verb):tell 0.09, urge 0.07, ask 0.07, meet

0.06

•最も似ている単語対を取得

• 名詞543ペア、動詞212ペア、形容詞・副詞382ペア


別の類似度計算でシソーラスの構築

•単語の類似度

•w(pos):w1,s1,w2,s2,…,wN,sN

• 提案手法と既存の類似度計算で比較


評価

• 自動で構築したシソーラスと、WordNet1.5・Roget

Thesaurusを比較

• それぞれのシソーラスでの類似度の計算(1997,Lin)

• S(w)はWordNetの同じsynsetの語,super(c)はcの上位クラス

• R(w)は同じRogetカテゴリーに属する語


シソーラス間の類似度

•シソーラス内での類似度を以下のように示す

•W:w1,s1,w2,s2,…,wN,sN

• W:w’1,s’1,w’2,s’2,…,w’N,s’N

•WordNet,Rogetを同じフォーマットに変更

•右の式で計算を行う


結果

•類似度の平均と標準偏差

•データ数のルートで平均を

割ったもの

•sim,Hindle rとcosineは

WordNetで高いスコア


評価結果

よく似た3つを比較

•統計的に優位かどうか確

認するために、類似度の

差を調査

•Simが他よりいい


相違点の分布

今後の課題

•信頼性の高い類似度を

抽出することが今後の

課題


まとめ

•自動で構築されたシソーラスの評価法を提案

•自動構築と手動構築の比較を行える

•自動で構築したシソーラスはRoget Thesaurus

よりWordNetに近い


付録


Education

20150415 automatic retirieval_and_clustering_of_similar_words