134
1 宮宮宮宮 ( 宮宮宮宮 ) 宮宮 宮 ( 宮宮宮宮 ) 宮宮宮宮宮宮宮宮宮宮 宮宮宮宮宮宮宮宮宮宮 宮宮宮宮宮宮宮宮宮宮 宮宮宮宮宮宮宮宮宮宮 p://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/ p://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/

自然言語処理における 文法開発の軌跡と展望

Embed Size (px)

DESCRIPTION

二宮 崇 ( 東京大学 ). 自然言語処理における 文法開発の軌跡と展望. 宮尾祐介 ( 東京大学 ). http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/. いわゆる“自然言語処理”. 形態素解析. “ 太郎は花子が好きだ”. 名詞. 助詞. 名詞. 助詞. 形容動詞. 太郎. は. 花子. が. 好きだ. いわゆる“自然言語処理”. 文. 構文解析. 動詞句. 名詞句. 動詞句. 名詞句. 名詞. 助詞. 名詞. 助詞. 形容動詞. 太郎. は. 花子. が. 好きだ. - PowerPoint PPT Presentation

Citation preview

Page 1: 自然言語処理における 文法開発の軌跡と展望

1宮尾祐介 ( 東京大学

)

二宮 崇 ( 東京大学 )

自然言語処理における自然言語処理における文法開発の軌跡と展望文法開発の軌跡と展望

http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/http://www.r.dl.itc.u-tokyo.ac.jp/~ninomi/NLP2007/

Page 2: 自然言語処理における 文法開発の軌跡と展望

2

いわゆる“自然言語処理”いわゆる“自然言語処理”

形態素解析

“ 太郎は花子が好きだ”

太郎太郎 はは 花子花子 がが 好きだ好きだ

名詞名詞 助詞助詞 名詞名詞 助詞助詞 形容動詞形容動詞

Page 3: 自然言語処理における 文法開発の軌跡と展望

3

いわゆる“自然言語処理”いわゆる“自然言語処理”

構文解析

太郎太郎 はは 花子花子 がが 好きだ好きだ

名詞名詞 助詞助詞 名詞名詞 助詞助詞 形容動詞形容動詞

名詞句名詞句 名詞句名詞句 動詞句動詞句

文文

動詞句動詞句

Page 4: 自然言語処理における 文法開発の軌跡と展望

4

述語目的語対象

主語動作主

いわゆる“自然言語処理”いわゆる“自然言語処理”

意味解析

太郎太郎 はは 花子花子 がが 好きだ好きだ

名詞名詞 助詞助詞 名詞名詞 助詞助詞 形容動詞形容動詞

名詞句名詞句 名詞句名詞句 動詞句動詞句

文文

動詞句動詞句

Page 5: 自然言語処理における 文法開発の軌跡と展望

5

いわゆる“自然言語処理”いわゆる“自然言語処理”

文脈解析

述語目的語対象

主語動作主

太郎太郎 はは 花子花子 がが 好きだ好きだ

名詞名詞 助詞助詞 名詞名詞 助詞助詞 形容動詞形容動詞

名詞句名詞句 名詞句名詞句 動詞句動詞句

文文

動詞句動詞句

述語目的語対象

主語動作主

次郎次郎 もも 彼女彼女 がが 好きだ好きだ

名詞名詞 助詞助詞 名詞名詞 助詞助詞 形容動詞形容動詞

名詞句名詞句 名詞句名詞句 動詞句動詞句

文文

動詞句動詞句

= 花子

Page 6: 自然言語処理における 文法開発の軌跡と展望

6

いわゆる“自然言語処理”いわゆる“自然言語処理”

形態素解析

構文解析

意味解析

文脈解析

“ 太郎は花子が好きだ”

太郎 / 名詞 は / 助詞 花子 / 名詞 が / 助詞 好きだ / 形容動詞

( 文 ( 名詞句 - 主語太郎 / 名詞 は / 助詞 ) ( 名詞句 - 目的語 花子 / 名詞 が / 助詞 ) ( 動詞句 好きだ / 形容動詞 ))

太郎 / 名詞 / 主語 / 動作主 / 人物花子 / 名詞 / 目的語 / 対象 / 人物好きだ / 動詞 / 動作主 - 太郎 / 対象 -花子

Page 7: 自然言語処理における 文法開発の軌跡と展望

7

““ 浅いところ”から“深いとこ浅いところ”から“深いところ”へろ”へ

理想

形態素解析

構文解析

意味解析

文脈解析

Page 8: 自然言語処理における 文法開発の軌跡と展望

8

““ 浅いところ”から“深いとこ浅いところ”から“深いところ”へろ”へ

現実 思いの他

深い!形態素解析

構文解析 意味解析 文脈解析

TAG, LFG, HPSG などあまたの複雑精巧な文法が提案・研究されてきたにも関わらず、実テキストを解析できる文法はなかなかできなかった

TAG, LFG, HPSG などあまたの複雑精巧な文法が提案・研究されてきたにも関わらず、実テキストを解析できる文法はなかなかできなかった

Page 9: 自然言語処理における 文法開発の軌跡と展望

9

““ 深海”を目指すよりも“浅瀬深海”を目指すよりも“浅瀬”を”を

形態素解析構文解析

意味解析

文脈解析

・コーパスベース・統計モデル・機械学習

複雑精巧な文法理論に頼らなくてもそこそこの出力が得られる

・コーパスベース・統計モデル・機械学習

複雑精巧な文法理論に頼らなくてもそこそこの出力が得られる

Page 10: 自然言語処理における 文法開発の軌跡と展望

10

文法開発の難しさ文法開発の難しさ

さて、いったい何が難しくて文法開発がうまくいかなかったのだろうか?

Page 11: 自然言語処理における 文法開発の軌跡と展望

11

構造と言語能力と文法理論構造と言語能力と文法理論

適格文、非文を人間に判断させることによって、人間がもつ言語能力の規則性(=文法)を発見する

辞書

S → NP VPNP → DET NNP → N…

文法

文法規則(=生成規則+制約)

Page 12: 自然言語処理における 文法開発の軌跡と展望

12

自然科学と文法理論自然科学と文法理論

原子、分子、クォーク

不可知な真の自然

理論化、検証を繰り返すことによって、真の自然の姿により近づく

Page 13: 自然言語処理における 文法開発の軌跡と展望

13

自然科学と文法理論自然科学と文法理論

文法規則、辞書、シソーラス

不可知な真の文法

理論化、検証を繰り返すことによって、真の文法の姿により近づく

S → NP VPNP → DET NNP → N…

S → NP VPNP → DET NNP → N…

Page 14: 自然言語処理における 文法開発の軌跡と展望

14

文法理論と科学的サイクル文法理論と科学的サイクル

データ収集・観察・分析理論の検証

理論化

コーパス収集コーパス開発コーパス分析

カテゴリー化文法理論辞書項目

思考実験コーパスに対する検証

Page 15: 自然言語処理における 文法開発の軌跡と展望

15

どこに落とし穴があったのか?どこに落とし穴があったのか?

Page 16: 自然言語処理における 文法開発の軌跡と展望

16

アウトラインアウトライン

導入合理主義的文法経験主義的文法文法開発の再解釈と展望合理主義的文法と経験主義的文法を超えて

Page 17: 自然言語処理における 文法開発の軌跡と展望

17

合理主義的文法合理主義的文法

Page 18: 自然言語処理における 文法開発の軌跡と展望

18

合理主義的文法合理主義的文法

文法規則、辞書

S → NP VPNP → DET NNP → N…

・文法を人間が定義、分類、記述する・辞書と文法規則を開発・コーパスは検証のための副次的存在

コーパス

検証

Page 19: 自然言語処理における 文法開発の軌跡と展望

19

合理主義的文法の文法開発合理主義的文法の文法開発

文法規則をつくる辞書をつくる

文法規則辞書項目文法規則辞書項目

文法開発者

理論化理論化

検証検証

生コーパス生コーパス

Page 20: 自然言語処理における 文法開発の軌跡と展望

20

有名な合理主義的文法有名な合理主義的文法 Core Language Engine (English) [Alshawi 1992] TAG [Joshi et al. 1996]

XTAG (English/Korean) [XTAG Research Group 1995] http://www.cis.upenn.edu/~xtag/

FTAG (French) [Abeillé et al. 2000] LFG [Bresnan 1982]

http://www.essex.ac.uk/linguistics/LFG/ ParGram (English, Chinese, French, German, Norwegian, Japanese,

Turkish, Urdu, Welsh, Malagasy, Arabic, Hungarian, Vietnamese) [Butt et al. 2002] http://www2.parc.com/isl/groups/nltt/pargram/

English XLE [Riezler et al. 2002; Kaplan et al. 2004] German XLE [Forst and Rohrer 2006] Japanese XLE [Masuichi and Okuma 2003]

Page 21: 自然言語処理における 文法開発の軌跡と展望

21

有名な合理主義的文法有名な合理主義的文法

HPSG [Pollard et al. 1994]DELPHIN (English, Japanese, German, Spanish, Norwegian,

Modern Greek, Korean, Italian) [Bender et al. 2002]

LinGO ERG (English) [Flickinger 2002]

JACY (Japanese) [Melanie et al. 2002]

Babel (German) [Stefan Müller 1996]

ALPINO (Dutch) [Bouma et al. 2002]

RASP (English) [Carroll and Briscoe 2002]

Page 22: 自然言語処理における 文法開発の軌跡と展望

22

HPSGHPSG

現代の言語学において代表的な文法理論文法開発や高速化の研究もさかん中心的概念:文法 = 辞書項目 + 文法規則

辞書項目:単語固有の構文・意味的性質を記述する

文法規則:構文木の一般的規則性を規定する

Page 23: 自然言語処理における 文法開発の軌跡と展望

23

HPSG: HPSG: 構成素構成素

構文木の各ノードや辞書項目を素性構造で表現

SYNSEM

PHON string

LOCAL

NONLOCAL

CAT

HEAD

VAL

MOD

SPR

SUBJ

COMPS

CONT

QUERELSLASH

headcategorysynsem

nonlocal

local

valence

listlist

list

list

listlist

content

synsem

sign

音声形式(表層形)

構文的・意味的制約 構文的カテゴリ

主辞から継承する制約

修飾先の制約

下位範疇化フレーム

意味表現

長距離依存の制約

Page 24: 自然言語処理における 文法開発の軌跡と展望

24

HPSG: HPSG: 辞書項目辞書項目 単語特有の統語的性質を規定

SYNSEM

PHON “loves”

LOCAL

NONLOCAL

CAT

VAL

SPR <>

SUBJ < >

COMPS

CONT

QUE <>REL <>SLASH <>

< >

HOOK

RELS <>

love

ARG1

ARG2

12

verbMOD <>VFORM finiteINV minusAUX minus

HEAD

LOCALCAT

CONT|HOOK 2

HEAD noun

VALSPR <>SUBJ <>COMPS <>

LOCAL

CAT

CONT|HOOK 1

HEAD noun

VALSPR <>SUBJ <>COMPS <>

INDEXNUM 3rdPERS sing

PHON “loves”HEAD verbSUBJ <HEAD noun>COMPS <HEAD noun>

このチュートリアルではこのように省略します

Page 25: 自然言語処理における 文法開発の軌跡と展望

25

HPSG: HPSG: 構文解析構文解析

辞書項目(終端記号)

辞書項目(終端記号)

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

• 名詞• 主語をとらない• 目的語をとらない

• 名詞• 主語をとらない• 目的語をとらない

• 動詞• 名詞の主語を一つとる• 目的語をとらない

• 動詞• 名詞の主語を一つとる• 目的語をとらない

• 副詞• 動詞を一つ修飾

• 副詞• 動詞を一つ修飾

Page 26: 自然言語処理における 文法開発の軌跡と展望

26

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEADSUBJCOMPS

12

3

HEADSUBJCOMPS

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

Page 27: 自然言語処理における 文法開発の軌跡と展望

27

HPSG: HPSG: 構文解析構文解析

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

Page 28: 自然言語処理における 文法開発の軌跡と展望

28

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEADSUBJCOMPS

12

3

HEADSUBJCOMPS

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

もう一度よくみてみよう!

Page 29: 自然言語処理における 文法開発の軌跡と展望

29

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEADSUBJCOMPS

12

3

HEADSUBJCOMPS

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達

verb

verb

1

Page 30: 自然言語処理における 文法開発の軌跡と展望

30

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEAD verbSUBJCOMPS

12

3

HEAD verbSUBJCOMPS

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達

〈 HEAD noun〉

〈 HEAD noun〉

21

Page 31: 自然言語処理における 文法開発の軌跡と展望

31

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEAD verbSUBJ 〈 HEAD noun〉COMPS

12

3

HEAD verbSUBJ 〈 HEAD noun〉COMPS

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達

〈〉

〈〉

21

3

Page 32: 自然言語処理における 文法開発の軌跡と展望

32

HPSG: HPSG: 構文解析構文解析

構文規則構文規則 HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達

21

3

単一化単一化

この二つはまったく同じ情報をもつ

ようになった !

この二つはまったく同じ情報をもつ

ようになった !

Page 33: 自然言語処理における 文法開発の軌跡と展望

33

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

21

34

Page 34: 自然言語処理における 文法開発の軌跡と展望

34

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

MOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達と制約

21

34

HEAD adverb

Page 35: 自然言語処理における 文法開発の軌跡と展望

35

HPSG: HPSG: 構文解析構文解析

構文規則構文規則

単一化単一化

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

HEAD verbSUBJ 〈 HEAD noun〉COMPS 〈〉

12

3

HEAD adverbMOD 〈 〉4

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ   〈 HEAD noun〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達と制約

21

34

5

5

ここで、 walked が動詞であることと、 slowly が動詞をとることがチェックされている

ここで、 walked が動詞であることと、 slowly が動詞をとることがチェックされている

Page 36: 自然言語処理における 文法開発の軌跡と展望

36

非文を与えると、、、、

HPSG: HPSG: 構文解析構文解析

構文規則構文規則 HEAD nounSUBJ 〈〉COMPS 〈〉

12

3

HEAD nounSUBJ 〈〉COMPS 〈〉

12

3

HEAD adverbMOD 〈 〉4

Mary Mary slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   nounSUBJ   〈〉COMPS   〈〉

HEAD adverbMOD 〈 HEAD verb〉

情報の伝達と制約

21

34

5

5

noun と verb は単一化できないので、文法規則の適用に失敗する

noun と verb は単一化できないので、文法規則の適用に失敗する

Page 37: 自然言語処理における 文法開発の軌跡と展望

37

HPSG: HPSG: 構文解析構文解析

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

・主辞が動詞・主語を一つ

とる⇒動詞句であることもわか

・主辞が動詞・主語を一つ

とる⇒動詞句であることもわか

Page 38: 自然言語処理における 文法開発の軌跡と展望

38

HPSG: HPSG: 構文解析構文解析

HEAD verbSUBJ  〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

Mary walked slowly

HEAD nounSUBJ 〈〉COMPS  〈〉

HEAD   verbSUBJ  〈 HEAD noun〉COMPS  〈〉

HEAD adverbMOD 〈 HEAD verb〉

構文規則を繰り返し適用することにより、構文構造を表す構文木が生成される辞書項目の中に、

・どのような主語がとれる・どのような修飾先に修飾できるといったことが書ける

辞書項目の中に、・どのような主語がとれる・どのような修飾先に修飾できるといったことが書ける

Page 39: 自然言語処理における 文法開発の軌跡と展望

39

HPSG: HPSG: 構文解析構文解析

複雑な構文木の例 SLASH, REL

素性により長距離依存の構造を説明

(例) WH 移動 , topicalization, 関係節

prices

HEAD nounSUBJ < >COMPS < >SPR < >

HEAD nounSUBJ < >COMPS < >SPR < >

HEAD verbSUBJ < >COMPS < >SLASH < >

chargedwere

we

2HEAD verbSUBJ < >COMPS < >REL < >

HEAD nounSUBJ < >COMPS < >

HEAD verbSUBJ < >COMPS < >SLASH < >

3

HEAD verbSUBJ < >COMPS < >

34

4

3

2

HEAD verbSUBJ < >COMPS < >SLASH < >2

3

2

2

1

1

HEAD detSUBJ < >COMPS < >

the

1

HEAD nounSUBJ < >COMPS < >SPR < >

Page 40: 自然言語処理における 文法開発の軌跡と展望

40

HPSG: HPSG: 文法規則文法規則 文法規則=構文規則、文法制約、語彙規則など 構文規則:構文木の親子間の制約を規定

HEAD SUBJ <>

HEAD SUBJ < >11

2

2

subject-head 構文(例 : “John runs”)

HEAD COMPS< >

HEAD COMPS < | >1

13

3

complement-head 構文(例 : “loves Mary”)

2

2

• このような構文規則が 8~数十ほど定義される• 子供と子供の間での制約• 子供と親の間で情報を伝播

…HEAD SLASH < >

HEAD SLASH < | >11

3

3

filler-head 構文(例 : “what he bought”)

2

2

Page 41: 自然言語処理における 文法開発の軌跡と展望

41

HPSG: HPSG: 文法規則文法規則 文法制約:構文規則が満たすべき一般的制約

Head Feature Principle HEAD 素性の値は主辞の子供と親の間で常に同一 [HEAD ] → … [HEAD ] … 主辞

Valence Principle残った下位範疇化要素はすべて親に伝播

Immediate Dominance (ID) Principle親子の間で構文規則のうちどれか一つを満たさないといけない

その他たくさんの制約 : NONLOCAL の伝播、意味素性の構成など

1 1

Page 42: 自然言語処理における 文法開発の軌跡と展望

42

合理主義的文法開発の現状と問題点合理主義的文法開発の現状と問題点

大規模かつ複雑な構造を実装するのは非常に難しい

複雑な文法を効率的に開発するために、様々な文法開発ツールが開発された XTAG [XTAG Research Group 1995] ConTroll [Götz et al. 1997] LKB [Copestake et al. 1999] [incr tsdb()] [Oepen et al. 2000] XLE [Butt et al. 2002]

しかし、実世界のテキストを網羅的に解析できる文法の開発は難しかった [Baldwin et al. 2004]

Page 43: 自然言語処理における 文法開発の軌跡と展望

43

合理主義的文法開発の最先端合理主義的文法開発の最先端 Grammar Matrix (in DELPHIN Project) [Bender et al. 20

02] 多言語文法開発のための文法コンポーネントの共通化 (

English, Japanese, German, Spanish, Norwegian, Modern Greek, Korean, Italian)

Optimality Theory (in LFG XLE) [Frank et al. 1998] 曖昧性解消のために規則に優先順位を付与

ツリーバンク開発(後述) 曖昧性解消のための学習用 評価用c.f. The PARC 700 Dependency Bank [King et al. 2003]

LinGO Redwoods [Oepen et al. 2002]

Hinoki [Bond et al. 2004]

Page 44: 自然言語処理における 文法開発の軌跡と展望

44

合理主義的文法開発の前提合理主義的文法開発の前提

網羅性 実世界の文を解析するためには,あらゆる文を網羅する

大規模な文法が必要 継続的に文法を修正・拡張

識別性 適格文のみ構文木が導出できて、非文は導出されない 文法的に解釈できる構文木はすべて出力

どの構文木をもっともらしい解とするかは、選好 (preference) の問題であって、別モジュールで解決すべき問題

一文に対し文法的に解釈できる解の数は少ないほうがよい

Page 45: 自然言語処理における 文法開発の軌跡と展望

45

合理主義的文法開発の問題点合理主義的文法開発の問題点 (1/2)(1/2)

網羅性と一貫性のトレードオフ文法を修正・拡張する際,一貫性・無矛盾性

を保つのが非常に困難コーパス中の問題の一箇所を改良すると、他

の箇所に悪影響が及ぶポリシーの変更により 10万オーダーの辞書項

目を大幅に書き換える必要がある場合もある文法修正により改良されたのか改悪されたの

か明確に判断できない

Page 46: 自然言語処理における 文法開発の軌跡と展望

46

合理主義的文法開発の問題点 合理主義的文法開発の問題点 (2/2)(2/2)

曖昧性解消の必要性実際のアプリケーションは一つの文に対し一

つの解析結果を要求する合理主義的文法の文法開発では曖昧性解消の問題を先送りしている

Page 47: 自然言語処理における 文法開発の軌跡と展望

47

経験主義的文法経験主義的文法

Page 48: 自然言語処理における 文法開発の軌跡と展望

48

経験主義的文法経験主義的文法

人間が文法を直接定義するのは困難

構文木の実例(ツリーバンク)に基づく定量的評価が必要

文法はツリーバンクから導出(ツリーバンク文法)文法規則、辞書

S → NP VPNP → DET NNP → N…

ツリーバンクコンピュータ

検証・開発

Page 49: 自然言語処理における 文法開発の軌跡と展望

49

ツリーバンクツリーバンク 実世界の文に対して人手で構文木を付与する明示的な文法を仮定しない 構造は開発者の言語直感とガイドラインに依存

ガイドラインはあるが、文法で定義されるような「何が正解か」の客観的基準は存在しない

A record date has n’t been set.

文法?

Page 50: 自然言語処理における 文法開発の軌跡と展望

50

有名なツリーバンク有名なツリーバンク 構文木や係り受け木を人手で付与したコーパス

(ツリーバンク)の登場 Penn Treebank [Marcus et al. 1993] SUSANNE [Sampson 1995] TIGER Treebank [Brants et al. 2002] Prague Dependency Treebank [Hajic 1998] Verbmobil [Hinrichs et al. 2000] EDR コーパス [EDR 1995] 京都大学テキストコーパス [ 黒橋ら 1997] 日本語話し言葉コーパス [ 前川ら 2000]

Page 51: 自然言語処理における 文法開発の軌跡と展望

51

ツリーバンクの開発過程ツリーバンクの開発過程ツリーバンク開発者(アノテータ)による手作業アノテータのためのマニュアル(アノテーションガイドライン)による品質管理

ツリーバンクツリーバンク

生コーパス生コーパス

ツリーバンク開発者

編集編集

検証検証

解釈解釈

アノテーションガイドライン

アノテーションガイドライン

編纂編纂

Page 52: 自然言語処理における 文法開発の軌跡と展望

52

Penn Treebank (1/2)Penn Treebank (1/2)

構文木が付与された最初の大規模英語ツリーバンク [Marcus et al. 1993]

様々な分野の英語テキストを収録Wall Street Journal (新聞) 約 5万文、 100万

語ATIS (航空券予約の会話)Brown (様々な分野のテキスト)Switchboard (電話の自由発話)

Page 53: 自然言語処理における 文法開発の軌跡と展望

53

Penn Treebank (2/2)Penn Treebank (2/2)

品詞: NN (普通名詞) , VBZ (三単現動詞)… 構文木: NP (名詞句) , VP (動詞句)… Function tag, null element: 述語項構造を計算す

るための付加情報 (詳細省略)

NN NN VBZ VBN

A record date has n’t been set.

DT RB VBN

NP VP

VP

S名詞句

限定詞

普通名詞 三単現動詞 副詞 過去分詞

Page 54: 自然言語処理における 文法開発の軌跡と展望

54

Penn TreebankPenn Treebankアノテーションガイドラインアノテーションガイドライン

1. An Overview of Basic Clause Structure

2. Notation 3. Punctuation 4. Null Elements 5. Pseudo-Attach 6. Copular Verbs 7. Coordination 8. Shared Complements and

Modifiers in Coordinated Structures

9. WH-Phrases 10. Subordinate Clauses 11. Modification of NP 12. Titles

13. Gerunds and Participles 14. Infinitives 15. Small Clauses and their near r

elatives 16. Clefts 17. It-Extraposition 18. Subject-Raising Predicates 19. Whether it and Referential it 20. Existential there 21. Tough-Clefts 22. Comparatives 23. “Financialspeak” conventions 24. Numbered Lists 25. Correlative the-Clauses 26. Orphans全 318 ページ!全 318 ページ!

“Bracketing Guidelines for Treebank II Style Penn Treebank Project” Bies et al. 1995

Page 55: 自然言語処理における 文法開発の軌跡と展望

55

Penn TreebankPenn Treebankアノテーションガイドラインの例 アノテーションガイドラインの例

(1/3)(1/3) 基本的には自然言語による解説とたくさんの例示 1.1.4 名詞句内の補語

名詞にかかる PP が adjunct なのか argument かを区別するのは難しいので、たんに NP にくっつける

(NP (NP a teacher)

(PP of

(NP chemistry))) ただし、補文がかかる場合は次のようにする(NP the belief

(SBAR that

(S the world is flat)))

Page 56: 自然言語処理における 文法開発の軌跡と展望

56

Penn TreebankPenn Treebankアノテーションガイドライン アノテーションガイドライン (2/3)(2/3)

13.3.5 ADJP vs. S 動名詞は 2 種類の解釈がある : 形容詞的名詞句修飾 (

ADJP) vs 動名詞句 (S) “Flying planes can be dangerous”

(a) (S (NP-SBJ Flying planes) (VP can (VP be (ADJP-PRD dangerous))))(b) (S (S-NOM-SBJ (NP-SBJ *) (VP Flying (NP planes))) (VP can (VP be (ADJP-PRD dangerous))))

判断がつかないときのデフォルトは (a)

Page 57: 自然言語処理における 文法開発の軌跡と展望

57

Penn TreebankPenn Treebankアノテーションガイドライン アノテーションガイドライン (3/3)(3/3)

Small clause 15.3.1. to- 不定詞に関する句のアノテーション

1. monotransitive (S) vs. ditransitive (NP+S)(a) (S (NP-SBJ This) (VP does not (VP allow (S (NP-SBJ the mystery) (VP to (VP invade (NP us)))))))

(b) (S (NP-SBJ He) (VP told (NP-1 me) (S (NP-SBJ *-1) (VP to (VP wake (NP you))))))

advise, ask, beg, beseech, challenge, command, counsel, detail, direct, enjoin, exhort, forbid, implore, incite, inform, instruct, invite, order, persuade, pray, promise, remind, request, recommend, teach, tell, urgeの場合は (b) と解釈

advise, ask, beg, beseech, challenge, command, counsel, detail, direct, enjoin, exhort, forbid, implore, incite, inform, instruct, invite, order, persuade, pray, promise, remind, request, recommend, teach, tell, urgeの場合は (b) と解釈

Page 58: 自然言語処理における 文法開発の軌跡と展望

58

ツリーバンクから文法を抽出すツリーバンクから文法を抽出するる

ツリーバンクの背後にある文法を自動抽出潜在的な規則性を自動獲得できるはず

文法?

ツリーバンク開発

文法抽出

NN NN VBZ VBN

A record date has n’t been set.

DT RB VBN

NP VP

VP

S

Page 59: 自然言語処理における 文法開発の軌跡と展望

59

確率確率 CFGCFG の自動抽出の自動抽出 (1/2)(1/2)

ツリーバンクの各分岐を CFG 規則だと仮定して抽出する [Charniak 1996; 1997] c.f. [Sekine1995]

NN NN VBZ VBN

A record date has n’t been set.

DT RB VBN

NP VP

VP

S

S → NP VPNP → DT NN NNVP → VBZ RB VPVP → VBN VBN

CFG 規則

Page 60: 自然言語処理における 文法開発の軌跡と展望

60

確率確率 CFGCFG の自動抽出の自動抽出 (2/2)(2/2)

ツリーバンクでの出現頻度から確率値を推定

確率値最大の木を探索することで、構文解析の曖昧性解消ができる

0.50.030.020.1NN NN VBZ VBN

A record date has n’t been set.

DT RB VBN

NP VP

VP

S

S → NP VPNP → DT NN NNVP → VBZ RB VPVP → VBN VBN

Page 61: 自然言語処理における 文法開発の軌跡と展望

61

問題点(1):文法が大きい問題点(1):文法が大きい

40,000 文から約 15,000 の CFG 規則CFG 規則数が収束しない [Carpenter et al. 1997]

→ 抽象化・一般化しきれていない

0

2000

4000

6000

8000

10000

12000

14000

16000

0 10000 20000 30000 40000

文法規則数

Page 62: 自然言語処理における 文法開発の軌跡と展望

62

問題点(2):精度が低い問題点(2):精度が低い

Charniak [1996]: 80%

We applied the algorithm to IE

We selected the approach to IENN VBD DT NN IN NN

NPVP

VPS

NP

VPNP

S

NPPP

NPPP

NP

NP

VP → VP PP

NP → NP PP

同じ品詞列でも、単語によって構文木の形が変わる

Page 63: 自然言語処理における 文法開発の軌跡と展望

63

問題点(3):構造が浅い問題点(3):構造が浅いCFG 構文木しか出力できない意味構造へのマッピングがない

有用な情報が得られない文生成に使えない

NN NN VBZ VBN

A record date has n’t been set.

DT RB VBN

NP-SBJ-1 VP

VP

S

主語、目的語はどこ?時制、アスペクトは?

Page 64: 自然言語処理における 文法開発の軌跡と展望

64

ツリーバンク文法の改良ツリーバンク文法の改良

(1) 文法が大きいCFG 規則の自動圧縮 [Krotov et al. 1998; 1999]

CFG 規則の確率モデル化 [Magerman 1995; Collins 1997; Charniak 2000]

(2) 精度が低い非終端記号の細分化 [Magerman 1995; Collins 1996; 199

7; Johnson 1998; Charniak 2000]

(3) 構造が浅い → 後述

Page 65: 自然言語処理における 文法開発の軌跡と展望

65

CFGCFG 規則の確率モデル化規則の確率モデル化

Markov Grammar: CFG 規則を確率的に生成する [Collins 1997; Charniak 2000]

原理的には、全ての CFG 規則をもつ PCFGPenn Treebank から抽出したそのままの PC

FG より高精度を達成する

p(NP → DT NN NN | NP)= p(NN | NP) p(NN | NN, NP) p(DT | NN, NN, NP)

Page 66: 自然言語処理における 文法開発の軌跡と展望

66

非終端記号の細分化非終端記号の細分化 (1/2)(1/2)

語彙化 : Head percolation table [Magerman 1995] を用いて、非終端記号に head word を付与

(参考)語彙化の意味 [Gildea 2001; Bikel 2004]

We applied the algorithm to IENN VBD DT NN IN NN

NPVP

VPS

applied

NPPPto

NP

applied

applied

We algorithm IE

親の記号 主辞になる子の記号

S VP, …

VP VP, VBD, VBZ, …

NP NN, …

PP IN, …

Head percolation table

Charniak [1996]: 80% vs. Magerman [1995]: 86%

Page 67: 自然言語処理における 文法開発の軌跡と展望

67

非終端記号だけでは構造を決める情報が少ない (例)親の非終端記号で細分化 [Johnson 1998]

主語の NP と目的語の NP が区別できる 主語は代名詞が出やすい 目的語は長くなりやすい

その他、様々な周辺情報で細分化 [Charniak 2000; Klein et al. 2003]

非終端記号の細分化非終端記号の細分化 (2/2)(2/2)

VP

NP

NP

S

V

VP-S

NP-VP

NP-S

S

V-VP

Page 68: 自然言語処理における 文法開発の軌跡と展望

68

より深い構造の抽出より深い構造の抽出CFG より深い構文構造や意味構造がほしいより深い構造のツリーバンクを作る?非現実的:

高コスト構造が複雑になると、矛盾・間違いが多発

→  Penn Treebank から、より高度な文法を自動抽出できないか?

Page 69: 自然言語処理における 文法開発の軌跡と展望

69

LTAGLTAG 文法の自動抽出文法の自動抽出

構文木から LTAG の elementary tree を抽出 [Xia 1999; Chen et al. 2000; Chiang 2000]

S

making

the offer

NP

NL

NP

is

officially

VP

VP

ADVP

ヒューリスティックルールで構文木を分解する

S

making

the

NP

NL

NP

is

officially

VP

VP

ADVP

offerElementarytree を抽出

NL

NP

is

VP

VP* officially

ADVP

VP

VP*

making NP

VP

S

NP

the

NP

NP* offer

NP

Page 70: 自然言語処理における 文法開発の軌跡と展望

70

LFGLFG 文法の自動抽出文法の自動抽出

構文木に f-structure を自動付与する [Cahill et al. 2002; Frank et al. 2003]

S

making

the

NP

NL

NP

is

officially

VP

VP

ADVP

↑det =↓ ↑ =↓

↑obj =↓↑ =↓

↑ =↓↑adjunct=↓

↑ =↓

VP↑ =↓

↑ =↓

↑subj =↓

↑ =↓

ADJUNCT officiallyAUX be

PRED makeSUBJ NL

OBJ PRED offer DET the

↑aux =↓

制約解決

offer

親の記号 子の記号S NP:↑subj=↓, VP:↑=↓

VP NP:↑obj=↓, VP:↑=↓

自動付与ルール

f-structure

Page 71: 自然言語処理における 文法開発の軌跡と展望

71

経験主義的文法の問題点経験主義的文法の問題点 (1/2)(1/2)

ツリーバンク開発の問題正解の客観的基準が存在しない深い構造・複雑な構造の品質管理は困難

→ 文法理論に基づく合理的な品質管理・ 構造化が必要

ツリーバンク

こんなややこしい構造を書いてられない!

検証・開発

Page 72: 自然言語処理における 文法開発の軌跡と展望

72

経験主義的文法の問題点経験主義的文法の問題点 (2/2)(2/2)

自動的な文法抽出の妥当性

文法規則、辞書

S → NP VPNP → DET NNP → N…

ツリーバンクコンピュータ

自動抽出した LTAG, LFG 文法は正しいのか?

本当に正しい?

→ 文法を合理的に検証する必要

自動生成された文法規則は多すぎて人手では検証困難

Page 73: 自然言語処理における 文法開発の軌跡と展望

73

文法開発の再解釈と展望文法開発の再解釈と展望

Page 74: 自然言語処理における 文法開発の軌跡と展望

74

合理主義的文法の文法開発の難しさ合理主義的文法の文法開発の難しさ

さて、いったい何が難しくて文法開発がうまくいかなかったのだろうか?

どこに落とし穴があったのか?

Page 75: 自然言語処理における 文法開発の軌跡と展望

75

比較検討比較検討 (1/2)(1/2)

経験主義的文法開発と合理主義的文法開発の違い

文法作成方法 コーパスの役割

評価手段

合理主義的文法

人手 生コーパス補助的リソース

定性的評価

経験主義的文法

自動 ツリーバンク中心的リソース

定量的評価

Page 76: 自然言語処理における 文法開発の軌跡と展望

76

比較検討比較検討 (2/2)(2/2)

言語学者と言語処理研究者が求める文法、コーパスの役割の違い

目的 文法 コーパス言語学者 言語能力の法

則性の発見適格文、非文を区別するために必要な規則

人間の言語能力を調べるための資料

言語処理研究者

応用システムに有用な構文構造の自動解析

コーパスを解析するための道具

機械学習・統計学習のためのリソース。性能評価のためのリソース

Page 77: 自然言語処理における 文法開発の軌跡と展望

77

合理主義的文法開発の落とし穴 合理主義的文法開発の落とし穴 (1/2)(1/2)

文法開発の対象は、文法規則と辞書。コーパスはあくまで補助的な検証の対象にすぎない

コーパス軽視

文法規則、辞書

S → NP VPNP → DET NNP → N…

Page 78: 自然言語処理における 文法開発の軌跡と展望

78

合理主義的文法開発の落とし穴 合理主義的文法開発の落とし穴 (2/2)(2/2)

定量的評価の不足ツリーバンクの作成が困難文法を変更するとその都度正解が変化

Penn Treebank のようなツリーバンクに対して評価すれば?

Penn Treebank における構文木の解釈と文法開発者の構文木の解釈が異なるため、 Penn Treebank で評価するのは文法を開発するのに匹敵するほど困難

Page 79: 自然言語処理における 文法開発の軌跡と展望

79

経験主義的文法と合理主義的文法の経験主義的文法と合理主義的文法の歩み寄り歩み寄り

経験主義的文法 合理主義的文法

文法規則、辞書

S → NP VPNP → DET NNP → N…

・ツリーバンクの詳細化、構造化・ツリーバンクからの文法抽出

・ツリーバンク開発

ツリーバンク

コンピュータ

Page 80: 自然言語処理における 文法開発の軌跡と展望

80

文法とツリーバンクの双対性 文法とツリーバンクの双対性 (1/3)(1/3)

経験主義的文法の中の文法的知識

学習 評価

学習手法と評価にだけ注目されがちだが、、、

ツリーバンクに文法的知識・ツリーバンク作成指針の中に暗黙的に・構文木の構造から文法や辞書を作成するのに十分な情報

ツリーバンクに文法的知識・ツリーバンク作成指針の中に暗黙的に・構文木の構造から文法や辞書を作成するのに十分な情報

ツリーバンク コンピュータ ツリーバンク

精度をあげるために文法的知識を導入・最初から文法的制約と構造をツリーバンクに導入したほうがすっきり

精度をあげるために文法的知識を導入・最初から文法的制約と構造をツリーバンクに導入したほうがすっきり

Page 81: 自然言語処理における 文法開発の軌跡と展望

81

文法とツリーバンクの双対性 文法とツリーバンクの双対性 (2/3)(2/3)

S

VP

have

to

choose

this particular moment

S

NP VP

VP

NP

they

NP-1

did n’t

*-1

VP

VP

合理主義的文法でのツリーバンクこういう構文木をつくりたいから they はこんな辞書項目で

文法規則はこれとこれ

この辞書項目と文法規則を組み合わせるとこんな構文木ができ

Page 82: 自然言語処理における 文法開発の軌跡と展望

82

文法とツリーバンクの双対性 文法とツリーバンクの双対性 (3/3)(3/3)

経験主義的文法ツリーバンクに含まれる暗黙の文法

ツリーバンク作成の指針に含まれる文法的知識構文木の構造に含まれる文法的知識

合理主義的文法辞書項目と文法規則をつくる際に、構文木を想

Page 83: 自然言語処理における 文法開発の軌跡と展望

83

文法の3つのリソース文法の3つのリソース

文法開発では3つのリソースを想定している

文法規則

辞書項目ツリーバンク

Page 84: 自然言語処理における 文法開発の軌跡と展望

84

経験主義的文法と合理主義的文法を経験主義的文法と合理主義的文法を超えて超えて

三つのリソースを同時につくれば万事解決?

ツリーバンク、文法規則、辞書

S → NP VPNP → DET NNP → N…

ツリーバンクだけいただき

ます

Page 85: 自然言語処理における 文法開発の軌跡と展望

85

合理主義的文法開発のジレンマ合理主義的文法開発のジレンマ

ツリーバンクと文法の不一致

S → NP VPNP → DET NNP → N…

≠作成したツリーバンク 導出されたツリーバンク

辞書 文法規則

データと理論の不一致?

Page 86: 自然言語処理における 文法開発の軌跡と展望

86

文法理論の恣意性文法理論の恣意性

同じような機能・構造によって分類 観点・基準によって分類が異なる

HPSG LFG TAG …

c.f. 分類学 (進化分類学 , 分岐分類学 , 表形分類学 )

極端な話、百人いれば百の文法理論がありうる !

Page 87: 自然言語処理における 文法開発の軌跡と展望

87

星座と文法理論星座と文法理論

あそこの星の並びが蟹にみえるなぁ

Page 88: 自然言語処理における 文法開発の軌跡と展望

88

まぁ、星座の話はおいといて、まぁ、星座の話はおいといて、、、、、

違う基準・違う方法論でつくるツリーバンクはなかなか一致しない

直感+アノテーションガイドライン直感+アノテーションガイドライン

辞書と文法規則による文法理論

辞書と文法規則による文法理論

Page 89: 自然言語処理における 文法開発の軌跡と展望

89

文法が先かツリーバンクが先か文法が先かツリーバンクが先か??

S → NP VPNP → DET NNP → N…

どちらにあわせればいいの

だろうか?

どちらを先に開発すべきか?

不一致が生じたときにどちらを修正すべきか?

文法ツリーバンク

文法なんかいらねー

Page 90: 自然言語処理における 文法開発の軌跡と展望

90

文法を先につくる文法を先につくる

文法がツリーバンクを説明辞書と文法規則による文法理論

辞書と文法規則による文法理論

・文を解釈するときの観点・基準を与えるのが文法なのだから、ツリーバンクは文法に従うべき

・文を解釈するときの観点・基準を与えるのが文法なのだから、ツリーバンクは文法に従うべき

・ツリーバンクは文法に導出される副産物・ツリーバンクは文法に導出される副産物

Page 91: 自然言語処理における 文法開発の軌跡と展望

91

ツリーバンクを先につくるツリーバンクを先につくる

ツリーバンクが文法を説明 直感+アノテーションガイドライン直感+アノテーションガイドライン

S → NP VPNP → DET NNP → N…

自分の頭の中にある文法解析結果をまず外在化

自分の頭の中にある文法解析結果をまず外在化

外在化されたツリーバンクを説明できるように文法を開発、導出

外在化されたツリーバンクを説明できるように文法を開発、導出

Page 92: 自然言語処理における 文法開発の軌跡と展望

92

合理主義的文法と経験主義的文法合理主義的文法と経験主義的文法を超えてを超えて

Page 93: 自然言語処理における 文法開発の軌跡と展望

93

ツリーバンクと文法の協調関係ツリーバンクと文法の協調関係

文法開発ではツリーバンクの役割が重要曖昧性解消モデルのための統計情報を提供する 文法の不備・矛盾・間違いを検出する 構文解析・文生成の性能を客観的に評価する

ツリーバンク開発では合理的な構造化が必要 文法理論による構文構造の明示化

より複雑な構造のアノテーション・文法開発を容易にする 統語構造の一般化 (例、能動態と受動態 )

性能向上のために文法的知識を断片的に導入最初から文法的制約と構造化を導入したほうが良い

ツリーバンクの一貫性の向上

Page 94: 自然言語処理における 文法開発の軌跡と展望

94

ツリーバンクと文法の開発ツリーバンクと文法の開発

文法評価のためのツリーバンク PARC 700 Dependency Bank [King et al. 2003]

Penn Treebank Section 23 から無作為に 700 文を抽出 English XLE パーザで構文解析し、人手で正解の

f-structure を選択 XLE パーザと Collins パーザを客観的に比較 [Kaplan et

al. 2004] 構文解析時間は Collins パーザが速い 構文解析精度は XLE パーザの方が高い

文法開発のためのツリーバンクツリーバンキング ( 文法が先の文法開発 ) コーパス指向文法開発 (ツリーバンクが先の文法開発

)

Page 95: 自然言語処理における 文法開発の軌跡と展望

95

ツリーバンキング ツリーバンキング (( 文法が先文法が先 ))

文法開発過程にツリーバンク開発を組み込む生コーパスを構文解析し、人手で正解を選択

Redwoods [Oepen et al. 2002], Hinoki [Bond et al. 2004]

ツリーバンクツリーバンク

生コーパス生コーパス

開発者

検証検証

文法規則辞書

文法規則辞書

編集編集

構文解析器構文解析器

正解選択

Page 96: 自然言語処理における 文法開発の軌跡と展望

96

ツリーバンキングの利点ツリーバンキングの利点 効率的・系統的にツリーバンクが開発できる ツリーバンクを曖昧性解消モデルの学習データと

して利用する [Toutanova et al. 2002]

ツリーバンク開発を通して、文法の不備・矛盾・間違いを発見できる

文法規則

辞書項目ツリーバンク

Page 97: 自然言語処理における 文法開発の軌跡と展望

97

再考:辞書とツリーバンクの関再考:辞書とツリーバンクの関係係

ツリーバンクがあれば、葉ノードを収集すれば辞書項目が得られる

have

to

choose this particular moment

they

did

n’t

品詞 動詞主語 < >目的語 < >

品詞 名詞主語 < >目的語 < >

品詞 動詞主語 < >目的語 < >

1

品詞 動詞主語 < >目的語 < >

品詞 動詞主語 < >目的語 < >

1

1

品詞 名詞主語 < >目的語 < >

12

3

3 品詞 副詞修飾 3

2

品詞 動詞主語 < >目的語 < >

14

品詞 動詞主語 < >目的語 < >

14

品詞 動詞主語 < >目的語 < >

15

品詞 動詞主語 < >目的語 < >

15

品詞 動詞主語 < >目的語 < >

16

6

主語 < >目的語 < >

Page 98: 自然言語処理における 文法開発の軌跡と展望

98

ツリーバンク > 辞書ツリーバンク > 辞書ツリーバンクがあれば辞書は得られるツリーバンクの方が辞書より情報が多い

文法の不備・矛盾・間違いが検出できる統計情報が得られる

文法規則

辞書項目ツリーバンク

Page 99: 自然言語処理における 文法開発の軌跡と展望

99

コーパス指向文法開発コーパス指向文法開発((ツリーバンクが先ツリーバンクが先 ))

辞書の代わりにツリーバンクを作るCCG [Hockenmaier et al. 2002], HPSG [Miyao et al. 2004]

辞書項目はツリーバンクから収集する

辞書辞書文法開発者

検証検証

文法規則ツリーバンク

文法規則ツリーバンク

編集編集

辞書項目収集器

辞書項目収集器

Page 100: 自然言語処理における 文法開発の軌跡と展望

100

コーパス指向文法開発の利点コーパス指向文法開発の利点

ツリーバンクと辞書が同時に得られるツリーバンク開発を通して、ツリーバンク

や文法規則の不備・矛盾・間違いを発見できる

文法規則

辞書項目ツリーバンク

Page 101: 自然言語処理における 文法開発の軌跡と展望

101

どうやってツリーバンクを作るのかどうやってツリーバンクを作るのか??

Penn Treebank を再利用し、文法規則に合致するように変換

文法開発=文法規則に合致するようにツリーバンクを編集する過程

S

making

the offer

NP

NL

NP

is

officially

VP

VP

ADVPHEAD verbSUBJ < >COMPS < >MOD

HEAD verbSUBJ < >COMPS < >

NL

HEAD verbSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

1

is officially

1

12

HEAD verbSUBJ < >COMPS < >

12

3

3

HEAD verbSUBJ < >COMPS < >

14

4

2

Page 102: 自然言語処理における 文法開発の軌跡と展望

102

文法自動抽出との違い 文法自動抽出との違い (1/3)(1/3)

目標文法自動抽出 : なるべく人手を介在させず、すでにあ

るリソースからいかに楽をして文法を獲得できるかコーパス指向 : なるべく人手を介在させて、いかに良

いコーパスをつくれるか(=良い文法をつくれるか)開発過程

文法自動抽出:全自動なので、アルゴリズムができれば数時間から数日

コーパス指向 : 手作業で半年から数年

Page 103: 自然言語処理における 文法開発の軌跡と展望

103

文法自動抽出との違い 文法自動抽出との違い (2/3)(2/3)

品質管理文法自動抽出 : 抽出された文法を主に評価コーパス指向 :

ツリーバンク、文法規則は人間が管理する文法規則によるツリーバンクの構造化

ツリーバンクの品質が必然的に検証される得られる辞書は文法規則に従うことが保証される

文法規則

辞書項目ツリーバンク

文法規則

辞書項目ツリーバンク

文法自動抽出 コーパス指向文法開発

Page 104: 自然言語処理における 文法開発の軌跡と展望

104

文法自動抽出との違い 文法自動抽出との違い (3/3)(3/3)

品質管理の例 (Head Feature Principle)

DT

NP

NNVBG

VP

offer

HEAD nounSUBJ < >COMPS < >SPR < >

21

HEAD detSUBJ < >COMPS < >

the

1

HEAD nounSUBJ < >COMPS < >SPR < >

the offermakingmaking

HEAD verbSUBJ < >COMPS < >

3

HEAD verbSUBJ < >COMPS < >

34

4

ツリーバンクの句構造が文法的制約を満たしているかチェックされる

ツリーバンクの句構造が文法的制約を満たしているかチェックされる

Page 105: 自然言語処理における 文法開発の軌跡と展望

105

HPSG HPSG ツリーバンク の開発ツリーバンク の開発

Penn Treebank の構造を HPSG 理論に基づく構造に変換する木構造変換・素性の追加

下位範疇化、受身、命令形・疑問形、時制、格、量化、 control/raising 、 small clause 、長距離依存、関係節、 tough 構文、自由関係詞、並列構造、外置変形、倒置、挿入、同格、引用、 etc.

HPSG の文法規則を適用文法規則やツリーバンクの不備・矛盾・間違いは、

制約違反として検出される

Page 106: 自然言語処理における 文法開発の軌跡と展望

106

辞書・ツリーバンク開発の概要辞書・ツリーバンク開発の概要S

making

the offer

NP

NL

NP

is

officially

VP

VP

ADVP

HPSG 表現へマッピング

NL

HEAD verbSUBJ < >COMPS < >

subject-head

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD adv

HEAD verbSUBJ < >1

HEAD verb

HEAD verbSUBJ < >1

HEAD verb

is officially

HEAD verb

head-comp

head-mod head-comp HEAD verbSUBJ < >COMPS < >MOD

HEAD verbSUBJ < >COMPS < >

NL

HEAD verbSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

1

is officially

1

12

HEAD verbSUBJ < >COMPS < >

12

3

3

HEAD verbSUBJ < >COMPS < >

14

4

2

文法規則適用

make:

HEAD verb

HEAD nounCONT 2COMPS < >

HEAD nounCONT 1

SUBJ < >

CONTmake’ARG1ARG2 2

1

辞書項目収集

Page 107: 自然言語処理における 文法開発の軌跡と展望

107

助動詞・助動詞・ control/raisingcontrol/raising

不飽和構成素を補語としてとるようにするS

VP

have

to

choose

this particular moment

S

NP VP

VP

NP

they

NP-1

did n’t

*-1

VP

VP

SUBJ < >1

1 SUBJ < >2

SUBJ < >2

SUBJ < >3

3=

S

VP

have

to

choose

this particular moment

VP

VP

NP

they

NP-1

did n’t

VP

VP

Page 108: 自然言語処理における 文法開発の軌跡と展望

108

長距離依存・関係節長距離依存・関係節

SLASH: 移動した項を表す

REL: 関係詞と先行詞の関係を表す

REL < >

SLASH < >1

2REL < >SLASH < >

2

REL < >SLASH < >

NP

WHNP-3

SBAR

Sthe energy and ambitions

NP

that NP-2

reformers

VP

Swanted

reward

VP

*T*-3

1

NP

to VP

NP

*-2

SLASH < >1

SLASH < >1

SLASH < >1

SLASH < >1

2

Page 109: 自然言語処理における 文法開発の軌跡と展望

109

HPSGHPSG のカテゴリへマッピングのカテゴリへマッピング

(非)終端記号を素性構造へマッピング

NNHEAD: nounAGR: 3sg

HEAD: verbAGR: 3sgVFORM: finiteTENSE: present

VBZ

(普通名詞)

(三単現動詞)

Page 110: 自然言語処理における 文法開発の軌跡と展望

110

具体例具体例

“NL is officially making the offer”

S

making

the offer

NP

NL

NP

is officially

VP

VP

VP NL

HEAD verbSUBJ < >COMPS < >

subject-head

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD adv

HEAD verbSUBJ < >1

HEAD verb

HEAD verbSUBJ < >1

HEAD verb

is officially

HEAD verb

head-comp

head-mod head-comp

Page 111: 自然言語処理における 文法開発の軌跡と展望

111

文法規則の適用文法規則の適用

NL

HEAD verbSUBJ < >COMPS < >

subject-head

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD adv

HEAD verbSUBJ < >1

HEAD verb

HEAD verbSUBJ < >1

HEAD verb

is officially

HEAD verb

head-comp

head-mod head-comp

“NL is officially making the offer”

Page 112: 自然言語処理における 文法開発の軌跡と展望

112

文法規則の適用文法規則の適用

NL

HEAD verbSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD advMOD

officially

1HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

12

HEAD verbSUBJ < >COMPS < >

12

3 3

is

HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

14

4

2

“NL is officially making the offer”

Page 113: 自然言語処理における 文法開発の軌跡と展望

113

複雑な例複雑な例

NP

we were

VP

the prices

NP

S

SBAR

WHNP-1head

head

head

head

arg

arg

arg0

charged

NP

VP

*-2 *T*-1

arg

argarghead

prices

HEAD nounSUBJ < >COMPS < >SPR < >

HEAD nounSUBJ < >COMPS < >SPR < >

HEAD verbSUBJ < >COMPS < >SLASH < >

chargedwere

we

2HEAD verbSUBJ < >COMPS < >REL < >

HEAD nounSUBJ < >COMPS < >

HEAD verbSUBJ < >COMPS < >SLASH < >

3

HEAD verbSUBJ < >COMPS < >

34

4

3

2

HEAD verbSUBJ < >COMPS < >SLASH < >2

3

2

2

1

1

HEAD detSUBJ < >COMPS < >

the

1

HEAD nounSUBJ < >COMPS < >SPR < >

Page 114: 自然言語処理における 文法開発の軌跡と展望

114

辞書項目の収集辞書項目の収集

HPSG 構文木の葉ノードは、辞書項目の実例

NL

HEAD verbSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

HEAD nounSUBJ < >COMPS < >

the offermaking

HEAD advMOD

officially

1HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

12

HEAD verbSUBJ < >COMPS < >

12

3 3

is

HEAD verbSUBJ < >COMPS < >

1

HEAD verbSUBJ < >COMPS < >

14

4

2

Page 115: 自然言語処理における 文法開発の軌跡と展望

115

HPSGHPSG 文法の評価実験文法の評価実験

HPSG ツリーバンクから収集した辞書項目を評価未知の文に対する被覆率ツリーバンクのサイズと被覆率の関係

Penn Treebank Section 02-21 (39,832 文 ) をHPSG ツリーバンクに変換し、辞書項目を収集

テストデータ: Section 23 を HPSG ツリーバンクに変換したもの (2,299 文 )

Page 116: 自然言語処理における 文法開発の軌跡と展望

116

被覆率と構文解析精度被覆率と構文解析精度被覆率: 99.8%

構文解析に成功した文の割合 構文解析精度: 適合率 90.44%,再現率 90.19%

述語 - 項関係の精度

強意の被覆率: 84.4% 構文森が完全一致の構文木を含む文の割合

girlsaw

heARG1

ARG2

Page 117: 自然言語処理における 文法開発の軌跡と展望

117

まとめ まとめ (1/3)(1/3)

合理主義的文法 人手による文法規則と辞書の開発と中心とした文法開発 合理的な利点

言語学的な妥当性 複雑な構造、深い構造の記述が容易

問題点 網羅性と一貫性のトレードオフ 曖昧性解消の先送り 性能評価の問題

経験主義的文法 ツリーバンクを中心とした文法開発 経験的な利点

網羅性 一貫性 機械学習・統計学習が容易 評価も容易

問題点 正解の客観的基準が存在しない 深い構造・複雑な構造の品質管理は困難 自動的な文法抽出の妥当性

文法とツリーバンクの両方を開発す

ることが重要 !

文法とツリーバンクの両方を開発す

ることが重要 !

Page 118: 自然言語処理における 文法開発の軌跡と展望

118

まとめ まとめ (2/3)(2/3)

違う基準・違う方法論でつくるツリーバンクはなかなか一致しない

直感+アノテーションガイドライン直感+アノテーションガイドライン

辞書と文法規則による文法理論

辞書と文法規則による文法理論

経験主義的文法開発 合理主義的文法開発

Page 119: 自然言語処理における 文法開発の軌跡と展望

119

まとめ まとめ (2/2)(2/2)

コーパスと文法の両方を開発経験主義的文法と合理主義的文法の双方の利点理論(=文法)とデータ(=ツリーバンク)を

いかに一致させるか?ツリーバンキング ( 文法が先の文法開発 )

文法規則や辞書を優先し、ツリーバンクを開発 例 : Redwoods, Hinoki, PARC 700 Dependency Bank

コーパス指向文法開発 ( ツリーバンクが先の文法開発 )

ツリーバンクを優先し、文法規則や辞書を開発 文法的知識をツリーバンクとして外在化 例: CCG ツリーバンクから CCG 文法、 HPSG ツリーバ

ンクから HPSG 文法

Page 120: 自然言語処理における 文法開発の軌跡と展望

120

ご清聴ありがとうございましたご清聴ありがとうございました !!

Page 121: 自然言語処理における 文法開発の軌跡と展望

121

参考文献参考文献 H. Alshawi (Ed.) (1992) The Core Language Engine. MIT

Press. A. K. Joshi and Y. Schabes (1997) Tree Adjoining Gramm

ars. in G. Rosenberg and A. Salomaa, (eds.), Handbook of Formal Languages, vol. 3, pp. 69-124.

XTAG Research Group (2001) A lexicalized tree adjoining grammar for English. Technical Report IRCS-01-03, University of Pennsylvania.

A. Abeillé and M.-H. Candito and A. Kinyon (2000) FTAG: developping and maintaining a wide-coverage grammar for French. ESSLLI-2000.

J. Bresnan (1982) The Mental Representation of Grammatical Relations. MIT Press.

Page 122: 自然言語処理における 文法開発の軌跡と展望

122

参考文献参考文献 S. Riezler, T. H. King, R. S. Crouch, J. T. Maxwell, R. M. K

aplan (2002) Parsing the Wall Street Journal using a lexical-functional grammar and discriminative estimation techniques. In Proc. of ACL 2002.

R. M. Kaplan, S. Riezler, T. H. King, J. T. Maxwell, A. Vasserman (2004) Speed and accuracy in shallow and deep stochastic parsing. In Proc. of HLT/NAACL-2004.

M. Forst and C. Rohrer (2006). Improving coverage and parsing quality of a large-scale LFG for German. In Proc. of LREC 2006.

C. Pollard and I. A. Sag (1994) Head-Driven Phrase Structure Grammar. University of Chicago Press.

Page 123: 自然言語処理における 文法開発の軌跡と展望

123

参考文献参考文献 S. Müller (1996) The Babel-System – An HPSG Prolog Im

plementation. In Proc. of 4th International Conference on the Practical Application of Prolog, pp. 263—277.

M. Siegel and E. M. Bender (2002) Efficient Deep Processing of Japanese. In Proc. of the 3rd Workshop on Asian Language Resources and International Standardization. COLING 2002 Post-Conference Workshop.

G. Bouma, G. van Noord, R. Malouf (2000) Alpino: Wide-coverage Computational Analysis of Dutch. Computational Linguistics in the Netherlands. Selected Papers from the 11th CLIN Meeting.

J. Carroll and T. Briscoe (2002) High Precision Extraction of Grammatical Relations. In Proc. of COLING 2002.

Page 124: 自然言語処理における 文法開発の軌跡と展望

124

参考文献参考文献 M. Butt, H. Dyvik, T. H. King, H. Masuichi, and C. Rohrer (

2002) The Parallel Grammar Project. In Proceedings of COLING-2002 Workshop on Grammar Engineering and Evaluation. pp. 1-7.

D. Flickinger (2002) On building a more efficient grammar by exploiting types. In Stephan Oepen, Dan Flickinger, Jun'ichi Tsujii and Hans Uszkoreit (eds.) Collaborative Language Engineering. Stanford: CSLI Publications, pp. 1-17.

E. M. Bender, D. Flickinger, and S. Oepen (2002) The grammar Matrix. An open-source starter-kit for the rapid development of cross-linguistically consistent broad-coverage precision grammar. In Proc. of the Workshop on Grammar Engineering and Evaluation at COLING 2002.

Page 125: 自然言語処理における 文法開発の軌跡と展望

125

参考文献参考文献 T. Götz and D. Meurers (1997) The ConTroll System as L

arge Grammar Development Platform. ``ENVGRAM'' ACL-Workshop.

A. Copestake and D. Flickinger (2000) An open-source grammar development environment and broadcoverage English grammar using HPSG. In Proc. LREC-2000.

S. Oepen and J. Carroll (2000) Performance profiling for parser engineering. Natural Language Engineering, 6 (1) (Special Issue on Efficient Processing with HPSG):81–97.

T. Baldwin, E. M. Bender, D. Flickinger, A. Kim, and S. Oepen (2004) Road-testing the English Resource Grammar over the British National Corpus. In Proc. LREC 2004, pages 2047–2050.

Page 126: 自然言語処理における 文法開発の軌跡と展望

126

参考文献参考文献 A. Frank, T. H. King, J. Kuhn, J. Maxwell (1998) Optimalit

y Theory Style Constraint Ranking in Large-scale LFG Grammars. In Proc. of the 3rd LFG Conference.

M. Marcus, B. Santorini, Marcinkiewicz (1993) Building a large annotated corpus of English: the Penn Treebank. Computational Linguistics 19.

A. Bies, M. Ferguson, K. Katz, R. MacIntyre, V. Tredinnick, Grace Kim, M. A. Marcinkiewicz, B. Schasberger (1995) Bracketing Guidelines for Treebank II Style Penn Treebank Project

G. Sampson (1995) English for the computer. Oxford University Press.

S. Brants, S. Dipper, S. Hansen, W. Lezius, and G. Smith (2002) The TIGER Treebank. In Proc. Workshop on Treebanks and Linguistic Theories.

Page 127: 自然言語処理における 文法開発の軌跡と展望

127

参考文献参考文献 J. Hajic (1998) Building a syntactically annotated corpus:

The Prague Dependency Treebank. In Issues of Valency and Meaning.

E. Hinrichs, J. Bartels, Y. Kawata, V. Kordoni, and H. Telljohann (2000) The Tubingen treebanks for spoken German, English, and Japanese. In W. Wahlster (ed.), Verbmobil: Foundations of Speech-to-Speech Translation. Springer.

EDR (1995) EDR 電子化辞書使用説明書第 2版 . Technical Report TR-045.

黒橋、長尾 (1997) 京都大学テキストコーパス・プロジェクト . 言語処理学会第3回年次大会発表論文集 .

前川、籠宮、小磯、小椋、菊池 (2000) 日本語話し言葉コーパスの設計 . 音声研究 4-2.

Page 128: 自然言語処理における 文法開発の軌跡と展望

128

参考文献参考文献 E. Charniak (1996) Tree-bank Grammars. Technical Repo

rt CS-96-02, Department of Computer Science, Brown University.

E. Charniak (1997) Statistical parsing with a context-free grammar and word statistics. In Proc. 14th National Conference on Artificial Intelligence.

S. Sekine and R. Grishman (1995) A Corpus-based Probabilistic Grammar with Only Two Non-terminals. In IWPT ’95.

B. Carpenter and C. Manning (1997) Probabilistic parsing using left corner language models. In 5th IWPT.

D. Magerman (1995) Statistical decision-tree models for parsing. In Proc. 33rd ACL.

Page 129: 自然言語処理における 文法開発の軌跡と展望

129

参考文献参考文献 A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1998) Co

mpacting the Penn Treebank grammar. In Proc. 17th COLING.

A. Krotov, M. Hepple, R. Gaizauskas, Y. Wilks (1999) Evaluating two methods for Treebank grammar compaction. Natural Language Engineering 5(4).

M. Collins (1996) A new statistical parser based on bigram lexical dependencies. In Proc. 34th ACL.

M. Collins (1997) Three generative lexicalised models for statistical parsing. In Proc. 35th ACL.

Page 130: 自然言語処理における 文法開発の軌跡と展望

130

参考文献参考文献 E. Charniak (2000) A maximum-entropy-inspired parser. I

n Proc. NAACL-2000. M. Johnson (1998) PCFG models of linguistic tree repres

entations. Computational Linguistics 24(4). D. Gildea (2001) Corpus variation and parser performanc

e. In Proc. 2001. D. Bikel (2004) Intricacies of Collins’ parsing model. Comp

utational Linguistics 30(4). D. Klein and C. Manning (2003) Accurate unlexicalized pa

rsing. In Proc. ACL 2003.

Page 131: 自然言語処理における 文法開発の軌跡と展望

131

参考文献参考文献 F. Xia (1999) Extracting tree adjoining grammars from bra

cketed corpora. In Proc. 5th NLPRS. J. Chen and K. Vijay-Shanker (2000) Automated extractio

n of LTAGs from the Penn Treebank. In Proc. 6th IWPT. D. Chiang (2000) Statistical parsing with an automatically-

extracted tree adjoining grammar. In Proc. 38th ACL. A. Cahill, M. McCarthy, J. van Genabith, and A. Way (200

2) Parsing with PCFGs and automatic f-structure annotation. In Proc. 7th International Lexical-Functional Grammar Conference.

Page 132: 自然言語処理における 文法開発の軌跡と展望

132

参考文献参考文献 A. Frank, L. Sadler, J. van Genabith, and A. Way (2003) F

rom treebank resources to LFG f-structures: Automatic f-structure annotation of treebank trees and CFGs extracted from treebanks. In A. Abeille (ed), Building and Using Syntactically Annotated Corpora. Kluwer Academic Publishers.

T. H. King, R. Crouch, S. Riezler, M. Dalrymple, and R. Kaplan (2003) The PARC 700 Dependency Bank. In Proc. LINC 2003.

S. Oepen, K. Toutanova, S. Shieber, C. Manning, D. Flickinger, and T. Brants (2002) The LinGO Redwoods Treebank: Motivation and preliminary applications. In Proc. COLING 2002.

Page 133: 自然言語処理における 文法開発の軌跡と展望

133

参考文献参考文献 F. Bond, S. Fujita, C. Hashimoto, K. Kasahara, S. Nariya

ma, E. Nichols, A. Ohtani, T. Tanaka, S. Amano (2004) The Hinoki Treebank: A treebank for text understanding. In IJCNLP-04.

K. Toutanova, C. Manning, and S. Oepen (2002) Parse ranking for a rich HPSG grammar. In Proc. TLT2002.

J. Hockenmaier and M. Steedman (2002) Acquiring compact lexicalized grammars from a cleaner treebank. In Proc. 3rd LREC.

Y. Miyao, T. Ninomiya, and J. Tsujii (2004) Corpus-oriented grammar development for acquiring a Head-Driven Phrase Structure Grammar from the Penn Treebank. In Proc. IJCNLP-04.

Page 134: 自然言語処理における 文法開発の軌跡と展望

153

ツリーバンクのサイズ ツリーバンクのサイズ vs. vs. 被覆被覆率率

0

20

40

60

80

100

0 10000 20000 30000 40000

文数

(%)

被覆

辞書項目の被覆率文の被覆率