25
国国国国国国国国国 国国 - 国国国国国国 国国国 国国国国国国国国国国国国国 [email protected]

国内中文树库需加强 谓词 - 论元结构描写

  • Upload
    aizza

  • View
    136

  • Download
    1

Embed Size (px)

DESCRIPTION

国内中文树库需加强 谓词 - 论元结构描写. 黄昌宁 清华大学计算机科学与技术系 [email protected]. 提纲(第一部分). 宾州树库简介 X- 标杠模式 谓词 - 论元结构的标注实例 国内外中文树库的对比 讨论. 宾州英文树库( PTB ). 1989-1992: 宾州英文树库 (PTB-I) ◇ 支配及约束 (GB) 理论, X- 标杠理论 ◇华尔街日报真实语料 : 100 万词次 1993-1994: 宾州英文树库 (PTB-II) (Marcus et al.1994) ◇ 增加谓词 - 论元结构的标注 - PowerPoint PPT Presentation

Citation preview

Page 1: 国内中文树库需加强 谓词 - 论元结构描写

国内中文树库需加强谓词 - 论元结构描写

黄昌宁

清华大学计算机科学与技术系[email protected]

Page 2: 国内中文树库需加强 谓词 - 论元结构描写

提纲(第一部分)

•宾州树库简介•X- 标杠模式•谓词 - 论元结构的标注实例•国内外中文树库的对比•讨论

Page 3: 国内中文树库需加强 谓词 - 论元结构描写

宾州英文树库( PTB )•1989-1992: 宾州英文树库 (PTB-I)

◇支配及约束 (GB) 理论, X- 标杠理论◇ 华尔街日报真实语料 : 100 万词次

•1993-1994: 宾州英文树库 (PTB-II)

(Marcus et al.1994) ◇增加谓词 - 论元结构的标注◇ 空语类 (empty category) 和同指索引 (co-indexing)

Page 4: 国内中文树库需加强 谓词 - 论元结构描写

宾州中文树库( CTB )•1998-2000: 宾州中文树库 (CTB-I)

◇重要目标:谓词 - 论元结构的描写◇新华通讯社新闻稿 : 规模 10 万词次

•2007 :宾州中文树库 (CTB 6.0) ◇ 增加人民日报、香港新闻电讯和台湾期刊等语料 , 规模增加到 73 万词次

Page 5: 国内中文树库需加强 谓词 - 论元结构描写

X- 标杠模式

XP

(YP) X' 说明语

(ZP) X'

附加语

(WP) X

补足语 中心语

• 说明语 ( 又称标定语 ) 、附加语和补足语只是出现在短语某一特定位置上的短语名称。• 在句法中,通过词项投射和填位过程生成出来的二阶短语必须符合如下 X- 标杠模式:

Page 6: 国内中文树库需加强 谓词 - 论元结构描写

(1) 中心语 - 补足语关系 (complementation)

a. 中心语居首: XP

X YP ZP …

CTB 规范定义的三种语法关系

(2) 中心语 - 附加语关系 (adjunction)

b. 中心语居尾 :

XP

YP ZP … X

XP

YP … XP … ZP

Page 7: 国内中文树库需加强 谓词 - 论元结构描写

CTB 规范定义的三种语法关系

a: 词语层并列 :

XP

X {CONJ} X {CONJ} …

b: 短语层并列 :

XP

XP {CONJ} XP {CONJ} …

(3) 并列关系 (coordination)

• 依据 X- 标杠模式 ,CTB 使每个短语节点所统辖的括号对或子树只表示一种抽象的语法关系。• CTB 严格区分述语动词的补足语和附加语,使谓词 - 论元结构的识别建立在可靠的句法基础上。

Page 8: 国内中文树库需加强 谓词 - 论元结构描写

CTB例 1 :表的表示例 1 :浦东积极、及时地制定和推出法规性文件。

(IP (NP-PN-SBJ (NR 浦东 )) (VP (DVP (ADVP (AD 积极 ) 【 ADVP: DEV

的补足语】 (PU 、 )

(AD 及时 )) (DEV 地 )) 【DEV: DVP 的中心语】 (VP (VP (VV 制定 ) 【 RNR: 右节点爬升】 (NP-OBJ (-NONE- *RNR*-1)))

(CC 和 ) (VP (VV 推出 ) 【 VV:VP 的中心语】

(NP-OBJ-1 (NN 法规性 ) (NN 文件 ))))) )

【 NP-OBJ-1: VV 的补足语】

Page 9: 国内中文树库需加强 谓词 - 论元结构描写

CTB例 1 :树的表示

IP

NP-PN-SBJ VP

DVP VP

ADVP VP VP

NP-OBJ NP-OBJ-1

NR AD PU AD DEV VV – NONE- CC VV NN NN

浦东 积极 、 及时 地 制定 *RNR*-1 和 推出 法规性 文件

例 1 :浦东积极、及时地制定和推出法规性文件。

Page 10: 国内中文树库需加强 谓词 - 论元结构描写

IP

REL-1,2:ARG0 VP

REL-1,2:ARGM-MNR

DVP VP

NP-PN-SBJ ADVP VP VP

REL-1 REL-2 REL-1,2:ARG1

-

NP-OBJ NP-OBJ-1

NR AD PU AD DEV VV – NONE- CC VV NN NN

浦东 积极 、 及时 地 制定 *RNR*-1 和 推出 法规性 文件

CTB例 1 :语义角色标注

Page 11: 国内中文树库需加强 谓词 - 论元结构描写

IP

NP-PN-SBJ VP

NP-OBJ-1 IP

DP NP NP-SBJ VP

NP-OBJ

NR VV DT NN -NONE- VV NN NN NN

国务院 批准 这些 城市 *PRO*-1 设立 边境 经济 合作区

CTB例 2 :宾语控制动词“批准”

例 2 :国务院批准这些城市成立边境经济合作区。

Page 12: 国内中文树库需加强 谓词 - 论元结构描写

CTB例 2 :语义角色标注 IP

REL-1:ARG0 VP

NP-PN-SBJ REL-1

REL-1:ARG1 REL-1:ARG2

REL-2:ARG0

IP

NP-OBJ-1 VP

NP-SBJ

DP NP REL-2 REL-2:ARG1

NP-OBJ

NR VV DT NN -NONE- VV NN NN NN

国务院 批准 这些 城市 *PRO*-1 设立 边境 经济 合作区

例 2 :国务院批准这些城市成立边境经济合作区。

Page 13: 国内中文树库需加强 谓词 - 论元结构描写

CTB例 3 :话题句

IP

NP-TPC-2 NP-SBJ VP

DP NP

ADVP PP-TMP VP

LCP NP-OBJ

DT CLP

NP

QP NP

CLP

DT M NN -NONE- AD P CD M NN LC VV -NONE-

各 种 收费 *pro* 已 在 一 个 月 前 宣布 *T*-2

例 3 :各种收费已在一个月前宣布。

Page 14: 国内中文树库需加强 谓词 - 论元结构描写

CTB例 3 :语义角色标注 IP

ARG1

NP-TPC-2 NP-SBJ VP

DP NP ARGM-ADV ARGM-TMP

ADVP PP-TMP VP

REL

LCP NP-OBJ

DT CLP

NP

QP NP

CLP

DT M NN -NONE- AD P CD M NN LC VV -NONE-

各 种 收费 *pro* 已 在 一 个 月 前 宣布 *T*-2

Page 15: 国内中文树库需加强 谓词 - 论元结构描写

概率型上下文无关语法(PCFG)

• PCFG 是一种表层的树库语法 (Treebank Grammar)

• 它以删除空语类和功能标记的树库作为训练样本(IP (NP-TPC-2 (DP (DT各 )

(CLP (M 种 ))) (NP (NN 收费 )))

(NP-SBJ (-NONE- *pro*)) (VP (ADVP (AD 已 ))

(PP-TMP (P 在 ) (LCP (NP (QP (CD 一 ) (CLP (M 个 )))

(NP (NN 月 ))) (LC 前 )))

(VP (VV 宣布 ) (NP-OBJ (-NONE- *T*-2)))))

Page 16: 国内中文树库需加强 谓词 - 论元结构描写

(IP (NP-TPC-2 (DP (DT各 ) (CLP (M 种 )))

(NP (NN 收费 ))) (NP-SBJ (-NONE- *pro*)) (VP (ADVP (AD 已 ))

(PP-TMP (P 在 ) (LCP (NP (QP (CD 一 ) (CLP (M 个 )))

(NP (NN 月 ))) (LC 前 )))

(VP (VV 宣布 ) (NP-OBJ (-NONE- *T*-2)))))

删除空语类和功能标记

Page 17: 国内中文树库需加强 谓词 - 论元结构描写

(IP (NP (DP (DT各 ) (CLP (M 种 )))

(NP (NN 收费 ))) (VP (ADVP (AD 已 ))

(PP (P 在 ) (LCP (NP (QP (CD 一 ) (CLP (M 个 )))

(NP (NN 月 ))) (LC 前 )))

(VP (VV 宣布 ))))

删除后的树库样本

Page 18: 国内中文树库需加强 谓词 - 论元结构描写

讨论:黎锦熙定义的补足语• ( 黎锦熙 1924:27 )补足语总共有五种,都是用来补足句中谓语 ( 动词 ) 所没有完全表达出来的意思的,所以叫补足语。 ( 简称足语,和后附于动词或形容词的‘副词性附加语’即一般所谓补语的性质不同,成分不同。 )

• 黎氏句本位思想:要在句子的整体视野下考察句子的语法结构,否则句子意思是不完整的。

•从本质上讲,词组本位用上下文无关的眼光看待短语和句子的结构,因此它不描写跨短语或跨小句的谓词 - 论元关系。

Page 19: 国内中文树库需加强 谓词 - 论元结构描写

讨论:黎著中的补足语例句• 黎氏把宾语和补足语都定义为动词的连带成分。

如同动词(系词和动词“有”)后的名词性成分:

○工人是劳动者。○空气也有重量。

• 后来被称为递系句和兼语句的句型,黎氏当时称之为特定外动词及其连带成分所形成的句型:○工人请我报告。○工人推举张同志作代表。○我爱他们诚实。

Page 20: 国内中文树库需加强 谓词 - 论元结构描写

讨论:用“补足语”取代“补语” • 国内语法学界把补语定义为动词后面的副词性附加

语,而补语和补足语的英译名都是 complement。“前主后宾,前状后补”是结构主义留给我们的遗产吗?

• 吕叔湘在“现代汉语语法 ( 提纲 )”(未发表 ) 中主张完全抛弃“补语”的国内通行含义,重新将“补语” 用于类似于“补足语”的含义。

(《吕叔湘全集》第十三卷: 452-475 )• CTB 在大规模树库中完全不用“补语”这个概念,其利弊得失可供我们自由评说。

Page 21: 国内中文树库需加强 谓词 - 论元结构描写

北京大学中文树库(詹卫东 2008)

zj

!vp wfs

!vp dj

!v np !vp

!np np pp !vp

!n !n !p vp !vp np

!vp np !vp ule ap !np

!v np ude1 !vp !v !a !n

!n np !vp

!n !v

赞扬 侨胞 台胞 为 支援 祖国 的 社会主义 建设 做出 了 重要 贡献 。

例 4 :赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(小句兵)

Page 22: 国内中文树库需加强 谓词 - 论元结构描写

北京大学中文树库 (PKU)• 詹坦言,北京大学和清华大学提出的句法标住体系,

“主要是以结构主义语法理论为背景”,由于 PKU的加工规范“不假设深层结构,因而也没有深层结构成分的标记”;并且“从资料的易维护性和易扩展性考虑”,“主张分层分级标注”短语的内部结构类型、语义角色等信息,“而不实行宾州树库那样将这些信息都以树节点标签的形式来反映”。

(詹卫东 2008 )• 生成语法后期已放弃深层结构的假设,而且改变了前

期把句法和语义割裂开来的错误做法,这一时期的重要进步是:用空语类和同指索引描写句子中的远距离依存关系。国内树库建设出现某些疏漏的主要原因是:对当代语言学理论存有不同认识。

Page 23: 国内中文树库需加强 谓词 - 论元结构描写

例 4 的 CTB 格式(兼语句) IP

NP-SBJ VP W。

-NONE- v NP-OBJ IP

n n NP-SBJ VP

-NONE- PP-PRP VP

p IP v as NP-OBJ

NP-SBJ VP ADJP NP

-NONE- V NP-OBJ a vn

DNP NP

NP dec n vn

n

*pro* 赞扬 侨胞 台胞 *PRO* 为 *pro* 支援 祖国 的 社会主义 建设 做出 了 重要 贡献 。

例 4 :赞扬侨胞台胞为支援祖国的社会主义建设做出了重要贡献。(詹卫东 2008 )

Page 24: 国内中文树库需加强 谓词 - 论元结构描写

结束语• 国内中文树库对促进汉语句法分析技术的进步作出了巨大的贡献,然而它们在谓词 -论元结构描写方面的疏漏也是明显的。

• 树库建造离不开语言学理论的指导,我们在语言理论上的落后应当引起足够重视。

•今后构建的中文树库应在句法、语义两个层面上加强谓词 - 论元结构描写;现有树库则可通过适当改造来加深句法描写深度。

Page 25: 国内中文树库需加强 谓词 - 论元结构描写

谢谢!