20
藏文信息处理研究刍议: 下一步做什么及怎么做? 1 孙茂松 清华大学计算机科学与技术系 [email protected] 首届全国藏文信息处理研讨会, 2014816日,青海师范大学

藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

  • Upload
    others

  • View
    30

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

藏文信息处理研究刍议:

下一步做什么及怎么做?

1

孙茂松

清华大学计算机科学与技术系[email protected]

首届全国藏文信息处理研讨会,

2014年8月16日,青海师范大学

Page 2: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

2

• 制定广为接受的藏文相关加工标准规范

+ 文法研究历史悠长、基础深厚:文法根本三十颂、字性组织法。《实用藏文文法教程》

+ 已有不少相关工作积累

+ 容易取得共识

• 开放藏文词法分析相关加工语料库

+ 以开放促高质量资源建设

• 组织藏文词法分析相关公开评测

+ 以评测促高性能分析算法研究

• 开放(开源)藏文词法分析软件

一、巩固、光大藏文词法分析成果

Page 3: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

3

• 多方面的需求

+ 信息处理

+ 社会文化交流

+ 基础教育

+ 语言学和认知相关研究

• 中小学藏文课本与网络文本相结合,

语料库统计为主与专家感性判断为辅相结合

+ 藏文分级词汇表

• 进一步地,研制藏汉常用词对照表

二、研制藏文常用词频率词典

Page 4: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

4

• 正当其时

+ 藏文词法分析基本成熟

+ 藏文网络资源规模尚不大:藏文网站180余个,除境外网站和访问不顺畅的网站外,约104个(国家社科

基金项目《中国少数民族互联网发展状况研究》报告)

三、研发藏文搜索引擎

Page 5: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

5

• 藏文网站类型

三、研发藏文搜索引擎

Page 6: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

6

• 有了词法分析扎实的基础,相关技术水到渠成

• 藏文关键词抽取

+ 关键词云图

• 藏文文本分类

+ 80%以上的分类准确率应无问题

四、研发藏文关键词抽取及文本分类技术

Page 7: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

7

• 藏文网站语种情况

五、研发藏文跨语言检索系统

Page 8: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

8

• 新词语自动识别

• 热点词语自动识别

• 动态隐含话题模型

• 基于话题链的事件

序列分析

• 信息可视化

• 情感计算

六、研制藏文舆情分析系统

Page 9: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

9

• 如何快速建立藏文大规模词语关联(本体库)?

• 途径之一: Word2Vec

For the Web, From the Web ……

Word2Vec

七、构造大规模藏文词语关联(本体库)

Page 10: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

10

七、构造大规模藏文词语关联(本体库)

Page 11: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

11

七、构造大规模藏文词语关联(本体库)

Page 12: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

七、构造大规模藏文词语关联(本体库)

最短路径: 冈仁波齐峰 -> 西藏地理->冈底斯山脉

• 途径之二: 维基百科

Page 13: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

七、构造大规模藏文词语关联(本体库)

分类: 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 扎什伦布寺: [佛教圣地, 格鲁派, 国家4A级旅游景区, 藏传佛教寺院] 最短路径: 冈仁波齐峰 -> 佛教圣地 -> 扎什伦布寺

Page 14: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

七、构造大规模藏文词语关联(本体库)

分类: 松赞干布: [唐朝郡王, 唐朝驸马, 藏传佛教, 吐蕃赞普, 西藏历史, 人物神] 冈仁波齐峰: [佛教圣地, 西藏山峰, 西藏地理] 最短路径: 松赞干布 -> 藏传佛教 -> 藏区 -> 西藏 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 藏区 -> 藏区地理 -> 西藏地理 -> 冈仁波齐峰 松赞干布 -> 藏传佛教 -> 西藏宗教 -> 西藏 -> 西藏地理 -> 冈仁波齐峰

Page 15: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

八、藏文分析从词法层走向句法语义层

15

V + 𝑁 → 𝑁𝑃 V + 𝑁 → 𝑉𝑃

V + 𝑁 → 𝑉𝑃 572棵句法树!

美女学者朱怀真研究西维因残留提取方法。

Page 16: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

八、藏文分析从词法层走向句法语义层

Page 17: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

17

我们要研究学习的方法。 今天我们研究这类问题的另一种解决方法…。 近闻美国和日本正在研究用Na2SO3吸收法作为治理SO2污染的一种新方法。 ……… 教育研究领域积累了种种研究方法,诸如调查法、观察研究、访谈法、…… 调查研究的方法 研究性学习方法

争取突破高水平论文(ACL)!

八、藏文分析从词法层走向句法语义层

Page 18: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

18

八、藏文分析从词法层走向句法语义层

Page 19: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

顺便提及……

19

“第十 三届全国计算语言学会议(CCL 2014)及第二届

基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2014) “Knowledge Graph Workshop” * 分词国际标准简介

Page 20: 藏文信息处理研究刍议: 下一步做什么及怎么做?nlp.csai.tsinghua.edu.cn/site2/images/download/20140816-sms.pdf · 藏文信息处理研究刍议: 下一步做什么及怎么做?

20

谢谢!

扎西德勒!