12
汉语阅读分级指难针languagedata.net/editor 使 语言数据网 2018 11 月版

languagedata.net/editor · 绿色—中 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的二级词汇 黑色 — 初 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的一级词汇

  • Upload
    others

  • View
    30

  • Download
    1

Embed Size (px)

Citation preview

“汉语阅读分级指难针” languagedata.net/editor

使 用 手 册

语言数据网

2018年 11月版

- 1 -

工具概述

“汉语阅读分级指难针”邀请周小兵教授担任学术顾问,由金檀、陆小飞、林筠、李百川共同主持研发,旨在为国际汉语教师提供阅读文本的难度定级与智能改编,共包含“文本定级”“词语标注”和“字词档案”三个核心模块。 模块一:文本定级

在文本定级中,该工具以《汉语国际教育用音节汉字词汇等级划分》(2010)与《国际汉语教学通用课程大纲》(2008)为定级参考标准,通过算法生成文本难度值,为文本难度提供数值结果。文本难度值范围从 1到 4,以 0.5为区间宽度,共分为 6个区间,由易到难每 2个区间与《汉语国际教育用音节汉字词汇等级划分》中的 1个等级相对应。此外,文本难度值每个区间与《国际汉语教学通用课程大纲》中的 6个等级也可一一对应。

文本难度 等级划分 大纲等级

[1.00, 1.50] 初等

一级

(1.50, 2.00] 二级

(2.00, 2.50] 中等

三级

(2.50, 3.00] 四级

(3.00, 3.50] 高等

五级

(3.50, 4.00] 六级

- 2 -

模块二:词语标注 在词语标注中,该工具通过算法生成词汇难度,对文本中的词语和句子进行划分和标

注,具体包括:自动分词、自动标词、自动划句、自动计频和自动链接。

自动分词: 自动标词: 自动划句: 自动计频: 自动链接:

使用空格将文本中的词语自动分开; 使用红、紫、黄、绿、黑、粉、蓝 7种颜色标注词语难度等级与分类; 使用下划线标注全文中最长句子; 右上角标显示所有超纲词在语料库*中的频次; 链接并提供词语在语料库中的相关例句。

*汉语教材语料库(网址:https://www.languagedata.net/corpus/) 模块三:字词档案

在字词档案中,该工具可基于《汉语国际教育用音节汉字词汇等级划分》,分别对汉字

/词语的频率、等级与比例进行统计,并显示结果,如左图的“汉字列表”与右图的“词语列表”。 引用请注明出处: ² 金檀、陆小飞、林筠、李百川. (2018). “汉语阅读分级指难针”. 广州:语言数据网

(languagedata.net/editor). ² Jin, T., Lu, X., Lin, Y., & Li, B. (2018). Chi-Editor: An online Chinese text evaluation and

adaptation system. Guangzhou: LanguageData (languagedata.net/editor).

- 3 -

研究基础与应用研究

研究基础

[1] Jin, T., Li, Y., & Li, B. (2016). Vocabulary coverage of reading tests: Gaps between teaching

and testing. TESOL Quarterly, 50(4), 955-964.

[2] Jin, T., Guo, K., Mak, B., & Wu, Q. (2017). Lexical profiles of reading texts in high-stakes

tests: Where are the benchmarks? IJCALLT, 7(1), 34-49.

[3] Lu, X. (2011). A corpus-based evaluation of syntactic complexity measures as indices of

college-level ESL writers’ language development. TESOL Quarterly, 45(1), 36-62.

[4] Lu, X. (2017). Automated measurement of syntactic complexity in corpus-based L2 writing

research and implications for writing assessment. Language Testing, 34(4), 493-511.

[5] Jin, T., & Lu, X. (2018). A data-driven approach to text adaptation in teaching material

preparation: Design, implementation, and teacher professional development. TESOL

Quarterly, 52(2), 457-467.

[6] 郭凯、金檀、陆小飞. (2018). 文本难度调控的研究与实践—从可读公式、多维特征到智

能改编. 《外语测试与教学》, (3), 35-43.

应用研究*

[1] 宋贝贝、周小兵、金檀. (2017). 高频超纲词的覆盖率及语义透明度. 《汉语学习》, (3),

95-104.

[2] 许琪. (2016). 读后续译的协同效应及促学效果. 《现代外语》, 39(6), 830-841.

[3] 徐伟. (2017). 词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究. 《外语测试

与教学》, (4), 24-35.

[4] 许希阳、吴勇毅. (2016). “产出导向法”理论视角下的对外汉语写作教学模式之探索. 《华

文教学与研究》, (4), 50-60.

[5] 周小兵、薄巍、王乐、李亚楠. (2017). 国际汉语教材语料库的建设与应用. 《语言文字

应用》, (1), 125-135.

[6] 洪炜、吴安婷、伍秋萍. (2018). 任务的模态配置对汉语二语文本理解、词汇和句法学习

的影响. 《世界汉语教学》, 32(3), 401-416.

*目前引用“指难针”的部分论文。

- 4 -

操作指引 访问网址 https://languagedata.net/editor,进入“汉语阅读分级指难针”登录界面。

如果已有账号,请直接填写账号与密码,并输入图示验证码,点击左侧“登录”按钮,即

可进入“汉语文本阅读分级指难针”的操作界面。 如果首次使用,请先进行注册。点击右侧“注册”按钮,进入注册界面。填写用户名、密

码与手机等信息之后,输入图示验证码,点击“注册”按钮,即可完成注册。

- 5 -

进入“汉语阅读分级指难针”的操作界面之后,在文本框中输入需要分析的文本内容,在验证码框中输入图示验证码,点击“开始分析”按钮,工具即可开始自动分析文本。

模块一:文本定级 功能 1 难度等级报告图 工具可对文本进行难度定级,以文本难度数值为横坐标,以大纲等级为纵坐标,自动生

成“难度等级报告图”。图中 6个大纲等级使用 6个不同色块进行区分,被分析的文本难度值以红色箭头在图中标记出,更直观地反映出该文本在难度区间内的准确位置。以难度数值

2.84为例进行说明,2.84位于区间 2.50至 3.00内,其等级划分为中等,大纲等级为四级。

- 6 -

功能 2 难度等级报告表 工具可自动生成“难度等级报告表”。词汇难度的量化指标通过计算 6种词汇(初级词、中级词、高级词、更高级词、专有名词、超纲词)所占比例得出;该工具以汉字为计量单位,

提供平均句长、最长句长、文本长度的计算结果;本文难度值以《汉语国际教育用音节汉字

词汇等级划分》与《国际汉语教学通用课程大纲》为参考,通过既定算法得出难度数值并提

供等级划分结果。

模块二:词语标注 功能 1 自动分词 点击“词语标注”按钮,进入相应界面,工具可自动对不同词语进行划分,并用空格将其

间隔开。

功能 2 自动标词 在标注词语界面,工具提供了“超纲词”“更高级词”“高级词”“中级词”“初级词”“专有名词”与“HSK词汇”共 7个选项,使用者可根据目标需求选择需要标注出的等级与分类。

- 7 -

红色—超 纲 词: 《汉语国际教育用音节汉字词汇等级划分》未收录的词

紫色—更高级词: 《汉语国际教育用音节汉字词汇等级划分》中的四级词汇

黄色—高 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的三级词汇

绿色—中 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的二级词汇

黑色—初 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的一级词汇

粉色—专有名词: 专有名词

蓝色—HSK词汇: 《新汉语水平考试大纲》(2012)所收录的词汇 右下角以数字 1-6标注其所在等级

功能 3 自动划句 工具可识别目标文本中的最长句,并使用下划线标记出来。

功能 4 自动计频 每个红色“超纲词”右上角的数字表示该词在语料库中出现的频次。

- 8 -

功能 5 自动链接 点击词语,可自动链接到语料库,查看该词语在其中的相关例句。

模块三:字词档案 功能 1 自动切词结果 点击“字词档案”按钮,进入相应界面,用户可在此通过添加或删减分隔符号“/”的方式对

工具切词结果进行干预和调整,点击“继续分析”得到“字词档案”与“汉字/词语列表”。

- 9 -

功能 2 字词档案 “字词档案结果报告”包含“汉字档案”“词语档案”“HSK词汇档案”3张表格,每张表格都将“字/词数”“字/词种数”“字/词分布”与“字/词累积分布”按难度等级依次列出。

功能 3 字词列表

工具可提供“汉字列表”“词语列表”“HSK 词汇列表”,分别对汉字/词语的频率、等级与比例进行统计。

- 10 -

*用户中心

点击页面右上角的用户名,可以进入“用户中心”页面。选择“任务计划”,可以查看提交的分析任务;选择“用户信息”,可以进入个人信息页面,对信息内容进行更新或修改;选择“返回首页”,可以返回工具首页,提交新的分析任务。

外语教师数据素养课程

“语言、数据与研究”系列

主编寄语

“语言、数据与研究”系列旨在为外语教师、外语专业研究生与高年级本科生打造语言数据素养精品课程: 第一季《阿檀小倪讲量化》,我们“带着问题学方法”(2016); 第二季《量化工具百宝箱》,我们“不忘初心用工具”(2017); 第三季《论文发表学者谈》,我们“继续前行写论文”(2017); 第四季《人工智能案例说》,我们“做好研究上好课”(2018)。

—— 金 檀、陆小飞