Upload
others
View
30
Download
1
Embed Size (px)
Citation preview
- 1 -
工具概述
“汉语阅读分级指难针”邀请周小兵教授担任学术顾问,由金檀、陆小飞、林筠、李百川共同主持研发,旨在为国际汉语教师提供阅读文本的难度定级与智能改编,共包含“文本定级”“词语标注”和“字词档案”三个核心模块。 模块一:文本定级
在文本定级中,该工具以《汉语国际教育用音节汉字词汇等级划分》(2010)与《国际汉语教学通用课程大纲》(2008)为定级参考标准,通过算法生成文本难度值,为文本难度提供数值结果。文本难度值范围从 1到 4,以 0.5为区间宽度,共分为 6个区间,由易到难每 2个区间与《汉语国际教育用音节汉字词汇等级划分》中的 1个等级相对应。此外,文本难度值每个区间与《国际汉语教学通用课程大纲》中的 6个等级也可一一对应。
文本难度 等级划分 大纲等级
[1.00, 1.50] 初等
一级
(1.50, 2.00] 二级
(2.00, 2.50] 中等
三级
(2.50, 3.00] 四级
(3.00, 3.50] 高等
五级
(3.50, 4.00] 六级
- 2 -
模块二:词语标注 在词语标注中,该工具通过算法生成词汇难度,对文本中的词语和句子进行划分和标
注,具体包括:自动分词、自动标词、自动划句、自动计频和自动链接。
自动分词: 自动标词: 自动划句: 自动计频: 自动链接:
使用空格将文本中的词语自动分开; 使用红、紫、黄、绿、黑、粉、蓝 7种颜色标注词语难度等级与分类; 使用下划线标注全文中最长句子; 右上角标显示所有超纲词在语料库*中的频次; 链接并提供词语在语料库中的相关例句。
*汉语教材语料库(网址:https://www.languagedata.net/corpus/) 模块三:字词档案
在字词档案中,该工具可基于《汉语国际教育用音节汉字词汇等级划分》,分别对汉字
/词语的频率、等级与比例进行统计,并显示结果,如左图的“汉字列表”与右图的“词语列表”。 引用请注明出处: ² 金檀、陆小飞、林筠、李百川. (2018). “汉语阅读分级指难针”. 广州:语言数据网
(languagedata.net/editor). ² Jin, T., Lu, X., Lin, Y., & Li, B. (2018). Chi-Editor: An online Chinese text evaluation and
adaptation system. Guangzhou: LanguageData (languagedata.net/editor).
- 3 -
研究基础与应用研究
研究基础
[1] Jin, T., Li, Y., & Li, B. (2016). Vocabulary coverage of reading tests: Gaps between teaching
and testing. TESOL Quarterly, 50(4), 955-964.
[2] Jin, T., Guo, K., Mak, B., & Wu, Q. (2017). Lexical profiles of reading texts in high-stakes
tests: Where are the benchmarks? IJCALLT, 7(1), 34-49.
[3] Lu, X. (2011). A corpus-based evaluation of syntactic complexity measures as indices of
college-level ESL writers’ language development. TESOL Quarterly, 45(1), 36-62.
[4] Lu, X. (2017). Automated measurement of syntactic complexity in corpus-based L2 writing
research and implications for writing assessment. Language Testing, 34(4), 493-511.
[5] Jin, T., & Lu, X. (2018). A data-driven approach to text adaptation in teaching material
preparation: Design, implementation, and teacher professional development. TESOL
Quarterly, 52(2), 457-467.
[6] 郭凯、金檀、陆小飞. (2018). 文本难度调控的研究与实践—从可读公式、多维特征到智
能改编. 《外语测试与教学》, (3), 35-43.
应用研究*
[1] 宋贝贝、周小兵、金檀. (2017). 高频超纲词的覆盖率及语义透明度. 《汉语学习》, (3),
95-104.
[2] 许琪. (2016). 读后续译的协同效应及促学效果. 《现代外语》, 39(6), 830-841.
[3] 徐伟. (2017). 词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究. 《外语测试
与教学》, (4), 24-35.
[4] 许希阳、吴勇毅. (2016). “产出导向法”理论视角下的对外汉语写作教学模式之探索. 《华
文教学与研究》, (4), 50-60.
[5] 周小兵、薄巍、王乐、李亚楠. (2017). 国际汉语教材语料库的建设与应用. 《语言文字
应用》, (1), 125-135.
[6] 洪炜、吴安婷、伍秋萍. (2018). 任务的模态配置对汉语二语文本理解、词汇和句法学习
的影响. 《世界汉语教学》, 32(3), 401-416.
*目前引用“指难针”的部分论文。
- 4 -
操作指引 访问网址 https://languagedata.net/editor,进入“汉语阅读分级指难针”登录界面。
如果已有账号,请直接填写账号与密码,并输入图示验证码,点击左侧“登录”按钮,即
可进入“汉语文本阅读分级指难针”的操作界面。 如果首次使用,请先进行注册。点击右侧“注册”按钮,进入注册界面。填写用户名、密
码与手机等信息之后,输入图示验证码,点击“注册”按钮,即可完成注册。
- 5 -
进入“汉语阅读分级指难针”的操作界面之后,在文本框中输入需要分析的文本内容,在验证码框中输入图示验证码,点击“开始分析”按钮,工具即可开始自动分析文本。
模块一:文本定级 功能 1 难度等级报告图 工具可对文本进行难度定级,以文本难度数值为横坐标,以大纲等级为纵坐标,自动生
成“难度等级报告图”。图中 6个大纲等级使用 6个不同色块进行区分,被分析的文本难度值以红色箭头在图中标记出,更直观地反映出该文本在难度区间内的准确位置。以难度数值
2.84为例进行说明,2.84位于区间 2.50至 3.00内,其等级划分为中等,大纲等级为四级。
- 6 -
功能 2 难度等级报告表 工具可自动生成“难度等级报告表”。词汇难度的量化指标通过计算 6种词汇(初级词、中级词、高级词、更高级词、专有名词、超纲词)所占比例得出;该工具以汉字为计量单位,
提供平均句长、最长句长、文本长度的计算结果;本文难度值以《汉语国际教育用音节汉字
词汇等级划分》与《国际汉语教学通用课程大纲》为参考,通过既定算法得出难度数值并提
供等级划分结果。
模块二:词语标注 功能 1 自动分词 点击“词语标注”按钮,进入相应界面,工具可自动对不同词语进行划分,并用空格将其
间隔开。
功能 2 自动标词 在标注词语界面,工具提供了“超纲词”“更高级词”“高级词”“中级词”“初级词”“专有名词”与“HSK词汇”共 7个选项,使用者可根据目标需求选择需要标注出的等级与分类。
- 7 -
红色—超 纲 词: 《汉语国际教育用音节汉字词汇等级划分》未收录的词
紫色—更高级词: 《汉语国际教育用音节汉字词汇等级划分》中的四级词汇
黄色—高 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的三级词汇
绿色—中 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的二级词汇
黑色—初 级 词: 《汉语国际教育用音节汉字词汇等级划分》中的一级词汇
粉色—专有名词: 专有名词
蓝色—HSK词汇: 《新汉语水平考试大纲》(2012)所收录的词汇 右下角以数字 1-6标注其所在等级
功能 3 自动划句 工具可识别目标文本中的最长句,并使用下划线标记出来。
功能 4 自动计频 每个红色“超纲词”右上角的数字表示该词在语料库中出现的频次。
- 8 -
功能 5 自动链接 点击词语,可自动链接到语料库,查看该词语在其中的相关例句。
模块三:字词档案 功能 1 自动切词结果 点击“字词档案”按钮,进入相应界面,用户可在此通过添加或删减分隔符号“/”的方式对
工具切词结果进行干预和调整,点击“继续分析”得到“字词档案”与“汉字/词语列表”。
- 9 -
功能 2 字词档案 “字词档案结果报告”包含“汉字档案”“词语档案”“HSK词汇档案”3张表格,每张表格都将“字/词数”“字/词种数”“字/词分布”与“字/词累积分布”按难度等级依次列出。
功能 3 字词列表
工具可提供“汉字列表”“词语列表”“HSK 词汇列表”,分别对汉字/词语的频率、等级与比例进行统计。
- 10 -
*用户中心
点击页面右上角的用户名,可以进入“用户中心”页面。选择“任务计划”,可以查看提交的分析任务;选择“用户信息”,可以进入个人信息页面,对信息内容进行更新或修改;选择“返回首页”,可以返回工具首页,提交新的分析任务。