Upload
abigail-zamora
View
22
Download
5
Embed Size (px)
DESCRIPTION
Q T. /. 陈 德 @ 浙江大学. Jaccard Similarity. 编辑距离. 规则. 分词. ICTCLAS. Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 / ng 害 /v 第二 /m 关 /n 找 /v 不 到 /v 初始 /b 位子 /n 。 / wj. 词 对齐. Q: 妄想 性仮想人格障害 / zz - PowerPoint PPT Presentation
Citation preview
1
Q T陈德 @ 浙江大学
/
2
规则
编辑距离
Jaccard Similarity
3
分词 ICTCLAS
词对齐
Q: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 /ng 害 /v
T: 妄想 /v 性 /n 仮 /x 想 /v 人格 /n 障 /ng 害 /v 第二 /m 关 /n 找 /v 不到 /v 初始 /b 位子 /n 。 /wj
Q: 妄想性仮想人格障害 /zzT: 妄想性仮想人格障害 /zz 第二 /m 关 /n 找 /v 不到 /v 初始/b 位 子 /n 。 /wj
4
词过滤 POS
助词( \u ) 叹词( \e ) 标点( \w )连词( \c ) 语气词( \r )某些特定类型词:邮箱名、客气词等。
5
词权值TF-IDF 、词长度train4user.txt 、 test4user.txt
𝑥=𝑁∗𝑙𝑥
妄想性仮想人格障害 /zz/2.9904
妄想性仮想人格障害 /zz/1.3373 第二 /m/0.2494 关 /n/0.4392 找 /v/0.2069 不到 /v/0.4088 初始 /b/0.8123 位子 /n/1.1081
6
相似度: 分词前的原始字符串
添加( 1 )、删除( 1 )、替换( 1.2 ): 处理后的词数组
添加()、添加()、替换
7
𝑗𝑎𝑐𝑐=𝑊 (𝑄∩𝑇 )𝑊 (𝑄∪𝑇 )
𝑠𝑖𝑚𝑖=1.0−2∗𝑒𝑑1∗𝑒𝑑2𝑒𝑑1+𝑒𝑑2
8
初始判别
10.75
0.48
9
相似度调整 规则使用
𝜶
0 1相似度
升高相似度
降低相似度
10
规则
某词性在且仅在 Query 、 Title 之一中出现
处所词( s ) : 外地、国外、网上…… 方位词( f ) : 外侧、里面、附近…… 数词( m ) : 20 、二、 2013 字符串( x ) : pdf 、 i9100 、 iphone
某些词在 Query 、 Title 中出现的情况 在之一中存在() 同时存在但没有共同的词()
地名( ns ):北京、上海、日本 疑问代词( ry ):为什么、怎么、如何
降低
11
规则升高
某些词在 Query 、 Title 中同时出现
地名( ns ):北京、上海、日本 疑问代词( ry ):为什么、怎么、如何 字符串( x ) : pdf 、 i9100 、 iphone
降低 Query 和 Title 中首尾词的权值,词性 /zz , /ns 除外
12
不足与改进 分词结果不够理想,可以选用好的分词
工具,添加丰富的用户词库。
没有考虑到同义词,尤其在编辑距离的计算中影响巨大。
仅通过 TF-IDF 和词的长度来判断词的重要性,不够准确。
缺乏语法语义上的分析。
13
谢谢