基于模糊犡犕犔的小枝查询处理 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/lj-2014914163756.pdf · 犓犲狔狑狅狉犱狊 Web；fuzzydata；XML；twigpatternmatching；index

书书书

第３７卷　第９期２０１４年９月

计　　算　　机　　学　　报ＣＨＩＮＥＳＥＪＯＵＲＮＡＬＯＦＣＯＭＰＵＴＥＲＳ

Ｖｏｌ．３７Ｎｏ．９Ｓｅｐｔ．２０１４

　

收稿日期：２０１２０３１６；最终修改稿收到日期：２０１４０３０７．本课题得到国家自然科学基金（６０８７３０１０，６１０７３１３９）和教育部中央高校基本科研业务费（Ｎ０９０５０４００５，Ｎ１００６０４０１７）资助．刘　健，男，１９８４年生，博士研究生，主要研究方向为数据库与ＸＭＬ数据管理．Ｅｍａｉｌ：ｌｙｏｔ＠１６３．ｃｏｍ．马宗民，男，１９６５年生，博士，教授，博士生导师，主要研究领域为智能数据与知识工程．璩秋龙，男，１９８７年生，硕士研究生，主要研究方向为ＸＭＬ数据管理．

基于模糊犡犕犔的小枝查询处理刘健　马宗民　璩秋龙（东北大学信息科学与工程学院　沈阳　１１０００４）

摘　要　现实世界中存在大量的不精确和不确定信息，因此，针对模糊数据的表示和处理的研究工作已经广泛展开．作为下一代Ｗｅｂ语言，ＸＭＬ已经成为当前Ｗｅｂ数据表示与交换的标准．不精确和不确定数据的出现对ＸＭＬ提出了新的挑战，现有的研究成果已不能满足模糊ＸＭＬ环境下智能化数据管理的迫切需求．为此，文中在模糊ＸＭＬ数据模型的基础上，从编码技术入手，讨论模糊ＸＭＬ环境下的结点编码问题，进而研究模糊ＸＭＬ环境下的小枝查询问题．文中提出了基于模糊ＸＭＬ的小枝模式匹配算法，给出了加速小枝匹配的索引算法，并最终通过实验证明了所提方法的优越性．

关键词　Ｗｅｂ；模糊数据；ＸＭＬ；小枝匹配；索引中图法分类号ＴＰ３１１　　　犇犗犐号１０．３７２４／ＳＰ．Ｊ．１０１６．２０１４．０１９７２

犙狌犲狉狔犻狀犵犜狑犻犵狊犻狀犉狌狕狕狔犡犕犔犇狅犮狌犿犲狀狋狊ＬＩＵＪｉａｎ　ＭＡＺｏｎｇＭｉｎ　ＱＶＱｉｕＬｏｎｇ

（犆狅犾犾犲犵犲狅犳犐狀犳狅狉犿犪狋犻狅狀犛犮犻犲狀犮犲犪狀犱犈狀犵犻狀犲犲狉犻狀犵，犖狅狉狋犺犲犪狊狋犲狉狀犝狀犻狏犲狉狊犻狋狔，犛犺犲狀狔犪狀犵　１１０００４）

犃犫狊狋狉犪犮狋　Ｉｎｆｏｒｍａｔｉｏｎｉｓｏｆｔｅｎｉｍｐｒｅｃｉｓｅａｎｄｕｎｃｅｒｔａｉｎｉｎｒｅａｌｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎｓ，ｔｈｅｒｅｆｏｒｅ，ｔｈｅｒｅｓｅａｒｃｈｏｎｒｅｐｒｅｓｅｎｔｉｎｇａｎｄｐｒｏｃｅｓｓｉｎｇｆｕｚｚｙｄａｔａｈａｓｂｅｅｎｅｘｔｅｎｓｉｖｅｌｙｄｅｖｅｌｏｐｅｄ．ＡｓｔｈｅｎｅｘｔｇｅｎｅｒａｔｉｏｎｏｆｔｈｅＷｅｂｌａｎｇｕａｇｅ，ＸＭＬｉｓｓｔｒａｉｇｈｔｆｏｒｗａｒｄｌｙｕｓａｂｌｅ，ｗｈｉｃｈｈａｓｂｅｅｎｔｈｅｄｅｆａｃｔｏｓｔａｎｄａｒｄｏｆｉｎｆｏｒｍａｔｉｏｎｒｅｐｒｅｓｅｎｔａｔｉｏｎａｎｄｅｘｃｈａｎｇｅｏｖｅｒｔｈｅＷｅｂ．ＴｈｅｅｍｅｒｇｅｎｃｅｏｆｉｍｐｒｅｃｉｓｅａｎｄｕｎｃｅｒｔａｉｎｄａｔａｂｒｉｎｇｓｎｅｗｃｈａｌｌｅｎｇｅｓｆｏｒｔｈｅＸＭＬｄｏｃｕｍｅｎｔｓ，ａｎｄｃｕｒｒｅｎｔｅｆｆｏｒｔｓｆａｌｌｓｈｏｒｔｉｎｔｈｅｉｒａｂｉｌｉｔｉｅｓｔｏｍｅｅｔｔｈｅｎｅｅｄｏｆｉｎｔｅｌｌｉｇｅｎｔｍａｎａｇｅｍｅｎｔｏｎＸＭＬｄａｔａ．Ｈｅｎｃｅ，ｓｔａｒｔｉｎｇｗｉｔｈａｎｉｎｖｅｓｔｉｇａｔｉｏｎｏｎｆｕｚｚｙＸＭＬｄａｔａｍｏｄｅｌ，ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｐｒｏｂｌｅｍｏｆｅｆｆｅｃｔｉｖｅｌｙｅｎｃｏｄｉｎｇｔｈｅｎｏｄｅｓｉｎｆｕｚｚｙＸＭＬ．Ｏｎｔｈｉｓｂａｓｉｓ，ｔｈｅｐｒｏｂｌｅｍｏｆｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇｉｎｆｕｚｚｙＸＭＬｉｓｆｕｒｔｈｅｒｓｔｕｄｉｅｄ．Ｉｎｐａｒｔｉｃｕｌａｒ，ａｎｅｆｆｅｃｔｉｖｅａｌｇｏｒｉｔｈｍｆｏｒｍａｔｃｈｉｎｇｔｗｉｇｏｖｅｒｆｕｚｚｙＸＭＬｄａｔａａｎｄａｎｅｆｆｉｃｉｅｎｔｉｎｄｅｘｆｏｒｓｐｅｅｄｉｎｇｕｐｔｈｅｍａｔｃｈｉｎｇｐｒｏｃｅｓｓａｒｅｐｒｏｐｏｓｅｄ．Ｔｈｅｆｉｎａｌｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈｅｓｕｐｅｒｉｏｒｉｔｙｏｆｔｈｅｐｒｏｐｏｓｅｄａｐｐｒｏａｃｈｅｓ．

犓犲狔狑狅狉犱狊　Ｗｅｂ；ｆｕｚｚｙｄａｔａ；ＸＭＬ；ｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇ；ｉｎｄｅｘ

１　引　言随着Ｗｅｂ的广泛使用，互联网已成为人们获取

信息的主要工具．由于互联网数据存在着异构性，为

了有效的处理Ｗｅｂ数据信息，越来越多的应用系统采用了ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）作为数据表示和交换的标准．ＸＭＬ是由ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍ（Ｗ３Ｃ）的ＸＭＬ工作组定义的，ＸＭＬ是ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）

的子集，其目标是允许普通的ＳＧＭＬ在Ｗｅｂ上以目前ＨＴＭＬ的方式被服务、接收和处理．与ＨＴＭＬ相比，ＸＭＬ提供描述结构化数据的格式，具有简单、自我描述的特点．ＸＭＬ是一个格式独立、与平台和应用程序无关的语言，只要应用程序支持ＸＭＬ词汇，就能在应用程序之间无缝的交换数据．因此，处理ＸＭＬ数据的理论和技术成为了数据库领域中的一个研究热点．目前的研究主要包括ＸＭＬ数据模型的研究、ＸＭＬ数据存储、查询和索引等方向．鉴于查询技术在数据管理中的突出地位，如何有效的查询ＸＭＬ数据自然地成为了目前ＸＭＬ方向研究的焦点，引起了学术界的高度关注［１６］．例如，文献［１］中给出了在匹配过程中利用小枝分解查询处理再合并结果的方法寻找匹配解的ＳｔａｃｋＴｒｅｅ算法．但这种分解的方法通常会产生大量无用的中间结果，因此会带来较大的查询开销．为了提高查询效率，文献［２］提出了整体匹配的查询策略，该方法能在仅扫描一次结点的基础上，避免不必要的中间结果的产生，从而保证其高效性．

在现实世界应用中，信息通常是不精确和不确定的．现实世界具有主观性，因此，某些数据在本质上是具有模糊性的．例如，对于一部电影的评价，不同的人会有不同的倾向性，其结果必然会导致评分存在不精确和不确定性．基于关系数据模型的模糊关系数据库已经引起了学者广泛的研究［７９］，当前对模糊数据的研究主要集中在不精确和不确定信息概念数据模型、面向对象数据库和模糊数据库概念设计上，而对在ＸＭＬ环境下如何有效表示和查询不精确和不确定信息的研究还很少，只有含不完全信息的ＸＭＬ［１０１１］和含概率信息的ＸＭＬ［１２１５］在研究文章中有所讨论．文献［１５］在简单概率模型和模糊树模型的基础上，分析了概率ＸＭＬ信息的有效表示问题，同时也解决了概率ＸＭＬ的更新问题．文献［１２］提出了一种基于概率树结构的概率ＸＭＬ模型ＰｒｏＴＤＢ，该模型将数据信息直接存储在ＸＭＬ数据库中，解决了实际应用中关系数据库难于表述概率结构数据的问题．鉴于小枝查询在ＸＭＬ查询问题中占据核心地位，文献［１６］提出了一种基于投影的概率ＸＭＬ小枝查询算法，但该算法需要对ＸＭＬ数据进行重复读取以获得最终匹配结果，这需要较高的代价．借鉴整体匹配的思想，文献［１７］利用阈值信息对ＸＭＬ数据进行预先过滤，提升了不确定ＸＭＬ环境下的小枝查询算法效率．

从现有的关于模糊ＸＭＬ研究的主要文献来

看，该领域虽然吸引了一批学者开展研究工作，但是整体来说研究成果还很少［１８２３］，特别对模糊ＸＭＬ环境下的小枝查询问题的研究还处于起步阶段，许多重要的理论问题和技术难点当前还是研究空白，现有的研究成果无法满足在模糊ＸＭＬ环境下高效处理数据的需求．为此本文将重点研究如何在模糊ＸＭＬ环境下高效地执行小枝查询．本文讨论了模糊ＸＭＬ环境下的结点编码技术，并在此基础上，设计了一种高效的小枝匹配算法．同时本文给出了适于用模糊ＸＭＬ的索引算法，该算法利用索引加速了无关结点的过滤，进而提升了小枝查询的效率．

本文第２节介绍模糊ＸＭＬ数据模型的背景知识；第３节介绍现有的模糊ＸＭＬ结点编码技术；第４节研究模糊ＸＭＬ环境下的小枝匹配问题；第５节讨论如何利用索引提升小枝查询效率；第６节展示实验结果；第７节总结全文．

２　模糊犡犕犔数据模型模糊ＸＭＬ文档中有两类模糊性：（１）一类是元

素的模糊性，可使用成员度与这样的元素关联；（２）一类是元素属性值的模糊性，用可能性分布表示这样的值．依据文献［２０２１］的介绍可知，一个取值为［０，１］的可能性属性“Ｐｏｓｓ”应当首先引入，它与一个称作“Ｖａｌ”的模糊构造子共同用于说明一个给定元素存在于ＸＭＬ文档的可能性．以图１中的第３行为例，〈ＶａｌＰｏｓｓ＝“０．８”〉表明给定的部门“计算机科学与工程”这个元素属于“香港城市大学”的可能性等于０．８．对于可能性为１．０的元素，标签对〈ＶａｌＰｏｓｓ＝“１．０”〉和〈／Ｖａｌ〉可以从ＸＭＬ文档中省略掉．基于标签对〈ＶａｌＰｏｓｓ〉和〈／Ｖａｌ〉，元素的可能性分布可以表示出来，而可能性分布也可以用于表示模糊的元素值．为此，需要引入一个称作“Ｄｉｓｔ”的模糊构造子，以说明一个可能性分布．一个Ｄｉｓｔ元素典型地有多个Ｖａｌ元素作为孩子元素，每一个孩子元素带有一个相关联的可能度．例如回顾图１中的例子，第２４～３４行和第３８～４４行分别表示学生“ＴｏｍＳｍｉｔｈ”的年龄和电子邮件地址可能性分布．

应当说明的是，在实际应用中新增加的模糊标签（模糊结点Ｄｉｓｔ，Ｖａｌ和Ｐｏｓｓ）可能在源文档中已经存在．此时为了避免混淆，我们可以利用ＸＭＬ命名空间（ｎａｍｅｓｐａｃｅｓ）来解决命名冲突的问题．具体来讲，我们将在这些模糊标签前添加独特的标示符（例如用ｆ：Ｄｉｓｔ，ｆ：Ｖａｌ等表示模糊构造子）用以制

３７９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

１．〈ｕｎｉｖｅｒｓｉｔｉｅｓ〉２．〈ｕｎｉｖｅｒｓｉｔｙＵＮａｍｅ＝“香港城市大学”〉３．〈ＶａｌＰｏｓｓ＝“０．８”〉４．〈ｄｅｐａｒｔｍｅｎｔＤＮａｍｅ＝“计算机科学与工程”〉５．〈ｅｍｐｌｏｙｅｅＦＩＤ＝“８５４３１０９５”〉６．〈Ｄｉｓｔｔｙｐｅ＝“ｄｉｓｊｕｎｃｔｉｖｅ”〉７．〈ＶａｌＰｏｓｓ＝“０．８”〉８．〈ｆｎａｍｅ〉ＣｈｒｉｓＦｕｎｇ〈／ｎａｍｅ〉９．〈ｐｏｓｉｔｉｏｎ〉副教授〈／ｐｏｓｉｔｉｏｎ〉１０．〈ｏｆｆｉｃｅ〉Ｂ１０２４〈／ｏｆｆｉｃｅ〉１１．〈ｃｏｕｒｓｅ〉数据库系统〈／ｃｏｕｒｓｅ〉１２．〈／Ｖａｌ〉１３．〈ＶａｌＰｏｓｓ＝“０．６”〉１４．〈ｆｎａｍｅ〉ＣｈｒｉｓＦｕｎｇｒ〈／ｎａｍｅ〉１５．〈ｐｏｓｉｔｉｏｎ〉教授〈／ｐｏｓｉｔｉｏｎ〉１６．〈ｏｆｆｉｃｅ〉Ｂ１０２４〈／ｏｆｆｉｃｅ〉１７．〈ｃｏｕｒｓｅ〉数据库系统〈／ｃｏｕｒｓｅ〉１８．〈／Ｖａｌ〉１９．〈／Ｄｉｓｔ〉２０．〈／ｅｍｐｌｏｙｅｅ〉２１．〈ｓｔｕｄｅｎｔＳＩＤ＝“９６４２１０２７”〉２２．〈ｓｎａｍｅ〉ＴｏｍＳｍｉｔｈ〈／ｎａｍｅ〉２３．〈ａｇｅ〉２４．〈Ｄｉｓｔｔｙｐｅ＝“ｄｉｓｊｕｎｃｔｉｖｅ”〉２５．〈ＶａｌＰｏｓｓ＝“０．４”〉２３〈／Ｖａｌ〉２６．〈ＶａｌＰｏｓｓ＝“０．６”〉２５〈／Ｖａｌ〉２７．〈ＶａｌＰｏｓｓ＝“０．８”〉２７〈／Ｖａｌ〉２８．〈ＶａｌＰｏｓｓ＝“１．０”〉２９〈／Ｖａｌ〉２９．〈ＶａｌＰｏｓｓ＝“１．０”〉３０〈／Ｖａｌ〉３０．〈ＶａｌＰｏｓｓ＝“１．０”〉３１〈／Ｖａｌ〉３１．〈ＶａｌＰｏｓｓ＝“０．８”〉３３〈／Ｖａｌ〉３２．〈ＶａｌＰｏｓｓ＝“０．６”〉３５〈／Ｖａｌ〉３３．〈ＶａｌＰｏｓｓ＝“０．４”〉３７〈／Ｖａｌ〉３４．〈／Ｄｉｓｔ〉３５．〈／ａｇｅ〉３６．〈ｓｅｘ〉Ｍａｌｅ〈／ｓｅｘ〉３７．〈ｅｍａｉｌ〉３８．〈Ｄｉｓｔｔｙｐｅ＝“ｃｏｎｊｕｎｃｔｉｖｅ”〉３９．〈ＶａｌＰｏｓｓ＝“０．６０”〉ＴＳｍｉｔｈ＠ｙａｈｏｏ．ｃｏｍ〈／Ｖａｌ〉４０．〈ＶａｌＰｏｓｓ＝“０．８５”〉Ｔ．Ｓｍｉｔｈ＠ｙａｈｏｏ．ｃｏｍ〈／Ｖａｌ〉４１．〈ＶａｌＰｏｓｓ＝“０．８５”〉Ｔ．Ｓｍｉｔｈ＠ｈｏｔｍａｉｌ．ｃｏｍ〈／Ｖａｌ〉４２．〈ＶａｌＰｏｓｓ＝“０．５５”〉ＴＳｍｉｔｈ＠ｈｏｔｍａｉｌ．ｃｏｍ〈／Ｖａｌ〉４３．〈ＶａｌＰｏｓｓ＝“０．４５”〉ＴＳｍｉｔｈ＠ｍｓｎ．ｃｏｍ〈／Ｖａｌ〉４４．〈／Ｄｉｓｔ〉４５．〈／ｅｍａｉｌ〉４６．〈／ｓｔｕｄｅｎｔ〉４７．〈／ｄｅｐａｒｔｍｅｎｔ〉４８．〈／Ｖａｌ〉４９．〈／ｕｎｉｖｅｒｓｉｔｙ〉５０．〈ｕｎｉｖｅｒｓｉｔｙＵｎａｍｅ＝“东北大学”〉５１．〈／ｕｎｉｖｅｒｓｉｔｙ〉５２．〈／ｕｎｉｖｅｒｓｉｔｉｅｓ〉

图１　模糊ＸＭＬ文档片段

定模糊标签的有效命名空间，从而避免命名混淆的问题．

模糊ＸＭＬ文档可以用包含精确结点（即非模糊构造子和可能性属性结点）、模糊构造子（Ｖａｌ和Ｄｉｓｔ结点）和可能性属性（Ｐｏｓｓ结点）的标签树来表示．下面我们将给出模糊ＸＭＬ数据模型的形式化定义．

定义１．　模糊ＸＭＬ文档树定义为一个六元组犜＝（犞，犈，狉，φ，ε，δ），其中：

（１）犞表示有限结点集，犞＝犞ｃｒｉ∨犞ｃｏｎ∨犞ｐｏｓｓ，其中犞ｃｒｉ表示精确结点的集合，犞ｃｏｎ表示模糊构造子结点的集合，犞ｐｏｓｓ表示可能性属性结点的集合；犞ｃｏｎ＝犞Ｄｉｓｔ∨犞Ｖａｌ，犞Ｄｉｓｔ表示Ｄｉｓｔ模糊构造子的集合，犞Ｖａｌ表示Ｖａｌ模糊构造子的集合．

（２）犈犞×犞为边的集合．（３）狉为树犜的根结点．（４）φ：犞ｃｒｉ→犔表示精确结点的标示函数，其中

犔表示元素和属性名的集合；φ：犞ｃｏｎ→｛“Ｄｉｓｔ”，“Ｖａｌ”，“Ｐｏｓｓ”｝表示模糊结点的标示函数，狏∈犞Ｄｉｓｔ，φ（狏）＝“Ｄｉｓｔ”，狏∈犞Ｖａｌ，φ（狏）＝“Ｖａｌ”，狏∈犞ｐｏｓｓ，φ（狏）＝“Ｐｏｓｓ”．

（５）ε：犞ｌｅａｆ→犇表示叶子结点的数据值，其中犞ｌｅａｆ表示叶子结点的集合，犇表示数据值的集合．

（６）δ：犞ｃｒｉ∨犞ｐｏｓｓ→狆表示结点的可能性值，０狆１．

３　结点编码所谓ＸＭＬ结点编码，是指按照某种规则对

ＸＭＬ树的每一个结点分配唯一的编码，目的是通过任意两个结点的编码，能够直接判断两个结点之间的结构关系（祖先后代关系或者父子关系），进而提升ＸＭＬ数据处理的效率．在模糊ＸＭＬ环境下，为了高效的处理数据，我们同样地引入了结点编码的思想．依据文献［１８］的介绍可知，我们可以用一个五元组（犇狅犮犐犱，犔犲犳狋犘狅狊：犚犻犵犺狋犘狅狊，犔犲狏犲犾犖狌犿，犉狌狕狕狔，犉狌狕狕狔犛犲狇狌犲狀犮犲）表示模糊ＸＭＬ中的结点编码信息，其中，（１）犇狅犮犐犱是文档的标识；（２）犔犲犳狋犘狅狊和犚犻犵犺狋犘狅狊按照先序遍历和回溯的位置编号．犔犲犳狋犘狅狊是在第一次访问该结点时产生的序列号信息，犚犻犵犺狋犘狅狊是在遍历完该结点的所有后裔结点后再一次访问该结点时产生的序列号信息．若犔犲犳狋犘狅狊＝犚犻犵犺狋犘狅狊，则此时结点是叶子结点；（３）犔犲狏犲犾犖狌犿标识结点所在的层数信息．通常认为根结点为第１层，每向下一层，犔犲狏犲犾犖狌犿都会自动加１；（４）犉狌狕狕狔标识结点的性质（区分精确结点和模糊结点），是一个布尔值信息．若犉狌狕狕狔＝１，则表示该结点为模糊结点；若犉狌狕狕狔＝０，则表示该结点为精确结点；（５）犉狌狕狕狔犛犲狇狌犲狀犮犲是一个有序模糊结点集，用来存储从根结点到当前结点路径下经过的模糊结点名称、类型、隶属度信息．当从根结点到当前结点路径下不存在模糊结点时，犉狌狕狕狔犛犲狇狌犲狀犮犲为空．

４７９１计　　算　　机　　学　　报２０１４年

图２是基于模糊ＸＭＬ文档的编码实例，这里我们用“圆”表示精确结点，用“三角”表示模糊结点．简便起见，本文用犞犻表示犉狌狕狕狔犛犲狇狌犲狀犮犲信息．由

图２可知，该编码方案具有极强的描述性，能有效地支持精确结点和模糊结点的识别，为模糊ＸＭＬ中的小枝匹配处理奠定基础．

图２　模糊ＸＭＬ结点编码

下面考虑模糊ＸＭＬ中结点间的结构关系判定问题，由于模糊信息的存在，我们需要在上述编码基础上对结点间结构关系，尤其是父子结构关系进行重新定义．此时，结点间结构关系有如下定义．

定义２．　设结点犖狅犱犲１（犇１，犔１：犚１，犔犖１，犉１，犉犛１），犖狅犱犲犻（犇犻，犔犻：犚犻，犔犖犻，犉犻，犉犛犻），犖狅犱犲狀（犇狀，犔狀：犚狀，犔犖狀，犉狀，犉犛狀），１犻狀，分别表示模糊ＸＭＬ中的结点编码信息：（１）若犇１＝犇犻，犔１＜犔犻，犚犻＜犚１，犉２∩犉犽∩犉犻－１＝０（２犽犻－１，犻３），则犖狅犱犲犻是犖狅犱犲１的后代结点，二者之间的结构关系是祖先后代关系（ＡＤ）；（２）若犇１＝犇犻，犔１＜犔犻，犚犻＜犚１，犉１∪犉犻＝０，犔犖１＋１＝犔犖犻，则犖狅犱犲１是犖狅犱犲犻的实父结点，二者之间的结构关系是实父子关系（ＲＰＣ）；（３）若犇１＝犇狀，犔１＜犔狀，犚狀＜犚１，犉１∪犉狀＝０，犔犖１＋犻＝犔犖狀，且犉犻＝１，则犖狅犱犲１是犖狅犱犲狀的实父结点，二者之间的结构关系是实父子关系（ＲＰＣ）；（４）若犇１＝犇犻，犔１＜犔犻，犚犻＜犚１，犉１∪犉犻＝１，犔犖１＋１＝犔犖犻，则犖狅犱犲１是犖狅犱犲犻的模糊父结点，二者之间的结构关系是模糊父子关系（ＦＰＣ）．

在模糊ＸＭＬ中，父子关系ＰＣ可以进一步分为实父子关系ＲＰＣ和模糊父子关系ＦＰＣ．由定义２可知，（１）若结点犿的犔犲犳狋犘狅狊值小于结点狀的犔犲犳狋犘狅狊值，且结点犿的犚犻犵犺狋犘狅狊值大于结点狀的犚犻犵犺狋犘狅狊值时，则结点犿必为狀的祖先结点；（２）若结点犿的犔犲犳狋犘狅狊值小于结点狀的犔犲犳狋犘狅狊值，且结点犿不是狀的祖先结点，假设结点犽的犔犲犳狋犘狅狊值大于结点狀的犔犲犳狋犘狅狊值，则犿一定不是犽的祖先结点；（３）若在同一根到叶路径下，结点犿和狀之间不存在其它结点，且犿和狀同为精确结点，则犿和狀必

为实父子关系；（４）若在同一根到叶路径下，精确结点犿和狀之间存在χ个结点，且这χ个结点同为模糊结点，则犿和狀必为实父子关系；（５）若在同一根到叶路径下，结点犿和狀不同为精确结点，且犿和狀之间不存在其他结点，则犿和狀必为模糊父子关系．

下面将通过图２具体实例说明模糊ＸＭＬ中的结构关系，其中结点犆犞０，…，犆犞１０为精确结点，结点犞１，犞２，犞３，犞４，犞５为模糊结点．首先，由于犆犞０的犔犲犳狋犘狅狊值小于犆犞８的犔犲犳狋犘狅狊值，且犆犞０的犚犻犵犺狋犘狅狊值大于犆犞８的犚犻犵犺狋犘狅狊值，所以犆犞０和犆犞８之间的结构关系为ＡＤ．由于犆犞１的犔犲犳狋犘狅狊值小于犆犞３的犔犲犳狋犘狅狊值，且犆犞１不是犆犞３的祖先结点，因此对于犔犲犳狋犘狅狊值大于犆犞３的犔犲犳狋犘狅狊值的任意结点（如犆犞４，犆犞５，…，犆犞１０），犆犞１不可能为其祖先结点．精确结点犆犞１和犆犞２之间不存在其它结点，因此可知犆犞１和犆犞２的结构关系为ＲＰＣ．对于精确结点犆犞３和犆犞４，由于犆犞３和犆犞４之间的结点同为模糊结点，因此可知犆犞３和犆犞４之间的结构关系也是ＲＰＣ．对于结点犞１和犆犞１，由于不同为精确结点，因此犞１和犆犞１之间的结构关系为ＦＰＣ．同样可知犆犞９与犞５以及犞２与犞３之间的结构关系同为ＦＰＣ．

４　模糊犡犕犔中的小枝查询本节将在讨论模糊ＸＭＬ成员度的评估以及小

枝匹配定义的基础上，给出小枝查询算法ＴｗｉｇＦＸ．４１　成员度评估和小枝匹配

在模糊ＸＭＬ树中，通常会存在下面３类包含

５７９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

模糊信息的结构树［２３］：（１）模糊信息只出现在单一路径中（第１类）．（２）模糊信息出现在分叉树中（第２类）．（３）模糊信息出现在复杂树中（第３类）．

图３　模糊ＸＭＬ树结构

任意复杂的模糊ＸＭＬ树都可以看成是由上述三类模糊树结构合并而形成的．在对模糊ＸＭＬ数据进行查询时，首先要保证返回的结果绝对可能性不能低于给定的阈值限制．这是因为在实际应用中可能性过低的结果对用户来说通常是无意义的．我们选用一个整体成员度信息δｗｈｏｌｅ来表示返回结果的绝对可能性．图３举例说明了在模糊ＸＭＬ中模糊信息可能出现的位置以及相应的整体成员度的计算方法．简便起见，图中只标注了成员度信息．其中犃，犅，犆和犇分别代表结点信息，δ１，δ２，δ３分别表示的犃，犅，犆成员度信息（相对可能性），δｗｈｏｌｅ表示整体成员度．绝对可能性可以用返回结果的所有成员度信息的交来计算得出．在以往的模糊系统中，成员度之间的交运算通常是采用Ｚａｄｅｈ的最大最小技术［２４２５］．该技术反映了人们对待利害的取舍原则，具有计算简便等特点，因此成为最为广泛的一对算子．然而，在模糊ＸＭＬ小枝查询过程中，通过该算子得到的结果与参与运算的各个成员度信息缺乏有效的交互．例如，假设犪到犫的路径下的相对可能性为０．５（简记为δ（犪→犫）＝０．５），且δ（犪→犮１）＝０．６，δ（犪→犮２）＝０．７，此时在Ｚａｄｅｈ运算符的交运算作用下，有δ（犪→犫且犪→犮１）＝δ（犪→犫且犪→犮２）＝０．５．而在实际应用中上述交运算结果对于用户来说应该是有所区别的．另外，若已知δ（犪→犫且犪→犮２）＝０．５且δ（犪→犫）＝０．５，此时通过Ｚａｄｅｈ运算符的反向计算并不能确定δ（犪→犮２）的具体值，只能是获得一个可能取值区间．由此可以看出Ｚａｄｅｈ运算是一种粗粒度运算，使用其计算得到的结果可能会与用户意图有所偏差．因此，本文选取支持隶属度交互计算的

Ｅｉｎｓｔｅｉｎ算子［２３］作为支持模糊ＸＭＬ小枝查询的交运算因子，即有

δｗｈｏｌｅ＝ δ犻×δ犼１＋（１－δ犻）×（１－δ犼）

，这里δ犻和δ犼分别表示结点犻和犼的成员度，δｗｈｏｌｅ表示犻和犼经过交运算后得到的整体成员度．

ＸＭＬ中的小枝查询实际上是对ＸＭＬ文档中的多个结点作选择谓词运算．小枝查询上的每一个结点，都有相对应的谓词（在小枝或者文本值上），结点之间满足一定的结构关系（祖先后代关系或者父子关系）．在模糊ＸＭＬ环境下，小枝查询的主旨就是搜索模糊ＸＭＬ树得到满足给定小枝模式的查询结果．

定义３．　给定一个小枝查询模式犙和一个模糊ＸＭＬ数据库犇，犙在犇上的一个匹配是指在犙的结点与犇的结点之间存在这样的一个映射关系：（１）对应于查询结点的目标结点所含的数据必须满足查询结点上的谓词条件；（２）目标结点间的结构关系与查询结点组合间的结构关系必须一致；（３）在犇中目标结点间的整体成员度要不小于给定的阈值狌（０狌１）．

应当说明的是，对出现在局部路径犻→犼中的多重模糊信息，我们将尝试对其进行修正处理以得到一个综合的局部修正成员度δｒｅｖｉｓｅ（犻，犼）．通过处理第３节介绍的编码方案中的犉狌狕狕狔犛犲狇狌犲狀犮犲特征，我们可以得到一个包含路径犻→犼中的所有成员度信息的集合犳（犻，犼），即犳（犻，犼）＝（犉犛犼－犉犛犻）．此时，局部修正成员度δｒｅｖｉｓｅ（犻，犼）可计算如下：

δｒｅｖｉｓ犲（犻，犼）＝∩χ

狋＝１犳狋，

这里犳狋是集合犳（犻，犼）中的元素，χ是集合中元素的个数．

现举例说明模糊ＸＭＬ文档中的小枝匹配结果．图４给出了两个不同结构的小枝查询（简便起见，图中用“／”表示ＰＣ关系，“／／”表示ＡＤ关系），其中，犙１是一个简单的ＰＣ路径查询，犙２是一个带分支结构的ＡＤ路径小枝查询．在图２中数据树上查询犙１，由模糊ＸＭＬ环境下的小枝匹配定义可知，图２中共有３个可能数据树满足给定的查询模式，它们分别是犿１：｛犆犞０→犆犞３→犞δ（２，３）→犆犞４｝，犿２：｛犆犞０→犆犞３→犞δ（２，４）→犆犞５｝和犿３：｛犆犞０→犆犞９→犞５→犆犞１０｝．这里，犞δ（２，３）和犞δ（２，４）是局部修正成员度，δ（２，３）＝δ２∩δ３≈０．０７，δ（２，４）＝δ２∩δ４＝０．２５．如果给定阈值为０．１时，此时只有犿２和犿３是满足

６７９１计　　算　　机　　学　　报２０１４年

查询模式的结果，而犿１不是．这是因为犿１的整体成员度小于给定的阈值，也就是说犿１并不满足模糊ＸＭＬ环境下的小枝查询定义，因此其将不会作为结果输出．

图４　小枝查询树

４２　小枝匹配算法４．２．１　相关符号

为了简化描述，首先将对本节使用的一些符号进行说明．假设小枝查询模式犙，它的根结点为狇，在不引起混淆的情况下，通常也直接使用狇表示以狇为根结点的小枝查询模式．分别用犛狇和犜狇表示小枝查询模式狇中的每一个查询结点狇所对应的栈和流信息．流犜狇是查询结点狇在ＸＭＬ文档流中所对应的所有数据结点的有序列表，这里的数据结点是ＸＭＬ文档树中的元素结点，流犜狇的所有数据结点按（犇狅犮犐犱，犔犲犳狋犘狅狊）升序排列．

针对小枝查询模式犙使用如下的结点函数［２３］：犻狊犔犲犪犳：犖狅犱犲→犅狅狅犾；犻狊犚狅狅狋：犖狅犱犲→犅狅狅犾；

犘犪狉犲狀狋：犖狅犱犲→犖狅犱犲；犮犺犻犾犱狉犲狀：犖狅犱犲→｛犖狅犱犲｝；狊狌犫狋狉犲犲犖狅犱犲狊：犖狅犱犲→｛犖狅犱犲｝．其中，狊狌犫狋狉犲犲犖狅犱犲狊（狇）返回查询犙中的结点狇和它的所有后裔结点．!

（犻，犼）计算路径犻→犼下的局部修正成员度，若犻，犼之间存在模糊信息，则有

!

（犻，犼）＝δｒｅｖｉｓｅ（犻，犼）；否则!

（犻，犼）＝１．针对流犜狇使用如下函数：犲狅犳，犪犱狏犪狀犮犲，狀犲狓狋，

狀犲狓狋犔和狀犲狓狋犚．其中，狀犲狓狋（犜狇）函数获得流犜狇中当前数据结点的下一个数据结点，犪犱狏犪狀犮犲（犜狇）函数使流犜狇的指针指向下一个数据结点（即指针下移操作），狀犲狓狋犔（犜狇）和狀犲狓狋犚（犜狇）函数分别返回流犜狇中下一个数据结点的犔犲犳狋犘狅狊和犚犻犵犺狋犘狅狊值．针对栈犛狇的函数有犲犿狆狋狔、狆狅狆、狆狌狊犺、狋狅狆犔和狋狅狆犚，最后两个函数返回栈顶数据结点的犔犲犳狋犘狅狊和犚犻犵犺狋犘狅狊值．４．２．２　ＴｗｉｇＦＸ算法

下面将具体给出ＴｗｉｇＦＸ查询算法，ＴｗｉｇＦＸ算法通过两阶段操作找到满足小枝查询的匹配结果．在第１个阶段（第１～１５行），输出满足从根到叶子的单个路径查询以及阈值限制的局部匹配结果，

第２阶段（第１６行）将得到的局部匹配结果合并生成满足给定小枝查询的最终匹配结果．

算法１．　ＴｗｉｇＦＸ（犙）．输入：小枝查询犙，ＸＭＬ文档流犜，阈值狌输出：犙的匹配结果１．ｗｈｉｌｅｎｏｔ犲狀犱（狇）２．狇ａｃｔ＝ｇｅｔＮｅｘｔ（狇）３．ｉｆ（ｎｏｔ犻狊犚狅狅狋（狇ａｃｔ））４．犮犾犲犪狀犛狋犪犮犽（狆犪狉犲狀狋（狇ａｃｔ），狀犲狓狋犔（狇ａｃｔ））５．ｅｎｄｉｆ６．ｉｆ（犻狊犚狅狅狋（狇ａｃｔ）∪ｎｏｔ犲犿狆狋狔（犛狆犪狉犲狀狋（狇ａｃｔ）））７．犮犾犲犪狀犛狋犪犮犽（狇ａｃｔ，狀犲狓狋犔（狇ａｃｔ））８．犿狅狏犲犜狅犛狋犪犮犽（犜狇ａｃｔ，犛狇ａｃｔ，狆狅犻狀狋犲狉狋狅狋狅狆（犛狆犪狉犲狀狋（狇ａｃｔ）））９．ｉｆ（犻狊犔犲犪犳（狇ａｃｔ））１０．狊犺狅狑犛狅犾狌狋犻狅狀狊犠犻狋犺犅犾狅犮犽犻狀犵（犛狇ａｃｔ，１）１１．狆狅狆（犛狇ａｃｔ）１２．ｅｎｄｉｆ１３．ｅｌｓｅ犪犱狏犪狀犮犲（犜狇ａｃｔ）１４．ｅｎｄｉｆ１５．ｅｎｄｗｈｉｌｅ１６．犿犲狉犵犲犃犾犾犘犪狋犺犛狅犾狌狋犻狅狀狊（）Ｆｕｎｃｔｉｏｎ犮犾犲犪狀犛狋犪犮犽（犛，犪）１．ｗｈｉｌｅ（ｎｏｔ犲犿狆狋狔（犛）∧（狋狅狆犚（犛）＜犪））２．狆狅狆（犛）３．ｅｎｄｗｈｉｌｅＦｕｎｃｔｉｏｎ犿狅狏犲犜狅犛狋犪犮犽（犜狇，犛狇，狆）１．狆狌狊犺（犛狇，（狀犲狓狋（犜狇），狆））２．犪犱狏犪狀犮犲（犜狇）Ｆｕｎｃｔｉｏｎ犲狀犱（狇）１．ｒｅｔｕｒｎ狀犻∈狊狌犫狋狉犲犲犖狅犱犲狊（狇）：犻狊犔犲犪犳（狀犻）→犲狅犳（犜犳）ＴｗｉｇＦＸ算法在第２行循环调用ｇｅｔＮｅｘｔ获得

下一处理结点，第４行和第７行过滤掉不能被扩展成为最终匹配的结点，第１６行合并所有满足从根到叶子的单个路径查询以及阈值限制的局部匹配并生成最终的小枝匹配结果．ｇｅｔＮｅｘｔ算法主要用来保证其返回的每一个结

点都具有一个扩展解（即这些结点满足模糊ＸＭＬ中的小枝匹配定义且都会参与生成最终的匹配结果）．若ｇｅｔＮｅｘｔ（狇）返回查询树狇中的结点为狇犻，则狇犻满足：（１）必须至少有一个扩展解；（２）如果狇犻有兄弟结点，则它的兄弟结点也必须有扩展解（否则在第９行将返回一个更低层的查询结点，也就是说同一层的兄弟中，狇犻的犔犲犳狋犘狅狊值是所有的兄弟中最小的）；（３）若狇犻！＝狇，则狇犻的犔犲犳狋犘狅狊值要比狇的犔犲犳狋犘狅狊值小，也就是说，狇犻的父亲结点也不具有扩展解．

７７９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

算法２．　ｇｅｔＮｅｘｔ（狇）．１．ｉｆ（犻狊犔犲犪犳（狇））２．ｗｈｉｌｅ（!（狆犪狉犲狀狋（狇犻），狇犻）＜狌∪!

（狇，狇犻）＜狌）３．犪犱狏犪狀犮犲（狇）４．ｒｅｔｕｒｎ狇５．ｗｈｉｌｅ（!（狆犪狉犲狀狋（狇犻），狇犻）＜狌∪!

（狇，狇犻）＜狌）６．犪犱狏犪狀犮犲（狇）７．ｆｏｒ狇犻ｉｎ犮犺犻犾犱狉犲狀（狇）８．狀犻＝ｇｅｔＮｅｘｔ（狇犻）９．ｉｆ（狀犻≠狇犻）ｒｅｔｕｒｎ狀犻１０．狀ｍｉｎ＝犿犻狀犪狉犵狀犻狀犲狓狋犔（犜狀犻）１１．狀ｍａｘ＝犿犪狓犪狉犵狀犻狀犲狓狋犔（犜狀犻）１２．ｗｈｉｌｅ（狀犲狓狋犚（犜狇）＜狀犲狓狋犔（犜狀ｍａｘ）ｏｒ狑犺狅犾犲犕（犜狇）＜狌）１３．犪犱狏犪狀犮犲（犜狇）１４．ｉｆ（狀犲狓狋犔（犜狇）＜狀犲狓狋犔（犜狀ｍｉｎ））ｒｅｔｕｒｎ狇１５．ｅｌｓｅｒｅｔｕｒｎ狀ｍｉｎＦｕｎｃｔｉｏｎ狑犺狅犾犲犕（狇）１．ｆｏｒ狇犻ｉｎ犮犺犻犾犱狉犲狀（狇）２．犿犻＝狊狌犫犠犺狅犾犲犕（狇犻）３．犿犼＝狊狌犫犕（狇犻）／／狊狌犫犕（狇犻）ｒｅｔｕｒｎｓδｒｅｖｉｓｅ（狆犪狉犲狀狋（狇犻），狇犻）４．犿＝犿犻×犿犼５．ｒｅｔｕｒｎ犿×狊狌狆犕（狇犻）／／狊狌狆犕（狇犻）ｒｅｔｕｒｎｓδｒｅｖｉｓｅ（狇，狇犻）Ｆｕｎｃｔｉｏｎ狊狌犫犠犺狅犾犲犕（狇）１．ｆｏｒ狇犻ｉｎ犮犺犻犾犱狉犲狀（狇）２．犿犻＝狊狌犫犠犺狅犾犲犕（狇犻）３．犿犼＝狊狌犫犕（狇犻）４．ｒｅｔｕｒｎ犿＝犿犻×犿犼从查询根结点出发，ｇｅｔＮｅｘｔ（狇）首先判断当前

结点是否为叶子结点，若是叶子结点，则找到符合查询条件的叶子结点返回（第４行）．第６行过滤不满足阈值限制（

!

（狆犪狉犲狀狋（狇犻），狇犻）狌且!

（狇，狇犻）狌）的结点．在第８～１０行，我们循环调用ｇｅｔＮｅｘｔ来返回给定狇结点，在这个过程中，需要保证其孩子结点都有扩展解．在第１０～１５行，ｇｅｔＮｅｘｔ（狇）通过递归调用从最左边的叶子结点开始向上检查，查找尽可能高的具有扩展解的查询结点．若流犜狇不存在犜狀犻的公共祖先，则返回具有最小犔犲犳狋犘狅狊值的孩子结点狀ｍｉｎ，此时ｇｅｔＮｅｘｔ将进入第９行并依次返回结点狀犻．

下面将通过例子说明ＴｗｉｇＦＸ如何通过ｇｅｔＮｅｘｔ算法在图５所示的模糊ＸＭＬ数据上查询图４中的小枝模式犙２．图５中每个元素的下标表示该元素所在的数据序列中的顺序，简便起见，我们用一个上下双向箭头表示在两个结点犻，犼间存在模糊信息，它们之前的值表示其局部修正成员度δｒｅｖｉｓｅ（犻，犼）．流犃，犅，犆和犇初始指向犪１，犫１，犮１和犱１，假设给定的阈值

为０．２．算法首先调用ｇｅｔＮｅｘｔ（犃）来判断犃是否有解，由于犃是根结点且!

（犪１，犪１）＝１，满足匹配条件，所以对犃的孩子犅调用ｇｅｔＮｅｘｔ算法，由于!

（犪１，犫１）＝０．９＞０．２，故对犅的孩子犆和犇调用ｇｅｔＮｅｘｔ算法并判断其是否有解，在调用ｇｅｔＮｅｘｔ（犆）的时候，由于犆是叶子结点且!

（犪１，犮１）＝０．９×０．８／（１＋０．１×０．２）≈０．７１＞０．２，所以犮１被返回上一层（ｇｅｔＮｅｘｔ（犅））调用．同理，在调用ｇｅｔＮｅｘｔ（犇）的时候，由于犇是叶子结点且!

（犪１，犱１）＝０．９×０．７／（１＋０．１×０．３）≈０．６１＞０．２，所以犱１被返回上一层（ｇｅｔＮｅｘｔ（犅））调用．由狊狌犫犠犺狅犾犲犕（犫１）＝０．８×０．７／（１＋０．２×０．３）≈０．５３＞０．２且狑犺狅犾犲犕（犫１）＝０．５３×０．９／（１＋０．３７×０．１）≈０．４６＞０．２可知，结点犫１具有扩展解，所以犫１被返回上一层（ｇｅｔＮｅｘｔ（犃））调用．由于犪１是犫１的父结点，也就是说犪１满足匹配条件我们将其压入栈犛犃中．接下来将对具有最小犔犲犳狋犘狅狊值的犫１调用ｇｅｔＮｅｘｔ算法进行新一轮的判断，由先前的分析我们已经知道犫１同样具有扩展解，所以我们将犫１压入栈犛犅中．类似地，犮１和犱１分别被压入栈犛犆和犛犇中．进而可知，（犪１，犫１，犮１，犱１）是查询的一个匹配结果．接下来进入新一轮循环，算法再次调用ｇｅｔＮｅｘｔ（犃），重复先前的调用过程，首先对犃的孩子犅调用ｇｅｔＮｅｘｔ算法，再对犅的孩子犆和犇调用ｇｅｔＮｅｘｔ，由于狊狌犫犠犺狅犾犲犕（犫２）＝０．５×０．５／（１＋０．５×０．５）＝０．２，而狑犺狅犾犲犕（犫２）＝０．２×０．８／（１＋０．８×０．２）≈０．１４＜０．２，进而可知，结点犫２不具有扩展解，此时犫２将被跳过，并将流数据犜犅向下移动到犫３．再经过两次调用ｇｅｔＮｅｘｔ（犃），当前流指针将指向（犪２，犫３，犮３，犱３），在下一次调用ｇｅｔＮｅｘｔ（犃）时，由于

!

（犪１，犮３）＝０．６×０．２／（１＋０．４×０．８）≈０．０９＜０．２，可知其不具有扩展解，所以将流数据犜犆向下移动，经过４次对流数据犜犆的判断，直到流数据犜犆的末尾也未发现满足!

（狇，狇犻）狌条件的犆结点．类似地，直到流数据犜犇的末尾也未发现满足!

（狇，狇犻）狌条件的犇结点．据此可进一步判断，流数据犜犃和犜犅余下的结点都不具有扩展解，至此算法处理完毕．

图５　模糊ＸＭＬ数据序列片段

８７９１计　　算　　机　　学　　报２０１４年

定理１．　算法ＴｗｉｇＦＸ能保证只有能形成最终匹配解的有用元素可以入栈且每个局部匹配解都将参与到最终解的构成中．

证明．　根据算法２可知，ｇｅｔＮｅｘｔ算法所返回的查询结点狇都可以得到一个能形成最终匹配解的有用元素犜狇．由算法１可知，如果一个元素不能形成最终的匹配解，则相应的流数据在算法１的第１３行将前移到下一个元素；若一个元素能形成最终的匹配解，则它将被压入栈中保存，此时该元素和其他关联栈中的元素之间满足给定查询的结构以及阈值的约束条件．因此每个仅由有用元素构成的局部匹配解将参与到最终的匹配解的构成中．证毕．

定理２．　对于给定的小枝查询犙和模糊ＸＭＬ文档犇，算法ＴｗｉｇＦＸ正确返回犙在犇上的所有解．

证明．　算法１递归调用算法２用以返回具有扩展解的每一个结点．由定理１可知，所有有用元素都将入栈保存．当处理到查询叶子元素时，将在算法１第１０行产生相应的局部匹配解，并将在算法１第１６行形成最终匹配解．由于产生的局部匹配解包含了能形成最终匹配解的所有有用元素，因此说算法ＴｗｉｇＦＸ能正确返回给定查询犙在模糊ＸＭＬ文档犇上的所有解．证毕．

在最坏情况下，对于仅包含祖先后代边的小枝查询ＴｗｉｇＦＸ算法的Ｉ／Ｏ和ＣＰＵ时间复杂度与狀个输入列表大小和最后匹配结果大小的总和成线性关系，即为犗（｜犜１｜＋｜犜２｜＋…＋｜犜狀｜＋｜狅狌狋狆狌狋｜），与从根到叶子路径查询的局部匹配结果的大小无关；空间复杂度（即栈链的大小）是狀个输入列表大小总和与模糊ＸＭＬ文档树高度的狀倍两者中的最小值，即为ｍｉｎ（｜犜１｜＋｜犜２｜＋…＋｜犜狀｜，狀×犺犲犻犵犺狋（犜））．

应当说明的是，对于包含父子边的小枝查询，ＴｗｉｇＦＸ算法不能保证Ｉ／Ｏ和ＣＰＵ是最优的．此时，对于小枝模式的一条从根到叶的路径查询，算法可能产生一个局部匹配结果，它不能和其他的局部匹配结果进行合并连接．

５　优　化ＴｗｉｇＦＸ算法需要对所有的输入列表分别顺序

扫描一次以获得所有匹配结果，当输入列表很大时，这种扫描往往会需要一定的Ｉ／Ｏ开销．在实际处理中我们通常可以利用索引来尽可能多地跳过并不参与合并连接的数据结点，进而提升小枝匹配效率．为此在传统ＸＢｔｒｅｅ［２］基础上，本节将着重介绍如何在

模糊ＸＭＬ环境下利用ＸＢｔｒｅｅ索引来加速小枝匹配．

在模糊ＸＭＬ中，ＸＢｔｒｅｅ中的每一个结点都代表一组流数据（该组流数据中的任意结点犻都包含在限定的（犔犲犳狋犘狅狊：犚犻犵犺狋犘狅狊）区间内，即其满足犻．犔犲犳狋犘狅狊＞犔犲犳狋犘狅狊和犻．犚犻犵犺狋犘狅狊＜犚犻犵犺狋犘狅狊），位于ＸＢｔｒｅｅ的叶子结点（简称叶子页）记录着包含编码信息（犔犲犳狋犘狅狊：犚犻犵犺狋犘狅狊，犔犲狏犲犾犖狌犿，犉狌狕狕狔，犉狌狕狕狔犛犲狇狌犲狀犮犲）的ＸＭＬ流数据，而ＸＢｔｒｅｅ中的非叶子结点（简称非叶子页）中只存储索引范围信息，而并不包含实际的ＸＭＬ流数据，用（犔犲犳狋犘狅狊：犚犻犵犺狋犘狅狊，犖．狆狅犻狀狋犲狉）形式来记录其信息内容，其中犖．狆狅犻狀狋犲狉是一个指针，该指针指向ＸＢｔｒｅｅ的一个孩子，该孩子中的所有数据都包含在（犔犲犳狋犘狅狊：犚犻犵犺狋犘狅狊）区间内．ＸＢｔｒｅｅ中每一结点犘都含有一个指针犘．犘犪狉犲狀狋和一个整数犘．犘犪狉犲狀狋犐狀犱犲狓，犘．犘犪狉犲狀狋指向该结点的父结点，犘．犘犪狉犲狀狋犐狀犱犲狓用于定位父结点中的一个元素（该元素记录索引范围信息），该元素的指针指回当前结点犘，ＸＢｔｒｅｅ中结点按照犔犲犳狋犘狅狊值的升序顺序排列．我们将用指针犪犮狋犘狅犻狀狋犲狉＝（犪犮狋犘犪犵犲，犪犮狋犐狀犱犲狓）来维护并记录当前数据流的位置．

当ＸＭＬ数据发生更新时，对于需要删除的ＸＭＬ结点，我们只在该删除结点作删除标记，而并不在其物理结构上真正删除该结点，从而保持索引结构的完整性．此时，ＸＢｔｒｅｅ索引维护的主要问题就转变成了新插入结点或子树的编码更新问题．在实际维护中，我们可以在建立ＸＢｔｒｅｅ索引的过程中预留部分空间以便未来新结点的插入，即当插入结点时尽量引起叶子页的内部调整，而不是整个索引文件结构的调整，从而增强ＸＢｔｒｅｅ索引的可维护性．ＸＢｔｒｅｅ索引的所需空间大小等于叶子页所占空间与非叶子页所占空间之和．假设一个页（数据块）的大小为犖，每个页中必须保留的最小空间比例为１－狆，ＸＭＬ结点数为狀，叶子页中每个索引行的大小为犿，非叶子页中每个索引行的大小为犽，则可知所需的ＸＢｔｒｅｅ叶子页的个数为犿狀／犖狆，所需非叶子页的个数为犿狀犽／（犖狆）２．因此ＸＢｔｒｅｅ索引的大小为犿狀（犖狆＋犽）／犖狆２．应当指出的是，由于我们为每个查询结点狇所对应的流犜狇数据结点都建立了一个对应的ＸＢｔｒｅｅ索引，且在索引建立以及维护过程中采用了预留空间以及添加删除标记的策略，因此所建索引具有很好的可伸缩性．

ＸＢｔｒｅｅ主要有两个操作：（１）ａｄｖａｎｃｅ操作，如果

９７９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

当前指针犪犮狋犘狅犻狀狋犲狉＝（犪犮狋犘犪犵犲，犪犮狋犐狀犱犲狓）没有指向最后一个结点，我们只是简单的前移犪犮狋犐狀犱犲狓，否则我们利用（犪犮狋犘犪犵犲．狆犪狉犲狀狋，犪犮狋犘犪犵犲．狆犪狉犲狀狋犐狀犱犲狓）来代替犪犮狋犘狅犻狀狋犲狉，并将它前移；（２）犱狉犻犾犾犱狅狑狀操作，如果当前指针犪犮狋犘狅犻狀狋犲狉＝（犪犮狋犘犪犵犲，犪犮狋犐狀犱犲狓）中犪犮狋犘犪犵犲不是ＸＢｔｒｅｅ中叶子页，而犖是第犪犮狋犐狀犱犲狓个结点时，我们将用（犖．狆狅犻狀狋犲狉，０）替换犪犮狋犘狅犻狀狋犲狉来指向犖．犘狅犻狀狋犲狉中的第一个孩子结点．

算法３．　ＴｗｉｇＩｎｄｅｘ（犙）．输入：小枝查询犙，ＸＭＬ文档流犜，阈值狌输出：犙的匹配结果１．ｗｈｉｌｅｎｏｔ犲狀犱（狇）２．狇ａｃｔ＝ｇｅｔＮｅｘｔＮｏｄｅ（狇）３．ｉｆ（犻狊犘犾犪犻狀犞犪犾狌犲（犜狇ａｃｔ））４．ｉｆ（ｎｏｔ犻狊犚狅狅狋（狇ａｃｔ））５．犮犾犲犪狀犛狋犪犮犽（狆犪狉犲狀狋（狇ａｃｔ），狀犲狓狋犔（狇ａｃｔ））６．ｅｎｄｉｆ７．ｉｆ（犻狊犚狅狅狋（狇ａｃｔ）∪ｎｏｔ犲犿狆狋狔（犛狆犪狉犲狀狋（狇ａｃｔ）））８．犮犾犲犪狀犛狋犪犮犽（狇ａｃｔ，狀犲狓狋犔（狇ａｃｔ））９．犿狅狏犲犜狅犛狋犪犮犽（犜狇ａｃｔ，犛狇ａｃｔ，狆狅犻狀狋犲狉狋狅狋狅狆（犛狆犪狉犲狀狋（狇ａｃｔ）））１０．ｉｆ（犻狊犔犲犪犳（狇ａｃｔ））１１．狊犺狅狑犛狅犾狌狋犻狅狀狊犠犻狋犺犅犾狅犮犽犻狀犵（犛狇ａｃｔ，１）１２．狆狅狆（犛狇ａｃｔ）１３．ｅｎｄｉｆ１４．ｅｌｓｅ犪犱狏犪狀犮犲（犜狇ａｃｔ）１５．ｅｎｄｉｆ１６．ｅｌｓｅｉｆ（ｎｏｔ犻狊犚狅狅狋（狇ａｃｔ）∩犲犿狆狋狔（犛狆犪狉犲狀狋（狇ａｃｔ））∩

狀犲狓狋犔（犜狆犪狉犲狀狋（狇ａｃｔ））＞狀犲狓狋犚（犜狇ａｃｔ））１７．犪犱狏犪狀犮犲（犜狇ａｃｔ）１８．ｅｌｓｅ犱狉犻犾犾犱狅狑狀（犜狇ａｃｔ）１９．ｅｎｄｗｈｉｌｅ２０．犿犲狉犵犲犃犾犾犘犪狋犺犛狅犾狌狋犻狅狀狊（）下面我们将介绍基于索引的ＴｗｉｇＩｎｄｅｘ算法，

该算法是在ＴｗｉｇＦＸ算法基础上利用ＸＢｔｒｅｅ索引来尽可能多地跳过并不参与连接的结点．在模糊ＸＭＬ环境下生成的所有匹配解要经过三重过滤：第一重过滤是指当前结点狇ａｃｔ与它的查询父亲结点狆犪狉犲狀狋（狇ａｃｔ）要满足条件!

（狆犪狉犲狀狋（狇ａｃｔ），狇ａｃｔ）狌的限制，不满足此限制的结点将首先被过滤掉；第二重过滤是指当前结点到查询根结点狇ｒｏｏｔ需满足!

（狇ｒｏｏｔ，狇ａｃｔ）狌的限制，不满足此限制的结点将被过滤掉；第三重过滤是指如果当前结点是分支结点的话，则它需要满足狑犺狅犾犲犕（狇ａｃｔ）狌的条件限制，不满足该限制的结点并不会参与最终匹配，因此也应该被过滤掉．

ＴｗｉｇＩｎｄｅｘ算法同样也分两阶段执行，在第一阶段（第１～１９行）将输出经过三重过滤满足从根到

叶子的单个路径查询的局部匹配结果，第二阶段（第２０行）将前一阶段得到的局部匹配结果合并得到最终解．函数犻狊犘犾犪犻狀犞犪犾狌犲（第３行）是一个ｂｏｏｌ函数，若当前结点流指针指向ＸＢｔｒｅｅ的叶子页结点，则其返回ｔｒｕｅ，否则将返回ｆａｌｓｅ．一旦确认当前结点为ＸＢｔｒｅｅ叶子页结点时，ＴｗｉｇＩｎｄｅｘ将对栈中结点进行清栈（第５行和第８行），并输出经过三重过滤的从根到叶子的单路径解（第１１行）．若当前结点狇ａｃｔ不是根结点，其父结点栈犛狆犪狉犲狀狋（狇ａｃｔ）为空，且其父结点流中当前结点犜狆犪狉犲狀狋（狇ａｃｔ）的犔犲犳狋犘狅狊值大于当前结点流中结点犜狇ａｃｔ的犚犻犵犺狋犘狅狊值，此时当前结点犜狇ａｃｔ及其后代结点都不能参与生成最终解，因此它们将被直接跳过（第１６～１８行）．

与ｇｅｔＮｅｘｔ类似，ｇｅｔＮｅｘｔＮｏｄｅ首先将对当前结点进行判断，并过滤掉不满足前两重过滤条件的结点（第３和６行）．紧接着，将对当前结点的每一个孩子递归调用ｇｅｔＮｅｘｔＮｏｄｅ（第７～９行），若调用后的结点狀犻不是当前孩子结点或是犻狊犘犾犪犻狀犞犪犾狌犲返回ｆａｌｓｅ值，则将返回狀犻，因为：（１）如果递归调用后得到的结点不是当前孩子结点，则存在具有更小犔犲犳狋犘狅狊值的可能满足查询的结点没有处理；（２）若犻狊犘犾犪犻狀犞犪犾狌犲（犜狀犻）返回ｆａｌｓｅ值，则不能确定当前结点是否有扩展解（因为ＸＢｔｒｅｅ非叶子页只存储索引范围信息，而并不包含实际的ＸＭＬ流数据），所以同样需要返回狀犻．ｇｅｔＮｅｘｔＮｏｄｅ算法主要用来返回一个结点，该结点若是ＸＢｔｒｅｅ非叶子页中的一个结点，则它将不会成为最终解的一部分，此时将进入ＴｗｉｇＩｎｄｅｘ算法的第１６～１８行运行；若其是ＸＢｔｒｅｅ叶子页中的一个结点（该结点已经过三重过滤），则将进入ＴｗｉｇＩｎｄｅｘ算法的第４～１５行运行．

算法４．　ｇｅｔＮｅｘｔＮｏｄｅ（狇）．１．ｉｆ（犻狊犔犲犪犳（狇））２．ｗｈｉｌｅ（狆犪狉犲狀狋（狇犻），狇犻）＜狌∪!

（狇，狇犻）＜狌）３．犪犱狏犪狀犮犲（狇）４．ｒｅｔｕｒｎ狇５．ｗｈｉｌｅ（!（狆犪狉犲狀狋（狇犻），狇犻）＜狌∪!

（狇，狇犻）＜狌）６．犪犱狏犪狀犮犲（狇）７．ｆｏｒ狇犻ｉｎ犮犺犻犾犱狉犲狀（狇）８．狀犻＝ｇｅｔＮｅｘｔＮｏｄｅ（狇犻）９．ｉｆ（狀犻≠狇犻∪ｎｏｔ犻狊犘犾犪犻狀犞犪犾狌犲（犜狀犻））ｒｅｔｕｒｎ狀犻１０．狀ｍｉｎ＝犿犻狀犪狉犵狀犻狀犲狓狋犔（犜狀犻）１１．狀ｍａｘ＝犿犪狓犪狉犵狀犻狀犲狓狋犔（犜狀犻）１２．ｗｈｉｌｅ（狀犲狓狋犚（犜狇）＜狀犲狓狋犔（犜狀ｍａｘ）ｏｒ狑犺狅犾犲犕（犜狇）＜狌）１３．犪犱狏犪狀犮犲（犜狇）１４．ｉｆ（狀犲狓狋犔（犜狇）＜狀犲狓狋犔（犜狀ｍｉｎ））ｒｅｔｕｒｎ狇１５．ｅｌｓｅｒｅｔｕｒｎ狀ｍｉｎ

０８９１计　　算　　机　　学　　报２０１４年

下面将通过例子说明ＴｗｉｇＩｎｄｅｘ算法如何在图６所示的模糊ＸＢｔｒｅｅ上执行图４中的小枝查询犙２．初始状态时，犃，犅，犆和犇４个流指针分别指向（１２∶２５，狆狅犻狀狋犲狉），（３∶１０，狆狅犻狀狋犲狉），（４∶９，狆狅犻狀狋犲狉）和（１６∶２３，狆狅犻狀狋犲狉）．第一次调用ｇｅｔＮｅｘｔＮｏｄｅ（犃）时，将调用ｇｅｔＮｅｘｔＮｏｄｅ（犅），进而调用ｇｅｔＮｅｘｔＮｏｄｅ（犆）和ｇｅｔＮｅｘｔＮｏｄｅ（犇）．调用ｇｅｔＮｅｘｔＮｏｄｅ（犆）时将返回当前犆的指针（４∶９，狆狅犻狀狋犲狉），因为该结点是非叶子页结点且其犚犻犵犺狋犘狅狊值大于父亲流犅当前结点的犔犲犳狋犘狅狊值，因此流犆的指针将指向（４∶５，４，０，０．９０．８０．７）（参见ＴｗｉｇＩｎｄｅｘ算法的第１８行）．同理调用ｇｅｔＮｅｘｔＮｏｄｅ（犇）时流犇的指针将指向（１６∶１７，４，０，０．８０．７０．８）．返回ｇｅｔＮｅｘｔＮｏｄｅ（犅）的调用后，将返回当前结点（３∶１０，狆狅犻狀狋犲狉），因为流犅当前结点的犚犻犵犺狋犘狅狊值小于父亲流犃当前结点的犔犲犳狋犘狅狊值，且犃栈为空，犅不为根，所以ＴｗｉｇＩｎｄｅｘ将流犅的指针前移到结点（１３∶２４，狆狅犻狀狋犲狉），由此直接跳过了流犅中不参与匹配的结点（（３∶１０，３，０，０．９０．８）和（６∶９，４，０，０．９０．８０．７））．当第二次调用犵犲狋犖犲狓狋犖狅犲犱犲（犃）时，同样地递归调用ｇｅｔＮｅｘｔＮｏｄｅ（犅），继而递归调用ｇｅｔＮｅｘｔＮｏｄｅ（犆）和ｇｅｔＮｅｘｔＮｏｄｅ（犇）．ｇｅｔＮｅｘｔＮｏｄｅ（犆）将返回（４∶５，４，００．９０．８０．７），ｇｅｔＮｅｘｔＮｏｄｅ（犇）将返回（１６∶１７，

４，０，０．８０．７０．８）．当返回ｇｅｔＮｅｘｔＮｏｄｅ（犅）调用时，由于流犆当前结点的犔犲犳狋犘狅狊值小于父亲流犅当前结点的犔犲犳狋犘狅狊值，所以流犆的指针前移到结点（７∶８，５，０，０．９０．８０．７０．６）．再次调用ｇｅｔＮｅｘｔＮｏｄｅ（犃）时，ＴｗｉｇＩｎｄｅｘ会重复前两次调用ｇｅｔＮｅｘｔＮｏｄｅ（犃）的过程，将会返回流犆中结点（７∶８，５，０，０．９０．８０．７０．６），并将指针下移到结点（１４∶１５，４，０，０．８０．７０．６）．下一次调用ｇｅｔＮｅｘｔＮｏｄｅ将返回流犅中结点（１３∶２４，狆狅犻狀狋犲狉），在处理完流犅中结点（１３∶１８，３，０，０．８０．７）后进入下一次ｇｅｔＮｅｘｔＮｏｄｅ调用时，将对流犃中返回结点（１２∶２５，２，０，０．８）入栈，此时流犃处理完毕．下一次调用ｇｅｔＮｅｘｔＮｏｄｅ将对流犅中结点（１３∶１８，３，０，０．８０．７）入栈，并下移当前指针到结点（１９∶２４，３，０，０．８０．７）．同样地将对流犆中返回的结点（１４∶１５，４，０，０．８０．７０．６）以及流犇中返回的结点（１６∶１７，４，０，０．８０．７０．８）入栈处理并下移对应的当前指针，输出匹配结果（（１２∶２５，２，０，０．８），（１３∶１８，３，０，０．８０．７），（１４∶１５，４，０，０．８０．７０．６），（１６∶１７，４，０，０．８０．７０．８）是犙２的第一个解）．在下一次调用ｇｅｔＮｅｘｔＮｏｄｅ时，由于流犇中的当前结点（２２∶２３，４，０，０．８０．７０．１）不能满足三重过滤的要求，且流犃，犅，犆和犇都已指向末尾，故整个处理完毕．

图６　模糊ＸＢｔｒｅｅ

６　性能测试与分析６１　实验设置

为了评价算法的性能，我们进行了大量的实验，本节描述实验的结果，并对其进行分析．我们选择了基于ＰｏｓｓｉｂｌｅＷｏｒｌｄｓ的ＥＶＡＬＤＰ算法［１６］

以及ＣＴｗｉｇ算法［１８］作为基于整体匹配方法的代表与本文提出的算法进行比较．选取它们作比较是因为它们是目前处理基于模糊ＸＭＬ小枝查询问题中

非常有代表性的算法．所有的测试程序均用ＪＡＶＡ编写，实验测试平台是采用ＩｎｔｅｌＰｅｎｔｉｕｍＤｕａｌ１．８０ＧＨｚＣＰＵ、１ＧＢＲＡＭ、１６０ＧＢ硬盘、ＷｉｎｄｏｗｓＸＰ专业版的ＰＣ机．

实验采用了ＸＭＬ数据集①ＴｒｅｅＢａｎｋ和Ｍｏｎｄｉａｌ，其中，ＴｒｅｅＢａｎｋ数据集的大小为８２ＭＢ，有２４３７６６６个元素结点，最大深度是３６，平均深度为７．９．

１８９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

①ＵｎｉｖｅｒｓｉｔｙｏｆＷａｓｈｉｎｇｔｏｎＸＭＬＲｅｐｏｓｉｔｏｒｙ．Ａｖａｉｌａｂｌｅｆｒｏｍｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｗａｓｈｉｎｇｔｏｎ．ｅｄｕ／ｒｅｓｅａｒｃｈ／ｘｍｌｄａｔａｓｅｔｓ／

Ｍｏｎｄｉａｌ数据集的大小为１ＭＢ，有２２４５３个元素结点，最大深度是５，平均深度为３．６．ＴｒｅｅＢａｎｋ数据集深度较大，结点数量和类型较多，相对来说，Ｍｏｎｄｉａｌ数据集深度较小，结点数量和类型较少．为了与现有的基于模糊ＸＭＬ的小枝查询算法进行有效比较，我们选用了文献［１６］中使用的ＲａｎｄｏｍＷａｌｋ的方法来生成模糊ＸＭＬ文档．所谓ＲａｎｄｏｍＷａｌｋ是指对于一个随机选取的结点狏，随机生成模糊结点（生成过程中可以控制模糊结点的数量，模糊结点的成员度取值范围为［０，１］）作为狏的孩子结点，新生成的模糊结点将作为原来狏的孩子结点的父结点．为了方便测试，我们从ＴｒｅｅＢａｎｋ中抽取部分并采用ＲａｎｄｏｍＷａｌｋ方法生成３个不同大小的ＦＴｒｅｅＢａｎｋ测试数据集（简记为ＦＴＢ１，ＦＴＢ２和ＦＴＢ３，默认情况下将选取ＦＴＢ３作为ＦＴｒｅｅＢａｎｋ的测试数据集），这３个数据集分别包含１００万，１５０万和２００万个结点．我们用ＲａｎｄｏｍＷａｌｋ方法同时生成了ＦＭｏｎｄｉａｌ测试数据集，该数据集包含４万个结点．生成的ＦＴｒｅｅＢａｎｋ和ＦＭｏｎｄｉａｌ保留了ＴｒｅｅＢａｎｋ和Ｍｎｄｉａｌ数据集的深度和结点类型等结构特征，具体使用到的查询如表１和表２所示．

表１　犉犜狉犲犲犅犪狀犽的查询描述查询查询表达式ＦＴ１／／ＦＩＬＥ／／ＮＰ／／ＰＰ－１／／＿ＮＯＮＥ＿ＦＴ２／／ＦＩＬＥ［／／ＶＰ－１］／／ＰＰ［／／ＪＪＲ］／／ＥＸＦＴ３／／ＦＩＬＥ／／Ｓ［／／ＰＰ－１］／／ＣＣＦＴ４／／ＰＰ［／／ＥＸ］［／／ＪＪＲ］／／＿ＮＯＮＥ＿

表２　犉犕狅狀犱犻犪犾的查询描述查询查询表达式ＦＭ１／／ｍｏｎｄｉａｌ／／ｃｏｕｎｔｒｙ／／ｐｒｏｖｉｎｃｅ／／ｃｉｔｙＦＭ２／／ｃｏｕｎｔｒｙ［／／ｐｏｐｕｌａｔｉｏｎ］／／ｐｒｏｖｉｎｃｅ／／ｎａｍｅＦＭ３／／ｍｏｎｄｉａｌ／／ｃｏｕｎｔｒｙ［／／ｐｒｏｖｉｎｃｅ］／／ｐｏｐｕｌａｔｉｏｎＦＭ４／／ｍｏｎｄｉａｌ［／ｃｏｎｔｉｎｅｎｔ］／／ｃｏｕｎｔｒｙ［／ｐｒｏｖｉｎｃｅ］／／ｂｏｒｄｅｒ

６２　实验结果与分析为了评估算法的性能，我们选取访问结点数量

和执行时间作为评价指标，前者能反映算法跳过不相关结点的能力，而后者用于反映算法的综合性能．

首先分别在具有不同结构的ＦＴｒｅｅＢａｎｋ和ＦＭｏｎｄｉａｌ数据集上对所有算法进行测试，实验结果如图７和图８所示．从图７（ａ）和图８（ａ）可知，在处理小枝查询时，ＴｗｉｇＩｎｄｅｘ需要访问的结点数目明显要少于其他算法．这是因为：（１）ＥＶＡＬＤＰ在合并局部解过程中需要重复读取大量的中间连接结点；（２）ＣＴｗｉｇ和ＴｗｉｇＦＸ在生成结果过程中，虽然不存在重复读取中间结点的问题，但是仍需访问所有输入列表中的结点；（３）ＴｗｉｇＩｎｄｅｘ既不存在重复读取中间结点的问题，又不需要对所有输入列表中的结点进行扫描，而是利用索引大量地跳过了并不参与合并连接的结点．另外，从图７（ｂ）和图８（ｂ）可以看出，ＥＶＡＬＤＰ需要的运行时间最多，ＣＴｗｉｇ次之，接下来是ＴｗｉｇＦＸ，而ＴｗｉｇＩｎｄｅｘ要明显地快于其他算法．这是由于：（１）ＥＶＡＬＤＰ未充分对不参与合并连接结点进行过滤，进而产生了大量无用的中间结果，带来了较大的查询开销；（２）尽管ＣＴｗｉｇ和ＴｗｉｇＦＸ读取相同数量的结点，但ＣＴｗｉｇ是在合并之后再对中间结果进行整体成员度过滤，而ＴｗｉｇＦＸ则是在ｇｅｔＮｅｘｔ过程中对返回结点进行整体成员度过滤．这也就是说，ＣＴｗｉｇ仍然会产生一定的冗余中间结果，自然也需要一定的额外开销．但是由于ＴｗｉｇＦＸ仍需扫描一次所有输入列表中的结点，并没有充分跳过不参与合并连接的结点，因此查询效率仍有提升空间；（３）ＴｗｉｇＩｎｄｅｘ利用索引和阈值信息，充分过滤了不参与合并连接的结点，因此性能要优于其他算法．

从图７和图８可以看出，ＴｗｉｇＩｎｄｅｘ在不同结构的数据集下始终要比ＴｗｉｇＦＸ、ＣＴｗｉｇ和ＥＶＡＬＤＰ的执行效率高很多．由此可以分析出，本文所提出的索引优化技术对于具有不同结构的模糊ＸＭＬ数据集都能起到提升查询性能的作用．

图７　ＦＴｒｅｅＢａｎｋ上算法性能比较

２８９１计　　算　　机　　学　　报２０１４年

图８　ＦＭｏｎｄｉａｌ上算法性能比较图９给出了所有算法在不同大小ＦＴｒｅｅＢａｎｋ

数据集（ＦＴＢ１、ＦＴＢ２和ＦＴＢ３）下执行ＦＴ４查询时的访问结点数目以及查询响应时间的变化曲线（因为ＦＴ１、ＦＴ２和ＦＴ３的变化曲线图与ＦＴ４类似，简便起见，我们这里省略了ＦＴ１、ＦＴ２和ＦＴ３的变化曲线图）．从图９中可以看到，随着访问结点数目的增加，所有算法的执行时间都会平稳地增大，但

ＴｗｉｇＩｎｄｅｘ在所有测试集下始终要比ＴｗｉｇＦＸ、ＣＴｗｉｇ和ＥＶＡＬＤＰ更加高效．由此可以分析出，本文所提出的索引优化技术对于不同大小的模糊ＸＭＬ数据集都能起到提升查询性能的作用．结合之前图７和图８的实验结果可以有效地证明，本文所提出的索引方法对查询优化起作用，能显著地提升模糊ＸＭＬ环境下的小枝查询性能．

图９　不同大小ＦＴｒｅｅＢａｎｋ数据集下算法性能比较图１０给出了查询ＦＭ４随着ＦＭｏｎｄｉａｌ文档中

模糊结点数目变化时查询响应时间的变化曲线（因为ＦＭ１，ＦＭ２和ＦＭ３的变化曲线图与ＦＭ４类似，简便起见，我们这里省略了ＦＭ１，ＦＭ２和ＦＭ３的变化曲线图）．从图１０中可以发现，ＴｗｉｇＦＸ和ＴｗｉｇＩｎｄｅｘ在模糊结点数目增多时其所需执行时间都比较稳定．由此可以分析出模糊ＸＭＬ文档中模糊结点数目对查询性能影响并不是很大．这是因为ＴｗｉｇＦＸ和ＴｗｉｇＩｎｄｅｘ只需要扫描与查询有关的输入列表中的结点（而不是所有结点），就可以得到所有参与合并连接的结点，因此，其运行时间并不会随模糊结点的增多而发生显著变化．另外从图１０中还可以看出ＴｗｉｇＩｎｄｅｘ始终保持着对ＴｗｉｇＦＸ的性能优势，而这种优势并不随模糊结点数目变化而变化．这是因为ＴｗｉｇＩｎｄｅｘ比ＴｗｉｇＦＸ更能有效地过滤掉不参与合并连接的结点，因此，ＴｗｉｇＩｎｄｅｘ的查询性能更高．

图１０　查询性能随模糊结点数目变化曲线

７　结　论ＸＭＬ已经成为了当前Ｗｅｂ信息表示和交换的

标准．在实际应用中，由于信息通常具有不精确和不确定性，因此模糊ＸＭＬ的研究得到了广泛的重视．本文针对ＸＭＬ查询中的核心操作小枝查询匹配问题进行了研究，讨论了模糊ＸＭＬ环境下的小枝

３８９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

查询及其索引技术，研究了如何在模糊ＸＭＬ环境下实现对小枝模式的查询匹配．在引入编码技术的基础上，本文设计了一种高效的小枝匹配算法，另外，本文还设计了适于用模糊ＸＭＬ数据的索引算法，利用其尽可能多地跳过并不参与合并连接的数据结点，进而提升整体小枝查询算法的效率．未来工作将继续关注模糊ＸＭＬ环境下包含父子边的小枝查询优化技术以及如何在动态更新情况下查询小枝模式和建立索引等问题．

参考文献

［１］ＡｌＫｈａｌｉｆａＳ，ＪａｇａｄｉｓｈＨＶ，ＫｏｕｄａｓＮ，ｅｔａｌ．Ｓｔｒｕｃｔｕｒａｌｊｏｉｎｓ：ＡｐｒｉｍｉｔｉｖｅｆｏｒｅｆｆｉｃｉｅｎｔＸＭＬｑｕｅｒｙｐａｔｔｅｒｎｍａｔｃｈｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．ＳａｎＪｏｓｅ，ＵＳＡ，２００２：１４１１５２

［２］ＢｒｕｎｏＮ，ＫｏｕｄａｓＮ，ＳｒｉｖａｓｔａｖａＤ．Ｈｏｌｉｓｔｉｃｔｗｉｇｊｏｉｎｓ：ＯｐｔｉｍａｌＸＭＬｐａｔｔｅｒｎｍａｔｃｈｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００２ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００２：３１０３２１

［３］ＬｕＪ，ＬｉｎｇＴＷ，ＣｈａｎＣ，ＣｈｅｎＴ．Ｆｒｏｍｒｅｇｉｏｎｅｎｃｏｄｉｎｇｔｏｅｘｔｅｎｄｅｄｄｅｗｅｙ：ＯｎｅｆｆｉｃｉｅｎｔｐｒｏｃｅｓｓｉｎｇｏｆＸＭＬｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ．Ｔｒｏｎｄｈｅｉｍ，Ｎｏｒｗａｙ，２００５：１９３２０４

［４］ＣｈｅｎＴ，ＬｕＪ，ＬｉｎｇＴＷ．Ｏｎｂｏｏｓｔｉｎｇｈｏｌｉｓｍｉｎｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇｕｓｉｎｇｓｔｒｕｃｔｕｒａｌｉｎｄｅｘｉｎｇｔｅｃｈｎｉｑｕｅｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００５ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００５：４５５４６６

［５］ＪｉａｎｇＨＦ，ＷａｎｇＷ，ＬｕＨＪ，ｅｔａｌ．ＨｏｌｉｓｔｉｃｔｗｉｇｊｏｉｎｓｏｎｉｎｄｅｘｅｄＸＭＬｄｏｃｕｍｅｎｔｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ．Ｂｅｒｌｉｎ，Ｇｅｒｍａｎｙ，２００３：２７３２８４

［６］ＷａｎｇＨ，ＭｅｎｇＸ．ＯｎｔｈｅｓｅｑｕｅｎｃｉｎｇｏｆｔｒｅｅｓｔｒｕｃｔｕｒｅｓｆｏｒＸＭＬｉｎｄｅｘｉｎｇ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ，２００５：３７２３７３

［７］ＰａｒｓｏｎｓＳ．Ｃｕｒｒｅｎｔａｐｐｒｏａｃｈｅｓｔｏｈａｎｄｌｉｎｇｉｍｐｅｒｆｅｃｔｉｎｆｏｒｍａｔｉｏｎｉｎｄａｔａａｎｄｋｎｏｗｌｅｄｇｅｂａｓｅｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，１９９６，８（２）：３５３３７２

［８］ＢｕｃｋｌｅｓＢＰ，ＰｅｔｒｙＦＥ．Ａｆｕｚｚｙｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｄａｔａｆｏｒｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｓ．ＦｕｚｚｙＳｅｔｓａｎｄＳｙｓｔｅｍｓ，１９８２，７（３）：２１３２２６

［９］ＰｒａｄｅＨ，ＴｅｓｔｅｍａｌｅＣ．Ｇｅｎｅｒａｌｉｚｉｎｇｄａｔａｂａｓｅｒｅｌａｔｉｏｎａｌａｌｇｅｂｒａｆｏｒｔｈｅｔｒｅａｔｍｅｎｔｏｆｉｎｃｏｍｐｌｅｔｅｏｒｕｎｃｅｒｔａｉｎｉｎｆｏｒｍａｔｉｏｎ．ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓ，１９８４，３４（２）：１１５１４３

［１０］ＡｂｉｔｅｂｏｕｌＳ，ＳｅｇｏｕｆｉｎＬ，ＶｉａｎｕＶ．ＲｅｐｒｅｓｅｎｔｉｎｇａｎｄｑｕｅｒｙｉｎｇＸＭＬｗｉｔｈｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈ

ＡＣＭＳＩＧＡＣＴＳＩＧＭＯＤＳＩＧＡＲＴＳｙｍｐｏｓｉｕｍｏｎＰｒｉｎｃｉｐｌｅｓｏｆＤａｔａｂａｓｅＳｙｓｔｅｍｓ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００１：１５０１６１

［１１］ＫａｎｚａＹ，ＮｕｔｔＷ，ＳａｇｉｖＹ．Ｑｕｅｒｙｉｎｇｉｎｃｏｍｐｌｅｔｅｉｎｆｏｒｍａｔｉｏｎｉｎｓｅｍｉｓｔｒｕｃｔｕｒｅｄｄａｔａ．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ，２００２，６４（３）：６５５６９３

［１２］ＮｉｅｒｒｍａｎＡ，ＪａｇａｄｉｓｈＨＶ．ＰｒｏＴＤＢ：ＰｒｏｂａｂｉｌｉｓｔｉｃｄａｔａｉｎＸＭＬ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＶｅｒｙＬａｒｇｅＤａｔａＢａｓｅｓ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，２００２：６４６６５７

［１３］ＨｕｎｇＥ，ＧｅｔｏｏｒＬ，ＳｕｂｒａｈｍａｎｉａｎＶＳ．ＰＸＭＬ：Ａｐｒｏｂａｂｉｌｉｓｔｉｃｓｅｍｉｓｔｒｕｃｔｕｒｅｄｄａｔａｍｏｄｅｌａｎｄａｌｇｅｂｒａ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｂａｎｇａｌｏｒｅ，Ｉｎｄｉａ，２００３：４６７４７８

［１４］ＶａｎＫｅｕｌｅｎＭ，ＤｅＫｅｉｊｚｅｒＡ，ＡｌｉｎｋＷ．ＡｐｒｏｂａｂｉｌｉｓｔｉｃＸＭＬａｐｐｒｏａｃｈｔｏｄａｔａｉｎｔｅｇｒａｔｉｏｎ／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｔｏｋｙｏ，Ｊａｐａｎ，２００５：４５９４７０

［１５］ＡｂｉｔｅｂｏｕｌＳ，ＳｅｎｅｌｌａｒｔＰ．ＱｕｅｒｙｉｎｇａｎｄｕｐｄａｔｉｎｇｐｒｏｂａｂｉｌｉｓｔｉｃｉｎｆｏｒｍａｔｉｏｎｉｎＸＭＬ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｄｖａｎｃｅｓｉｎＤａｔａｂａｓｅＴｅｃｈｎｏｌｏｇｙ．Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ，２００６：１０５９１０６８

［１６］ＫｉｍｅｌｆｅｌｄＢ，ＫｏｓｈａｒｏｖｓｈｙＹ，ＳａｇｉｖＹ．ＱｕｅｒｙｅｆｆｉｃｉｅｎｃｙｉｎｐｒｏｂａｂｉｌｉｓｔｉｃＸＭＬｍｏｄｅｌｓ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００８ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２００８：７０１７１４

［１７］ＬｉＹ，ＷａｎｇＧ，ＸｉｎＪ，ｅｔａｌ．ＨｏｌｉｓｔｉｃａｌｌｙＴｗｉｇｍａｔｃｈｉｎｇｉｎｐｒｏｂａｂｉｌｉｓｔｉｃＸＭＬ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＥｎｇｉｎｅｅｒｉｎｇ．Ｓｈａｎｇｈａｉ，Ｃｈｉｎａ，２００９：１６４９１６５６

［１８］ＬｉｕＪ，ＭａＺＭ，ＹａｎＬ．ＥｆｆｉｃｉｅｎｔｐｒｏｃｅｓｓｉｎｇｏｆｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇｉｎｆｕｚｚｙＸＭＬ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１８ｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．ＨｏｎｇＫｏｎｇ，Ｃｈｉｎａ，２００９：１９３２０４

［１９］ＧａｕｒａｖＡ，ＡｌｈａｊｊＲ．ＩｎｃｏｒｐｏｒａｔｉｎｇｆｕｚｚｉｎｅｓｓｉｎＸＭＬａｎｄｍａｐｐｉｎｇｆｕｚｚｙｒｅｌａｔｉｏｎａｌｄａｔａｉｎｔｏｆｕｚｚｙＸＭＬ／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００６ＡＣＭＳｙｍｐｏｓｉｕｍｏｎＡｐｐｌｉｅｄＣｏｍｐｕｔｉｎｇ．Ｄｉｊｏｎ，Ｆｒａｎｃｅ，２００６：４５６４６０

［２０］ＭａＺＭ，ＹａｎＬ．ＦｕｚｚｙＸＭＬｄａｔａｍｏｄｅｌｉｎｇｗｉｔｈｔｈｅＵＭＬａｎｄｒｅｌａｔｉｏｎａｌｄａｔａｍｏｄｅｌｓ．Ｄａｔａ＆ＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ，２００７，６３（３）：９７２９９６

［２１］ＭａＺＭ，ＬｉｕＪ，ＹａｎＬ．ＦｕｚｚｙｄａｔａｍｏｄｅｌｉｎｇａｎｄａｌｇｅｂｒａｉｃｏｐｅｒａｔｉｏｎｓｉｎＸＭＬ．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１０，２９（５）：９２５９４７

［２２］ＴｕｒｏｗｓｋｉＫ，ＷｅｎｇＵ．Ｒｅｐｒｅｓｅｎｔｉｎｇａｎｄｐｒｏｃｅｓｓｉｎｇｆｕｚｚｙｉｎｆｏｒｍａｔｉｏｎ—ＡｎＸＭＬｂａｓｅｄａｐｐｒｏａｃｈ．ＪｏｕｒｎａｌｏｆＫｎｏｗｌｅｄｇｅＢａｓｅｄＳｙｓｔｅｍｓ，２００２，１５（１２）：６７７５

［２３］ＭａＺＭ，ＬｉｕＪ，ＹａｎＬ．ＭａｔｃｈｉｎｇｔｗｉｇｓｉｎｆｕｚｚｙＸＭＬ．ＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅｓ，２０１１，１８１（１）：１８４２００

［２４］ＺａｄｅｈＬＡ．Ｆｕｚｚｙｓｅｔｓａｓａｂａｓｉｓｆｏｒａｔｈｅｏｒｙｏｆｐｏｓｓｉｂｉｌｉｔｙ．ＦｕｚｚｙＳｅｔｓａｎｄＳｙｓｔｅｍｓ，１９７８，１（１）：３２８

［２５］ＺａｄｅｈＬＡ．Ｆｕｚｚｙｓｅｔｓ．ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｎｔｒｏｌ，１９６５，８（３）：３３８３５３

４８９１计　　算　　机　　学　　报２０１４年

犔犐犝犑犻犪狀，ｂｏｒｎｉｎ１９８４，Ｐｈ．Ｄ．ｃａｎｄｉｄａｔｅ．ＨｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｄａｔａｂａｓｅｓａｎｄＸＭＬｄａｔａｍａｎａｇｅｍｅｎｔ．

犕犃犣狅狀犵犕犻狀，ｂｏｒｎｉｎ１９６５，Ｐｈ．Ｄ．，ｐｒｏｆｅｓｓｏｒ，Ｐｈ．Ｄ．ｓｕｐｅｒｖｉｓｏｒ．Ｈｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓｉｎｃｌｕｄｅｉｎｔｅｌｌｉｇｅｎｔｄａｔａａｎｄｋｎｏｗｌｅｄｇｅｅｎｇｉｎｅｅｒｉｎｇ．

犙犞犙犻狌犔狅狀犵，ｂｏｒｎｉｎ１９８７，Ｍ．Ｓ．ｃａｎｄｉｄａｔｅ．ＨｉｓｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｉｓＸＭＬｄａｔａｍａｎａｇｅｍｅｎｔ．

犅犪犮犽犵狉狅狌狀犱　　ＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＩｎｔｅｒｎｅｔ，ｍａｎａｇｉｎｇｉｎｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｔｈｅＷｅｂｂｅｃｏｍｅｓｍｏｒｅａｎｄｍｏｒｅｉｍｐｏｒｔａｎｔ．ＸＭＬｉｓｒａｐｉｄｌｙｅｍｅｒｇｉｎｇａｎｄｈａｓｂｅｅｎｔｈｅｄｅｆａｃｔｏｓｔａｎｄａｒｄｆｏｒｅｘｃｈａｎｇｉｎｇｄａｔａｏｎｔｈｅＷｅｂ．ＸＭＬｄａｔａａｒｅｏｆｔｅｎｒｅｐｒｅｓｅｎｔｅｄａｓｔｒｅｅｍｏｄｅｌｓ，ａｎｄａｎＸＭＬｑｕｅｒｙｉｓｔｙｐｉｃａｌｌｙｆｏｒｍｅｄａｓａｔｗｉｇｐａｔｔｅｒｎｗｉｔｈｐｒｅｄｉｃａｔｅｓａｄｄｉｔｉｏｎａｌｌｙｉｍｐｏｓｅｄｏｎｔｈｅｃｏｎｔｅｎｔｓｏｒａｔｔｒｉｂｕｔｅｖａｌｕｅｓｏｆｔｈｅｔｒｅｅｎｏｄｅｓ．Ｄｕｅｔｏｉｔｓｓｉｇｎｉｆｉｃａｎｃｅｔｏｍａｎｙｐｒａｃｔｉｃａｌａｐｐｌｉｃａｔｉｏｎｓ，ｅｆｆｉｃｉｅｎｔｐｒｏｃｅｓｓｉｎｇｏｆｔｗｉｇｑｕｅｒｉｅｓｈａｓｒｅｃｅｉｖｅｄｓｉｇｎｉｆｉｃａｎｔａｔｔｅｎｔｉｏｎｓｆｒｏｍｂｏｔｈａｃａｄｅｍｉｃａｎｄｉｎｄｕｓｔｒｉａｌｃｏｍｍｕｎｉｔｉｅｓ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｉｎｆｏｒｍａｔｉｏｎｉｓｏｆｔｅｎｖａｇｕｅｏｒａｍｂｉｇｕｏｕｓｉｎｔｈｅｒｅａｌｗｏｒｌｄａｐｐｌｉｃａｔｉｏｎｓ．Ｉｍｐｒｅｃｉｓｅａｎｄｕｎｃｅｒｔａｉｎｄａｔａｈａｓｂｅｃｏｍｅａｎｅｍｅｒｇｉｎｇｔｏｐｉｃｆｏｒｖａｒｉｏｕｓａｐｐｌｉｃａｔｉｏｎｓ．Ｔｈｕｓ，ｉｔｉｓｏｆｉｍｐｏｒｔａｎｃｅｔｏｒｅｓｅａｒｃｈｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆＸＭＬａｎｄ

ｉｍｐｒｅｃｉｓｉｏｎ／ｕｎｃｅｒｔａｉｎｔｙ．ＥｘｉｓｔｉｎｇａｌｇｏｒｉｔｈｍｓｆａｌｌｓｈｏｒｔｉｎｔｈｅｉｒａｂｉｌｉｔｉｅｓｔｏｍｅｅｔｔｈｅｎｅｅｄｏｆｉｎｔｅｌｌｉｇｅｎｔｍａｎａｇｅｍｅｎｔｏｎＸＭＬｄａｔａ．Ｈｅｎｃｅ，ｓｔａｒｔｉｎｇｗｉｔｈａｎｉｎｖｅｓｔｉｇａｔｉｏｎｏｎｆｕｚｚｙＸＭＬｄａｔａｍｏｄｅｌ，ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｓｔｈｅｐｒｏｂｌｅｍｏｆｅｆｆｅｃｔｉｖｅｌｙｅｎｃｏｄｉｎｇｔｈｅｎｏｄｅｓｉｎｆｕｚｚｙＸＭＬ．Ｏｎｔｈｉｓｂａｓｉｓ，ｔｈｅｐｒｏｂｌｅｍｏｆｔｗｉｇｐａｔｔｅｒｎｍａｔｃｈｉｎｇｉｎｆｕｚｚｙＸＭＬｉｓｆｕｒｔｈｅｒｓｔｕｄｉｅｄ．Ｉｎｐａｒｔｉｃｕｌａｒ，ａｎｅｆｆｅｃｔｉｖｅａｌｇｏｒｉｔｈｍｆｏｒｍａｔｃｈｉｎｇｔｗｉｇｏｖｅｒｆｕｚｚｙＸＭＬｄａｔａａｎｄａｎｅｆｆｉｃｉｅｎｔｉｎｄｅｘｆｏｒｓｐｅｅｄｉｎｇｕｐｔｈｅｍａｔｃｈｉｎｇｐｒｏｃｅｓｓａｒｅｐｒｏｐｏｓｅｄ．

ＴｈｉｓｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（６０８７３０１０ａｎｄ６１０７３１３９）ａｎｄｔｈｅＦｕｎｄａｍｅｎｔａｌＲｅｓｅａｒｃｈＦｕｎｄｓｆｏｒｔｈｅＣｅｎｔｒａｌＵｎｉｖｅｒｓｉｔｉｅｓ（Ｎ０９０５０４００５ａｎｄＮ１００６０４０１７），ａｎｄｉｎｐａｒｔｂｙｔｈｅＰｒｏｇｒａｍｆｏｒＮｅｗＣｅｎｔｕｒｙＥｘｃｅｌｌｅｎｔＴａｌｅｎｔｓｉｎＵｎｉｖｅｒｓｉｔｙ（ＮＣＥＴ０５０２８８）．

５８９１９期刘　健等：基于模糊ＸＭＬ的小枝查询处理

Documents

基于模糊犡犕犔的小枝查询处理 - ict.ac.cncjc.ict.ac.cn/online/onlinepaper/lj-2014914163756.pdf · 犓犲狔狑狅狉犱狊 Web；fuzzydata；XML；twigpatternmatching；index