Upload
nuwa
View
58
Download
4
Embed Size (px)
DESCRIPTION
电子期刊最新卷期浏览和邮件提醒服务. 殷蜀梅 北京大学医学图书馆系统部. 主要内容. 设计目的 系统功能设计 总体设计框架 技术方法 系统运行效果 后续工作. 设计目的. 帮助读者把握领域内最新研究动态 学术期刊是能及时反映学术发展动态的出版物。当前电子期刊的种类和来源众多,有图书馆订购的全文期刊数据库(包括全科和专科数据库),有开放获取的免费全文期刊库,有免费期刊网站等等。 - PowerPoint PPT Presentation
Citation preview
电子期刊最新卷期浏览和邮件提醒服务
殷蜀梅北京大学医学图书馆系统部
主要内容 设计目的 系统功能设计 总体设计框架 技术方法 系统运行效果 后续工作
设计目的 帮助读者把握领域内最新研究动态
学术期刊是能及时反映学术发展动态的出版物。当前电子期刊的种类和来源众多,有图书馆订购的全文期刊数据库(包括全科和专科数据库),有开放获取的免费全文期刊库,有免费期刊网站等等。
电子学术期刊是散落在图书馆订购的各种期刊全文数据库以及免费电子期刊网页中,仅医学图书馆订购的期刊全文数据库就有 22 种之多,可以想象研究人员是不可能每次有信息需求的时候都穷尽这么多数据库的检索,因此急需要这种工具来加强数据库的利用,对期刊全文数据库进行集中报道、集中揭示,提高图书馆主动服务的水平。
系统功能设计 主动采集期刊网页上包含有卷期以及文献信息的页面代码
自动将 html代码转换成格式化的 xml文件
抽取 xml文档中的关键内容存入后台数据库
实现电子期刊数据的检索和发布功能 实现基于期刊最新卷期的个性化定制服务
技术方法 系统开发和运行环境的选择
名称 配置操作系统 Windows 2003 server
Webserver Tomcat5.5
数据库平台 sqlserver
开发工具 Eclipse 3.2
开源工具 Httpclient,jtidy
开发语言 Java,jsp
电子期刊网站页面特点分析 笔者挑选了几个具有代表性的数据库进行分析,发现大部分电
子期刊信息展现层次是分三个页面进行的:先显示该期刊的基本信息和收藏的卷,从某一卷的链接点击后显示特定卷下的详细期数,然后通过期的链接展现详细的期刊目次信息。也有部分数据库在初始页面就将详细的期次展现出来,这样只需要两级页面就到达期刊目次页面。
根据电子期刊的访问方式,笔者设计了期刊目次聚合系统通过程序自动以 http 协议的方式模拟用户访问的形式来访问电子期刊网站,逐步获取到最新一期卷期、卷期页面链接、包含文摘的目次页面链接等,直到最终获取到包含文摘的目次页面HTML 代码,将 HTML 代码转换成 xml 文档,根据网页格式模板的定义,来抽取其中的题名、作者、页码、 DOI 、文摘、关键词、全文链接等信息。
网页获取和分析的流程图
期刊目次信息抽取流程图开始
采集数据库
从数据库读取 URL
记录尾?是
否
调用 XPATH定位
调用 HttpClient从Web上下载 HTML文档
否
信息
路径 / 目次信息?
结束
去重、入库
路径
调用 jtidy和 jdom 转换成 XML
XSLT模板
成功获取?
是
系统运行效果
系统运行效果
后续工作 解决小语种和化学符号的获取和显示成乱码
的问题 扩大抽取的期刊数据库数量 对期刊进行学科分类,提供按学科领域来推送期刊最新文章的服务
收集期刊的出版频率,按照期刊不同的出版频率定期抽取
欢迎批评指正!谢谢!