Upload
others
View
31
Download
0
Embed Size (px)
Citation preview
数字⼈人⽂文 所见所闻
曾蕾数字图书馆前沿技术研讨班
厦门 2015-07 6-8
1
怎样定义?
2
“数字⼈人⽂文” 还是 “⼈人⽂文学科中的数字学术研究”?
⼀一个充满活⼒力的领域• 创新空间层次⽆无穷
• 不稳定
• 逐渐形成学科
传统的⼈人⽂文学科注重某些领域,例如⽂文学,艺术,宗教,哲学,⼈人类学等。数字⼈人⽂文侧重数字⽅方面和随着时间的推移技术如何发展。
�两者是重叠的,因为虽然技术不断发展,我们必须研究⼈人们是如何随之演变,以及我们如何需要适应之。Katherine Hayleshttp://dtc-wsuv.org/wp/dtc375-scodi/katherine-hayles/
2015 数字⼈人⽂文国际会议宣讲⽂文章用词⼀一览
3
http://dh2015.org/
根据2015会议日程制作
主旨发⾔言:1哈佛MetaLab主任小数据 -- 深度数据
2 Intel 用户体验VP,机器⼈人
什么算是DH专长?
• 没有‘正确’的答案• 不应侧重学习某种技术,⽽而是要注重培养敏捷性、
流动性、创造性、批判性思维
• 实践建立在理论之上,理论由实践来证明• 侧重于阐述和学术探索,⽽而不是‘解决[某]问题’
• 与其他数字驱动的实践和学术领域密切交互
4
梅陇基⾦金会项目对全球14个数字⼈人⽂文中⼼心探访的结果:
技术解决⽅方案往往不只是技术问题
Source: 张甲2015ADLS开幕致辞
• Data is new oil
6
数据
7
智慧数据
智慧[⼤大]数据 (smart [big] data)
⼤大数据的模式和思维⽅方式、智慧数据的实现⽅方式
本发⾔言围绕 �-结构化数据 (structured data)
�-半结构数据 (semi-structured data)
�-⽆无结构数据 (unstructured data)• 数字化的非⽂文本⽂文献 (digitized unstructured data)
8 [今年《智慧数据》会议8月底在硅⾕谷召开,与语义技术⼤大会、NoSQL会联合举⾏行。]
Ref: Schöch, Christof. 2013. Big? Smart? Clean? Messy? Data in the Humanities. http://journalofdigitalhumanities.org/2-3/big-smart-clean-messy-data-in-the-humanities/
大数据变得越来越smart、智慧数据趋于越来越big
10 Schöch, Christof. 2013
11
关注基于图书馆资源的数据
• 现实、可⾏行,做本⾏行• 基于图书馆资源的数据现成, 已经具
有⼀一定规模 – 图书馆目录– 专题⽂文献库– 档案查找⼯工具– 导航式指南– ⼤大批⽂文献已经数字化
– 。。。 。。。
• 图书馆数据有质量控制、属于智慧数据
12
13
其数据来源: • Freebase (now Wikidata) • Allgemeines Künstlerlexikon/ Artists
of the World, (世界艺术家传记) • Union List of Artist Names (ULAN®)
(艺术家人名规范档)
绘制三千年文化史图 (自然录像截屏)
https://www.youtube.com/watch?v=4gIhRkCcD4U
14
15
16
其数据来源: • Freebase (now Wikidata) • Allgemeines Künstlerlexikon/ Artists of the
World, (世界艺术家传记) • Union List of Artist Names (ULAN®)
(艺术家人名规范档)
关注基于图书馆资源的半结构数据
• 数字化后的⽂文献内容是否可以提供检索⼊入⼝口、统计成份、关联点决定于其结构
• 图书馆数据中有⼤大量的隐藏的检索⼊入⼝口和可关联点
• 目的:
– 在已有图书馆资源的基础上,在图书馆数据基础上的知识再发现
– 不要再花⼤大量⼈人⼒力去处理这些数据或者建新的数据项目,⽽而是采用语义技术去挖掘和利用已有数据。�
基于图书馆资源的 语义技术应用与知识再发现
17
实例1:半结构化的档案查找⼯工具(Finding
Aids)
18
• Finding Aids 描述某一特藏的来源、历史、所含材料内容中的具体文献编号、名称等。
• 编制一个Finding Aids的时间往往跨数月数年
• 图书馆中最宝贵的第一手资料以及查找工具
• 成千上万的Finding Aids贮藏在分散的机构里。
• 数字化包括两层: • 所含资料的数字化(往往只有部
分被数字化) • Finding Aids 的数字化
请⼤大家思考:花了这么多时间和⼈人⼒力做出来的宝贵资料⼯工具能够改进⼀一些吗?
除了提供管理元数据,内容上有什么检索⼊入⼝口?
19
在如此丰富的内容中,有哪些⼈人物、事件、地点、时间可以将读者带到相关的资料中,可以揭示新的知识?
检索入口、统计成份、关联点在哪??? 什么事?
靠主题词能提高检索效率吗?
20
提供(人工标引的)某些人名和主题链
接
提供主题词
目前使用者可以通过这里听采访录音,读实录文字,看照片
http://www.unmultimedia.org/oralhistory/2000/05/annan-kofi/
21
实例2 。口述历史文献特藏
对联合国秘书长安南的采访记录
采访录音的文字实录都被做成PDF文献,有详细的书后索引
22
数字化并不等于可获取可发现性的保证,为什么? -- PDF ⽂文献或图像-- 内容没有与外界链接-- 索引没有被用于特藏的检索中,只是书内的索引。
例3(马克记录): 同样是内容字段,有结构与⽆无结构决定了内容是否可以成为检索⼊入⼝口、统计成份、关联点
505 机器可处理结构,(演奏者、曲目名有子字段) 但是没有明文规定,很多机构采用无结构方式
在511中,机器无法分辨演奏者、曲目。
23
24
⼤大数据
大,乱、快
强调用传统方法对数据进行分析
⼤大⽂文本
75-90%信息是无结构的文本
光靠传统的方法不行,需要新的技术,机器学习,有情感分析
“Big text” – 有⼈人称之为⽂文字版的“⼤大数据”
(The text version of “big data”)
– Where? • 特藏、 档案、⼝口述历史等
– How? • 事实挖掘、analytics
– What are needed? • 挖掘⽂文字、管理抽取的作为新的获取途径的实体
(entity)、与外界数据联结的⼯工具
25
对半结构和⽆无结构数据处理的⽅方法
• ⽂文字挖掘 ;– 自然语⾔言处理,机器学习,复杂统计学应用
• 名词短语抽取; ⼈人物、机构、时间、空间、事件、⽅方法等
• 情感分析– 正面与负面语句• 自动总结;• 本体;事实抽取+推理 • 自动分类、聚类、regression(基于本体/分类
法)
26
⽂文本挖掘与数据挖掘
• 文本挖掘
“数据挖掘是指从数据中发现模式的过程。这个过程必须是自动或(通常)半自动的。被发现的模式必须是有意义的,既它们带来一些益处,(通常是经济上的益处)。而这种数据则总是以其宏大的数量而显著。
- 来源:E.H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques, 2005.
27
• 数据挖掘 “……从文本数据的“大山”中获取所需信息的小金块,而无需通读所有的文本。” -来源:Mike Sharp, ‘Text mining.’ “……将文本转换为可用的信息。” - 来源:SAS新闻稿 “风险:嘈杂的,非结构化的,变幻莫测的,并可能只得到有限的结果。” - 来源:Jean Godby
根据Jean Godby 2014-06-11在Kent State SLIS 的交流发言搞翻译
寻找从半结构数据中挖掘信息、提供检索和联结点
28
以本体与自然语⾔言处理结合的语义分析⼯工具可以帮助我们抓取⼀一些内容
演示1: 采用 Open Calais (免费版本) 处理 1. Go to: http://viewer.opencalais.com/2. 将那段来龙去脉的⽂文字贴进去,3. Submit。
29
结果显示
主题词、标签(关键词)
30
31
实体: 地点、人物、机构、职务
… …
关于实体的知识是
mashup来的
自动生成RDF/XML格式的关联数据
33 Tool used: http://www.intelligenceapi.com/demo/
演示2: 采用 COGITO(免费版本) 除了文字挖掘,还有事实挖掘、关系显示、地理位置显示、情感趋向、人物机构位置等实体的抽取、推理等
34 Tool used: http://www.intelligenceapi.com/demo/
除了文字挖掘,还有事实挖掘、关系显示、地理位置显示、情感趋向、人物机构位置等实体的抽取、推理等
35
http://www.archives.sh.cn/shjy/scbq/201203/t20120313_5717.html
http://bosonnlp.com/demo
演示3: 采用 BOSON(免费版本) 处理
36 http://bosonnlp.com/demo
37
⽂文化遗产 - 渐渐地被数字化,但难以被发现、再利用、引用、交换、比较...
非⽂文字⽂文献
国际图象互操作框架
nternational mage nteroperability ramework
(IIIF)
见专题 ppt 文件
39 http://www.synaptica.com/oasis/
深度图像标引、关联数据形式
数字⼈人⽂文学科的举措已经证明⼀一个范式转变⽂文化遗产资料如何能采用数字技术来• 检索、 • 开采、 • 显示、 • 传递、• 教育、• 分析 等等
• 这种转变直接影响记忆机构和信息专业⼈人员,• 必须掌握这些新的与⽂文化遗产交互的⽅方式• 和探索如何更好地服务于不断变化的用户
群。 Ø 这些⼈人群往往具有比以往任何时候都更
加复杂的知识(关于怎样使用、研究和共享数据)