Upload
dinhnhan
View
385
Download
0
Embed Size (px)
Citation preview
从XBRL到金融知识图谱:展望开放知识图谱在金融领域的应用
From XBRL to Financial Knowledge Graph: An Outlook of Open Knowledge Graph's Application in Finance
鲍捷文因互联 CEO
相关职业经历• 2001 - 2007 Iowa State University。语义网、描述逻辑、分布式本体和推理
• 2008 - 2010 RPI。语义维基、规则语义、Context建模、OWL/RDF标准化
• 2010 - 2011 MIT。AIR规则语言、XBRL语义• 2009 - 2016 ISWC(语义网大会)PC member,
Metadata chair ('10, '13)• 2011-2013 三星美国。问答系统• 2013 - 文因互联(Memect)。语义搜索,金融知识图谱
2
W3C相关经历• 2008 - 2010 W3C OWL Working Group
•OWL 2 Quick Reference Guide (Recommendation)•RDF Plain Literal (Recommendation, joint work with
RIF WG)
• 2010-2011 MIT DIG (TBL) visiting• 2010 RDF Next Steps Workshop• 2011 Research related to Provenance WG• 2013 Workshop on Social Standards• 2016- AC representative for 文因互联(Memect)
3
Semantic Web (2001)-> Linked Open data (2006)
-> Knowledge Graph (2012)
4
开放数据是新时代的高铁
5
开放和互联的数据是21世纪最重要的经济基础设施之一,和高速公路、高速铁路一样,是国家核心竞争力的组成部分。
摘自《文因互联加入W3C,参与开放数据和知识图谱国际标准制定》http://blog.memect.cn/?p=366
互联数据云
6
互联数据云
开放金融数据
在哪里?
7
开放金融数据在哪里?
少量在政府开放数据中
8
9
10
SEC数据
EDGAR公告检索
投资公司报告
共同基金报告
XBRL报告
保险产品
SEC法规年鉴
公共公司破产记录
……
11
开放,但未互联
12
一星级
EDGAR公告检索
13
EDGAR数据下载
14
SEC XBRL数据下载
https://www.sec.gov/structureddata/rss-feeds-submitted-filings 15
SEC XBRL数据下载
16
机器可读非专有格式
三星级
XBRL•eXtensible Business Reporting
Language• 基于XML• 使用XML Schema, XLink, XPath
•公开的财务报表格式• 应用:美国、中国、英国、法国、德国、日本、印度、韩国、加拿大等
17
XBRL报告结构•Instance (数据) + Taxonomy (定义)•各国都有自己的Taxonomy,如美国的GAAP,欧洲的IFRS,中国的CAS
18
XBRL实例
19
报告起止日期
货币单位
收支
公司代号
中国的现状
20
开放,但未互联
一星级
XBRL的问题• 规范了数据的结构而不是数据的语义
•概念(concept)难以继承和扩展•关系(link,relation)无法推理•基于linkbase的数据引用非常受限•难以表达稍微复杂的概念约束和算数约束•扩展困难
•因此,XBRL非常罗嗦,且数据一致性保证很弱•例:子公司A的收入要汇总到总公司的总收入。总公司的帐哪里,必需再说一遍:总公司的总收入包括子公司A的收入
•例:难以保证跨报告周期财务数字完整性和一致性。
21
XBRL的语义化:提升至五星级数据• 用RDF语法• 用OWL表示语义• 用SPARQL和RIF表示规则约束
22
五星级
Jie Bao, Graham Rong, Xian Li, and Li Ding (2010). Representing Financial Reports on the Semantic Web - A Faithful Translation from XBRL to OWL.In The 4th International Web Rule Symposium (RuleML). (p. 144-152)http://blog.memect.cn/?p=1139
XBRL和OWL关键概念对应
23
XBRL翻译为OWL
24
更简洁,更清晰
XBRL翻译为OWL
25
语义增强XBRL,支持推理,简化声明,并支持自动化校验
更多细节见 http://blog.memect.cn/?p=1139
金融报表数据的图谱化•提供富有表达力的、灵活的建模,方便数据的查询、过滤和可视化•跨文档比较•按行业、公司等进行风险评估
•简化数据集成,简化外部知识集成
•通过推理、语义联想提供强大的数据洞察能力
26
W3C/OMG FIBO社区小组•Financial Industry Business Ontology
https://www.w3.org/community/fibo/http://www.edmcouncil.org/financialbusiness
•一组金融领域词汇集,弥补XBRL的不足证券、金融机构、贷款、商业实体、指数、指标等
•一小部分成为谷歌schema.org的扩展https://www.w3.org/community/fibo/wiki/Main_PageMonetaryAmount, FinancialProduct, BankAccount, DepositAccount, LoanOrCredit, PaymentCard, InvestmentOrDeposit, PaymentService, CurrencyConversionService
27
走向智能金融
28
金融科技(Fintech)
互联网金融
智能金融
数据分析交易策略自动报告和新闻机器人投顾智能量化语义搜索征信风险控制......
从数据到图谱到魔术
29
一些有代表性的公司
30
金融知识图谱的技术挑战
31
分析层次 技术可访问性 链接数据,pdf提取,OCR,JSON,REST API,
RDF可发现性 语义搜索、探索引擎、推荐系统、推送系统深度关系发现 关系抽取、知识推理领域知识集成 知识库构造、常识知识库业务知识集成 知识编辑工具、推理、可视化策略生成 意图理解、查询生成、自然语言生成、用户画
像、记忆匹配、與情分析、规则提取、知识库检索、推理机、查询分解和优化、多渠道证据收集和置信度分析、财务模型、投资模型、风险模型、相关度建模、逻辑生成
文因互联致力于更开放的金融数据• 2016.4 加入W3C
• 2016.5 联合发起中文开放知识图谱联盟
• 2016.6 新三板数据语义搜索引擎 wenyin.io
• 2016.7 新三板、A股、美股核心数据API
32
开放,将使未来更美好
33
34
memect.cn
35
open.memect.cn
36