112
天河超级计算机上的 生物医药大数据和 AI 机器人医生 大超人 人:国防科技大学计算机学院软件所 彭绍亮 博士 国家超级计算长沙中心(湖南大学) Email: [email protected] 微信:nudtpeng 合作单位: 华大基因 中科院上海药物所 军事医学科学院 英国曼彻斯特大学 Best+

天河超级计算机上的 生物医药大数据和 AI机器人医 …b2b.lenovo.com.cn/Public/Ad/hpc/files/5-3.pdf天河超级计算机上的 生物医药大数据和 AI机器人医生

  • Upload
    others

  • View
    31

  • Download
    0

Embed Size (px)

Citation preview

天河超级计算机上的生物医药大数据和AI机器人医生 大超人报 告 人:国防科技大学计算机学院软件所 彭绍亮 博士 国家超级计算长沙中心(湖南大学)

Email: [email protected] 微信:nudtpeng

合作单位: 华大基因 中科院上海药物所 军事医学科学院 英国曼彻斯特大学

Best+

22

彭绍亮简介

从事高性能计算、大数据、生物医学工程、移动计算等技术研究工作,并担任天河生命科学大数据

方向负责人,国家超级计算长沙中心执行主任,华大基因研究院 “特聘教授”,湖南大学“岳麓学者”特聘教授。

International Journal of Biological Sciences (SCI期刊,2013 IF=4.37) 执行主编(Executive Editors), Interdisciplinary Sciences: Computational Life Sciences期刊副主编(SCI)。计算机科学与工程国际期刊(IJCSE)执行主编(Executive Editor),高性能计算与网络国际期刊(IJHPCN)副主编(Associate Editor),嵌入式系统国际期刊(IJES)副主编(Associate Editor)曾参与天河系列超级计算机应用软件研发工作,参与国家973/863项目、军队重大型号项目等13项,获军队科技进步一等奖/三等功。

主持国家自然科学基金项目3项(重点1项),国家发改委项目1项,省部级项目3项。发表学术论文数十篇Nature Communications, Cell AJHG, Genome Biology, Cancer Research, BMC Bioinformatics, ACM/IEEE Transactions, 《中国科学》等。

33

彭绍亮简介

中国计算机学会理事(2016-2019),计算机应用专委会/生物信息专业组副主任( 2016-2019) ,高性能计算、大数据专委会委员、CCF高级会员、YOCSEF总部AC委员/长沙2016-2017主席

中央军委科技委生物交叉专委委员,中国医药生物技术协会生物医学信息技术分会委员、中国生物医学工程学会健康分会委员、上海市大数据实验室“科学家”、广东省高性能计算协会主任、广东省超算应用产业联盟理事长、国际交叉学科协会副理事长、中国交叉科学学会副理事长。

44

About us

‒ School of Computer Science of NUDT• The largest School of Computer Science:

• 10 institutes, 400 +faculties, and 3,000+ students

‒ Hometown of Supercomputers in China:Tianhe1 and 2 Supercomputers

• No. 1 in TOP500 (2010.10, 2013.6, 2013.11, 2014.6, 2014.11, 2015.7, 2015.11)

• TH-2: 33.86 PFLOPS, 32,000 CPUs+48,000 MICs

55

Tianhe Biomedical Groups

‒ Shaoliang Peng (NUDT, Changsha, China) and an adjunct professor of BGI. (3 Chinese Academy of Science and Chinese Academy of Engineering academicians)

5

‒ We gains the Gold Award twice of PAC 2014 and 2015 (Parallel Application Challenge Competition) and IEEE Scale Chanllenge Final-list Award • Human Whole Genome Re-sequencing Analysis Software Pipeline, • mD3DOCKxb: largest high throughput molecular docking platform• AI Doctor• Global Chinese Meta Genomics• … …

‒ High performance computing, bioinformatics, virtual screening, and biology simulation.

66

1983,the first supercomputer of China.1983年,国内第一台超级计算机

1992,the first GFlops system of China.1992年,国内第一台十亿次计算机

2000,the first TFlops system of China.2000年,国内第一台万亿次计算机

2010,Tianhe-1 supercomputer,No.1 on the TOP500 list in November 2010.2010年,天河一号超级计算机,2010年11月世界TOP500排名第一

2013,Tianhe-2 supercomputer,No.1 on the TOP500 list in June 2013.2013年,天河二号超级计算机,2013年6月世界TOP500排名第一

77

3 National Supercomputer Centers Using TH

88

List of Top 500 Supercomputers @ 2013

99

天河应用:算天、算地、算人

• 基因工程

• 生物医学

• 药物设计

• 环境生态

• 宇宙科学

• 金融计算

• 地球物理

• 复杂电磁

• 高速列车

• 航空航天

• 基础算法

• 材料科学

1010

——NSCC-TJ TH-1 (Nov.2010 – May. 2011)

天河2: 生命科学 > 30%

天河上的资源利用和用户分布

28%

16%

12%

11%

9%

8%

5%3%

8% Petroleum

Bio-medical

CFD

Engineering

Climate&Environment

Equipment

Education

Animation

Other

1111

Overview of TH-1

‒ Hybrid architecture: CPU & GPU

‒ Custom system software stack

Items Configuration

Processors14336 Intel CPUs + 7168 nVIDIA GPUs + 2048 FT CPUsPeak performance 4.7PF, Linpack 2.57PF

Interconnect Proprietary high-speed interconnection network TH-net

Memory 262TB in total

Storage Global shared parallel storage system, 2PB

Cabinets 140 compute / communication/storage Cabinets

Power consumption 4.04MW (635.15MF/W)

Cooling Water cooling system

1212

Overview of TH-2

Items Configuration

Processors 32000 Intel Xeon CPUs + 48000 Xeon Phis + 4096 FT CPUsPeak performance is 54.9PFlops

Interconnect Proprietary high-speed interconnection network TH Express-2

Memory 2 PB in total

Storage Global shared parallel storage system, 20 PB

Cabinets 125+13+24=162 compute/communication/storage Cabinets

Power 17.8 MW

Cooling Closed Air cooling system

‒ Neo-heterogeneous architecture• Xeon CPU & Xeon Phi

1313

TH-2A and TH-3

1414

System Tianhe-1A Tianhe-2 Tianhe-2A

System Peak(PF) 4.7 54.9 ~100

Peak Power(MW) 4.04 17.6 ~18

Total System Memory 262 TB 1.4 PB ~3PB

Node Performance(TF) 0.655 3.431 ~6

Node processors Xeon X5670Nvidia M2050

Xeon E5 2692 Xeon Phi China CPU + GPDSP

System size(nodes) 7,168 nodes 16,000 nodes ~18,000

System Interconnect TH Express-1 TH Express-2 TH Express-2+

File System 2 PBLustre

12.4PB H2FS+Lustre

~30PBH2FS+TDM

Roadmap of Tianhe System

1515

Applications Current Scale in China Scale in next 5 years

Seismic Exploration 2600km2 , 5km depth217900 shots2.2TB data

Millions of shots

Genomics Research 2PB bioinformatics data 100PB bio data

New Energy(Magnetic Confinement Fusion)

2 billion ions0.83 billion electrons

100 billion atoms

Drug Design200-300ns Molecular Dynamics simulations

10 Million molecular1000ns/day

CFD(Aircraft Design)

3.5 billion mesh points 100 billion mesh points

Universal Evolution(neutrinos)

110 billion particles Trillion particles

Smart City(Urban ElectromagneticSpectrum Monitoring System)

Area (Guangzhou city):200km2

Grid size:1.0km*1.0kmGrid Size: 100m*100m

Application scale in next 5 years

1616

System Architecture

Hybrid Runtime

MPI

Domain Framework Data Management Tools

Hardware

Software

Application Domain Models

Proxy AppsAlgorithms Benchmarks

OS Compiler Library File System

OpenMP GA CUDA/OpenAcc

Hadoop/Spark

New Emerged Programing Interface

Data Analysis

CPU/AcceleratorHybrid Node Memory Interconnection Storage Device

Solutions

Requirements

Constraints

Tradeoff

Bri

dg

eCo-design Eco-system

1717

基于临床大数据的AI辅助诊疗机器人

1818

基于临床大数据的AI辅助诊疗机器人

1919

大数据临床诊断辅助决策能解决医疗行业什么核心问题

医疗行业引入大数据临床诊断辅助决策人工智能平台的主要目的:

国内卫生部门备案的医院约有2万多 家,其中三甲医院超过770家

注册医生总数超过200万人

总计就诊量约32亿人次/年

国内医疗机构体量

面临的主要问题

国内医疗资源分布不平衡

误诊率

病人满意度

以大数据技术作为使能手段

提高医生的诊断能力和诊断效率

提升病人就诊满意度

拉动医院知识能力的传承和积累

2020

十二五以来,大数据国家战略即将出台,医疗行业是重点

根据ID C(国际数据公司)的监测统计,2015年全球医疗数据总量已经达

到1.5ZB(1ZB等于1万亿G B,1.5ZB也就相当于15亿个1T B移动硬盘的存储量),

而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有

30ZB的数据量,增长20倍。

开源分析机构Wikibon预计,2015年全球大数据企业营收为500亿美元,

未来5年的市场复合年增长率将达到58%,2020年将达到2800亿美元。

Gartner的咨询报告指出,国内2015年的医疗数据总量已经达到0.3ZB,

主要包含HIS(医疗信息系统)的结构化数据,PACS(电子病历)的半结构

化数据,LIS(检验检疫系统)和视频监控,教学视频、科研文章等非结构化

数据。同时,还以每年翻一番的速度增长,预计到2020年,医疗相关的数据

将占全球所有数据的7.2%,达到2.5ZB。

国内医疗信息化总项目营收2015年为:273.74亿人民币。其中大数据相

关的占比约为:0.26%,不足7000万人民币。

医疗行业市场前景看好,数据量大,但是大数据产品占比低。

2014年7月23日,国务院常务会议审议通过《企业信息公示暂行条例(草案)》,推动构建公平竞争市场环境。其中要求建立部门间互联共享信息平台,运用大数据等手段提升监管水平。2014年9月17日,部署进一步扶持小微企业发展,推动大众创业,万众创新,其中包括加大服务小微企业的信息系统建设,方便企业获得政策信息,运用大数据、云计算等技术提供更有效服务。2014年10月29日,要求重点推进6大领域消费,其中强调加快健康医疗、企业监管等大数据应用。2014年11月15日,提出在疾病防治,灾害预防,社会保障,电子政务等领域开展大数据应用示范。

通过国家层面的战略规划明确大数据产业的发展重点、空间布局和保障措施,推动和改善与大数据相关的收集、储存和分析工具及技术,并在公共服务领域(如安防、医疗、卫生、教育等)开展大数据应用示范,提高应急处置能力和安全防范能力,提升服务能力和运作效率。 —— 中国工程院院士高文

目前我们正在对基础研究的医疗大数据获取方式、组织与管理、关联与发现、分析与可视化等方面进行研究,下阶段将研究医疗大数据的协同创新、科研模式变革、服务模

式、产业化探索、人才培养等方面问题。” —— 中国科学院科学数据中心主任黎建辉

2121

类型 项目名称 主要厂商 项目内容

水平基础设施及平台项目

医疗云平台华为、浪潮、运营商、思科、曙光

通过虚拟化手段,将原有运行在物理机环境上的应用搬迁到云平台上,提高了硬件的运行效率,

提升了应用系统的服务能力,减轻了能源开支和管理成本。

无线WIFI 思科、华为、中兴、H3C等通过多个基础站点建立覆盖全院的高速的wifi服务网络,对外提供无线上网服务,对内提供无线设备传输通道,是移动医疗、远程医疗的网络传输基础。

区域医疗平台 创业、联众、东软、东华 基于卫生管理部门-三甲医院-社区医疗机构的三层垂直管理,实现数据的传输和共享。

存储系统建设 EMC、NETAPP、华为、中兴等 基于医院的结构化数据(HIS)和非结构化数据(影像、化验单扫描件)的存储,备份和容灾。

垂直行业应用项目

HIS 创业、联众、东华、东软等 通过电子化的手段,很好的解决了医院收费、药房发药、医生处方、病人支付的问题。

LIS 创业、联众、东华、东软等 电子化检验检疫结果,方便医生和病人的查询、统计。

PAC 创业、联众、东华、东软等 电子病历系统,很好的解决了无纸化病历问题。

新生婴儿防盗系统 医慧科技等 通过RFID的物联网手段,解决新生婴儿防盗和误领问题。

门诊输液系统 宁波金塘软件、杭州医慧科技等 通过物联网感知设备,解决护士的换药、病人的输液问题。

ICU看护 关注ICU的重点病例,实时传输生命体征数据,针对为重病人提供重点看护服务。

护士/医生移动工作站 无绳化设备,方便医生、护士查房的信息输入。

消毒管理 提供医院可回收设备的消毒服务。

设备管理 结合RFID对医院固定资产,易耗品做统一的分发管理。

国内主流的信息系统都未涉及医疗行业的核心业务

2222

医疗事故致死率排名意外死亡第三位医护人员在医疗活动中的差错已经成为了国内外人们普遍关注的问题。

2000年,美国医学研究院(Insitute Of Medicine,IOM)发表了一遍报告“To err is Hunman”(人是会犯错的)。该报告表明:医疗差错的数量惊人,医疗差错致死已经成为第三位死因。其次,大部分的医疗差错是认为因素所致是可以通过计算机辅助系统避免的。在医疗行业,已经普遍认为提高医疗质量、控制认为医疗差错、提高病人安全为 优先和急迫的任务。

中国2010年-2015年,连续5年医疗事故死亡率增长。

2012年全球意外死亡人数

170万

90万

85万

交通事故 刑事案件 医疗事故

中国2010年----2015年医疗事故死亡人数

2010年 2011年 2012年 2013年 2014年 2015年

13.7万14.1万 14.8万 15.6万 17.7万 17.8万

Source:美国医学研究院(Insitute Of Medicine, IOM 2015)

2323

医院在医疗核心业务进行大数据尝试的需求迫切,但是缺乏合适的切入点和医疗资源

我们的HIS系统及其他信息系统都是相关独立的,数据分别存储在不同的数据库中,缺乏系统间的数据共享和数据传输能力。各大应用系统的历史数据完善且内容丰富,数据是我们的重要资产,但是我们缺乏历史数据的二次利用,医院本身没有打通信息系统的能力,但是供应商似乎热情不高。

—— 某三甲医院信息科主任

我们的业务系统都是公司自主知识产权的产品,前期的开发、实施、部署都花费了大量的成本,我们不愿意无偿把数据开放给第三方厂商。

—— 某医院信息系统供应商市场总监

我们看到目前的大数据产品在医疗行业的应用都是属于锦上添花性质,我们迫切需要雪中送炭的产品,真正能帮助一线的医护人员,降低他们的工作量,提高

工作效率,提升病人的满意度。

—— 卫计委某发言人

医疗行业相比其他行业更加严谨,因为“人命关天”,因此,其在IT创新上进度进对较慢,我认为,医疗行业大数据应用还处在起步阶段,但大部分医疗机构已经开始意识到大数据对于他们的重要性。对于大多数成功的医疗机构来说,利用大数据已经成为提高生产力、改进医护水平、增强竞争力、加快增长和创新

的关键策略。我们也非常欢迎国内知名IT厂商和我们一起探讨大数据产品在医疗核心业务的应用。

—— 某三甲医院院长

未来,大数据必将影响医疗行业,未来医疗行业的大数据将会具体应用在:临床辅助决策,医疗质量监管,疾病预测模型,临床实验分析。其发展空间有:个

人健康门户,慢病管理和健康管理,电子病历和临床质量监控,医学知识管理,临床路径和循证医学,远程医疗和移动医疗,医学研究数据仓库和共享平台,

跨医疗机构协作平台。

—— 卫生部部长陈竺

2424

需要在经验医疗和循症医疗之外引入第三种诊疗方式

新医生经验不够

多因素影响时造成的判断不准

普通医院接诊疑难病例

公众通过症状及理化指标来认识自己的身体状况

32%

29%21% 23%

国内医院人为因素医疗事故成因排行

Source:误诊学概论 1998年人民军医出版社,作者刘振华,陈晓红

全球误诊率最高的7种疾病统计

Source:哈佛大学医学院泰加尔·甘地教授 在美国自然母亲网2月4日的载文

肺结核

结节病

帕金森

甲状腺功能减退

纤维肌痛症

多发硬化症

红斑狼疮

我过著名医学家吴阶平为医学专著《误诊学》作的序言中写道:“造成误诊的原因是多方面的,但是人的因素始终居于第一位各种检查措施、化验方法都要由人来使用,由人来解释和判断其意义。”但医学发展到今天,依然无法完全解释每一种疾病的发生和发展。误诊的发生牵扯到很多因素,且很难凭医院和医生之力而杜绝。医疗诊断中造成误诊的人为因素很多种,这些因素造成误诊的人为因素,可

以通过病例数据的统计规律来弥补。

建立临床医疗诊断辅助决策平台的主要目的之一就是提高医疗的安全性和诊疗质量,减少医疗差错。

2525

Why not IBM Watson?(续1)

自然语言处理

基于循证的自动回答

基于用户反馈的自学习和系统优化

整个系统围绕三个核心构成

IBM Watson的工作流程其中,自然语言处理,和基于用户反馈的自学习和系统优化,大体上是常见技术。

这三个核心中, 有启发的是第二个,基于循证的自动回答。以往的电脑医生,基本原理

都是专家系统,都是基于 if-then 式的规则,都是演绎法。而循证问答,基本原理是类比归纳法。通过类比大量相似病历,归纳出对应于某些症状,医生们通常习惯于做哪些检查。然后,类比相似检查结果,归纳出这些检查结果与哪些疾病关联密切。再然后,仍然基于相似病历的类比,归纳出对应于某一疾病或者某些疾病的组合,医生们通常习惯于开哪些药,等等。

从古希腊的帕拉图亚里士多德开始,人类的主要思想方法,是演绎法。到 17 世纪初,呐喊 “知识就是力量” 的培根,首倡归纳法。思想方法转变了,现代科学就萌芽了,随后就有了伽利略、牛顿、莱布尼兹等等科学巨匠。

循证学习依赖于海量病历。但是截止 2016年 2 月,IBM Dr Watson 只收集到了 60 万份病历,此外还有 2 百万篇文章,2.5 万案例,1.5 万小时的门诊对话录音。远远达不到海量的数据规模。

怎么办?病历数量太少,做全科医生肯定不行。那就专门收集肿瘤专科的病历吧,全科医生做不了,那就先做专科医生吧!

2626

Why not IBM Watson?(续2)

反观中国,一家中等规模的三甲医院,5 年积累的病历数量,就超过 1000 万份。所以,在中国做循证学习,比在美国更有机会。

为什么不惜工本的 IBM,花了那么多钱,只收集了那么一点病历呢?两个原因:

• 美国人口基数小

• 美国隐私保护法执行太严

去年 7 月份,IBM 与美国 大的连锁药店 CVS,签署合作协议,通过 CVS 的 7600 店铺和 1000 家诊所,监测 7 千万患者的健康状态,尤其关注糖尿病、高血压等慢性病。今年 8 月份,IBM 花费 10 亿美金,收购医疗图像分析公司 Merge Healthcare。

这两个举措,似乎表明 IBM Dr Watson 在发展规划上,内部有争议。与 CVS 合作,似乎意味着 IBM 计划尽快开拓市场,为患者服务。而收购图像分析公司 Merge Healthcare,似乎意味着 IBM 打算深入肿瘤、眼科、骨科、皮肤病等专科, 终完全取代人类医生诊疗在诊疗过程中的各个环节。

2727

俺们最新进展情况汇报

已部署医院12家

序号 医院名称 对应系统

1 第四军医大学附属西京医院 心理健康筛查

2 杭州市第一人民医院 分导诊平台

3 西安红会医院 骨质疏松筛查

4 浙江大学附属邵逸夫医院 加速康复

5 浙江省红十字会医院 呼吸内科辅助诊断平台

6 上海华山医院 呼吸慢病管理平台

医疗大数据的门槛非常高。其中,数据、算法、算力是三个 大的门槛。

数据:目前我们有7800万份合作医院的病历数据,同时以每天3.8万份的速度递增。

算力:天河超级计算机,将本来需要3-5年的计算工作时间,缩短到1-3小时算法:在增强版的SVM(支持向量机算法)结合经济、宏观预测领域的BP、RBF、VQ算法的基础上,自 研了算法集成平台,能将机器辅助诊断的精度提升到一个全新的领域

2828

应用1:肺结核-临床诊断辅助决策平台(续1)临床症状

临床指标

经验模型库

循症模型库

各种可能性疾病百分比

比对

修正

比对

修正

• 胸痛、气喘• 持续了三天• 午后低烧• 厌食• 体重减轻• 无过往类似病史• 无家族类似病史

• X线影像呈现多形态表现胸部部分组织钙化并伴有胸液渗出和组织纤维化

• 胸部CT扫描情况呈现胸内隐匿部位病变,包括气管、支气管内的病变厌食

• 胸内发现肺内栗粒阴影

• 血常规检查发现血液白细胞增多,巨噬细胞异常

来源于LIS系统

来源于现场沟通

• 肺结核经验模型库• 肺炎经验模型库• 肺癌经验模型库• 肺水肿经验模型库• 肺脓肿经验模型库• 肺囊肿经验模型库

• ……..

• 肺结核循症模型库• 肺炎循症模型库• 肺癌循症模型库• 肺水肿循症模型库• 肺脓肿循症模型库• 肺囊肿循症模型库

• ……..

比对

修正

• 肺结核80%• 肺炎3%• 肺癌2%• 肺水肿1%• 肺脓肿1%• 肺囊肿1%• ……..

比对

修正

2929

临床诊断辅助决策平台(续2)

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

临床指标

临床症状

体重减轻3低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7

斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

循症模型库

经验模型库

体重减轻3低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

临床诊断案例

肺结核模型

结论:肺结核相似度87%

3030

临床诊断辅助决策平台(续3)肺结核87%

肺癌3%

肺炎3%

肺水肿1%

肺囊肿1%

肺脓肿0.2%

肺气胸0.1%

其他3.7%

点击临床症状

• 胸痛、气喘• 持续了三天• 午后低烧• 厌食• 体重减轻• 无过往类似病史• 无家族类似病史

临床指标

• X线影像呈现多形态表现胸部部分组织钙化并伴有胸液渗出和组织纤维化

• 胸部CT扫描情况呈现胸内隐匿部位病变,包括气管、支气管内的病变厌食

• 胸内发现肺内栗粒阴影

• 血常规检查发现血液白细胞增多,巨噬细胞异常

3131

临床诊断辅助决策平台(续4)治疗方式治愈率

手术治疗 药物治疗

70%

30%

药物治疗

药物治疗的主要作用在于缩短传染期、降低死亡率、感染率及患率。对于每个具体患者,则为达到临床及生物学治愈的主要措施,合理化治疗是指对活动性结核病坚持早期、联用、适量、规律和全程使用敏感药物的原则。

• 早期治疗 一旦发现和确诊后立即给药治疗;

• 联用 根据病情及抗结核药的作用特点,联合两种以上药物,以增强与确保疗效;

• 适量 根据不同病情及不同个体规定不同给药剂量;

• 规律 患者必须严格按照治疗方案规定的用药方法,有规律地坚持治疗,不可随意更改方案或无故随意停药,亦不可随意间断用药;

• 全程 乃指患者必须按照方案所定的疗程坚持治满疗程,短程通常为6~9个月。一般而言,初治患

者按照上述原则规范治疗,疗效高达98%,复发率低于2%。

手术治疗

外科手术已较少应用于肺结核治疗。对大于3厘米的结核球与肺癌难以鉴别时,复治的单侧纤维厚壁空洞、长期内科治疗未能使痰菌转阴者,或单侧的毁损肺伴支气管扩张、已丧失功能并有反复咯血或继发感染者,可作肺叶或全肺切除。结核性脓胸和(或)支

气管胸膜瘘经内科治疗无效且伴同侧活动性肺结核时,宜作肺叶-胸膜切除术。手术治疗禁忌证有:支气管黏膜活动性结核变,而又不在切除范围之内者全身情况差或有明显心、肺、肝、肾功能不全。只有药物治疗失败无效时才考虑手术。手术前后病人无例外也要应用抗结核药。

3232

治疗方式风险

药物治疗 手术治疗

60%

40%

临床诊断辅助决策平台(续5)‒ 空洞性肺结核手术适应证

• 经抗结核药物初治和复治规则治疗(约18个月),空洞无明显变化或增大,痰菌阳性者,

尤其是结核菌耐药的病例;

• 如反复咯血、继发感染(包括真菌感染)等,

药物治疗无效者;

• 不能排除癌性空洞者;

• 非典型分枝杆菌,肺空洞化疗效果不佳或高度

者。

‒ 结核球手术适应证

• 结核球经规则抗结核治疗18个月,痰菌阳性,咯血者;

• 结核球不能除外肺癌者;

• 结核球直径>3厘米,规则化疗下无变化,为相对手术适应证。

‒ 毁损肺手术适应证 经规则抗结核治疗仍有排菌、咯血及继发感染者。

‒ 肺门纵隔淋巴结核手术适应证

• 经规则抗结核治疗,病灶扩大者;

• 病灶压迫气管、支气管引起严重呼吸困难者;

• 病灶穿破气管、支气管引起肺不张,干酪性肺炎,内科治疗无效者;

• 不能排除纵膈肿瘤者。

‒ 大咯血急诊手术适应证

• 24小时咯血量>600毫升,经内科治疗无效者;

• 出血部位明确;

• 心肺功能和全身情况许可;

• 反复大咯血,曾出现过窒息、窒息先兆或低血

压、休休克者。

‒ 自发性气胸手术适应证

• 气胸多次发作(2~3次以上)者;

• 胸腔闭式引流2周以上仍继续漏气者;

• 液气胸有早期感染迹象者;

• 血气胸经胸腔闭式引流后肺未复张者;

• 气胸侧合并明显肺大孢者;

• 一侧及对侧有气胸史者应及早手术。

3333

临床诊断辅助决策平台(续6)

A类处方60%

B类处方15%

C类处方12%

D类处方9%

E类处方4%

处方比例排行 处方构成:

A类处方:异烟肼(INH)+链霉素(SM)+利福平(RFP)

B类处方:

吡嗪酰胺(PZA)+乙氨丁醇(EMB)

C类处方:

异烟肼(INH) +乙氨丁醇(EMB)

D类处方:

链霉素(SM)+利福平(RFP)

E类处方:

利福平(RFP)+异烟肼(INH)

注意事项:

1.异烟肼(INH):对结核菌具有极强的杀灭作用,其价格低廉,是治疗结核病必不可少的药物。

2.链霉素(SM):是初治肺结核强化期〈开始两个月〉治疗化疗方案组成药物之一,对结核杆菌有明显杀菌作用。该药对颅神经有损害,可引起眩晕耳鸣、听力减退甚至耳聋,口唇麻木等副作用,

故孕妇、儿童及老人应禁用或慎用。

3.利福平(RFP):对结核菌有很强的杀灭作用,是继异烟脚之后 为有效的抗结核药,也是初治肺结核治疗方案中不可缺少的组成药物。

4.乙氨丁醇(EMB):对结核菌有抑制作用,特别是对已耐异烟肼、链霉素的结核菌仍有抑制作用,用药期间应注意视力变化。

5. 吡嗪酰胺(PZA):对细胞内或静止状态下的结核杆菌具有特殊杀灭作用。

3434

临床诊断辅助决策平台(续7)处方针对性排行

初治肺结核 复治肺结核

90%

70%

50%

100% A类处方B类处方

C类处方

D类处方E类处方

3535

应用2:西京医院心理健康筛查平台介绍

抑郁症 数据 抑郁症 数据

蓝色隐忧 精神病学中的感冒 发病机制 未知

全球患病人数 超过12亿 病因 不明

发达国家 超过18% 诊断金指标 无

中国患病人数 超过0.9亿 临床症状 发散

占比 约7% 特效治疗手段 无

递增速度 超过11.8% 特效治疗药物 无

疾病总负担占比 超过25% 复发率 超过70%

青少年、白领患病比例 超过20% 治愈比例 0%

2016年和西京医院达成项目合作,在西京医院部署为军服务16类战士心理障碍筛查平台。

16类心理障碍指的是:抑郁发作、恶劣心境、自杀、躁狂发作、惊恐障碍、广场恐惧症、社交恐惧症、强迫症、创伤后应激障碍、酒滥用和酒依赖、非酒精类精神活性物质使用障碍、精神病性障碍、神经性厌食、神经性贪食、广泛性焦虑障碍、反社会型人格障碍、

以抑郁发作为例,详细阐述机器诊断的理论体系和诊断过程。

3636

西京医院心理健康筛查平台介绍(续1)临床症状

临床指标

经验模型库

循症模型库

各种可能性疾病百分比

比对

修正

比对

修正

• 情绪低落,持续了三个月• 有自杀倾向• 失眠、健忘• 食欲不振、无精打采• 无过往类似病史• 无家族类似病史

• 脑电波检查,结果显示:脑部垂体未受损,也无外部创伤。

• 甲状腺检查结果显示:甲状腺功能低下

• 心电图检查,结果显示:心脏功能正常

• 传染病学检查,结果显示:指标项正常

来源于LIS系统

来源于现场沟通

• 抑郁发作经验模型库• 焦虑经验模型库• 恐惧经验模型库• 自杀经验模型库• 狂躁经验模型库• 癫痫经验模型库

• ……..

• 抑郁发作循症模型库• 焦虑循症模型库• 恐惧循症模型库• 自杀循症模型库• 狂躁循症模型库• 癫痫循症模型库

• ……..

比对

修正

• 抑郁发作80%• 焦虑3%• 恐惧2%• 自杀1%• 狂躁1%• 癫痫1%• ……..

比对

修正

3737

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

临床指标

临床症状

体重减轻3 低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7

斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

循症模型库

经验模型库

体重减轻3

低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

临床诊断案例

抑郁发作模型

结论:抑郁发作相似度87%

西京医院心理健康筛查平台介绍(续2)

3838

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

临床指标

临床症状

体重减轻3低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7

斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

胸部10肝脏7

血液5

淋巴19

眼睛6

肌肉5

关节10

神经11

皮肤11

心脏3

内分泌4

腮腺7

胃肠道4

生殖器3

肾脏5

其他15

0

循症模型库

经验模型库

体重减轻3低烧5

厌食3

月经不调2

无力2

干咳4

哮鸣3

呼吸困难2关节痛7斑点5

皮疹4

视力减退3

过往病史10

家族病史8

周围病例6

关节痛10 0

临床诊断案例

狂躁发作模型

结论:狂躁发作相似度13%

西京医院心理健康筛查平台介绍(续3)

3939

抑郁发作87%

狂躁3%

焦虑3%

恐惧1%

强迫症1%

创伤后应激障碍0.2%

癫痫0.1%

其他3.7%

点击

西京医院心理健康筛查平台介绍(续4)临床症状

• 情绪低落、食欲不振• 持续了三个月• 有自杀倾向• 失眠、健忘• 无过往类似病史• 无家族类似病史

临床症状

• 脑电波检查,结果显示:脑部垂体未受损,也无外部创伤。

• 甲状腺检查结果显示:甲状腺功能低下

• 心电图检查,结果显示:心脏功能正常

• 传染病学检查,结果显示:指标项正常

4040

西京医院心理健康筛查平台介绍(续5)序号 相似指标 差异指标

经验模型 循症模型 经验模型 循症模型

1 项目 值域 项目 值域 项目 值域 项目 值域

2 表情 5 甲状腺 1 家族病史 3 传染病 1

3 脸色 1 垂体 2 既往史 2 外部创伤 2

4 兴趣缺乏 5 创伤史 1

5 情绪低落 5

6 焦虑 4

7 认知症状 2

8 失眠 1

9 健忘 1

10 运动迟滞 2

11 自知力减退 2

合计 87% 13%

4141

西京医院心理健康筛查平台介绍(续5)

70%

18%

症状减轻或消失 药物治疗

药物治疗是中度以上抑郁发作的主要治疗措施。目前临床上一线的抗抑郁药主要包括选择性5-羟色胺再摄取抑制剂(SSRI,代表药物氟西汀、帕罗西汀、舍曲林、氟伏沙明、西酞普兰和艾司西酞普兰)、5-羟色胺和去甲肾上腺素再摄取抑制剂(SNRI,代表药物文拉法辛和度洛西汀)、去甲肾上腺素和特异性5-羟色胺能抗抑郁药(NaSSA,代表药物米氮平)等。传统的三环类、四环类抗抑郁药和单胺氧化酶抑制剂由于不良反应较大,应用明显减少。

心理治疗

对有明显心理社会因素作用的抑郁发作患者,在药物治疗的同时常需合并心理治疗。常用的心理治疗方法包括支持性心理治疗、认知行为治疗、人际治疗、婚姻和家庭治疗、精神动力学治疗等,其中认知行为治疗对抑郁发作的疗效已经得到公认。

物理治疗

有严重消极自杀企图的患者及使用抗抑郁药治疗无效的患者可采用改良电抽搐(MECT)治疗。电抽搐治疗后仍需用药物维持治疗。近年来又出现了一种新的物理治疗手段——重复经颅磁刺激(rTMS)治疗,主要适用于轻中度的抑郁发作。

4242

A类处方60%

B类处方15%

C类处方12%

D类处方9%

E类处方4%

处方比例排行

西京医院心理健康筛查平台介绍(续6)

处方构成:

A类处方:帕罗西汀+氟伏沙明+文拉法辛

B类处方:吡嗪酰胺+乙氨丁醇

C类处方:米氮平 +艾司西酞普兰

D类处方:文拉法辛+乙氨丁醇

E类处方:

吡嗪酰胺+帕罗西汀

注意事项:

传统的三环类、四环类抗抑郁药和单胺氧化酶抑制剂由于不良反应较大,应用明显减少。

4343

西京医院心理健康筛查平台介绍(续7)处方针对性排行

单向抑郁发作 双向抑郁发作

90%

70%

50%

100% A类处方B类处方

C类处方

D类处方E类处方

4444

0-10岁 10-20岁 20-30岁 30-40岁 40-50岁 50岁以上

抑郁发作年龄段分布

100%

40%

10%

0-10岁 10-20岁 20-30岁 30-40岁 40-50岁 50岁以上

抑郁发作病平均症状消失时比例

100%

90%

50%

男性 女性 单向 双向

0-10岁 10-20岁 20-30岁 30-40岁 40-50岁 50岁以上

抑郁发作平均治疗费用

10000元

5000元

2000元

男性 女性

0-10岁 10-20岁 20-30岁 30-40岁 40-50岁 50岁以上

抑郁发作平均治疗周期

180天

90天

30天

男性 女性

西京医院心理健康筛查平台介绍(续8)疾病分析:

4545

• 单一病种的诊断辅助决策:针对单一病种,做快速的诊断辅助决策

• 精准率:达到85%左右;• 功能:诊断辅助决策;

周期:6~8个月

周期:16~24个月

周期:24~48个月

周期:48个月以上

• 分导诊平台: 完成人工智能分导诊平台的建设,完成医院主要科室的智能挂号

• 精准率:分导诊平台精确程度要达到98%以上• 功能:和自助挂号机对接,在完成初诊后的智能挂号

阶段一

阶段二

阶段三

阶段四

• 多病种:涵盖呼吸内科、神经内科、疼痛科、消化内科约1000种常见疾病

• 准确率:达到70%左右;

• 接入医院:对接HIS、LIS、EMR等医院系统;• 模型库:建立循症模型;

• 功能:治疗方案、处方药用药;

• 全科病种:涵盖全科常见疾病,在此基础上覆盖疑难杂症;

• 准确率:达到75%左右;• 模型库:完善循症模型;

规划

4646

一站式大数据医健服务平台

智能诊疗

电子病历电子处方

智能监测

心率脉动检测血糖血压检测呼吸系统检测

…… 延伸医嘱

保险企业制药企业科研机构

……

上下游产品整合与推广

智能问诊

智能检测

医后服务

数据整合服务运营

智能化

协同化

基于症状、病种的智能问诊与排查

基于可穿戴便携式设备的生命信息主动性监测

健康产品延伸服务

医药延伸服务

标准化

可视化

智能医疗生态链

4747

项目运营场景

4848

项目运营场景

4949

自助分导诊机器人

5050

三甲医院就诊人数密集,分导诊能有效提高医院运行效率 据世界卫生组织和中国卫计委数据显示:2015年国内门诊量总计达:42亿人次;国内三甲医院总数约为:1000家,占国内医院总数的

0.57%;国内47.56%的门诊量由三甲医院承担,平均一家三甲医院的日门诊总量约为:6000人次 —— Source:世界卫生组织(World Health Organization, WHO 2015)

大多数病人(67%)不能确定该挂什么科室,需要咨询专业人员或者互联网。

国内三甲医院都有专门的导诊台,有护士/实习医生/志愿者来帮助患者完成分导诊,但是分导诊人员工作量大,成就感差。如何提高门诊分导诊的服务质量是三甲医院管理者需要重点考虑的一个内容。

—— Source:浙江省卫计委官网

42%

导诊台 挂号窗口 互联网 自身常识

5%

20%33%

三甲医院导诊台人员统计

2012 2013 2014 2015

杭州市第一人民医院

浙江邵逸夫医院

杭州市红会医院

20人

10人

5151

现有的分导诊简单粗暴、准确度差,病人满意程度低 现有的分导诊中心,一般都有简单的体征采集设备,可以采集诸如:体温、血压、心率、血氧的基础指标。但是没有将上述指标和病人

具体的症状相结合,更没有将病人的既往病史、家族史、感染史、过敏史等信息相结合。

以咳嗽为例:导诊中心一概往呼吸内科引导。可是,咳嗽也有可能会由:消化系统、心血管系统、耳鼻咽喉系统、生殖系统、神经系统等引起。简单粗暴的导诊方式,既浪费了病人的时间,也浪费了门诊医生的时间。

——Source:《中国医药指南》, 2013(21):74-75,作者刘振华,陈晓红

西京医院 杭州市第一人民医院

杭州市红十字会医院

浙江省邵逸夫医院

1.4 1.4

1.3 1.3

国内知名三甲医院人均挂号数量统计

分导诊错误导致的挂错号后果很严重:

浪费了医生的宝贵时间,使无效工作量提升30-40%。

浪费了病人的就诊时间。挂错号意味着要重新挂号。

耽误了病人治疗的时间,降低了病人就诊的满意度。

还会造成更大程度的误诊和漏诊。

分导诊人员的工作认可感、成就感进一步降低。

对医院整体的医疗水平造成伤害。

5252

精确的分导诊需要强大的医学专业理论、实践体系支撑 精确的分导诊需要强大的医学专业理论、实践体系支撑,更需要专业的生物理化检测设备支持,同时需要结合病人的既往病史、脸色、舌

苔、表情等综合症状。

实际的导诊过程中,承担导诊工作的往往是护士、实习医生、志愿者,其医学属性相对较低,精准的分导诊工作对他们来说勉为其难。

导诊中心还有科室引导的作用,其工作内容更是简单、机械,完全可以由计算机系统来替代。

分导诊中心工作内容及占比统计

分导诊

就医指引

其他

Source:杭州市第一人民医院门诊中心、杭州市红会医院、邵逸夫医院、浙一医院门诊中心

48%

20%

32%

项目杭州市第一人民

医院杭州市红会医院

浙江医科大学附属第一医院

浙江邵逸夫医院

体温 √ √ √ √

心率 √ √ √ √

血压 √ √ √ √

血氧 √ × × ×

脸色 × × × ×

舌苔 × × × ×

表情 × × × ×

家族病史 × × × ×

既往病史 × × × ×

感染史 × × × ×

过敏史 × × × ×

5353

基于机器学习的人工智能体系,在诊断中学习,在学习中诊断

在矢量化算法、神经元算法、贝叶斯算法的基础上,研发了更符合医学逻辑的VQ算法/RBF算法/BP算法。同时推出了算法集成平台,对上述算法的结果做了修正。

BP算法并不是机械的将患者的症

状与记忆中的诊断对号,而是由相

似性原理进行模糊推理获得诊断结

果,疾病与人体关系的复杂性、不

可预知性等诸多方面均存在大量复

杂的非线性关系,因此临床医学非

常符合BP算法的应用特征。

BP算法 VQ算法 RBF算法

算法集成平台是使用一系列的VQ,RBF,BP的统计结果进行精度分析,并使用某种规则把各个算法的结果整合,从而获得比单个算法更精确的平台。

F(X)输出

5454

快速的体征采集设备是精确分导诊的重要手段

真正做到

握一握手,采集临床体征

刷一刷卡,获取基本信息

自研体征采集手环:

集成在机器人手掌部位,采取人机握手的方式,快速获

取4大体征数据:体温、心率、血氧、血压

接触式读卡器:

集成在机器人肩部,近距离IC卡接触,可获取病人就诊卡中的7大数据:姓名、出生年月、性别、家庭住址、联系方式、工作单位、职业。方便病人快速注册

5555

快速的体征采集设备是精确分导诊的重要手段

真正做到

握一握手,采集临床体征

刷一刷卡,获取基本信息

自研体征采集手环:

集成在机器人手掌部位,采取人机握手的方式,快速获

取4大体征数据:体温、心率、血氧、血压

接触式读卡器:

集成在机器人肩部,近距离IC卡接触,可获取病人就诊卡中的7大数据:姓名、出生年月、性别、家庭住址、联系方式、工作单位、职业。方便病人快速注册

5656

脸色、舌苔、表情等图像识别是精确分导诊的有益补充

通过平板的摄像头分别采集人的脸色、舌苔、表情图像,计算机自动分析相关图片,给出初步诊断意见。经过临床测试,

总准确率达到60%以上。

舌尖偏红

舌尖偏红,

需要注意

消化系统

疾病

舌苔

舌苔偏黄

舌苔偏黄,

覆盖了红色

部分,需要

注意消化系

统疾病

舌红少苔

舌红少苔,

需要注意肾

功能疾病

舌苔偏白

舌苔偏白,

少且薄,需

要注意消化

系统和呼吸

系统疾病

5757

脸色、舌苔、表情等图像识别是精确分导诊的有益补充

通过平板的摄像头分别采集人的脸色、舌苔、表情图像,计算机自动分析相关图片,给出初步诊断意见。经过临床测试,

总准确率达到60%以上。

舌尖偏红

舌尖偏红,

需要注意

消化系统

疾病

舌苔

舌苔偏黄

舌苔偏黄,

覆盖了红色

部分,需要

注意消化系

统疾病

舌红少苔

舌红少苔,

需要注意肾

功能疾病

舌苔偏白

舌苔偏白,

少且薄,需

要注意消化

系统和呼吸

系统疾病

5858

基于最短路径和症状树的问答体系提高初诊效率

输入

疾病1

疾病2

疾病n

症状:咳嗽

症状:发热

症状12……症状1N

症状1:发热症状22……症状2N

症状1:发热症状22……症状2N

统计症状:“发热”出现的比例 高,因此系统将选择“是否发热”作为下一个问题。

咳嗽

有痰 无痰

块状 丝状

有血 无血

白色 黄色 绿色

铁锈色 巧克力色

短路径:

做到用 少的问题获取疾病

的可能性

症状树:

通过层次化的问答,快速将

疾病定位

通过最短路径和症状树的问

答体系,既能最快速的提出

最符合病人症状的问题,也

能保证问诊效率,真正做到

效率和准确性兼顾。

短路径

症状树

5959

基于最短路径和症状树的问答体系提高初诊效率

输入

疾病1

疾病2

疾病n

症状:咳嗽

症状:发热

症状12……症状1N

症状1:发热症状22……症状2N

症状1:发热症状22……症状2N

统计症状:“发热”出现的比例 高,因此系统将选择“是否发热”作为下一个问题。

咳嗽

有痰 无痰

块状 丝状

有血 无血

白色 黄色 绿色

铁锈色 巧克力色

短路径:

做到用 少的问题获取疾病

的可能性

症状树:

通过层次化的问答,快速将

疾病定位

通过最短路径和症状树的问

答体系,既能最快速的提出

最符合病人症状的问题,也

能保证问诊效率,真正做到

效率和准确性兼顾。

短路径

症状树

6060

目前有三种形态产品:分导诊机器人、分导诊PAD版、分导诊微信版。

多种分导诊方式,提高分导诊受众人群

• 无需安装部署、加入医疗机构官方微信,绑定官方挂号平台,即可在微信端完成分导诊,挂号、科室指引。

• 数据存储在云端,由于无法保证使用场景的严肃性,不带有机器学习功能,不带有刷

卡功能和体征采集功能。

微信版

• 需要医院采购安卓PAD设备,数据既可以保存在医院侧,也可以保存在云端。PAD放置在导诊中心,不带有刷卡功能,初次使用需要用户注册,采取用户/密码的登录模式,完成分导诊、体征采集、挂号、科室导引。

PAD

• 机器人部署在医院门诊大楼各处,数据保存在医院侧、用户刷就诊卡完成注册,和机器人握手采集体征,和机器人问答完成初诊、触摸屏选择就诊医生。

机器人

6161

分导诊结果中的关键症状描述,可降低医生问诊时间

6262

分导诊结果中的关键症状描述,可降低医生问诊时间

6363

自助式分导诊产品的导诊精度达到99.9%

100%

70%第1个月 第2个月 第3个月 第4个月 第5个月

杭州市第一人民医院

红会医院

西京医院

中山医院75%

80%

85%

90%

原有平均

• 在杭州市第一人民医院、杭州市红会医院、西安西京医院、上海中山医院做了为期5个月的临床实测。

• 共采集样本15000个,其中有效样本15000个,总体导诊精度达到了99.9%。

• 传统的导诊精度各个医院各有不同,大体在73%左右。

• 以西安西京医院为例,日门诊量约为15000,73%到99.9%的飞越,,意味着在不增加医生工作量的基础上,可以让医生的门诊量 从90个到120个,整体提升了25%。

6464

自助式分导诊产品的导诊精度达到99.9%

100%

70%第1个月 第2个月 第3个月 第4个月 第5个月

杭州市第一人民医院

红会医院

西京医院

中山医院75%

80%

85%

90%

原有平均

• 在杭州市第一人民医院、杭州市红会医院、西安西京医院、上海中山医院做了为期5个月的临床实测。

• 共采集样本15000个,其中有效样本15000个,总体导诊精度达到了99.9%。

• 传统的导诊精度各个医院各有不同,大体在73%左右。

• 以西安西京医院为例,日门诊量约为15000,73%到99.9%的飞越,,意味着在不增加医生工作量的基础上,可以让医生的门诊量 从90个到120个,整体提升了25%。

6565

提高对陌生地域适应性的人体微生物模式世界地图服务器研制

• 国防科技大学计算机学院• 中科院计算所• 华中科技大学生命学院• 北京世纪坛医院消化科• 香港城市大学计算机系

中国人群在世界各地的菌群模式分布图,以提高适应性

6666

人体消化系统有>10,000种细菌,菌群失调可导致消化系统炎症、结直肠癌症、胃溃疡等多种疾病

肠道菌群:人的“第二基因组”“第二大脑”

6767

系统功能

建议

分析中国人去各国后典型菌群模式,可视化直观展示

出国前依据目标国菌群模式、出行人自身菌群模式,计算适应性

提供饮食、补充菌群、用药建议,提高适应性

菌群模式

出国前

干预措施

分析

预警

建议

6868

2016-2017,世纪坛医院派出

10名大夫,援助特多,每周采

样1次,共获得>50人菌群数据

可行性:已完成一期“水土不服”实验

6969

出国前、出国后采集粪便样本、基因组测序

分析菌群典型模式、菌群与籍贯、饮食等关联关系;

易携带、部署快

系统设计方案

数据采集

菌群

图服务器

模式分析

便携式地

7070

• 特点: 采样的时空连续性,系统研究环境和饮食对人肠道微生物的影响

• 初步结论: 表明人肠道微生物是与环境和饮食相关,部分揭示“水土不服”的机制,

启发干预治疗

• 获得卫计委的好评,称为援外的“特多模式”

已完成全流程

7171

地图服务器原型系统演示

人体宏基因组健康大数据 H

uman m

icrob

iom

e

7272

目前主要3类生命科学大数据

组学大数据

• 基因组学

• 蛋白质组学

• 转录组学

• 代谢组学… …

生物医药大数据

• 药物分子和结构、分

子动力学、蛋白质、

靶标、通路、互作网

络、超高通量药物虚

拟筛选

科学文献

• 文献数据、临床数据等

特点4V:

数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)

7373

基于天河可有效解决的3类生物大数据问题

- 计算密集型(Computation-Intensive):大规模基因比对、基因组装、虚拟药物筛选等

- 数据密集型(Data-Intensive):

• 大内存:二三代混合测序数据的序列拼接

• 大IO:NGS基因大数据的读写、海量文本挖掘

- 通信密集型(Network-Intensive):生物网络(基因调控网络、蛋白质互作网络)、大规模生物分子动力学模拟等

• 天河具备的特质:超强的计算、存储、通信能力

• 计算: CPUs + MICs + GPUs

• 存储:2 PB MEM+ 〉20 PB Storage

• 通信:Proprietary high-speed interconnection network

效果:更准、更快、更大

7474

机器学习

统计分析

基于天河-II号计算平台,以

大数据分析技术为手段,提

供高效率、高质量、可定制

的生物大数据分析服务

大数据分析工具

天河-II号计算平台

预处理

快速组学数据分析

海量数据知识发现

海量数据标注

快速组学数据检索

生物大数据分析服务

数据挖掘

数学规划

矩阵分解

稀疏编码

成分分析

深度学习

大数据分析基本数学方法库

序列比对

生物大数据分析系统

7575

天河超级计算机上的生物医药大数据研究

• 基因工程—— 人类全基因组重测序软件流水线:

• 基因大数据—— Hadoop和Spark加速基因大数据挖掘

• 药物大数据与药物研发—— 大规模虚拟药物筛选平台

• 肿瘤信息学数据分析平台

• 生物医药文献挖掘技术

• 天津超算:构建了生物医药研发平台和基因组学数据分析平台

• 长沙超算:智慧医疗云平台

• 广州超算: 生物计算与个性化医疗应用服务平台

研究方向:生物信息、基因工程、药物设计、精准医疗、生物 医疗大数据挖掘等

7676

基于天河与华大基因等联合研发的软件

SGA … …

SOAP denovo2

SOAP3-dp

mBWA

mSOAPsnp

MICA

GAMA

7777

新的软件流水线速度提升1,200倍,将之前需要8个月的过程缩短至4小时,相关研究成果发表在Nature Communication、BMC Bioinformatics、ISC 2015。相关成果获2014全国并行应用挑战赛”,全国总决赛,第一名“金奖”(1/85)。The Eighth IEEE International Scalable Computing Challenge-SCALE 2015: Finalist Awards

人类全基因组重测序软件流水线深度并行优化

在“天河2号”上4小时内完成2000人(300TB)的全基因组重测序分析

7878

于2014年11月参加 佳应用全国总决

赛,获得第一名“金奖”(1/85)。

The Eighth IEEE International Scalable Computing Challenge-SCALE 2015: Finalist Awards

人类全基因组测序软件流水线深度并行优化

在 “ 天 河 二 号 ” 上 使 用

2,000个人的基因大数据,

获得1200倍加速比

7979

群体基因型高分辨率分析软件GAMA(TH-1A)

GAMA软件在不同节点数下分析512株水稻数据时的性能数据

从图中可以看出GAMA软件的计算时间和总运行时间具有良好的扩展性。

天河“添禾”-隆平高科

8080

生命科学大数据需要“大计算”(国自科总装重点课题:面向生物威胁快速反应的大数据分析-联合军医科)

甲型H1N1病毒

新冠状病毒炭疽邮件

SARS冠状病毒 甲型H7N9病毒2001

2002

2005

H5N1禽流感病毒 2009

2012

2013

2014

埃博拉

2015军事医学科学院援非抗击埃博拉,第一时间采集到了埃博拉病毒,并迅速做出了测序分析,论文已经被Nature 2015录用。

“大数据对生物学研究产生重要影响”(Science,2014.6)

X Ten每次产出10T,TCGA每天1P数据

天河2一天内完成了针对埃博拉病毒的所有4200万种化合物的分子对接计算 分子对接计算。

8181

大规模药物虚拟筛选平台

• 虚拟筛选:采用分子对接技术,根据药物作用靶标的分子结构,通

过分子模拟手段计算化合物库中的小分子与靶标结合的能力,预测

候选化合物的生理活性。4200万个文件, IO总量达到700TB

• 软件:mD3DOCKxb,由国防科技大学与中科院上海药物所联合

研发,拥有自主知识产权(已获软件著作权),提出了基于知识库

和量化的新打分函数XBPMF和XBScoreQM,CPU/MIC协同的大

规模多级并行药物筛选软件

• 问题:一天之内完成地球上所有药物分子化合物针对某种新型病毒

蛋白靶标的虚拟筛选(埃博拉、MERS、SARS等)

8282

实际应用——效果

8383

8484

8585

Drug Design on Tianhe supercomputers

- 3 software used most

• A CPU/MIC Collaborated Parallel Framework

for GROMACS on TH-2 (GIW 2016)

• mAMBER: A CPU/MIC Collaborated Parallel

Framework for AMBER on TH-2 (BIBM 2016)

• mD3DOCKxb: An Ultra-Scalable CPU-MIC

Coordinated Virtual Screening Framework

(CCGrid 2017 Final List Award)

8686

A CPU/MIC Collaborated Parallel Framework for GROMACS on Tianhe-2 Supercomputer

The 27th International Conference on Genome Informatics 2016Shanghai, China

• Shaoliang PENG, Wenhe Su, Shunyun Yang, Xiaoyu Zhang, Tenglilang Zhang, Weiguo Liu, Xingming Zha

• Supported by: NSFC Grant 61272056, U1435222, and 1133005

• School of Computer Science

• National University of Defense Technology

• Changsha, China

8787

mAMBER: A CPU/MIC Collaborated Parallel Framework for AMBER on Tianhe-2 Supercomputer

• Shaoliang Peng, Xiaoyu Zhang, Yutong Lu, Xiangke Liao,

• Weiliang Zhu, Dongqing Wei

• School of Computer Science

• National University of Defense Technology

• Changsha, China

IEEE BIBM 2016Shenzhen, China

8888

A Deep Parallelized Whole Genome DNA Methylation Detection Tool

• Shaoliang PENG, Shunyun YANG, Ming GAO, Xiangke LIAO, Jie LIU, Canqun YANG, Chengkun WU, Wenqiang Yu

• School of Computer Science• National University of Defense Technology• Changsha, China

Fifteenth Asia Pacific Bioinformatics ConferenceShenzhen, China

8989

Intermolecular Coevolution Detection with Protein/RNA Sequences

Zhang Xiaoyu, Hao Zhu, Shaoliang Peng

9090

SUMARRY

• Computation intensive problems

• Data intensive problems (big data …)

• Network intensive problems

Tianhe supercomputers have:

• CPUs + MICs + GPUs

• 2 PB in total + 40 PB Storage

• Proprietary high-speed interconnection network

WHICH BIO-APPLICATIONS MOVING TO TIANHE SUPERCOMPUTERS? (RUNNING TIME IS TOO LONG TO TOLERANT)

9191

赵钢教授:神经内科专家 史皆然教授:呼吸科专家 叶学松教授:生化领域专家 涂子沛:大数据专家宋保亮教授:

生化细胞学专家

专家团队

9292

精准医学研究和应用需要汇聚海量临床信息和多组学数据。

生物医学数据快速增长,快速跨过了GB、TB、PB、EB 9个数量级。

海量精准医学的数据汇交、管理、共享和挖掘需要大数据平台的支撑。

基于天河的大数据与精准医学平台

• 组学: 基因组, 转录组,蛋白质组,代谢组…….

大数据:人群、队列

是当前国际两大科学前沿的交汇

• 基因型与表型的关联

生物信息学 生物网络 系统生物学

在此基础上融合临床检验、影像学等指标

9393

Dennis R.Salahub 院士

加拿大皇家科学院院士

美国科学院院士

魏冬青 教授

上海交通大学教授

河南省特聘教授

彭绍亮 研究员

国防科大研究员

华大基因特聘教授

上海生物信息计算研究中心副研究员软件开发专家

高军晖 工程师陈国良 院士 带头人

中国科学院院士

精准医疗团队

9494

抗老年痴呆的药物设计

Drug Candidates From Chinese Medicine Database Against Alzheimer's Disease(AD)

9595

wgx-50 – The best molecule found in TCM Database

N-(2-(3,4-DIMETHOXYPHENYL)ETHYL)-3-PHENYLACRYLAMIDE 

A molecule from Zanthoxylum Bungeanum(Sichuan pepper)

9696

Zanthoxylum Bungeanum-Sichuan pepper

9797

麻辣的感觉Spicy , Hot and Numb

花椒(学名:Zanthoxylum bungeanum Maxim.),别名:檓、大椒、秦椒、蜀椒、川椒,大

红袍或山椒。为芸香科、花椒属落叶灌木或小乔木,可孤植又可作防护刺篱。《神农本草经注》中

记载:“始产于秦。其果皮可作为调味料,并可提取芳香油,又可入药,种子可食用,也可加工制

作肥皂。”原属野生。花椒可除各种肉类的腥气;促进唾液分泌,增加食欲;使血管扩张,从而起

到降低血压的作用。花椒形状球形,椒皮外表红楬色,晒干后呈黑色。适宜人群一般人群均能食用,

孕妇,阴虚火旺者忌食。有龟裂纹,顶端开裂。果实呈圆形,绿豆大小,其外皮是一种常用香料。

内含种子一粒,圆形,有光泽。果实成熟时红色或紫红色果皮叫椒红,种子叫椒目,都是中药材,

家庭常用调味品,多见于海拔2500米的坡地,也有栽种。花椒含有柠檬烯、香叶醇、异茴香醚、

花椒油烯、水芹香烯、香草醇等等挥发性物质。具有独特浓烈香气。花椒按大小分为大椒,(大椒

又称大红袍、狮子头),其果粒大,色艳红或紫红,内皮呈淡黄色。),按采收季节又分为秋椒和

伏椒。

【花椒的功效与作用】:温中止痛;除湿止泻;杀虫止痒。主脾胃虚寒之脘腹冷痛;蛔虫腹痛;呕

吐泄泻;肺寒咳喘;肺寒咳喘;龋齿牙痛;阴痒带下;湿疹皮肤瘙痒。用于脘腹冷痛,呕吐泄泻,

虫积腹痛,蛔虫症;外治湿疹瘙痒。 Anti-inflamation, infection!!

9898

WGX50发现的机缘与巧合 Discovery of its function on skin anti-aging

团队根据生物信息学

原理由计算机设计产

生的抗衰老药物

数据库中比对时发现

它在花椒中竟然天然

存在

研究发现它对于皮肤

组织的保护和抗衰老

有显著作用

自 古 川 蜀 多 佳 丽

面 若 桃 花 , 肌 如 凝 脂

You find more beauties in Sichuan since ancient days with flower face and jade-like skin, warmness and smoothness

9999

结论

GX50可通过a-7乙酰胆碱受体来调节与皮

肤衰老相关的NF-κB通路,使得皮肤保持年

轻状态,对于已发生衰老的皮肤则有一定的

年轻化作用。

100100

期待WGX50可以让我们青春永驻!

101101

Interdisciplinary Sciences-- Computational Life Sciences

Editor-in-Chief: Dong-Qing Wei

ISSN: 1913-2751 (print version)

Springer Journal no. 12539

International Association of Scientists in the

Interdisciplinary Areas

Email:[email protected]

SCI Impact Factor:0.85

http://www.springer.com/life+sci/bioinformatics/journal/12539

102102

2008 Nobel Prize on Physiology or MedicineChairman of our editorial board

Prof. Luc Montagnier for his discovery of human immunodeficiency virus(HIV)

the Luc Montagnier BioMedical Research Institute(LMBMRI), to work closely with us trying to find new ways to tread AIDS and other chronicle diseases.

103103

云计算大数据系列教材二:

教材背景

• 云计算、大数据等新技术本质上都是分布式计算的发展和延

伸,现有的教材和图书一般很少把经典分布式计算、新兴的

云计算大数据等技术综合起来,并以应用需求为背景来剖析

这些技术的原理和应用方法,本教材正是为了这一新的发展

趋势和需求而编写的,将对云计算、大数据等新技术的研究

与应用具有重要的意义。

《云计算与大数据技术理论及应用》 清华大学出版社.2017.10,主编:林伟伟、彭绍亮

104104

内容章节

104

‒ 第1章 绪论

‒ 第2章 分布式计算编程基础

‒ 第3章 云计算原理与技术

‒ 第4章 云计算编程实践

‒ 第5章 云存储技术

‒ 第6章 新型计算技术-雾计算

‒ 第7章 大数据技术原理与平台

‒ 第8章 大数据分析计算应用开发案例 • 8.1 实时医疗大数据分析案例• 8.2 保险大数据分析案例• 8.3 基于Spark聚类算法的网络流量异常检测

‒ 第9章 生物医药大数据计算案例 • 9.1 基于Hadoop平台的宏基因组序列比对分析计算• 9.2 基于细胞反应大数据的生物效应评估计算• 9.3 基于SPARK的海量宏基因组聚类问题分析计算

105105

《分布式计算、云计算与大数据》

内容规划

与现有的教材和图书不同(主要以阐述技术原理为主),为了更好地帮助读者

深入理解技术原理和应用研发方法,本教材以应用需求为背景来剖析这些技术

的原理和应用方法,使用了我们在云计算与大数据相关研究和项目开发实践中

总结了的大量编程实例和实际应用开发案例,从理论上剖析技术原理本质和从

实践上解析技术应用方法。本书主要内容包括:分布式计算范型本质、分布式

计算编程技术、Google、亚马逊及阿里云云计算原理、云存储技术、新型雾计

算技术、Hadoop 和 Spark技术原理与平台;并从技术应用开发实践上,给出

大量编程实例与应用开发案例,具体包括:客户服务器程序开发、P2P程序开

发、云计算任务调度算法、云计算能耗优化资源调度算法、3个大数据分析计算

应用案例、3个生物医药大数据计算案例。

106106106

《分布式计算、云计算与大数据》

教材特色

相比现有的教材,我们的教材不仅全面介绍了云计算、大数据的技术原理,且在生物医药大数据分析计算方面深入给出几个经典应用开发案例,教材采用大量的编程实例和应用案例来剖析云计算和大数据技术。本教材三大特点:

• 内容新颖先进;内容涉及 新的云计算与雾计算技术,大数据的新技术平台、新应用案例和生物信息大数据计算案例等;

• 知识系统全面:从传统的经典分布式计算原理开始,系统地、深入剖析新兴的云计算、雾计算和大数据的技术原理;

• 技术深入易学:通过大量的编程案例和应用开发实践让读者更容易学习和深刻理解相关技术原理、技术开发与应用

方法。

教学资源

• 本 书 提 供 配 套 的 P P T 课 件 和 课 后 习 题 参 考 答 案 , 使 用 本 书 进 行 教 学 的 教 师 可 以 从 清 华 大 学 出 版 社 网 站( www.tup.tsinghua.edu.cn )下载或发送电子邮件至[email protected][email protected]向编者索取。

107107

云计算大数据系列教材一:

《分布式计算、云计算与大数据》

机械工业出版社. 2015.110

108108

HPC生命科学领域应用:

HPC推动生物医药计算、人工智能、和大数据技术进步

Big Data(大) + Super Computer(超) + AI(人) = Big Science

109109

Paper List

• Fang X, ..., Xiangke Liao, Xiaoqian Zhu, Shaoliang Peng, et al. Genome-wide adaptive complexes to underground stresses in blind mole rats, Spalax: adaptive complexes to stressful life underground. Nature Communication

• Luo R, Heng Wang..., Xiaoqian Zhu, Shaoliang Peng, et al.MICA: A fast short-read aligner that takes full advantage of Intel Many Integrated Core Architecture (MIC). BMC Bioinformatics.

• Jia W,... Xiangke Liao, Shaoliang Peng, et al. SOAPfuse: an algorithm for identifying fusion transcripts from paired-end RN. et A-Seq data[J]. Genome biology, 2013, 14(2): R12.

• Luo R, ..., Xiaoqian Zhu, Shaoliang Peng, et al. SOAP3-dp: Fast, Accurate and Sensitive GPU-Based Short Read Aligner[J]. PloS one, 2013, 8(5): e65632.

• Wang J, Peng S, Cossins B P, Xiaoqian Zhu, et al. Mapping Central α-Helix Linker Mediated Conformational Transition Pathway of Calmodulin via Simple Computational Approach[J]. The Journal of Physical Chemistry B, 2014, 118(32): 9677-9685.

• Luo R, ..., Xiangke Liao, Xiaoqian Zhu, Shaoliang Peng, et. al. SOAPdenovo2: an empirically improved memory-efficient short-read denovo assembler [J]. GigaScience, 2012, 1(1): 18.

• Feng Zhang, Xiangke Liao, Shaoliang Peng, Bingqiang Wang, Xiaoqian Zhu. MPISGA: A Program for Speeding up String Graph Based Assembly on Tianhe Supercomputer. ICG-7 & BioIT 2012, Hong Kong, 2012

• Yingbo Cui, Xiangke Liao, Shaoliang Peng, mBWA: a Massively Parallel Sequence Reads Aligner, PACBB 2014, Spain.

110110

Patents, Software Copyright, and Awards

Patents- A three-stage pipeline based parallel alignment algorithm by CPU cooperating

with MIC

- Task model building method based on biological gene sequencing log

- Strategy-based deployment method of computing tasks on virtual machine

Software copyrights- Gene sequence assembly software based on string graph theory

- High-throughput computing system for bioinformatics analysis V1.0

Awards- The Scaling Genome Big Data Analysis Software on TH-2 Supercomputer,

• The Eighth IEEE International Scalable Computing Challenge-SCALE 2015: Finalist Awards

• Parallel Application Challenge 2014, Best Application Golden Award (1/85)

111111

• International Journal of Biological Sciences (SCI期刊,2013 IF=4.37) (Executive Editors)http://www.ijbs.com/

• Interdisciplinary Sciences: Computational Life Sciences (ISCLS) (SCI Index) (Associate Editor)http://www.springer.com/life+sciences/systems+biology+and+bioinformatics/journal/12539

• International Journal of Computational Science and Engineering (IJCSE) (EI Index) (Executive Editor)http://www.inderscience.com/jhome.php?jcode=ijcse

• International Journal of Embedded Systems (IJES) (EI Index) (Associate Editor)http://www.inderscience.com/jhome.php?jcode=ijes

• International Journal of High Performance Computing and Networking (IJHPCN) (EI Index )(Associate Editor)http://www.inderscience.com/jhome.php?jcode=ijhpcn

国家超级计算长沙中心(湖南大学)

国防科技大学计算机学院软件所

彭绍亮 博士

Email: [email protected]微信: nudtpeng