35
大连理工大学信息检索实验室 大连理工大学信息检索实验室 在生物医学文本挖掘领域的研究工作介绍 在生物医学文本挖掘领域的研究工作介绍 杨志豪 杨志豪 大连理工大学计算机学院 2012/8/27 1

大连理工大学信息检索实验室 在生物医学文本挖掘领域的研究工作 …bj.bcebos.com/cips-upload/YSSNLP2012_pdf/1208151500.pdf · 高级文本挖掘任务的重要基础工作

  • Upload
    others

  • View
    24

  • Download
    0

Embed Size (px)

Citation preview

大连理工大学信息检索实验室大连理工大学信息检索实验室在生物医学文本挖掘领域的研究工作介绍在生物医学文本挖掘领域的研究工作介绍

杨志豪杨志豪

大连理工大学计算机学院

2012/8/271

大连理工大学信息检索实验室大连理工大学信息检索实验室

教师: 7人教师: 7人林鸿飞 教授

生博士生: 10硕士生: 40硕士生: 40网站: http://ir.dlut.edu.cn站 p

邮箱: : [email protected]

2012/8/272

研 究 领 域研 究 领 域

基于语义的搜索引擎(垂直搜索和移动搜索)基于语义的搜索引擎(垂直搜索和移动搜索)

基于文本的情感计算(观点挖掘和情感分析)基于文本的情感计算(观点挖掘和情感分析)

面向生物医学领域的文本挖掘

2012/8/273

报报 告告 大大 纲纲报报 告告 大大 纲纲

研究背景 研究背景

我们的工作我们的 作

未来的研究方向

2012/8/274

研 究 背 景研 究 背 景

生物医学文献呈指数级增长生物医学文献呈指数级增长

Medline: 收录生物医学文献摘要2100万篇以上,每天添加2000 4000篇添加2000—4000篇。

丰富的生物医学知识蕴藏在海量的文本中。丰富的 物医学知识蕴藏在海 的文本中

2012/8/275

MEDLINE文摘数量呈指数级增长MEDLINE文摘数量呈指数级增长

2012/8/276

生物医学文本挖掘的实例生物医学文本挖掘的实例

S anson 1986 发现鱼油( fish oil )和雷Swanson 1986 发现鱼油( fish oil )和雷诺氏病( Raynaud‘s )的潜在关联。y

Platelet

Raynaud's

Platelet aggregation

Fish oil may help Raynaud s syndrome Vasoconstriction Fish oil treat Raynaud's

syndrome

blood viscosity

2012/8/277

生物医学文本挖掘中的主要研究问题生物医学文本挖掘中的主要研究问题

2012/8/278

我们的工作我们的工作我们的工作我们的工作

自然语言处理技术+机器学习+领域知识自然语言处理技术+机器学习+领域知识

我们的研究包括:我们的研究包括生物命名实体识别和标准化

实体关系抽取实体关系抽取

自动文摘

假设发现

蛋白质网络络合物抽取蛋白质网络络合物抽取

2012/8/279

生物命名实体识别生物命名实体识别

识别医学文献中的各种实体(疾病 生理表征 基因/蛋白 识别医学文献中的各种实体(疾病、生理表征、基因/蛋白质、化合物/药物)

高级文本挖掘任务的重要基础工作 高级文本挖掘任务的重要基础工作

The TCF-1 alpha binding site was also required for TCR alpha enhancer activity in transcriptionally active extracts from Jurkat but not HeLa cells confirming that TCF-1 alphafrom Jurkat but not HeLa cells, confirming that TCF 1 alphais a T-cell-specific transcription factor.

2012/8/2710

生物命名实体识别的难点生物命名实体识别的难点

描述性的命名习惯:许多生物实体命名是描述性的,如“47 kDa 描述性的命名习惯:许多生物实体命名是描述性的,如 47 kDa sterol regulatory element binding factor”,名字较长这样很难确定生物实体名的边界。

非标准的命名习惯 生物实体可能有多种拼写形式 如“ 非标准的命名习惯:生物实体可能有多种拼写形式,如“N-acetylcysteine”、“N-acetyl-cysteine”和“NAcetylCysteine”都是指同一生物实体。功能无关的基因、蛋白质还可能出现同名的情指同 生物实体。功能无关的基因、蛋白质还可能出现同名的情况。

缩写:在生物医学文献中,缩写大量使用,也很不规范,如“ i 2”的缩写“ 2”是根据音节的得到的 而“ ”“Interleukin 2”的缩写“IL2”是根据音节的得到的,而“palate” 的缩写“PAL”是根据音节的得到的。

包含关系: 生物实体名可以是其他生物实体名的子串 如 包含关系: 生物实体名可以是其他生物实体名的子串,如“epidermal growth factor” 和“epidermal growth factor receptor”是两个不同的生物实体。

2012/8/2711

特征耦合泛化策略特征耦合泛化策略

我们提出了一种新的半监督机器学习方法-特征我们提出了 种新的半监督机器学习方法 特征耦合泛化策略。

实例区分特征 (E l di ti i hi f t EDF ) 实例区分特征 (Example-distinguishing features, EDFs)如 “bigram=IL 2”

类别区分特征 (Class-distinguishing features, CDFs)如模式: “X gene” “X proteins”如模式: X gene , X proteins

特征的耦合程度(Feature coupling degree, FCD)对的相关度量EDF-CDF 对的相关度量

在海量的未标数据中自动学习得到这两类特征的耦合

2012/8/2712

在海量的未标数据中自动学习得到这两类特征的耦合程度,并将其转化为新的特征。

方法的优势方法的优势

可以很大程度的提升经典方法中效果不好的特征 解决数据稀疏 可以很大程度的提升经典方法中效果不好的特征,解决数据稀疏问题;

可以很容易的处理大规模未标数据,容易理解,易于实现,不受 可以很容易的处理大规模未标数据,容易理解,易于实现,不受具体分类器的限制等。

BMC Bioinformatics 审稿人评价C o o at cs 审稿人评价 “ The overall ideas discussed in this paper present

an interesting contribution to the fields of text i i f bi i f i d hi l i imining for bioinformatics and machine learning in

general. ” “it would be great contribution to the community ” it would be great contribution to the community… ,

2012/8/2713

生物命名实体标准化生物命名实体标准化

基因标准化的目的基因标准化的目的

为生物医学文献中提到的基因和蛋白质名确定其在数据库中对应的唯一标识符,从而建立起这些实体与生物学数据库之间的联系。这些实体与生物学数据库之间的联系。

挑战

标准化任务面临着语义方面的挑战 因为它标准化任务面临着语义方面的挑战,因为它需要对基因所表达的真实含义进行检测,给出基因的标准形式。

2012/8/2714

消 歧

目的:确定一个歧义词的哪一种语义在当前的上下文中被使用。

消 歧

我们的方法:利用基因名的上下文信息和基因标识符的扩展语义信息。

上下文信息:上下文信息:

将基因名所在摘要建立bag-of-words模型。

扩展语义信息扩展语义信息:

将与每个基因标识符相关的MedLine摘要合并在一起生成摘要描

述信息 基因本体描述信息述信息;基因本体描述信息。

计算余弦相似度计算余弦相似度

1 21

*( ) cos

n

k kk

W WSim D D

2012/8/2715

1 22 2

1 21 1

( , ) cos( )( )

n n

k kk k

Sim D DW W

生物医学文献中的关系抽取生物医学文献中的关系抽取

生物实体如疾病 药物 基 白质间的关系 整个生生物实体如疾病、药物、基因、蛋白质间的关系对整个生物知识网络的建立、生物体关系的预测、新药的研制等均具有重要的意义。

当前对基因 蛋白质的研究是生命科学的研究重点 因此当前对基因、蛋白质的研究是生命科学的研究重点,因此以抽取出生物医学文献中的蛋白质(基因)交互关系为目的的关系抽取系统有着很高的应用价值的的关系抽取系统有着很高的应用价值。

2012/8/2716

蛋白质交互(PPI)关系抽取蛋白质交互(PPI)关系抽取

抽取PPI关系对蛋白质知识网络的建立、蛋白质关系 抽取PPI关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药的研制。

随着生物医学文献数量的迅速增长 很难依靠人工抽 随着生物医学文献数量的迅速增长,很难依靠人工抽

取蛋白质关系信息。

The expression of rsfA is under the control of both sigma(F) gand sigma(G)

2012/8/2717

蛋白质交互(PPI)关系抽取蛋白质交互(PPI)关系抽取

已有方法:基于自然语言处理(NLP)的方法基于自然语言处理(NLP)的方法

基于模板的方法

基于机器学 的方法基于机器学习的方法

我们提出的方法:我们提出的方法

基于多核学习的方法

基于层叠泛化的结果融合基于层叠泛化的结果融合

2012/8/2718

基于多核学习的方法基于多核学习的方法

机器学习的方法中,基于核的方法是一种特征抽取的有效方法。它保持对象的原始表达形式,通过计算一的有效方法 保持对象的原始表 形式 计算对实体的核函数的值使用这些对象。

基于词特征的核基于词特征的核

树核

图核

核的融合核的融合

2012/8/2719

基于词特征的核基于词特征的核

词特征词特征

两个无序的词集(两个实体之间和周围的词的集合)。

距离特征

两个蛋白质实体之间的词个数两个蛋白质实体之间的词个数。

关键词特征

实体名之间或者周围存在着暗指蛋白质关系的词(“bind”、interact”等)。( bind 、interact 等)。

2012/8/2720

树 核树 核

N jN

1 1 2 2

1 2 1 2,

( , ) ( , )Cn N n N

K T T n n

1 1 2 2

2012/8/2721

图 核图 核

图核通过比较目的关系之间的相同节点实现两输入图的相似度计算图核通过比较目的关系之间的相同节点实现两输入图的相似度计算。

2012/8/2722

图 核图 核

图矩阵 计算了任何 对蛋白质关系对各个顶点之间的所有路径的权重和

图矩阵G计算了任何一对蛋白质关系对各个顶点之间的所有路径的权重和

1

1

(( ) )T n TG L A L L I A I L 1n

LA *n l*n n图的邻接矩阵 图的标签矩阵

L L

n n

1 1( , ') '

L L

ij iji j

k G G G G 图核计算两个图矩阵的相似度

2012/8/2723

1 1i j

核 的 融 合核 的 融 合

不同的核方法从不同方面计算了两个句子的相似度 融不同的核方法从不同方面计算了两个句子的相似度,融

合这些相似度可以避免遗漏重要的特征。

2012/8/2724

系 统 集 成系 统 集 成

生物医学领域资源UMLS、MESH、GO、UniProt

可视化界面

文本结构分析、特征提取

实体名识

别、标准化

实体相互

作用关系提取

实体相互作用关系网络

蛋白质

知识发现Medline文摘

2012/8/2725

系 统 集 成系 统 集 成

2012/8/2726

系 统 集 成系 统 集 成

研究成果“PPIExtractor: A Protein-Protein Interaction E t t f Bi di l Lit t ”被将于2012年10月在Extractor for Biomedical Literature”被将于2012年10月在美国费城举办的 BIBM2012(the 2012 IEEE International Conference on Bioinformatics and Biomedicine)会议录Conference on Bioinformatics and Biomedicine)会议录取为Regular Paper(录取率为19.93% )。

审稿专家评价: 审稿专家评价:

Based on the findings presented, the proposed PPI extraction tool can be a useful resource for biologists and biomedical researchers.

The tool is available online and will be of great ginterest to the BIBM community…Overall, this work will make an excellent contribution.

2012/8/2727

其他相关工作其他相关工作

关于H1N1的假设发现研究 关于H1N1的假设发现研究

生物医学领域的自动文摘

基于哈希子图核的蛋白质关系抽取

基于多核的Drug-drug关系抽取 基于多核的Drug drug关系抽取

生物医学领域的事件抽取

基于监督学习的蛋白质网络络合物抽取

… …

2012/8/2728

未来的工作未来的工作

进一步提高实体识别 关系抽取等方法的性能进 步提高实体识别、关系抽取等方法的性能

非结构化信息与结构化数据的集成非结构化信息与结构化数据的集成

与生物医学专家展开合作与生物医学专家展开合作

2012/8/2729

资 助 项 目资 助 项 目

基于信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别 基于信息抽取技术的蛋白质相互作用网络构建及蛋白质复合物识别研究, 国家自然科学基金资助面上项目(编号:61070098),2011年1月-2013年12月2011年1月-2013年12月

面向生物医学领域的文本挖掘技术 国家自然科学基金资助面上项 面向生物医学领域的文本挖掘技术,国家自然科学基金资助面上项目(编号:60673039),2007年1月-2009年12月

2012/8/2730

代表性论文代表性论文

Zhihao Yang, Yuan Lin, Jiajin Wu, Nan Tang, Hongfei Lin, Yanpeng Zhihao Yang, Yuan Lin, Jiajin Wu, Nan Tang, Hongfei Lin, Yanpeng Li.Li. Ranking SVM for Multiple Kernels Output Combination in Ranking SVM for Multiple Kernels Output Combination in ProteinProtein--Protein Interaction Extraction from Biomedical Literature, Protein Interaction Extraction from Biomedical Literature, PROTEOMICS, 2011, 2011,,11(19):381111(19):3811--3817.3817. IF 4. 815

Yanpeng Li, Xiaohua Hu, Hongfei Lin and Zhihao Yang. A Yanpeng Li, Xiaohua Hu, Hongfei Lin and Zhihao Yang. A Framework for SemiFramework for Semi--supervised Feature Generation and its supervised Feature Generation and its Applications in Biomedical Literature Mining, Applications in Biomedical Literature Mining, IEEE/ACM pp g,pp g, /Transactions on Computational Biology and Bioinformatics, , 2011,8(2):2942011,8(2):294--307. 307. IF 2.246

Yijia zhang,hongfei Lin, Zhihao Yang. Hash Subgraph Pairwise Yijia zhang,hongfei Lin, Zhihao Yang. Hash Subgraph Pairwise Yijia zhang,hongfei Lin, Zhihao Yang. Hash Subgraph Pairwise Yijia zhang,hongfei Lin, Zhihao Yang. Hash Subgraph Pairwise Kernel for Protein Protein Interaction Extraction Kernel for Protein Protein Interaction Extraction IEEE/ACM Transactions on Computational Biology and Bioinformatics, , 2012,9(4): 11902012,9(4): 1190--1202.1202. IF 2.2460 ,9( ) 900 ,9( ) 90 00 6

Yue Shang, Yanpeng Li, Hongfei Lin, and Zhihao Yang. Enhancing Yue Shang, Yanpeng Li, Hongfei Lin, and Zhihao Yang. Enhancing biomedical text summarization using semantic relation extraction biomedical text summarization using semantic relation extraction PLoS One 2011; 6(8):e23862 2011; 6(8):e23862 IF 4.411

2012/8/2731

PLoS One 2011; 6(8):e23862 2011; 6(8):e23862 IF 4.411

代表性论文代表性论文

Yanpeng Li, Xiaohua Hu, Hongfei Lin and Zhihao Yang. Learning an Yanpeng Li, Xiaohua Hu, Hongfei Lin and Zhihao Yang. Learning an enriched representation from unlabeled data for proteinenriched representation from unlabeled data for protein--protein protein interaction extraction, interaction extraction, BMC Bioinformatics 2010, 11(Suppl 2):S7 2010, 11(Suppl 2):S7 IF 3.428

Yanpeng Li, Hongfei Lin, Zhihao Yang. Incorporating rich Yanpeng Li, Hongfei Lin, Zhihao Yang. Incorporating rich background knowledge for gene named entity classification and background knowledge for gene named entity classification and recognition, recognition, BMC Bioinformatics 2009, 10:223 2009, 10:223 IF 3.428g ,g , ,,

Zhihao Yang, Hongfei Lin, Yanpeng Li,BioPPISVMExtractor:A Zhihao Yang, Hongfei Lin, Yanpeng Li,BioPPISVMExtractor:A ProteinProtein--Protein Interaction Extractor for Biomedical Literature Protein Interaction Extractor for Biomedical Literature Using SVM and Rich Feature Using SVM and Rich Feature Sets,Journal of Biomedical Using SVM and Rich Feature Using SVM and Rich Feature Sets,Journal of Biomedical Informatics, Elsevier, 2010,43 (1):88, Elsevier, 2010,43 (1):88--96. 96. IF 1.719

Zhihao Yang, Nan Tang, Xiao Zhang, Hongfei Lin, Yanpeng Li, Zhihao Yang, Nan Tang, Xiao Zhang, Hongfei Lin, Yanpeng Li, Zhiwei Yang Multiple Kernel Learning in ProteinZhiwei Yang Multiple Kernel Learning in Protein--Protein Protein Zhiwei Yang, Multiple Kernel Learning in ProteinZhiwei Yang, Multiple Kernel Learning in Protein Protein Protein Interaction Extraction from Biomedical Interaction Extraction from Biomedical Literature, Artificial Intelligence in Medicine, 2011, 2011,,51(3):16351(3):163--73.73. IF 1. 645

2012/8/2732

代表性论文代表性论文

Bo Xu, Hongfei Lin, ZhiHao Yang, Ontology integration to Bo Xu, Hongfei Lin, ZhiHao Yang, Ontology integration to Bo Xu, Hongfei Lin, ZhiHao Yang, Ontology integration to Bo Xu, Hongfei Lin, ZhiHao Yang, Ontology integration to identify protein complex in protein interaction networks,identify protein complex in protein interaction networks,Proteome Science 2011, 9(Suppl 1):S7 2011, 9(Suppl 1):S7 IF 2.49

Zhihao Yang, Hongfei Lin, Yanpeng Li, Exploiting the contextual Zhihao Yang, Hongfei Lin, Yanpeng Li, Exploiting the contextual g, g , p g , p gg, g , p g , p gcues for biocues for bio--entity name recognition in biomedical literature, entity name recognition in biomedical literature, Journal of Biomedical Informatics, 2008,41(4):580, 2008,41(4):580--587. 587. IF 1.719

Zhihao Yang, Hongfei Lin, Yanpeng Li, Exploiting the performance Zhihao Yang, Hongfei Lin, Yanpeng Li, Exploiting the performance f di tif di ti b d bib d bi tit iti i bi di l tit iti i bi di l of dictionaryof dictionary--based biobased bio--entity name recognition in biomedical entity name recognition in biomedical

literature, literature, Computational Biology and Chemistry, 2008,32(4):287, 2008,32(4):287--291. 291. IF 1. 37

Zhihao Yang Hongfei Lin and Baodong Wu BioPPIExtractor :A Zhihao Yang Hongfei Lin and Baodong Wu BioPPIExtractor :A Zhihao Yang, Hongfei Lin and Baodong Wu, BioPPIExtractor :A Zhihao Yang, Hongfei Lin and Baodong Wu, BioPPIExtractor :A ProteinProtein--Protein Interaction Extraction System for Biomedical Protein Interaction Extraction System for Biomedical Literature, Literature, Expert Systems with Applications,, 2009,36(2P1):22282009,36(2P1):2228--2233. 2233. IF 2.2032233. 2233. IF 2.203

2012/8/2733

演示系统演示系统

实体识别 实体识别

http://202.118.75.18:8080/bioner/http://202.118.75.18:8080/bioner/蛋白质关系抽取 蛋白质关系抽取

http://202.118.75.18:8080/PPIExtractor/ http://202.118.75.18:8080/PPIExtractor/ 蛋白质网络络合物抽取

http://202.118.75.18:8080/ComplexDetector/http://202.118.75.18:8080/ComplexDetector/http://202.118.75.18:8080/ComplexDetector/http://202.118.75.18:8080/ComplexDetector/

2012/8/2734

谢 谢 !谢 谢

2012/8/2735