8
Knowledge Base Text Database Retrieved Papers IE phase DC phase IR phase Domain Specific Dictionary Feed Back Databases (Add keywords as the entity)

Automatic Construction of Knowledge Base From Biological Papers

  • Upload
    ggrop

  • View
    4

  • Download
    0

Embed Size (px)

DESCRIPTION

Automatic construction of knowledge base from biological papers

Citation preview

Page 1: Automatic Construction of Knowledge Base From Biological Papers

��������� ��������� � �������� ���� ��� ���������� ������

��������� ��� � ������ ������ ����� ����� ��� ������ ������� ���

����� ������ ����� ����� �� ������� ����������������� �� �����

����� ������������� ��������� ����� � ! "�#��������������#�������������$��%���&������&��&'#

��������

�� �������� � ���� �� � ������ ������ ���� �� ��������� ���� ����� ����� ������� ��������� ��� �� ��� ��� ���� ���� ������������ ������� ���� ������� �� ������ ! ���� ����"���� ��� ���� ������� ���������� ������ ��# � ���������� ��������� ��$ ��� ��������

����������� �%& ! �� ������� � ���� ������ ���� ����� ����� ������ ��� ����� ���������� ��� �# ��� � ����� �� ������ ������ ��� ����� ��� �$! ' �� ����� �� ��������� �� ����� ��� � �� ��� �� �� ����� ���������� ���� �� ��� �� ��� �� ��������� � ���������� �� ���� ����� �� ������ ��� �� ��%& �����! ���� �� ������ ���� ��� ����� ���� �� ����������� ������ �������� �(�%� ��� ����� ���� ��������� �! )�� � �� ����� ����������� ���� ����� ��� �� �� ������ ������� �� ������ �� ������ ������ ���� ������� �� �� ����� ����� � ���� �������!

�����������(���� ��� ���� �� � ���$� ��)�* �� ��+�� #�,������ #��#���� ���� +�� �� #������ �� ,���$ ������� � �������� �� ����#�� ����������� ��� �� ����� �� ����������� �� $����� ���� ��� ,��� $��+��$ ��#���� ������� �����& -� �� ������ �� ,����$���� �������������������� �� ������ ��� �� ������ �#���.� ���+����$� ,��� $��+�& ��� ��� �� ,����$���� ������������� �� ��������� ���������� +���� ��� ������� ����� ��* ��$� �� $����� �������� ��� ���� ���� �� ����������& ��� ��� �� ���+���$� ,��� ���������� ���$�������� ,��� ���� ,� ����� �*#���& ��+����� ���� )��� �� ���������� ���������� � ,������ ��/������ ������ � ������� ��� ������� �� ���+���$�,��� ���������� ��� �/������&���������� +� #����� �� ������� ���+���$� ,���

���������� ����� � ��##�� ,����$��� +�� ��� ������ �� ���������$ � ���+���$� ,���& ��� ��� ��

������� �������* (��� #����� � +�������� ��,-����! ./01�.2 )����������� 3��������� 4����������� 020 -����

&������ � .556� '���� �� '��� ����� ��� '��� ������������ � ����!����!��� ! '�� ����� �����"��!

��� ����� 012 �� ������� ��� ���� #������ 3� (��� 4& 3 ������ � �� �� #�#��� �� �� ������� �� ����5� ����� 67�+�� 8 "���� �99�:� ��� ( ������ ��������� ��#��������� �� ���+���$� +���� �� ��������� #�#�� 6�+�� 8 7����� �99�:� +���� +��� �������� �� ���� �� �� ���+���$� ,���& ;�� 012�#�#��� �� ������ ��� ,� �������� ���� � �* ���,����<������� ��� �*��������� �� �� 3 #����� ��� ����+���� ��� ����������� �*����� ���� �������� #��#��� �� �� ( #����& � �������� �� ������ �#����.� ��������� ��� ���� ��������� ����������� ���� 4 #���� �� �� ������ ������� ��� �� ��� �� 012 6��� 0�$��� �:& ��� ������� ����� ������������� ������� �� �� ��� ������� ��� ��$������ ���#��� ���� #���� +��� ,� ������,�� �� �����&

Knowledge Base

Text Database

RetrievedPapers

IE phase

DC phaseIR phase

Domain SpecificDictionary

Feed Back

Databases

(Add keywords as the entity)

0�$��� �= >������ ���������� �� 012

������������ ������������ ����

-����$� � ��������� �� ������ �#���.� ���� �� ����� �� ������ ���+���$� ������� �� �� ���+���$� ���?������� ������ �� ������� ������ �#���.� ���������

Page 2: Automatic Construction of Knowledge Base From Biological Papers

������ �*��� ��� � �� ��/������ �� �� ������������� ��� �� ��� �� ��������� ���������� �� ������������$ ��� ��,�����������& ���������� +� #��#����� ������� ��������� ���������� ����� ���#���� �� 4 #���� 6@������ �99�:& ��� 4 #������������ ������ �#���.� ��������� ���� � ���#����� �*����$ ���,���� +�� ������� ����� ��#��������� 6��� 0�$���A:&- �� .�� ��# �� ��� ����$�� ���� ���$���B��

�� � �#���.� ����� ���� �� C#����� ����D ��� ������������ �� #�,��� ���,����� ��� �*��#�� �; ���23>��230 ��� 2 3 ��&� ��� ���������� ��� �##��#���������& ;� ���� ��� ������ ��������� � ,��� ���������&

Databases

Domain Specific Dictionary

tagger

Corpus

Medline

Base DictionaryTemplate

ProteinName

Thesaurus

Xtract

collocation1collocation2one word

filter

KL-distance

GeneName

OrganismName

BindingSequence

FactorName

0�$��� A= -������ ��������� ���������� �� 4#����

E�*� ����* �� ���� ��� �� �� ����� ������������ �*������ ��� ������������ ��� ��������$ �� #��������� �� �� ,��� ���������& 0�� ������ ������������$�����$ ��� ������� ��������� ���������� ������� 6@������ �99�:& ��� ������� ������� ��� ,����� �� � �������� ��� 3 ��� (&;���� ���� ��� ������� ��������$ ��$������� ����

�� ���$������� ����� ��� ;���5� ������ ����� ����� #������� ��$������ ��� �� ������� �� �������,�+��� +� �,'��� ��� ���$� �� ����� ���� 6-�����,��$ �9FG� ;���� �9!!:& ��+����� � #��,�,��������������$ ��$����� ������ ������������ 1������� ��������$ 6�1: �������� � �� �� ������� �� ��� ����*���� 1������� #������� #��,�,���� ��� ��� ��*����B���� �� � $������ ���� �� �� +��� ���+��������������� ��������& 012 ���#� �1 �� ���������$ ��$����� ����� ,��� #���������� +�� �,�������� �� ���� ��������$ ��$����� ����$� #����������� �*#������� �� �* ��������$ ���� 6 +����� 8������$� �99H:&

��������� ������� �� ��������

��� ������ �� �� ��$����� �1 ��� ,���)� �����+����* ��� ��� �����5� ����� �� ���������$ �� ���

������ ����$ �1 ��� #��#���� �� �� �����+��$&

���� ��������� �� ���� ���� ����� �1�������� � ������ ��������� ���� ,��� � �# ,����$��$ +� ������� � � ���& - �� ,�$�����$� �������� ,����$� � � ������ +���� ���� ���,�� �� ������ �����& 0�� ����� #��� �� �������� �1 ���������� �� #��,�,���� �� ���$��$ �� #��� ��� �������� ,�� ��� +�� �� ��$��� #��,�,���� ��� �� ��*���$�& ��� ��� ���$� ��# #������� � ���$�� ��������������$ �� ����� ��� ��&

0�������� �1 ������ �� ������ #��� +���� ���$������� �� �� ��*���� ����� �� �� #������� #��,��,���� � 6���:� +���� � �� � ��������� �� ��� 6�&�&�� I ��� ��� � � � � ��: ��� � �� � �� �� ������� 6�&�&�� I ��� ��� � � �:& (��� ������ �� � � �� � �� �� ������ �� ������� ��� ������� �*�������& - �� ��������$�� ���� ������ �� � ���$���� ��J �� I �� ��� ����& � 6���: ��.��� �� #��,�,���� �� � ��������� ����� � �� ������.�� ��� � �� �� ������� �& ��*���B���$ � 6���: �� � $�������B���� �� ������� ������� ��������&

�� �*����� �� ������ �� ���$� #������� �������� ����$� ��# � K �6 � � � � �:& 1� �� ��# � K ��� ��� ��������� � ��� ,��� #�������� ��� � �� ��������� ��& ��� �� ���� ���� � � � ,����$� � ������� � � ��& ��� #������� #��,�,���� � ��� #���,������

� 6����: I�����

����

� 6���:

I�����

����

� 6���:� 6�:

� 6�:

I

�����

� 6�:���

� 6�:

�����

����

� 6���:

I��6��:

� 6�:

�����

�6�: 6�:

����� ��6��: ������#���� � �� #���� #��,�,���� �� ������ ��� ��� ������.�� ��� � �� �� ������� ��&���� #��,�,���� �� ��.��� �� �����+�=

��6��: I�����

� 6�:��� 6A:

�6�: ��.��� �� #��,�,���� �� ��� �� ��� �� ������� � ��� #������� ���� �� ������ ��� �� ��.�����

�6�: I����

� 6���: 6G:

;��� +� ������� ��� � � �� ��� ���$��� �� �� ��������� �� �� �#���� �� �����+�=

���� I �� � ���� ��K ��� � �� 6�:

-��� �� ���$�� �� #������� #��,�,���� �� ����������� �#���� ��

Page 3: Automatic Construction of Knowledge Base From Biological Papers

� 6������: I��6����:

��6��:

�6�� � �:

�6��:�6�:� 6����:

6H:E�� �� ��� �#����$ �� ����� ��� ��� ,� ���� �/�������� ,������ �� ���� ������������ ��������� ������� #������� ��# �� �� #��,�,���� ��� �� ���$�� ��+

������� �� ��� �6�� � �:& ��� ����� ������������

���

,� ��$����� ��� ��*���B���� �� � 6���:� ����� ������� +���� ������ � � ������ ��$������� �� �����$�� #���& ��� 6 +����� 8 ������$� �99H: ��� ������� ����������&

�� ������ ������������ ���� ������ ����������������$ ���� ,���� �� �� �������� ��� ���� +�����,���& � ����� � �##�� �1 � ��������$ �����+� ���� � �������� �� �������� #��,�,���� � 6���:�� ������ � ������� ������� �� ���,�� ��� �& �� ��������� ��� #��,�,����� ��� #�#�� �����+� �L�L 6����� ��� �� ������ ���� ����� ����: 6 +�����8 ������$� �99�:& ;�� �L�L� �� 4 #���� �������.�� ����� ���� ��� �� ��� ,���$ ��#������� �� � ���� ���,���& (��� ��� ��� �� �+� ���,��� 6���� �� ����� �����������$ +�� ��� #�������� ��� ��� ������� �� �������� ���� �� 012: $������ ���� ����#��� ��� 0�$���G&

One Sentence

protein A

protein B

noun1 noun2 noun3 nounN

protein A

protein B

Frequency

Frequency

0�$��� G= �����������$ ����� �� �� ���,��

� �L�L� +���� ������ � �� � �� �� ����� � �� ����

��#������� �� � �� �� ���,��� �� ��� �� ���,����� � �������� +��& ������� �� ���� � I � +���� ��������� �*����� ���,�� � ���� � �� �� ���,����� �?��� � �& ���������$ � 6���: �� ���� #����,������ $����

� 6���: I��

� 6���� � I �:� 6� I ���: 6�:

�� +� ������ ���������� ����#������� ,�+��� � ���� $���� � I ��

� 6���: I��

� 6��� I �:� 6� I ���: 6F:

����$ 1����5 ������� ��� ,������

� 6���: I � 6�:��

� 6� I ���:� 6� I ���:

� 6� I �:6!:

����� ���� � 6�: �##���� �� ����� �������� �� � 6���:���� ����� ��� ��� ,� �*������ ��� ��*���B���� #���#���& >��� #��,�,������� � 6� I ���:� � 6� I ���:���� � 6� I �: ��� ������� ���� $���� ��� ,� ����$���#�� �������� �� ,���+& � 6� I ���: �� �� ����������?����� �� �� ���,�� � �����������$ +�� � ��� �&� 6� I ���: �� �� ������� ���?����� �� �� ���,�� ������������$ +�� ���� �� ������ �& � 6� I �: �� ��������� ���?����� �� �� ���,�� � �##�����$ �� ��+���� ������$ ���&

0�$��� � ���+� �� �*��#�� �� ������$��� ������������ ��������� �� ��� �*#�������& 4����� �#���.���������� ��������� ���� �,��� ��� ,� ���� �� ���������������,�� ������ �#���.� ���������� ��� ������##��� ��$� #���������� �������� ��� ���+��� #��������� �� 021� ����� � 63���< �99H:&

������������� ��������� ������� 3 ������ �������� � ���$� �������$ ����� ���������� � �������� +���� �������� ��� ��/������� ������� � � ����5� ���� � �� ,���� ��,'�������& ����� ��� ������� �##������� � ���������� ���������� ���� �� �������� ���� ,���� 6-#�� 4�������8 ;���� �99G:� ���+���$� ,��� ,����� �* ���������,����� ��� �� ��& ���� #�#�� ������� �� �* ��������,���� �� �* ��������� ��� ��#���� �� ,���� ������#��� ����� 61������ � ��& �99H� ����� �9!!:&

����� ���� ����

��� ����� �#��� ����� ������� �� ���� ���������� ,� ��#������� ,� � ����� +���� ����B��� ����������� ������#��� � �� ���� �������� �� ���������& 7� � ���� ��� � ?���� ����� ��� �� �������� ������ �� ������� ��#��������� �� ������ �#��� �� ��.��� �� �����+�&

�� I 6���� ���� � � � � ���: 69:

����� ��� ��#������ �� +��$� �� ��� � �� ����������& - +��$� �� B��� �� ���� ��� ���� �� ��� �,���� ���� � #�������� �������� ��� #������ +��$��

Page 4: Automatic Construction of Knowledge Base From Biological Papers

p53

ps2 proteinDCC

tumor suppressorbtkneurofibrominoncogenedblRET

collagenaseprocollagenPLP

kallikreinaniridiacrystallinfibrillin

ALS1.31

2.491.14

4.86 1.262.45

1.134.00

2.331.91

1.300.86

0.61

-0.14-1.07

0.89

P530.26

synthase

phosphorylase kinase

carrier protein

acyltransferase

ATPase

translocase

ribosomal protein

ATP synthase

hemoglobin

serum albumincarbonic anhydrase

anylsulfatase

peroxidase

thioredoxin

ferredoxin

ferritinaldolase

aconitaserepressor protein

activator

0.58

1.63

1.163.37

0.89

1.92

1.045.29

1.29

2.67

1.318.06

1.26

2.48

1.27

4.82

2.65

1.33

1.36

0�$��� �= - #�� �� �� ������$��� ������ ������������

���������B� ���� ������� ����$���& ��� �����#����� �� ��� ���� ��� ������,�� ��� �� ��#��������� ���� ����������& ���� +��$���$ �� ��� �� �� ��#����� ������ �� �* ��������& >��$������� ��� +��$���$��� ,��� +����� ������$��� 6����� 8 ������ �9!G������ �9!!:& - ��$��?����� ��� +��$���$ �������6����� 8 1������ �9!!� ����� �9!!: ���� �� +��$��� ��� �� �� ������� �� ��

��� I6�� 6� K

�� �

:: ��� ������

���

�6��6� K ��

�:: ��� �

��

�� 6� :

���� ��� ��#������ �� ���������� ���?����� �� �� ����� ��� �� �� �� ��*���� �� ��� ���� ��� ���� ��� ����� �� ��& ��� ��$����� �������B�� ������?����� 6 ��6�K

�� �

:: �� ��#�����& �� �� ���������

��B�� ��� �� �� ���,�� �� �������� +�� ��� ������$���& ��� ����� ��� �

���� �� ������� ��������� ����

?����� 6C���D: ����� +���� ��������� �� ���� ��� ����+����� �� � ���������� ��� �� ���������� �� (?& 6� :�� ���� ��� +��$� �������B����& ��� +��$�� ����$���� ���� �� ������� ��� ���� �� ����& ��� ������ �������� �� � $���� ����� ��� �� #�����#�� ��#�������� ���� ����$��� � � ������� ��� �����.�����&

;��� �� ������� �� �� ��#������� ,� � ������� �� ���� 6���� ���� � � � � ���: ��� �� ?���� � ,��� ����� 6���� ���� � � � � ���:� � ��������� ���#�����,�+��� �� +� ���� ��� ����������� ,� �,������� �� ����� #����� ,�+��� ������#�����$ +��$������ ����� �� �����+�=

6��� �: I��

���

6��� ���: 6��:

����� �� ��������� ,�+��� +� �*� 6+����� ?������ �������: ��#��� �� �� +��$�� �� ���������$���� �� �� +� ������&

���� ����������

� �� ��� �� 3� ��� �� �� ��� ��#���� ��� ����.��� �#������� �� $�������$ ������ ?���� ��������� ��� ������� #�#��� ������ ,� �� ���� ��� ���'�� �� ���������& �� �,��� � ,��� ��#����������� �� ?����� +� #��#��� � ��+ ?���� ����.����������& ��� ����� �� ��������$ ?���� ���� ������������ ��������� �������� � #������ ��$� #����������� �������� 6>�� �99F:& � ��� ����.����������� �� ���� ������� � �� ���,�� �� ������?���� ��� ����� �� #��#����� � �� ������� ,�+����� ��� ��� �� ���,�� ����$ ����������� ����*(?&6�G:& ���� ����������� ����* �� �,����� ������ ������ �#���.� ��������� +���� �� ��������� ������������ �� �� 4 #����&

Page 5: Automatic Construction of Knowledge Base From Biological Papers

���� ��� ��� � � ���������� ���� � ��������� � ������

��� ����������� ����* �� �,����� ���� �� �������#���.� ���������� +���� ��� �������� ���������� ,�����$ �� #��,�,������ ��$����� �1& ���� #�#�� ���.��� �� ������� ,�+��� +� ���� �� �� #�������#��,�,���� ��������� �� �� .�� ��# �� �1&

�� I��6����:

��6��:

�6�� � �:

�6��:�6�:6�A:

��� �,��� �� �������� �� ������� ,�+��� ��� ����� ��� �& ;�� ��� ��� �� ����������� ����*�� ��.��� �� ,���+&

� I

�� �� � � � ������&&&��

���� ��� � � � ������ ��� � � � ���&&&

&&&& & &

&&&��� ��� � � � ���

��� 6�G:

������ ��� I �� ��� I ���� � ��� � ��

>�� �*#������� ��$$��� �� ���� ����� �##����� ������� +�� ������� �����$ ���� #�#��� �� ���� ���*#���� ���� ������� ��� ��?��� ��� #�#��� �� ������ ������� � �� #�#�� ������� '��$�� ������� ,��� ��������& � ��� +��� ������ ?���� �� ������� ���������� ����$ ���� ������� #�#��� �� ����� ���� ������ ����& ;�� ���� #�#���� ������ ?���� �� ��.�����=

I�

����

��

����6��:

����� � �� �� ���,�� �� ������� #�#���& 1�������� ���,�� �� ���� �� ��� ������ ?���� �� �� ��/����� ��� ��������$ ����$� #�#���� ��� #�#�� #������� ����.�� ?���� ��.��� ,���+ � #������ ��$� #����������� ��������&

� I��

���

� ��� ����� 6�H:

��� ����.�� ?���� ��.��� ,� (?&6�H: ��� ���� ����,��� ��� �� ������ ?����� ��� �� � ����� �� ����,�� �� ���� �� ��� �� ,�� ����� �� �� ?���� ����� ������� #�#�� ���������& � �������� +��� �� ���� ���� ��� ����� � �� ������ ?����� �� �������,�+��� +� ���� ��� ���� ����#���� ,� �� ����*(?&6�G:& ���������� ��� ?���� ����.����� �������� ��� �� �� �� ���� �� #��#����� � �� ��#������� �� �� ����� ��� +��� �����,�� � �� ��$� #����������� ��������&

��������� �� ������ ����

�� ������� �� �������� #���������� �� 012� �� ������� ��� #�������� ��� �������� +�� �� ���#��� +����������� �� H #�#��� �,����� ���� �� �(47 E(

�,�����& ��9 #�#��� +��� ������� � �� ������� ����� ��� �*#������ +� ����� �� �������#��� ����� ����,'�� �� ��� �������� ��� ����� �� �����������& 3������ ��� #�������� ��� ��������� ,� �� �����+��$ �?�������=

������ I�

� K ��6��:

��������� I�

� K �6�F:

����� � �� �� ����� �� ����� ���� �� ����� �������� � K �� �� �� ����� �� ����� ����� ���� ������� �� ����� ��� � K � �� �� ����� ������ ����� ����� &

� $������� ������ ��� #�������� ��� ������� �*�������� ������� �� ��� ��$� ������ ����� �� �,����� � ����� �� #��������� ��� ���� �����& 0�$��� H ���+� �� ��������� #���������� �� 012 �� +���� �� ?���� �� $�������� ���� .�� ������� #�#���& ��� $��#� ���+� ���#����� �,���� �� ����.�� ?���� �,����� ����$� ���?���� ����.����� ������ ��� �� #��� � +������$�� #�#��� ��� �������� �� �� ����� #��� �� ��������� #��������&

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 50 100 150 200 250 300

Rec

all o

r P

reci

sion

# of papers retrieved

"Recall with Initial Query""Precision with Initial Query""Recall with Modified Query"

"Precision with Modified Query"

0�$��� H= 3������� #���������� �� ����.�� ?����

� ����������� !�������� ������� ( #���� �����B�� ���������� �*� �� ����� ��*��� ���������� ���������$ #����#���.�� �#�� �������� ������ �� ����������#� 63���< �99�� ��H�99G:& 0�� �*��#��� ���������� ������,�� �� ����������� �* ��� ,� �������� ��� ���,���� +���� ���,� #��,�� ,� ����� ����$� ������� ?������� ��� 0�$���� �&

���� �,���� �� ( #���� ��� ��##�� � #�� �� ����� �� ���+���$� ,��� ����������& �� �� ��� 012#����� ���+���� ������ � �� ���+���$� ,��� �������� �� #�#��� �������� �� 3 #����& ;;; ���������� 012 �� ���� #������� ��� �� ������� �� ���������+���& ���� ���#�� .�� ������,�� ��+ 012 #�����

Page 6: Automatic Construction of Knowledge Base From Biological Papers

<ENTITY>=Transcription Factor Name: BPV-E2Factor Binding Site: ACCGNNNNCGGTReference: Nature 325: 70-3 (1987)

<ENTITY>=Transcription Factor Name: CTF/NF-lFactor Binding Site: TTTTTGGCAAAGATReference: Cell 51: 963-73 (1987)

<ENTITY>=Transcription Factor Name: TFIIICFactor Binding Site: TGGATGGGAGReference: EMBO J 6: 3057-63 (1987)

Entities of Knowledge Base

PapersDomain Specific

Dictionary

Extraction

Feed Back

Dictionary Look up

0�$��� �= ������������� �� �*5� �������� �� (#����

���+���� ���� #�#���� ��� ��� ������,�� ���������,�+��� �� ������ �#���.� ��������� 67����� 2��� 8@� �99�:&

������ ��������

>�� �� �� ��'�� #��,���� �� �� ������� �������� �������� ���$��$� �� �� #������� �� �����+� +�������#������� �����& ;���� � ����� ��������� � ��� ���� �� ��� �� ������ ����� ���� ��� $�& �� ���������� #��,���� ��� #�#�� ���#� �� ������$ �� +��������$ ����������#� �� ���+� ,���+� �� �� ���#��*��������� ��� �� ���������&

�� I�����������!�����!��

6�!:

����� ��� ��� ��� �� �� ���?����� �� ��� � �� ����#� ������� � ��� ���#�� �& �� ��� �� �� �� ������?����� �� � ��#� ������� � ��� ���#�� �& ���������������������� ������� ��� ���� ���+� �� M7�������� 6M���,��� 8 7��,��� �9H�:& ;�� ��� ������$����� +� ��� �,��� �� �������� ��� �� ���+���& � �������� ������ �#���.� ��� ���� �##���� ��

����������& �� ������� �� ��,�$��� �� ����$��B��$���#���� +����� ��� #�#�� ���� ��.��� �� ����� ������������ �� ,����+&

6���"�"��� � � � "������������� � � ������:

I �6��: �

��

#

�������

6"���: K�

� K �

�����

6�����:

6�9:���� C"�"��� � � � "������������� � � ������D ���� ��'���� +��� ����$� �� �� ��'����� " ��� ������ � ��� 6�: �� �� ����� �� � +��� � ��.��� ,�(?&6�!:&���� #�#�� ��.��� �� ��� #��� �� ��'���� �����

��� ��'������ �� ��$����� �� � #������ #�����& ���

.��� ��� �� #������ �� ���#���� �� ���� #���� �� +������������$ �� � �� ���� �������� �� �� ���������& � �������� 012 ���� ��$��� ������� � .����� ��������� +��� ����$� ��� ��� #����� ���+������ ��$� ��������� ��� ������ ���������� ��� 6@�������99�:& ����$ ��� ������ +� ��� ����$��B� ��� ������������ �*��� ������ �#���.� ���� �� ���������� ��������� ������ ���$��$� �*�& ��� �*��#�� �� �� �������$ �� #������� ���+���� ���� H #�#��� �� �� �������� �������#��� ����� 6������,�� �� �� �����+��$ �������: �� ���+� �� 0�$��� F&

� ��������� ���� �� �

����������������������������� ��� ����

����������������������������� ������ �! "�� !�

����������������������������� ���� �""�� #

���������������������������� �!���$� ��%$���

���������������������������� "�� !� ����

���������������������������� �&���� �'�(�

���������������������������� ��� ��%$���

���������������������������� ���� � ���"��� #

���������������������������� ��� ���� !(��

������������������������������������ ���!�� �! ��%$���

���������������������������� ��� �!(! ��

���������������������������� ��� ������ �!

���������������������������� ���� !(��

���������������������� � � � � �� � � � � �� �

0�$��� F= 2������� ���+���� +�� �����

������ ��� ��� �� � � ���� ��� � ����� !��

��� #������� ���+��� �� ������ �� ������,�� �,������� 012 ��� �����$���� ��#���� ���+���� ��������� +�� ��� �����& -����$� ���+��� #��������+�� ��� ����� ��� .��� �� ��������� +��� ����$�� ���� �*��� �� ��� #������� ���+���� ��� �##���#���� ���� +���� ��� ����� ��� �� ���+���$� ,�������& ���� #�#�� ���� �� ������ �#���.� ������������������ �� �� 4 #���� � ������� ��� #��,���& � �������� 012 ���� ����� �# �� ���+���$� ,���������& 1� ��������$ ��� �� ���+���$� ,��� �������

Page 7: Automatic Construction of Knowledge Base From Biological Papers

+� ��� ��� �� �� ��+ ��� �� �� ���� ��#�������� ��� �� ���������� ���� �� ��� ��� �� �� ���+�+��� �������& ��� #������� ���+���� �� ��� �������.�� �� ��� +�� ��� �����,�� � �� �������� �� ������#������� #�#��� ��� ���+����� ��� +��� ���� � ������������ �� �*������ ���+���$� ,���&

������ ������ ���������� �� """��������

"����� ��������� �� #$%&

;� ����$��� ��� ��#������� �� ���+���$� ��?�������� ����� 012 �� �� ������� ��� ���� #������ 3� ( ��� 4 6��� 0�$��� �:&��� 3 #���� ��� �� ���� ������� #�#��� +�� ��$�

#������ ��� ,���$ �������� ,� ���� ����� �� #�#���� ��������$ � ���� #�#��5� #������� ���������� �����������& ��� ��� 012 �� ���� ��������� +�� C����#���$ �� ��$��� �� ��������� �� #�#���D& ��� (#���� ��� #����� ���+���� ���� �� ������� #�#����������� �� 3 #����� ��� ��##�� �� ������������� ����$���� �� ���+���$� ,���& � �������� #������� ���+���� �� ( #���� ���

���� ����� �� �� ���� �� ������ �#���.� ����������� �� ��������� �� 4 #����� ��� �� ������������ ������������ ��������� +��� ,� ���� �� ������������� ��� �*������ �#������& >�� �*#����������� ���+� �� ��� ������������ ��������� ������,��� � �� ��#������� �� �������� ��� �*������#���������� 6>�� �99F:&

����� �� #$%& � � ������

���� #�#�� ����� �� ��������#��� 0���� 4��1���6�041: �� ��,'�� �� �������� 6>��B���� M��B�+� 8��B������ �99�:& -� E1 ��##�� �� ������������ ��������#��� 0���� 4��,��� 6�04: ����� �99G� ��� ��������� �� � ��+ ���,��� �041 �� �@1-�(����� �� � E������ ����� ���� 3������� ������� +���� ���� ���� ���� #��� �� �� ���,��� ��������$ �� �� 4E- ,�����$ ��?����� ���&��� ������ ����� �� �������� ��� �� ���#�� ���

����,�� ,���+& 0�� ,������$ � �$$�� ���#��� +� �������� �� �(47 E( �,����� �� �* ������ -�� �,������ ��� �$$�� ,��������� +�� � #�������#�����$ ���� 2��� ����,��� �$�� 6������� �������� 8���������+��B �99G: ����$ � ���$��� ������B�� �������� �� 1����5� �$$�� 61���� �99�:& 012 �� ��+ ���� �� �� ������� ����� ��������

��$ ��� ���������$ �� �041� ��� ���+� $��� ��������� ��� �*������ #����������&

''' � ����� �� #$%&

��� ;;; �������� ��� ,��� ����$��� ��� ��#��������� ��� ��� �������� ��� ��##�� �� ������������� ���������$ ���+���$� ,��� ,� ���#������$ �� ���&;�� ��� ,� ���� ����������� +�� 012 ��� �����,���+&

������ �� ������� ������ �#���.� ��������� �������� � �� ������ �� �� ��#���� +����+&

3������ ������� #�#��� ���� � �*��� ���,������� ���� �� #�#�� �� ��������$ � ���� #�#��5�#������� ���������� �� ���������&

���� �� �� ���� �� �##���� �� ,�� �������#�#��� ��� ���+���$� ,��� ����&

2����� ���+���� �� ���� ������� #�#��� ��������$�����+� +���� ,� �������� �����&

1� �� ��������� ������,�� �,���� �� ���� ��� �������� � ���+���$� ,��� ,� '�� �������$ �� ���+�������+� �� �� ;;; ��������& -� �*��#�� �� ���;;; �������� ��#������� ��� �� ���������� ���041 �� ���+� �� 0�$��� !&

0�$��� != ;;; �������� ��� �041

���������

;� ����$��� �� ����� ������ 012 �� ������������ ��?����� ������ �#���.� ���+���$� ���� ,����$����� #�#���& 012 �� ������� ��� ���� #������ 3� (��� 4& � �� 3 #����� �� ?���� +��� ,� ����.�� �����$ ������ �#���.� ���������� +���� +�� ����������� �� 4 #����� ��� �� ����.�� ?���� ��� �������#�#��� ������ ,� �� ���� ���� �*��� ���,���� ������������ ����� �� #�#�� �� ��������$ � �� ����������� �� ���������& � �� ( #����� ���+���� ����*����� ����������� �� � ���������� ����� ,� � ��������� �##����� ���� �� �� �� #�#��� �������� �� 3 #����� ��� ��� .��� �� ��������� +��� ����$�

Page 8: Automatic Construction of Knowledge Base From Biological Papers

,� ������$ �# �� ��������� ��� ������ �� ���+����$� ,���& ��� 4 #���� �������� �� ������� �������#���.� ��������� �� � ������ ���+���$� ������� ����� ;;; �������� �� 012 ��� ���#���� �� ��� �����+���$� ,��� ����������& ��� ��#���� ��#�� ���� ����� #��#���� �� 012 �� �� ,������ �������� 3� ( ��� 4 +���� ��� ���#�� ��� 012 ���������� �� ������� ������������ ��� ����� ��� ,������� #���� ������ �������&

�� ������ ��

���� +��� +�� ��##���� �� #�� ,� � ��������-��6 !A!G� G: ��� ������.� 3������� �� 2������ -�������� ��� ������� �� (�������� �������� �#��� �������� �� "�#��&

(�� ��

7�+��� 4& ��� "����� M& �99�& E����� 7��$��$�2��������$ ��� ��������� 3�������& ���������������� �� ���� G96�:&�+��� "& ��� 7������ ;& �99�& ��������� (*�

������& �������������� �� �� ���� G96�:& +������ �& ��� ������$�� �& �99H& ������������

,������� ��������$ ��� ������� �* ������.�����& �2��������$� �� �� ���������� "��� ��������� ��-��.���� �����$����&-����,��$� �& �9FG& ����� ������� ��� �������

������ -������� 2����&;����� 2& �9!!& 3���� ����� �� ���������� �����

��� ��������$= - ������� �����+& ���������� !��������� " �������� A�6H:= HFFNH9F& +������ �& ��� ������$�� �& �99�& - #��,�,�����

�� ����� ��� �* ���$���B����= 1���� �� � ���$�������� �����,�� +�� ����#�� ������& � 2��������$��� �� ��������� �� -##���� E����� 7��$��$� 2���������$ 6-E72 59�:� ��AN��F&-#�� &J 4������� 0&J ��� ;����� �& �99G& -���

���� �������$ �� �������� ����� ��� �* ���$���B����&3������� 3�#�� 3�99F96!AH�!:& 1�&1������� &J ������ �&J -����� "&J ��� ���$���� -&

�99H& -������ O���� (*#������ ����$ ��-3�=�3( G& � 2��������$� �� �� ����� ��* 3(��������������� 6�3(�A:& E �� �#����� 2�,�������&������ �& ��� 1������� & �9!!& �����+��$���$

�##������� �� ������� �* ��������& ����������!�������� �� �������� A�6H:&M���,���� �& ��� 7��,���� 3&-& �9H�& >� ��������

��� ��� ��/������& ����� �� ���������� �����������AA=F�N!�&3���<� (& �99H& 4�������� 3�?�������� ��� ��*

�����.�����= - ��#������ �� ����� 4������& �;�����$ E��� �� �� --- �#���$ ���#����� ��3�#��������� ��� -�?������� �� 7�*���� M��+���$�=2�������� -�,�$��� ��� ���������� �AGN�A!&3���<� (& �99�& ��������� (*������ �� � 1����

��� 2���,�� ��* �����.����� ������& 2�&4& ����&

4�#����� �� ��#��� �������� ��������� �� ������������ -�����&

7����� (& 4&J 2���� ;&J ��� @�� (& �& �99�& ��*��$���B���� ��� ����#�� ����� 1���� �� �������0������ ���� � ��������3����,�� 4��������& ���#����������� �� ��������� ������� �A6G:= AF!NA9H&

>��B���� �&J M��B�+�� �&J ��� ��B������� �& �99�&(��,������� ��� ����$���� �� ��������#��� 0����� 4��,��� �041& � 2��������$� �� �� ������;������# �� ������ ���������� A�!NA�9&

������� �&J ��������� 1&J ��� ���������+��B� �& -&�99G& 1������$ � 7��$� -������ ��#�� �� (�$����=��� 2��� ����,���& ������������ ����������� �96A:=G�GNGG &

1����� (& �99�& ���� -������� �� �������������1���� 2�� �� �#���� ��$$��$& � 2��������$� ��--- &

�99G& !��� ���� �� �� $���� ����� %� ����� ���� ������� &�%��'(� ��� 0��������� -� ���$��M�������&

>��� @& �99F 3�#��������� �� 3������� O���� �����$ ��#�� ��� ��������3����,�� 4��������& ������ ������ ��� ������� ������ �� ��� ��������� �������&

@������� @& �99�& ��������$ � 4�������� ��1����$���� ����� ��� ��������� (*������& ����������� ������� ������ �� ��������� ������� ��� (��$�������$� 4�#����� �� ��#��� �������� ����� ������ �� ��������$�&

������ �& ��� ������� �& "& �9!G& ���� ������ ���� �� ���������� )������ �����+����� 2�,�������$ ��#���&

������ �& �9!!& ��������� #�� !��������* #�#�������������+ �������+ �� )����� �� ����������� �� �������� -�������;�����&