Upload
trannhan
View
213
Download
0
Embed Size (px)
Citation preview
������������� ���������������������
�������������� ��������� ��� �����
�����������������������������
���������� ���� �����
Life Science Data
Recent focus on genetic data“ genomics: the study of genes and their function. Recent advances in genomics are bringing about a revolution in our understanding of the molecular mechanisms of disease, including the complex interplay of genetic and environmental factors. Genomics is also stimulating the discovery of breakthrough healthcare products by revealing thousands of new biological targets for the development of drugs, and by giving scientists innovative ways to design new drugs, vaccines and
������� ����������!������!����"�#$�%�&����$������������'����$�(��$)�*++,
development of drugs, and by giving scientists innovative ways to design new drugs, vaccines and DNA diagnostics. Genomics-based therapeutics include "traditional" small chemical drugs, protein drugs, and potentially gene therapy.”
The Pharmaceutical Research and Manufacturers of America - http://www.phrma.org/genomics/lexicon/g.html
Study of genes and their function
Understanding molecular mechanisms of disease
Development of drugs, vaccines, and diagnostics
The Study of Genes...
• Chromosomal location
• Sequence
• Sequence Variation• Sequence Variation
• Splicing
• Protein Sequence• Protein Structure
… and Their Function
• Homology
• Motifs
• Publications• Publications
• Expression
• HTS
• In Vivo/Vitro Functional Characterization
Development of Drugs, Vaccines, Diagnostics
Differing types of Drugs, Vaccines, and Diagnostics• Small molecules
• Protein therapeutics
• Gene therapy
• In vitro, In vivo diagnostics• In vitro, In vivo diagnostics
Development requires• Preclinical research
• Clinical trials
• Long-term clinical research
All of which often feeds back into ongoing Genomics research and discovery.
The Industry’s Problem
Too much unintegrated data:– from a variety of incompatible sources
– no standard naming convention– no standard naming convention
– each with a custom browsing and querying mechanism (no common interface)
– and poor interaction with other data sources
What are the Data Sources?
• Flat Files
• URLs
• Proprietary Databases• Proprietary Databases
• Public Databases
• Data Marts
• Spreadsheets
• Emails
• …
Sample Problem: Hyperprolactinemia
Over production of prolactin– prolactin stimulates mammary gland
development and milk productiondevelopment and milk production
Hyperprolactinemia is characterized by:– inappropriate milk production
– disruption of menstrual cycle
– can lead to conception difficulty
Understanding transcription factors for prolactin production
“Show me all genes in the public literature that are putatively related to hyperprolactinemia, have more than 3-fold expression differential between hyperprolactinemic and normal pituitary cells, and are homologous to known transcription factors.”factors.”
“Show me all genes that are homologous to known transcription factors”
SEQUENCE
1Q“Show me all genes that have more than 3-fold expression differential between hyperprolactinemic and normal pituitary cells”
EXPRESSION
2Q
“Show me all genes in the public literature that are putatively related to hyperprolactinemia”
LITERATURE
3Q
(Q1∩Q2∩Q3)
����'��������������(� ��n '���
l ������!"#���������$ %�&������'#���(���� ������
l ))*+++��� �����
n -'�!--l ,���������-� ����%���"$ ������ �� �
l ./*+++���� %�01+*+++� (���(�
n .'/�n .'/�l ���$��� �0++���������1��� #�����
n ��2'-3l )++*+++������� %�,����$�������������2�����$
n ����2������l 0/*+++���� ��������"����#���$(
n �4&�4������2������3�l 04%+++���� � ���#�"�0 ������� �%
������������� ������������������"���� �����������
5����6
<treatment>
alleviates -7����7�
5 (���� 6
5��"$6
5��"$���� ����6
5� �� �6IS-A
��������������
disease
name
symptoms
drug
n 8 ��" ����
n 8 ������� ��#�$���������
n 8�������������������� "����
drug
administration
!�5#��������
0* ��������������������1��� #�����
l �� ��������$�� %�����"��� �������� "��� ���� �������� �������$"�$�
)* ��������������6%
l ��������������#������$� ���� � "��l ��������������#������$� ���� � "��
9* �� ������ �"��� ������������������
n ������ � ������� #��������#� �� ���$�������(��#�"�2����������� ��:J
world
concept
�����������������7������������#�������
no shared understanding
Conceptual and terminological confusion
Actors: both humans and machines
Agree on a conceptualization
Make it explicitin some language.
language
��������1��� #������82�������9�
n�����(����"�������������������
n�����(���1��� #���������� ��������
n�����(��������#�������� ��������
������ ������������#��n ������ ������������#�� �������(�����#�� ������#�����
l �"��� ������"���
l �"��� �����������
l ������ �����������
�������������1��� #������2�������
������%�
�;���� ��������� ������ %�������� %
����������� �#��
�����
������
������"�� ��� �# ������������ ���������
,�� �� "���������$�
������ %�������� %������ %��"���� �
!���������6������
n ����������l �" �3�,���� �).0+</�%� " � �=�0+49<4�
l #�������3� !&> -��)++��%�?>�0/��%�-�����./�@01+�-�����./�@01+�!( �� �#���$(
n ���$�$�������$���$��l A����%��&!2,%�>����������(��.++���������(��$���,(���9++���
n ���$�$������ ������ -7�B�������$����&!2,�
(�����������������������$$�n � �
l ������!"#���������$ %�&������'#���(���� ������
l ))*+++��� �����
n - 7B--l ,���������-� ����%���"$ ������ �� �
l ./*+++���� %�01+*+++� (���(�
n � '!n � '!l ���$��� �0++�������������#"����
n !&> -�l )++*+++������� %�,����$�������������2�����$
n ?����>����$(l 0/*+++���� ��������"����#���$(
n &,C��,������>����$(3�l 04%+++���� � ���#�"�0 ������� �%
����������������������
n ��� �@� ����� �����������(
n ��� � �@���� ��������(
n � ����
n �� <���"� n �� <���"�
n �����������"����:�����"� :��
n �� ���� ���� �� ��(��%��������(�
n ������� ���� �� �� (��*%���� *%�D�
n ������ �#��������� � ��� ���%������ �
n ��� ���$�� � 3���� �����%� "# "����
Increasing semantic “weight”
�(�������������������������
n>����$� ���������������� ����� ����
�����; �������������E����� ��(�
n>����$� ����n>����$� ��������� ������������
��� �"�����������������"�����
nA� %������$� ��; �#���" �����#"�������
!���� ���8��5#�������9�
ü ��������������������1��� #�����
l �� ��������$�� %�����"��� �������� "��� ���� �������� �������$"�$�
)* ��������������6%
l ��������������#������$� ���� � "��l ��������������#������$� ���� � "��
9* �� ������ �"��� ������������������
���"��������#����
n:'/3l !"������ (��;%���� �����
n:'/�������3l �� ��#� � �"�"������F '����"���
n!3;3n!3;3l �������������G������ H�#������G��$ H
n!3;�������3l B�������#"�����������'��$"�$�
n2�/3l ��������;��� �������#"�����������'��$"�$�
����:'/n !�"�"��$���� �����"��� ������������
n �7 '����������� �������3
The Nether lands
GeographyCapital: Amsterdam
<h2>The Netherlands</h2>
<b>Geography</b><br><i>Capital:</i> Amsterdam <br>(The Hague is the seat of the government)<br><i>Neighboring countries:</i> Germany, Belgium
Capital: Amsterdam(The Hague is the seat of the government)Neighboring countries: Germany, Belgium
����:'/�� *�n �"��� �"���� ���������������������7 '�
n ,���"�� �������G����H����3l ������������� �����;%���������������:
n F '����� �� �����(��;����#(3�l $��$��� #�(������$�"������ ����$
l ������$������ �$�����$ ���$ �� ����$ �<country name= "The Netherlands" >
<geography><capital name= "Amsterdam" >
<remark> The Hague is the seat of the government </remark> </capital><neighboring_country> Germany </neighboring_country><neighboring_country> Belgium </neighboring_country>
</geography></country>
:'/����������
n ���"���� �����������%���#��������%�������� �������� ���������"������(%������� %���#"� %������ �$�� �"��� %�����������
country
capital
geographyname
remark
neighboringcountry
The Netherlands
The Hague is the seat of the government
GermanyAmsterdam
neighboringcountry
Belgium
comment
Should be...
name
��#�#�����������n�7�
l ���"����(���������
l �������I�������������!? '
<!ELEMENT country (geography, people, economy)><!ATTLIST country
name CDATA #REQUIRED>
l 2,��7��E���� ���������������
l �����������(��
name CDATA #REQUIRED><!ELEMENT geography (capital, neighboring_country*)><!ELEMENT capital (remark*)><!ATTLIST capital
name CDATA #REQUIRED><!ELEMENT remark (#PCDATA)><!ELEMENT neighboring_country (#PCDATA)> ….
��#�#������������ *nF '�!�����
l J"�������B��*�+)� �(�)++0��
l �����"������ ��7�3���� ��#� ���#�#��
n#"��� � ����������$� 3l F '�!������ �F '� ����l F '�!������ �F '� ����
l ��������(��$
l ������$������
l (����������(�������1���
<complexType name=”subject"><element name=”title" type="string"/><element ref=”lecture” maxOccurs="unbounded” />
</complexType>
:'/��������� �������������n�����������
l $��"��$%�#(�choice%�sequence ���all
n�������(l ��#"� 3�minOccurs%�maxOccurs
<complexType name="WindowsType"><element name="version" type="string” minOccurs="0”
maxOccurs="1" default="W98"/><element name="includedBrowser" type="string”
minOccurs="0" maxOccurs="1" fixed="Internet Explorer"/></complexType>
n ����"� �������� �� l ��#"� 3�default, fixed
���"��������#����
n:'/3l !"������ (��;%���� �����
n:'/�������3l �� ��#� � �"�"������F '����"���
n!3;3n!3;3l �������������G������ H�#������G��$ H
n!3;�������3l B�������#"�����������'��$"�$�
n2�/3l ��������;��� �������#"�����������'��$"�$�
(�#��������#�����!3;��0�n2 <�����%� #��=�>��#� ����
n �#��� ������� �����#����n���"�� ��$������>#���3
����+? &�(�$$$�"������
l ���� �����#����"��
l ����������E�$����
����+? &�(�***�"������
'&�
&�(�***
2"#��#(
(�#��������#�����!3;��*�n -���(�������� ����B'E�����������"�J"������$�
n �� �F '� (��; @����3������� ����� �#A8B����+?9=@�#���2�=&�(�$$$@C�#���2�=
@C����3�������=
n ��(� ����������#������#���K $���� �����#�������
��� +/ �!C&***%#������
�D�����
���������!3;������������
K ����� �1��� #��������B��
K >�$��=� �� �����#"���(������������������K ,�� %� "#,�� >�%�(��
K 2�����(%� "#2�����(>�
K �����%����$�E�����
�������� �#�����
�# 4����2��# 4����2�
'���
���
��������������������������������������������� �����
;���"
���
����������������������������������������
���"��������#����
n:'/3l !"������ (��;%���� �����
n:'/�������3l �� ��#� � �"�"������F '����"���
n!3;3n!3;3l �������������G������ H�#������G��$ H
n!3;�������3l B�������#"�����������'��$"�$�
n2�/3l ��������;��� �������#"�����������'��$"�$�
2�/�������!3;���������������
n �J"��(
n ��"������
n �"�#����� ���� l !�$������"��<�"�����"��
l >�����<��J"�������"�
n ���� �%� (�����%���� ��
n#���������$�#��l ����%����������
nD
2�/��������6�����1�
Full
DL
n 2�/�/��§� "#���� � %�����"�� §� "#�������� %������%����$�§����"����§����J"��(§�������(�+<0§���(�� ���� �%���� ��%� (�����
!3;�������
Lite
n 2�/�;#��§ ������������� � ���
n2�/�3/§&�$���§� �"����§�"���,������(§-�"�������(��
§���� �%���� ��%� (�����§�� ���"�§ ������"� ����§������"� ����
!���� ���8��5#�������9�
ü ��������������������1��� #�����
l �� ��������$�� %�����"��� �������� "��� ���� �������� �������$"�$�
ü ��������������6%
l ��������������#������$� ���� � "��l ��������������#������$� ���� � "��
9* �� ������ �"��� ������������������
F#���������������������������E����������� ����)������������#���)���������)��# ������)�G$
n !��������" � �������C�������������$� l !�������������� ������(���������� l !�������������� ������(����������
���������������������������-��������
4��1��������3(�������)�.'/)���$
F#��������������������������� �"������������$
� ���������"�������$"�$������(
� ,�������;�����
-;�����3�-��(��������C����������G�� �����H
amsterdam
trade
antwerp europe
amsterdam
merchant
city town
center
netherlandsmerchant
city town
n �;�����; �$���$��(����l ���=��
l '�#��J"����:�
��������������" ����������
F#��������������������������
n ��������������" ����������l �7�'�#�������������
n �2� ��������"��������
nL�#�)*+�����"�(< ������������
!���� ���8��5#�������9
ü ��������������������1��� #�����
l �� ��������$�� %�����"��� �������� "��� ���� �������� �������$"�$�
ü ��������������6%
l ��������������#������$� ���� � "��l ��������������#������$� ���� � "��
ü �� ������ �"��� ������������������
32E-��(��"���#��
n�����������������2��� ��l (#������� � ���������M�"������
l L�#������� ����������"��
nC" �� ������3���"$�����������l B��%�����������"�$�(������
l ?������ �"�" ��- 7B--�
����3���
n���"�������� ��� 3l !���������3������;*�/++*+++��"���;������
l -�'�&-3������;*�0+*+++*+++��# ���
n-;������ �����n-;������ �����l 7���,����; � ������!�����3���������;�������N ��������$������$N�
n7�� �"������>����$� l - 7B--3�O+*+++�������������� �)++*+++� (���(�
%�����#���
GUI: Spectacle (Aduna)
Mediator: Sesame (Aduna)
http requests
Additional Source
Metadata Server(Collexis)
EMTREEThesaurus
(RDFS)
Java Client SOAP
DocumentModel(RDFS) Source
Model(RDF)
SeRQL
Additional Source of Data
SourceModel(RDF)SeRQL
GeneThesaurus
(RDFS)
��������"����6�������
K32E-K4���#����������
���CC���"$�������� $���
K (������������������ ���K (������������������ ������CC�" $�������$��#C
�#�������Gn �������$�����������L�#3�
l ������������ �#�������#� �� ��"��������� �#������
n !(��;������������l F '������"��������$�l B���� ���������$�l B���!������� ���������$�l B���!������� ���������$�l >L'������������$
n ����#"���� ������������l '�Q ����������#����*
n ��"����������3l '�Q ���#����*
n L������#��3l C���� ��������$�� ��������%����� ��%������� �l ,��#��$�������������� ���$� �����������l D
�����������������#
n E������3�� ���; �$� ������������ �"������" �� ������Q
n 4�����#��3,�������������$(����� ������������#����������;��� ����� ������������#����������;��� �l ����� �����l � �������������������; �$������$(
n ��������37��� ���������; �$����� �����������������%��������������J"��(���������������"��� ����������� �