29
20101124탑쿼드란트 코리아 전략팀 추윤미 [email protected] 홈페이지 : http://www.topquadrant.co.kr 블로그 : http://blog.topquadrant.co.kr

Pharmaceutical Industry and Linked Data

  • Upload
    ymchu88

  • View
    1.144

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Pharmaceutical Industry and Linked Data

2010년 11월 24일

탑쿼드란트 코리아 전략팀 추윤미[email protected]

홈페이지 : http://www.topquadrant.co.kr

블로그 : http://blog.topquadrant.co.kr

Page 2: Pharmaceutical Industry and Linked Data

• 생명의학 분야의 R&D 환경 변화

• 제약 산업과 ICT

• 시맨틱 웹과 링크드 데이터

• LODD(Linked Open Drug Data)

개요

Competitive Intelligence Use Case

기대효과

• 결론

목차

Page 3: Pharmaceutical Industry and Linked Data

생명의학 분야의 R&D 환경 변화

새로운 개념의 치료(therapy)에 대한 요구

–개인 맞춤형 치료

–질병의 조기 진단

–질병의 치료 뿐만 아니라 예방, 노화 등에 관한 관심 증가

– Safty & efficacy(약품의 안전성, side effect, 효과 등에 대한정보 요구)

생명의학 분야

– Multidisciplinary

–의학, 생물학, 약학, 유전 공학 등의 다양한 정보 증가

Page 4: Pharmaceutical Industry and Linked Data

정보 기술(ICT)의 발전

– 데이터의 폭발적 증가

• 실험 데이터, 환자 기록, 임상 실험, 유전자 DB ...

– Knowledge Management• 다양한 정보를 가공함으로써 새로운 지식 창출이 가능

– 연구 방법의 변화• Multidisciplinary – 학제간 연구의 증가

• collaboration – 협업 연구의 증가

• data 중심의 새로운 연구 방법

-> 혁신의 열쇠가 “정보”에 있음

–다양한 분야에서 생성되는 정보를 장벽 없이 접근하고 통합함으로써 새로운 지식을 생성

제약 산업과 ICT

Page 5: Pharmaceutical Industry and Linked Data

신약 개발을 위한 비즈니스 모델에 내부 정보 뿐만 아니라 외부의 정보도 필요함

– Clinical Trials + Clinical Research(experiments) + Biomedical literature + electronic health records...

– + geographical data, medical vocabulary...

내, 외부의 정보를 통합하기 위한 정보 간의 상호운용성(interoperability) 에 대한 요구 대두

source : Mats Sundgren , “New needs for interoperability in Clinical Research” , AstraZeneca, health conference 2010

Information Interoperability

Page 6: Pharmaceutical Industry and Linked Data

2010-12-07

“The Semantic Web is a vision: the idea of having data on the Web defined and linked in a way that it can be used by machines not just for display purposes, but for automation, integration and reuse of data across various applications.[W3C 2001] ”

데이터의 웹

시맨틱 웹

Page 7: Pharmaceutical Industry and Linked Data

시맨틱 웹

시맨틱 웹은 상호운용성에 관한 기술

–시맨틱 웹 표준인 RDF(Resource Description Framework)로 데이터를 표현함으로써 이질적인 정보 간의 통합이 가능

지식 교환을 위한 표준과 아키텍처

– RDFS, OWL, SKOS(Simple Knowledge Organization System), FOAF(Friends of a Friend), etc...

– Sparql 질의 언어를 이용한 분산된 정보에 대한 통합 질의

– URI(Uniform Resource Identifier)를 이용한 웹에서의 정보접근

– Linked Data

Page 8: Pharmaceutical Industry and Linked Data

RDF - 데이터 모델

정의란 무엇인가마이크 샌델create

subject predicate object

RDF(Resource Description Framework)

트리플(Triple)

Page 9: Pharmaceutical Industry and Linked Data

Source: Ivan Herman

graph representation using RDF data model

시맨틱 웹- integration

Page 10: Pharmaceutical Industry and Linked Data

SPARQL as a Unifying Source

Source: Ivan Herman

DB DB DB DBX X X

SPARQL Engine

Application

Sparql query return data

Page 11: Pharmaceutical Industry and Linked Data

시맨틱 웹 – Linked Data

Many common things are represented in multiple data sets

Linking identifiers connects these data sets

Linked data opens the doors of the silos

Data Silos on the Web

Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY

Page 12: Pharmaceutical Industry and Linked Data
Page 13: Pharmaceutical Industry and Linked Data

Linked Data

1. Use URIs as names for things

2. Use HTTP URIs so that people can look up those names

3. When someone looks up a URI, provide useful RDF Information

4. Include RDF statements that link to other URIs so that they can discover related things

Tim Berners-Lee, “Linked Data- Design Issues(2006)”, http://www.w3.org/DesignIssues/LinkedData.html

Linked data는 웹 상의 데이터들에 URI를 이용해 이름을 붙이고, RDF로 데이터를 기술할 뿐만 아니라 데이터 간의 관계를 부여하여

HTTP를 통해 웹으로 발행함으로써 데이터가 인간 뿐만 아니라 기계에의해 사용되고 이해될 수 있도록 하는 방법

Page 14: Pharmaceutical Industry and Linked Data

Linked Data – RDF Data Link

B C

Thing

typedlinks

A D E

typedlinks

typedlinks

typedlinks

Thing

Thing

Thing

Thing

Thing Thing

Thing

Thing

Thing

Search Engines

Linked DataMashups

Linked DataBrowsers

참고 : Chris Bizer / The Emerging Web of Linked Data

Page 15: Pharmaceutical Industry and Linked Data

W3C – Linking Open Data Project

W3C SWEO Community (Semantic Web Education & Outreach Interest Group) 다양한 공개 데이터 셋을 RDF형태로 웹에 퍼블리싱하여, 다양한 데이터 소스 간의

RDF 링크를 설정함으로써, 공유 데이터(data common)를 통해 웹을 확장하고자 하는목적

Over 500 million RDF triples Around 120,000 RDF links between data sources

Page 16: Pharmaceutical Industry and Linked Data

LOD Cloud – 2008. 2

Page 17: Pharmaceutical Industry and Linked Data

July 2009

LOD Cloud – 2009. 7

Page 18: Pharmaceutical Industry and Linked Data

2010-12-07

LOD Cloud – 2010. 9

Page 19: Pharmaceutical Industry and Linked Data

LOD Cloud – Life Science 분야

Page 20: Pharmaceutical Industry and Linked Data

제약 분야 Linked Data 사례 – LODD

Linking Open Drug Data(LODD)

– Health Care와 Life Science 분야, 특히 Drug에 관련된 정보의 링크드 데이터셋 구축

– 이미 구축되어 있는 clinical practice(LinkedCT), disease, gene 관련 Linked Data 데이터 셋과 링크를 통해 연계

목적

– Drug Discovery, drug development, 그리고 clinical practice 분야의 데이터들을 통합함으로써 제약업체에 맞춤형의 약품 개발이 가능하도록 전문적인정보를 제공

Page 21: Pharmaceutical Industry and Linked Data

제약 분야 Linked Data 사례 – LODD

The Linked Clinical Trials(LinkedCT)– 미국 NIH에서 제공되는 158개국의 임상실험에 관한 레지스트리

• http://linkedct.org• 6만 건 이상의 임상실험 보유

DrugBank– FDA 승인을 받은 5000개 이상의small molecule과 biotech drugs에 관한 레파지토리

• http://www4.wiwiss.fu-berlin.de/drugbank/drugbank

Diseasome– 4300 여 가지의 disorders와 disease genes, 그리고 이들간의 관계에 관한 정보

(from OMIM:The Online Mendelian Inheritance in Man)• http://www4.wiwiss.fu-berlin.de/diseasome

DailyMed– NLM에 의해 발행되는 시판되는 약품에 대한 정보– high quality information

• 약품의 화학구조에 관한 일반적인 백그라운드, 효과의 메카니즘, 사용방법, 부작용, 복용제한조건, 경고, 이상반응 등에 관한 정보를 포함

• http://www4.wiwiss.fu-berlin.de/dailymed/

Page 22: Pharmaceutical Industry and Linked Data

어떤 비즈니스 매니저가 알츠하이머에 관한 새로운 임상실험결과를 찾음

– 임상실험 결과 및 관련 약품 정보와 지리정보를 통합함으로써 -> 앞으로의 세일즈 예측과 새로운 제약에 대한 요구 파악

– 시맨틱 웹 브라우저를 통해 LinkedCT에서 AD에 관련한 모든 임상실험과 관련약품검색

1) Pfizer의 Varenicline이라 불리는 약품 검색http://data.linkedct.org/resource/trials/NCT00744978

2) 이 약품에 대한 더 많은 정보를 찾고 싶음

http://dbpedia.org/resource/Varenicline

http://www4.wiwiss.fu-berlin.de/drugbank/resource/drugs/DB01273

3) 데이터의 링크를 따라 DailyMed에 있는 데이터를 통해 이 약품이 이미 nicotine addiction 치료를 위해 시장에 나와있음을 찾음

4) 데이터를 스크롤하여 이 약품이 이미 시장에 나와있으므로 부작용에 관한 정보를얻을 수 있음.

5) 임상실험 (LinkedCT) 을 통해 검증된 일반적인 복용량에 관한 정보도 얻을 수 있어안전성에 관한 데이터도 확보됨

Competitive Intelligence Use Case

Page 23: Pharmaceutical Industry and Linked Data

– 왜 nicotine addiction 약품이 AD(Alzheimer’s Disease)에도 효과가 있는지 찾고 싶어짐

6) DrugBank의 링크를 따라 Varenicline이 alpha-4와 beta-2 neuronal nicotinic acetylcholine receptor agonist임을 알 수 있음

7) 그러나 Desiasome은 관련된 유전자가 AD보다는 nicotine addiction에만 중요함을 알려줌

8) Diseasome은 이 질병들 간의 더욱 복잡한 관계가 존재함을 알려줌

9) SWAN 지식베이스(http://hypothesis.alzforum.org/swan)로 브라우징을 확장하면AD가 nicotinic receptors와 관계가 있다는 가설을 검색 임상실험 (LinkedCT) 을통해 검증된 일반적인 복용량에 관한 정보도 얻을 수 있어 안전성에 관한 데이터도확보됨

Competitive Intelligence Use Case

Page 24: Pharmaceutical Industry and Linked Data

USE CASE 분석을 통한 기대효과

관련된 데이터를 통합적인 view로 브라우징 함

– Linked Data 접근 방법을 통해서•기업, 임상실험, 약품, 질병과 유전적 변형간의 관계된 데이터를 브라우징할 수 있으며,

•이를 통해 부가적인 데이터를 접근할 수 있고,

•전체적으로 이형의 데이터의 정보들을 서로 연결(interlinking)함으로써 얻고자 하는 정보를 더 구체화 할 수 있으며,

•관련 지식에 대한 탐험(exploring)을 통해 의사결정에 도움을 받음

외부의 Knowledge Base를 이용한 새로운 Innovation

– Internal Information과 External Information의 통합을 통해•DailyMed, LinkedCT, DrugBank와 같은 신뢰성 있는 정보와 내부의정보를 융합, 새로운 지식의 창출이 가능

Page 25: Pharmaceutical Industry and Linked Data

신약 개발을 위한 혁신의 요구

Open Innovation

– 기업 외부로부터의 R&D Sourcing•requires data standards to enable rapid data integration

Data Requirements for Clinical Trials

– 데이터의 상호 교환을 위한 표준 기반의 데이터 유통•all the different departments, regulators and partners have to look at data in the same way

•standards applicable across any enterprise within the BioPharma business

Page 26: Pharmaceutical Industry and Linked Data

신약 개발을 위한 정보전략

Linked Data 기술 기반의 Information Interoperability

LOD(DBPedia,

Geo-data, etc from other domains)

LODD, BioRDF, etcfrom Life Science domain)

Internal Information

internal

external

Patient Scientific Data

Research Reports

different vocabularies

heterogeneous

Information

Page 27: Pharmaceutical Industry and Linked Data

탑쿼드란트 코리아의 Linked Data 보유 기술

Page 28: Pharmaceutical Industry and Linked Data

결론

신약 개발을 위한 혁신의 Key Capability

–다양한 정보를 접근, 통합하고 새로운 지식으로 가공하기 위한 기술

–다양한 내부, 외부의 정보를 자유롭게 유통할 수 있는 표준기반의 데이터 유통 체계가 필요

시맨틱 웹 기술

–자유로운 정보 유통과 통합을 위한 열쇠

Linked Data를 이용한 신약 개발

–표준 기반의 데이터 생성 및 유통을 통해

– LOD(특히, LODD) 데이터와의 융, 복합으로

–혁신적인 제품 개발 가능

Page 29: Pharmaceutical Industry and Linked Data

탑쿼드란트 코리아 전략팀 추윤미[email protected]

홈페이지 : http://www.topquadrant.co.kr

블로그 : http://blog.topquadrant.co.kr