33
Webgráfokról és fehérje-fehérje interakciós gráfokról Grolmusz Vince matematikus egyetemi tanár ELTE Matematikai Intézet Protein Információs Technológia Csoport

Webgráfokról és fehérje-fehérje interakciós gráfokról

  • Upload
    avani

  • View
    27

  • Download
    0

Embed Size (px)

DESCRIPTION

Webgráfokról és fehérje-fehérje interakciós gráfokról. Grolmusz Vince matematikus egyetemi tanár ELTE Matematikai Intézet Protein Információs Technológia Csoport. Az ELTE Matematikai Intézete. A hazai matematika oktatás és kutatás egyik fellegvára, Itt oktatott Fejér Lipót, - PowerPoint PPT Presentation

Citation preview

Page 1: Webgráfokról és fehérje-fehérje interakciós gráfokról

Webgráfokról és fehérje-fehérje interakciós gráfokról

Grolmusz Vince

matematikus egyetemi tanár

ELTE Matematikai Intézet

Protein Információs Technológia Csoport

Page 2: Webgráfokról és fehérje-fehérje interakciós gráfokról

Az ELTE Matematikai Intézete

• A hazai matematika

oktatás és kutatás egyik fellegvára,

• Itt oktatott Fejér Lipót,

Hajós György, Riesz Frigyes,

Rényi Alfréd, Turán Pál

Page 3: Webgráfokról és fehérje-fehérje interakciós gráfokról

A Protein Információs TechnológiaiCsoport

ELTE

TTK

Matematikai Intézet

Számítógéptu-dományi Tanszék

PIT csoport

Célunk: az utóbbi 2-3 évtizedben kidolgozott kombinatorikai, gráfelméleti, adatbányászati technikák alkalmazása biológiai és gyógyszerkutatási problémák megoldására, ezzel a matematikus-biológus-vegyész szakmák közötti “kulturális gátak” lebontása

http://pitgroup.org

Page 4: Webgráfokról és fehérje-fehérje interakciós gráfokról

Hogy kerül össze a matematika, a biológia és a kémia?

• Régen még nem váltak el egymástól• Ma a tudósok szűk területekre specializálódnak• Sok olyan matematikai, számítógéptudományi

módszer fejlődött ki az utóbbi 20-30 évben, amely alkalmas nagy tömegű adat nemtriviális elemzésére

• 20-30 éve a biológusoknak, kémikusoknak nem volt még nagy tömegű adatuk; ma van.

• Ezek feldolgozása, és az ezekben történő keresés sokszor nemtriviális matematikát kíván.

Page 5: Webgráfokról és fehérje-fehérje interakciós gráfokról

Webgráfok és fehérje interakciós gráfok

• Webgráf: A WWW gráfja, a 90-es évek elején nézték komolyan (pl. Google PageRank: a fontos csúcsok meghatározása)

• Fehérje-fehérje interakciós gráfok: ezredfordulótól nézik széleskörűen

Miről lesz szó?

• A webgráfokra kifejlesztett eljárások biológiai alkalmazásai

Page 6: Webgráfokról és fehérje-fehérje interakciós gráfokról

Néhány vélemény szerint:

• A jelenlegi egy-egy fehérjét vagy egy receptort tekintő vagy támadó terápiás eljárásokból túl sok új eredményt nem lehet kihozni.

• Sok betegség komplex, sok biokémiai folyamatot érint, sok fehérjével van kapcsolatban.

• Pl. depresszió: nem felelős érte egyetlen fehérje. Molekuláris mechanizmus nincs felderítve, molekuláris marker sincs.

Page 7: Webgráfokról és fehérje-fehérje interakciós gráfokról

Több fehérje együttes hatását kell nézni!

• Rendszerbiológia,

• Proteomika,

• (metabolomika, genomika, stb.)

Page 8: Webgráfokról és fehérje-fehérje interakciós gráfokról

The number of pharmaceutical target proteins

Overington et al. Nature Reviews Drug Discovery 5, 993–996 (December 2006) | doi:10.1038/nrd2199

There are a little bit more than 100 000 human proteins, encoded by 21 000 genes

Mycobacterium tuberculosis: 4000 genes,Plasmodium falciparum: 5200 genes

Page 9: Webgráfokról és fehérje-fehérje interakciós gráfokról

Very few proteins are targeted

Needed: novel protein targets in pathogen microorganisms.

How to choose new targets:- Similarity to old targets;

- Expert opinion

- Objective method

Page 10: Webgráfokról és fehérje-fehérje interakciós gráfokról

Proteomikai technikák széles körű elterjedése

Hatalmas mennyiségű mérési adat és fehérjehálózat

Az eredmények „kézzel”, „ránézéssel” nem értékelhetők ki

Gyors, hibatűrő, biológiailag verifikált kiértékelési eljárásokra van szükség

Page 11: Webgráfokról és fehérje-fehérje interakciós gráfokról

Itt és most nagy hálózatokban a fontos csúcsok megtalálására szeretnénk koncentrálni.

Egy csúcs lehet fontos:1. önmagában, a teljes hálózatban,2. vagy néhány más csúcshoz képest

A 2. típusú kérdés a biológiában például proteomikai mérések kiértékelésénél merül fel: Ha néhány fehérje koncentrációja megváltozik egy folyamatban, akkor szeretnénk tudni, hogy mely más fehérjék vannak ezekkel szoros kapcsolatban.

A cél: fontos csúcsok megtalálása fehérjehálózatokban

Page 12: Webgráfokról és fehérje-fehérje interakciós gráfokról

A cél: fontos csúcsok megtalálása fehérjehálózatokban

Ha nem a saját méréseinket használjuk, hol találunk fehérjehálózatokat?

MINT (UniRoma): 112 957 él, 29 587 fehérje, csak kisérleti

DIP (UCLA): 57 683 él, 20 728 fehérje

HPRD (Johns Hopkins): 38 806 él, 27 801 fehérje, humán

IntAct (EMBL-EBI): 195 719 él, 59 017 fehérje

KEGG (Kyoto Univ.) metabolikus hálózatok

Generált hálózatok: nascent.pitgroup.org, nem csak modell organizmusokra

Page 13: Webgráfokról és fehérje-fehérje interakciós gráfokról

A cél: fontos csúcsok megtalálása fehérjehálózatokban

Milyen hálózatokat tekintünk?

Fizikai interakciós hálózatok:

Csúcsok: fehérjék, élek: két fehérje éllel van összekötve, ha köztük interakció van:•mért {TAP, Y2H, ko-immunoprecitipáció vagy egyéb}, •jósolt

Irányítatlan gráfok:

Page 14: Webgráfokról és fehérje-fehérje interakciós gráfokról

A cél: fontos csúcsok megtalálása fehérjehálózatokban

Milyen hálózatokat tekintünk?

Metabolikus hálózatokat:

Csúcsok: reakciók, élek az A-ból B-be: ha van az A reakciónak olyan terméke, amelyet a B használ fel. A B

Az éleket lehet a fluxussal is címkézni.

Példa: Az Mtb mikolsav pathway-e

Page 15: Webgráfokról és fehérje-fehérje interakciós gráfokról
Page 16: Webgráfokról és fehérje-fehérje interakciós gráfokról

hálózat = gráf

•Konkrét, nagy gráfok struktúrájának gyakorlati vizsgálatához a WWW web-gráfjának tanulmányozásavezetett a 90-es évek közepén és végén;

• A cél a fontos csúcsok kiszűrése volt a web-gráfból:ez azért volt érdekes, mert amikor valaki rákeres egy web-keresőben (pl. Google) egy kifejezésre, akkor a fontos találatokat akarja látni az elsők közt. Sokszor azonban több millió találat van...

A cél: fontos csúcsok megtalálása fehérjehálózatokban

Page 17: Webgráfokról és fehérje-fehérje interakciós gráfokról

Diverzió: Hogy működik egy webkereső?

• Letöltés (robot, crawler)• Tárolás• Indexezés• Inverz indexezés

De: kell, hogy a több milliárd weboldal közül a többmillió találatból a találati lista elején

a FONTOS találatok legyenek.

Page 18: Webgráfokról és fehérje-fehérje interakciós gráfokról

Web-gráf: csúcsok: a web oldalaiélek: A B, ha az A oldal hivatkozik B-re;

A cél: fontos csúcsok megtalálása fehérjehálózatokban

DEF 1:Fontos oldal azaz fontos csúcs: amelyre sokan hivatkoznak,azaz magas a be-foka:

be-fok=4 Sok alkalmazás; scientometria: hivatkozások száma,impakt faktor

hátránya: nem veszi figyelembe a hivatkozók minőségét, ezért befolyásolható

Page 19: Webgráfokról és fehérje-fehérje interakciós gráfokról

A cél: fontos csúcsok megtalálása fehérjehálózatokban

DEF 2: Fontos oldal azaz fontos csúcs: amelyre sok fontos csúcs hivatkozik...

Mint definíció, ez így persze rossz. De könnyen lehet egy iteratív algoritmust csinálni belőle: az elején mindenkinek

adok egy egységnyi „fontosságot”, aztán ezt (pongyolán fogalmazva) a csúcsok átörökítik azokra a csúcsokra, akikre mutatnak, és ezt ismételjük,

amíg egy stabilizálódott határ-eloszláshoz nem jutunk (ez legtöbbször létezik).

Ennek az eljárásnak a hibatűrését és robusztusságát lehet egy új ötlettel növelni.

Ezt véletlen bolyongással lehet jól elmondani.

Könnyen, gyorsan számolható, általában gyorsan konvergál.

Page 20: Webgráfokról és fehérje-fehérje interakciós gráfokról

Elindítunk egy sétáló embert a gráfon: ha egy csúcsba ér, akkor egyenletes valószínűséggel valamely kimenő élen megy tovább, vagy egy c valószínűséggel teleportál, egy véletlenül kiválasztott csúcsba:

Pl. c=0.2

8/50

Egy csúcs fontossága az a valószínűség,amellyel ott tartózkodunk (pontosabban a

határeloszlás)

Page 21: Webgráfokról és fehérje-fehérje interakciós gráfokról

Ezt használta az első időkben a Google (Brin & Page 1998), tehát csak a linkek struktúrájából osztályozott).

Előnyei: Aránylag nehéz mesterségesen befolyásolni (WWW)Hibatűrő (Biológiai felhasználások)

PageRang vektorok különbségének normája

A megváltozott csúcsokPageRangjainak összege

c a teleportálási valószínűség,c=0.2-re ez 8

Ha a fontos csúcsoknál kevés hiba van, akkor ez hibatűrő!

Page 22: Webgráfokról és fehérje-fehérje interakciós gráfokról

Irányítatlan gráfokban (ilyenek a fizikai interakciókat leírógráfok) a PageRang nagyjából arányos a fokszámmal, azaz felesleges használni.

De! Metabolikus gráfokban érdemes, hiszen azok irányítottak; sőt, a fluxust is figyelembe lehet venni: az

élválasztási valószínűségeket lehet vele súlyozni.

Page 23: Webgráfokról és fehérje-fehérje interakciós gráfokról

Fontos csúcsok az Mtb metabolikus hálózatában

Two dense subgraphs from the metabolic graph of the Mycobacterium tuberculosis. On the left panel, large nodes correspond to large degree, but yellowish colors correspond to low PageRank. On the right panel, the small but orange-colored R06613 correspond to the KEGG reaction ID, catalyzed by the ThyX enzyme.

Page 24: Webgráfokról és fehérje-fehérje interakciós gráfokról

PageRang relativizált változata: a perszonalizált PageRang

1-(c+d) vsz. c vsz-el teleportál egyenletesen;d vsz-el a kiválasztott csúcsokba

Azért nevezték perszonalizáltnak, mert a webegyes felhasználóinak személyes érdeklődését

is figyelembe lehet venni a csúcsok fontosságának kiszámolásánál.

Page 25: Webgráfokról és fehérje-fehérje interakciós gráfokról

A perszonalizált PageRank néhány tulajdonsága:

• A biológiai hálózatok jelenlegi méreteire könnyen, gyorsan számolható;• hibatűrő,•Jól használható irányítatlan, fizikai interakciós hálózatokra is• óriási hálózatokra (több millió csúcstól) jó közelítőalgoritmusok vannak a gyors kiszámítására is (így pl. www, vagy az agy hálózatára is használható {Fogaras, Rácz}).

Page 26: Webgráfokról és fehérje-fehérje interakciós gráfokról

Miért hangsúlyozzuk a kiértékelő módszer hibatűrését?

Proteomikai mérések erősen laborfüggő eredményeket szolgálatnak gyakran; Pl. 2006-ban a Nature ugyanazon számában jelent meg Gavin et al. és Krogan et al. két cikke az élesztő (S. cerevisiae) teljes interaktómjáról; nagy különbségek voltak a két csoport eredményei között.

Értelmes kiértékeléshez jelentősen hibatűrő eljárások kellenek, különben értéktelen „eredményeket” kapunk.

Page 27: Webgráfokról és fehérje-fehérje interakciós gráfokról

Az alábbiakban Gavin et al. legnagyobb élesztő-fehérje komplexét tekintjük;

•véletlenül kiválasztunk belőle néhány fehérjét;•ezekre perszonalizálunk;•azt nézzük, hogy mennyire „húzza be” a PageRanga többi csúcsot:

Page 28: Webgráfokról és fehérje-fehérje interakciós gráfokról

A perszonalizált PageRang biológiai alkalmazásai - 1

Page 29: Webgráfokról és fehérje-fehérje interakciós gráfokról

A perszonalizált PageRang biológiai alkalmazásai - 1

Page 30: Webgráfokról és fehérje-fehérje interakciós gráfokról

A perszonalizált PageRang biológiai alkalmazásai - 2

Alkalmazás proteomikai adatok analízisére

Forgber et al (PlosOne 2009. ápr.) melanoma páciensekvérszérumában az alábbi fehérjék megnövekedett szintjét

találta:

Enolase 1: P06733Calumenin: O43852HSP70 protein B: P081072,4-dienoyl-CoA reductase: Q9NUI1Aldolase A: P04075Fumarate hydratase: P07954Aldose reductase: P15121

HSP70 protein 9B: Q96EY1Aconitase 2: P21399hnRNP1: P26599VCP: P55072LDH H: P07195LAP3: Q944P7

UniProt accession numbers

Page 31: Webgráfokról és fehérje-fehérje interakciós gráfokról

A perszonalizált PageRang biológiai alkalmazásai - 2

•Tekintettük a HPRD-ben megtalálható humán interaktomot (38 806 él, 27 801 fehérje);•perszonalizáltunk az előző oldalon látható mérési eredményekre •megnéztük a legnagyobb perszonalizált PageRang-ú csúcsokat:

Page 32: Webgráfokról és fehérje-fehérje interakciós gráfokról
Page 33: Webgráfokról és fehérje-fehérje interakciós gráfokról

Köszönöm a figyelmet!