Upload
avani
View
27
Download
0
Embed Size (px)
DESCRIPTION
Webgráfokról és fehérje-fehérje interakciós gráfokról. Grolmusz Vince matematikus egyetemi tanár ELTE Matematikai Intézet Protein Információs Technológia Csoport. Az ELTE Matematikai Intézete. A hazai matematika oktatás és kutatás egyik fellegvára, Itt oktatott Fejér Lipót, - PowerPoint PPT Presentation
Citation preview
Webgráfokról és fehérje-fehérje interakciós gráfokról
Grolmusz Vince
matematikus egyetemi tanár
ELTE Matematikai Intézet
Protein Információs Technológia Csoport
Az ELTE Matematikai Intézete
• A hazai matematika
oktatás és kutatás egyik fellegvára,
• Itt oktatott Fejér Lipót,
Hajós György, Riesz Frigyes,
Rényi Alfréd, Turán Pál
A Protein Információs TechnológiaiCsoport
ELTE
TTK
Matematikai Intézet
Számítógéptu-dományi Tanszék
PIT csoport
Célunk: az utóbbi 2-3 évtizedben kidolgozott kombinatorikai, gráfelméleti, adatbányászati technikák alkalmazása biológiai és gyógyszerkutatási problémák megoldására, ezzel a matematikus-biológus-vegyész szakmák közötti “kulturális gátak” lebontása
http://pitgroup.org
Hogy kerül össze a matematika, a biológia és a kémia?
• Régen még nem váltak el egymástól• Ma a tudósok szűk területekre specializálódnak• Sok olyan matematikai, számítógéptudományi
módszer fejlődött ki az utóbbi 20-30 évben, amely alkalmas nagy tömegű adat nemtriviális elemzésére
• 20-30 éve a biológusoknak, kémikusoknak nem volt még nagy tömegű adatuk; ma van.
• Ezek feldolgozása, és az ezekben történő keresés sokszor nemtriviális matematikát kíván.
Webgráfok és fehérje interakciós gráfok
• Webgráf: A WWW gráfja, a 90-es évek elején nézték komolyan (pl. Google PageRank: a fontos csúcsok meghatározása)
• Fehérje-fehérje interakciós gráfok: ezredfordulótól nézik széleskörűen
Miről lesz szó?
• A webgráfokra kifejlesztett eljárások biológiai alkalmazásai
Néhány vélemény szerint:
• A jelenlegi egy-egy fehérjét vagy egy receptort tekintő vagy támadó terápiás eljárásokból túl sok új eredményt nem lehet kihozni.
• Sok betegség komplex, sok biokémiai folyamatot érint, sok fehérjével van kapcsolatban.
• Pl. depresszió: nem felelős érte egyetlen fehérje. Molekuláris mechanizmus nincs felderítve, molekuláris marker sincs.
Több fehérje együttes hatását kell nézni!
• Rendszerbiológia,
• Proteomika,
• (metabolomika, genomika, stb.)
The number of pharmaceutical target proteins
Overington et al. Nature Reviews Drug Discovery 5, 993–996 (December 2006) | doi:10.1038/nrd2199
There are a little bit more than 100 000 human proteins, encoded by 21 000 genes
Mycobacterium tuberculosis: 4000 genes,Plasmodium falciparum: 5200 genes
Very few proteins are targeted
Needed: novel protein targets in pathogen microorganisms.
How to choose new targets:- Similarity to old targets;
- Expert opinion
- Objective method
Proteomikai technikák széles körű elterjedése
Hatalmas mennyiségű mérési adat és fehérjehálózat
Az eredmények „kézzel”, „ránézéssel” nem értékelhetők ki
Gyors, hibatűrő, biológiailag verifikált kiértékelési eljárásokra van szükség
Itt és most nagy hálózatokban a fontos csúcsok megtalálására szeretnénk koncentrálni.
Egy csúcs lehet fontos:1. önmagában, a teljes hálózatban,2. vagy néhány más csúcshoz képest
A 2. típusú kérdés a biológiában például proteomikai mérések kiértékelésénél merül fel: Ha néhány fehérje koncentrációja megváltozik egy folyamatban, akkor szeretnénk tudni, hogy mely más fehérjék vannak ezekkel szoros kapcsolatban.
A cél: fontos csúcsok megtalálása fehérjehálózatokban
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Ha nem a saját méréseinket használjuk, hol találunk fehérjehálózatokat?
MINT (UniRoma): 112 957 él, 29 587 fehérje, csak kisérleti
DIP (UCLA): 57 683 él, 20 728 fehérje
HPRD (Johns Hopkins): 38 806 él, 27 801 fehérje, humán
IntAct (EMBL-EBI): 195 719 él, 59 017 fehérje
KEGG (Kyoto Univ.) metabolikus hálózatok
Generált hálózatok: nascent.pitgroup.org, nem csak modell organizmusokra
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Milyen hálózatokat tekintünk?
Fizikai interakciós hálózatok:
Csúcsok: fehérjék, élek: két fehérje éllel van összekötve, ha köztük interakció van:•mért {TAP, Y2H, ko-immunoprecitipáció vagy egyéb}, •jósolt
Irányítatlan gráfok:
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Milyen hálózatokat tekintünk?
Metabolikus hálózatokat:
Csúcsok: reakciók, élek az A-ból B-be: ha van az A reakciónak olyan terméke, amelyet a B használ fel. A B
Az éleket lehet a fluxussal is címkézni.
Példa: Az Mtb mikolsav pathway-e
hálózat = gráf
•Konkrét, nagy gráfok struktúrájának gyakorlati vizsgálatához a WWW web-gráfjának tanulmányozásavezetett a 90-es évek közepén és végén;
• A cél a fontos csúcsok kiszűrése volt a web-gráfból:ez azért volt érdekes, mert amikor valaki rákeres egy web-keresőben (pl. Google) egy kifejezésre, akkor a fontos találatokat akarja látni az elsők közt. Sokszor azonban több millió találat van...
A cél: fontos csúcsok megtalálása fehérjehálózatokban
Diverzió: Hogy működik egy webkereső?
• Letöltés (robot, crawler)• Tárolás• Indexezés• Inverz indexezés
De: kell, hogy a több milliárd weboldal közül a többmillió találatból a találati lista elején
a FONTOS találatok legyenek.
Web-gráf: csúcsok: a web oldalaiélek: A B, ha az A oldal hivatkozik B-re;
A cél: fontos csúcsok megtalálása fehérjehálózatokban
DEF 1:Fontos oldal azaz fontos csúcs: amelyre sokan hivatkoznak,azaz magas a be-foka:
be-fok=4 Sok alkalmazás; scientometria: hivatkozások száma,impakt faktor
hátránya: nem veszi figyelembe a hivatkozók minőségét, ezért befolyásolható
A cél: fontos csúcsok megtalálása fehérjehálózatokban
DEF 2: Fontos oldal azaz fontos csúcs: amelyre sok fontos csúcs hivatkozik...
Mint definíció, ez így persze rossz. De könnyen lehet egy iteratív algoritmust csinálni belőle: az elején mindenkinek
adok egy egységnyi „fontosságot”, aztán ezt (pongyolán fogalmazva) a csúcsok átörökítik azokra a csúcsokra, akikre mutatnak, és ezt ismételjük,
amíg egy stabilizálódott határ-eloszláshoz nem jutunk (ez legtöbbször létezik).
Ennek az eljárásnak a hibatűrését és robusztusságát lehet egy új ötlettel növelni.
Ezt véletlen bolyongással lehet jól elmondani.
Könnyen, gyorsan számolható, általában gyorsan konvergál.
Elindítunk egy sétáló embert a gráfon: ha egy csúcsba ér, akkor egyenletes valószínűséggel valamely kimenő élen megy tovább, vagy egy c valószínűséggel teleportál, egy véletlenül kiválasztott csúcsba:
Pl. c=0.2
8/50
Egy csúcs fontossága az a valószínűség,amellyel ott tartózkodunk (pontosabban a
határeloszlás)
Ezt használta az első időkben a Google (Brin & Page 1998), tehát csak a linkek struktúrájából osztályozott).
Előnyei: Aránylag nehéz mesterségesen befolyásolni (WWW)Hibatűrő (Biológiai felhasználások)
PageRang vektorok különbségének normája
A megváltozott csúcsokPageRangjainak összege
c a teleportálási valószínűség,c=0.2-re ez 8
Ha a fontos csúcsoknál kevés hiba van, akkor ez hibatűrő!
Irányítatlan gráfokban (ilyenek a fizikai interakciókat leírógráfok) a PageRang nagyjából arányos a fokszámmal, azaz felesleges használni.
De! Metabolikus gráfokban érdemes, hiszen azok irányítottak; sőt, a fluxust is figyelembe lehet venni: az
élválasztási valószínűségeket lehet vele súlyozni.
Fontos csúcsok az Mtb metabolikus hálózatában
Two dense subgraphs from the metabolic graph of the Mycobacterium tuberculosis. On the left panel, large nodes correspond to large degree, but yellowish colors correspond to low PageRank. On the right panel, the small but orange-colored R06613 correspond to the KEGG reaction ID, catalyzed by the ThyX enzyme.
PageRang relativizált változata: a perszonalizált PageRang
1-(c+d) vsz. c vsz-el teleportál egyenletesen;d vsz-el a kiválasztott csúcsokba
Azért nevezték perszonalizáltnak, mert a webegyes felhasználóinak személyes érdeklődését
is figyelembe lehet venni a csúcsok fontosságának kiszámolásánál.
A perszonalizált PageRank néhány tulajdonsága:
• A biológiai hálózatok jelenlegi méreteire könnyen, gyorsan számolható;• hibatűrő,•Jól használható irányítatlan, fizikai interakciós hálózatokra is• óriási hálózatokra (több millió csúcstól) jó közelítőalgoritmusok vannak a gyors kiszámítására is (így pl. www, vagy az agy hálózatára is használható {Fogaras, Rácz}).
Miért hangsúlyozzuk a kiértékelő módszer hibatűrését?
Proteomikai mérések erősen laborfüggő eredményeket szolgálatnak gyakran; Pl. 2006-ban a Nature ugyanazon számában jelent meg Gavin et al. és Krogan et al. két cikke az élesztő (S. cerevisiae) teljes interaktómjáról; nagy különbségek voltak a két csoport eredményei között.
Értelmes kiértékeléshez jelentősen hibatűrő eljárások kellenek, különben értéktelen „eredményeket” kapunk.
Az alábbiakban Gavin et al. legnagyobb élesztő-fehérje komplexét tekintjük;
•véletlenül kiválasztunk belőle néhány fehérjét;•ezekre perszonalizálunk;•azt nézzük, hogy mennyire „húzza be” a PageRanga többi csúcsot:
A perszonalizált PageRang biológiai alkalmazásai - 1
A perszonalizált PageRang biológiai alkalmazásai - 1
A perszonalizált PageRang biológiai alkalmazásai - 2
Alkalmazás proteomikai adatok analízisére
Forgber et al (PlosOne 2009. ápr.) melanoma páciensekvérszérumában az alábbi fehérjék megnövekedett szintjét
találta:
Enolase 1: P06733Calumenin: O43852HSP70 protein B: P081072,4-dienoyl-CoA reductase: Q9NUI1Aldolase A: P04075Fumarate hydratase: P07954Aldose reductase: P15121
HSP70 protein 9B: Q96EY1Aconitase 2: P21399hnRNP1: P26599VCP: P55072LDH H: P07195LAP3: Q944P7
UniProt accession numbers
A perszonalizált PageRang biológiai alkalmazásai - 2
•Tekintettük a HPRD-ben megtalálható humán interaktomot (38 806 él, 27 801 fehérje);•perszonalizáltunk az előző oldalon látható mérési eredményekre •megnéztük a legnagyobb perszonalizált PageRang-ú csúcsokat:
Köszönöm a figyelmet!