Upload
jakub-pas
View
374
Download
4
Embed Size (px)
Citation preview
Zastosowanie Bioinformatyki w Medycynie
Jakub Paś
Bioinformatyka
• Bioinformatyka – zastosowanie metod obliczeniowych w biologii, medycynie.
• W praktyce pojecie to stosuje się najczęściej do:
- poznawania sekwencji (kwasy nukleinowe białka), struktury i funkcji cząsteczek biologicznych- Relacji miedzy nimi – porównywanie, analiza filogenetyczna, dokowanie, symulacje dynamiki molekularnej, symulacje szlaków metabolicznych i patternów ekspresji…
Bioinformatyka Medyczna
- Wyszukiwanie targetów do leków- Poszukiwanie leków- Projektowanie nowych lekow
Rodzaje chorób i metody ich leczenia
Choroby genetyczne:
- Substytut produktu uszkodzonego genu- Terapia genowa - przyszłość
Choroby wywołane patogenami:
- unieszkodliwienie patogenu przez blokowanie ekspresji istotnych do jego funkcjonowania genów.
Nowotwory:
- Specyficzne niszczenie komórek nowotworowych.
Podobny algorytm postępowania
Algorytm postępowania w poszukiwaniu leków
- Znajdz gen istotnie różniący się miedzy patogenem a chorym lub miedzy nowotworem a chorym
- Zaprojektuj czasteczke blokującą produkt genu:
mRNA białko (najczęściej)
Postępowanie w przypadku białek:
1.Poznaj strukturę białka2.Znajdź lek3.Zbadaj oddziaływanie
Struktura BiałekI Struktura pierwszorzedowa (sekwencja)
EKKIMTSIVDQKAKIEITLVK...
II Struktura drugorzędowa (lokalna)
Alfa Helisa
Beta kartka
III Struktura trzeciorzędowa (przestrzenna)
IV Struktura czwartorzędowa (kompleksy białek)
Metody poznawania struktury białek
• Krystalografia rentgenowska+ metoda najdokładniejsza- Proces krystalizacji czasochłonny (lata)
• Rezonans magnetyczny+ niedokładny- nie można uzyskać wszystkich białek
• Mikrofotografia elektronowa+ umożliwia obrazowanie dużych kompleksów białek- metoda bardzo zgrubna
• Bioinformatyczne przewidywanie struktury (modelowanie)
Po co modelujemy białka?
• Poznanie struktury- szybsze i tańsze niż metody krystalograficzne i rezonans magnetyczny.- uzyskiwanie struktury białek niemożliwych do otrzymania klasycznymi metodami.
• Symulacje dynamiki molekularnej (MD)• Dokowanie molekularne (Drug Design)• Uzyskiwanie informacji niemożliwej do pozyskania
z sekwencji pierwszorzędowej i drugorzędowej. • Poznawanie ewolucji białek niepodobnych
sekwencyjnie.
Metody modelowania molekularnego struktur
białkowych
• Modelowanie homologiczne
• Fold recognition
• Ab initio (de novo)
Ab initio.• Paradoks Levinthala
Autor oszacował, że liczba konformacji jakie może przyjmować białko równa jest 3N, gdzie N jest liczbą aminokwasów w białku. Zauważył, że nawet jeżeli konfiguracje te będą próbkowane z częstościa 1013 na sekunde to i tak sfałdowanie średniej długości białka zajmie dłużej niż wiek wszechświata jeżeli próbkowanie jest rzeczywiście losowe. Rezultat tego prostego obliczenia stoi w sprzeczności ze znanymi właściwościami białek, które przechodzą do stanu sfałdowanego w czasie sekund lub krótszym.
Próby fałdowania białek Ab initio:
• Dyskretyzacja przestrzeni konformacyjnej (Koliński et al.)• Fałdowanie z użyciem fragmentów (Baker et al.)
Modelowanie homologiczne
Założenie:
Białka o podobnej sekwencji posiadają podobną strukturę.
Procedura modelowania białek poprzez homologię.
1. Dopasowanie liniowe sekwencji badanej do znanej uwzględniając podobieństwa i różnice
2. Dopasowanie przestrzenne sekwencji
3 Właściwy proces modelowania z uwzględnieniem różnic pomiędzy sekwencjami.
4. (Ocena poprawności modelu)
Do modelowania homologicznego potrzebujemy alignement (ułożenie sekwencji)
Ewolucja białek
1 MTFGFGHTRGACYTIMTFGFGHTRGACYTI
2 MTFGFGHTRGACSTV MTFGFGHTRGACYTI
3 MTFGFGHTRAACYTI MTFGFGHTRAACYTI
4 MTFAFGHTRAACYTI
Sekwencja wyjściowa
Sekwencje potomne
Sequence alignment(Ułożenie, uliniowienie,
zestawienie itp.)Zminimalizowanie różnic pomiędzy
sekwencjami
Globalny
1 MTFGFGGGCYTV-2 -T--GFGGACYTI
Lokalny
1 GFGGGCYTV2 GFGGACYTI
Sekwencje
1 MTFGFGGGCYTV2 TGFGGACYTI
BLAST
Heurystyczne poszukiwanie słów o długości W (zwykle 3 dla białek) które mają wartość przynajmniej T, kiedy są ułozone z sekwencja wyjściową przy pomocy matrycy substytucji. Słowa w bazie danych które mają wartość co najmniej T są wydłużane w dwóch kierunkach by otrzymać w końcu optymalnie wycenioną parę (HSP) o wartości co najmniej S lub wartości poniżej zadanej wartości E.
BLAST
Needleman-Wunsch (Smith-Waterman)
• Wartość alignmentu to kumulacyjne wartości dla wszystkich aminikwasów
• Najlepszy ailignment – największa wartość
• Maximum match = largest number resulting from summing the cell values of every pathway.
• Maksymalna warotść jest zawsze gdzieś na dole.
• Alignemnt buduje się krocząc od końca tabeli.
M P R C L C Q R J N C B AP 0 1 0 0 0 0 0 0 0 0 0 0 0B 0 0 1 1 1 1 1 1 1 1 1 2 1R 0 0 2 1 1 1 1 2 1 1 1 1 2C 0 0 1 3 2 3 2 2 2 2 3 2 2K 0 0 1 2 3 3 3 3 3 3 3 3 3C 0 0 1 3 3 4 3 3 3 3 4 3 3R 0 0 2 2 3 3 4 5 4 4 4 4 4N 0 0 1 2 3 3 4 4 5 6 5 5 5J 0 0 1 2 3 3 4 4 6 5 6 6 6C 0 0 1 3 3 4 4 4 5 6 7 6 6J 0 0 1 2 3 3 4 4 6 6 6 7 7A 0 0 1 2 3 3 4 4 5 6 6 7 8
MP-RCLCQR-JNCBA | || | | | | |-PBRCKC-RNJ-CJA
Profil sekwencyjny
• Probabilistyczna reprezentacja substytucji na każdej pozycji alignmentu grupy sekwencji homologicznych.
• Informacja o możliwościach innych niż najczęściej pojawiający się aminokwas jest zachowana i może być użyta do dodania kolejnej sekwencji do profilu.
Klasyczne okno programu clustalX
Metody modelowania typu„fold recognition”.
• Większość białek o podobnej funkcji da się określić przy pomocy podobieństwa sekwencyjnego.
• Obecność białek o podobnej strukturze i funkcji ale o bardzo różnych sekwencjach spowodowała rozwój nowych metod.
• Metody te są wykorzystywane np. do Annotowania Genomu/Proteomu.
Przykład: 1e21 i 1k59 (Rybonukleaza i Mutaza fosfoglicerynianowa)
FQRQHMDSDSSPSSSSTYCNQMMRRRNMTQGRCKPVNTFVHEPLVDVQNVCFQ
DNSRYTHFLTQHYDAKPQG-RDDRYCESIMRRRGLTS-PCKDINTFIHGNKRS
Metody profilowe (profile based methods)
• Wadą metod sekwencyjnych jest to, że traktują aminokwasy w zmienych i niezmiennych miejscach alignemntu z taką samą ważnością
• Założenie ze aminokwasy w konserwowanych miejscach alignemntu są bardziej istotne pozwala na stworzenie zależnych od pozycji matryc substytucji. Najbardziej popularnym programem wykorzystującym ten fakt jest PSI-BLAST który tworzy alignmenty przy pomocy tej metody dla sekwencji szukanej lub RPS-BLAST tworzący profile dla sekwencji o znanych strukturach.
• Inne podobne metody bazują na Ukrytych Modelach Markova(HMM).
• Model opisujący dana rodzinę zawiera prawdopodobieństwo wystąpienia każdego z 20 aminokwasów na każdej pozycji w sekwencji. Dodatkowo HMM zawiera często zależne od pozycji kary za insercje i delecje alignemncie. W większości testów HMM wyprzedzają procedury Bazujące na PSI-BLAST.
• Najprostszy sposób alignowania takich sekwencji to mnożenie wektor razy wektor razy matryca substytucji * czynnik normalizujący razy * inne (struktura drugorzędowa)
Threading (Inverse Folding)– W tym podejściu przeciąga się sekwencję badana poprzez
różne struktury o znanej sekwencji i próbuje się znaleźć najbardziej kompatybilną strukturę. Zwykle do oceny dopasowania używa się uproszczonych funkcji energetycznych.
– W metodzie tej energia wszystkich możliwych mutacji jest obliczana przez sumowanie interakcji na każdej pozycji w sekwencji.
– Niektóre potencjały energetyczne używane w porównaniu sekwencja – struktura zawierają komponenty porównań sekwencja - sekwencja np. hydrofobowosć, struktura drugorzędowa itp.
– Pewne podobieństwa miedzy metodami porównywania sekwencyjnego występują także kiedy energia potencjałów zawiera silną „Pamięć sekwencyjna” poprzez branie pod uwagę kompozycji aminokwasów lub ich wielkości.
– Jest wiele metod które explicite łączą w sobie elementy tych podejść, takich jak rozszerzanie podobieństwa sekwencyjnego przez „zanurzenie?” (burial), struktura drugorzędowa. Algorytmy akie stale są unowocześniane.
Zastosowanie modelowania molekularnego i dokowania
(mechanizm działania receptorów cytoknin)
Cre1 należy do rodziny CHASE
• 200 – 230 aa• Obecna w bakteriach, nizszych
eukariotach i roślinach• Wiąże cytokininy i małe peptydy• Mechanizm wiązanie ligandów oraz
powiazania ewolucyjne nieznane.
Proces modelowaniaMetaserver
3D Jury
Modeller Verrify 3D
Domain Split
Domain selection
Structure Prediction
(Profile)
Structure Evaluation
Molecular modelling Quality check
Alignment corection
Query sequence (CRE1)
Final Model
Metoda profil – profil (GRDB)*• Pierwsze przeszukiwanie• Query sequence vs Sequence Database
• Drugie przeszukiwanie• Query Profile vs Profile Database
alignment
alignment
* von Grotthuss M, Wyrwicz LS, Pas J, Rychlewski L Predicting protein structures accurately Science. 2004 Jun 11;304(5677):1597-9;
Evolutionary relationships to CHASE domain
(GRDB-Gene Related Data Base)
1jogA - sensory domain of the membraneous two-component fumarate - sensor Dcus from E. coli, 1p0zA - sensor kinase cita. 1e4eA, 1ehiA - D-Alanine-D-lactate ligase.
Structures of receptor domains selected by 3DHit as related to 1joga.
Domain 3d-hit score
PDB code
Function Organism Ligand
CACHE 84.3 1p0z Ca2+ channels and chemotaxis receptors
K.pneumoniae Citrate Anion
GAF 55.6 1mc0 cGMP phosphodiesterase, adenyl cyclase, FhlA domain
M.musculus Cyclic guanosine monophosphate
PAS/PYP 47.2 1f98 Periodic clock protein, aryl hydrocarbon receptor and single-minded protein/Photoactive Yellow Protein
E. halophila 4'-Hydroxycinnamic Acid
Profiln 46.2 1g5u monomeric actin binding H. brasiliensis Actin ACT - 1psdA1 Aspartate kinase –
chorismate mutase – TyrA E.coli Nicotinamide-
Adenine-Dinucleotide
Topological representation and evolution of PYP family
Dokowanie cytokinin do receptora CRE1
Model receptora CRE1a z A. thaliana z trans-zeatyną i kinetyną.
Pas J, von Grotthuss M, Wyrwicz LS, Rychlewski L, Barciszewski J
Structure prediction, evolution and ligand interaction of CHASE domainFEBS Lett. 2004 Oct 22;576(3):287-90.
Zastoswanie modelowania i dokowania molekularnego w
poszukiwaniu leków.
Inne kryteria doboru ligandu
• Niepatentowany • Łatwy do zsyntezowania/produkcji • Relatywanie niska cena 5g < $20
Najlepiej sprzedające się leki:
Antybiotyki na 8 miejscu – wcześniej:Wrzody, cholesterol, NAdcisnienie, Alergia, Depresja, Cukrzyca, Anemia, Hormony
Target
• Syntetazy aminoacylo-tRNA (AARS) to zróżnicowana grupa enzymów które zajmuja sią tłumaczeniem linowej informacji genetycznej na strukture 3D reprezentowaną przez białka.
• Katalizują one przyłączanie aminokwasów do tRNA.
• Dotychczas zostało zsekwencjonowane około 800 sekwencji AARS.
• Znanych jest około 100 struktur krystalicznych syntetaz.
GlycylAlanyl
Tyrosyl
Tryptophanyl
Tyrosyl
Phelynalanyl
Leucyl
Phenylalanyl
Lysyl
Aspartyl
Glutamyl
Lysyl
Valyl
Isoleucyl
Methionyl
Leucyl
Cysteinyl
Arginyl
Seryl
Threonyl
Prolyl
Histydyl
Phenylalanyl
Glycyl
Drzewo strukturalne
Drzewo sekwencyjne
Porównanie przedstawicieli grup syntetaz
Metody strukturalne pozwalajaporównać i zidentyfikować geny które wydaja się uniklane i niepodobne do innych*
* Wyrwicz LS, von Grotthuss M, Pas J, Rychlewski L. How unique is the rice transcriptome? Science. 2004 Jan 9;303(5655)
Podział syntetaz
I II
a b a b
Leu I (1a) Phe I (2c)
Tyr (1c)Trp (1c)Ala (2a)
Gly (2a)His (2a)
Phe II (2c) Pro (2a)Thr (2a)Ser (2a)
Arg (1a)Cys (1a)
Leu II (1a)Met (1a)Ile (1a)Val (1a)
Lys I (1b)Glu (1b)
Asp (2b)Lys II (2b)Phe III (2c)
II II
a b a b
AlaLysTyr
ArgTrpVal IleMet
ThreLysLeuProHis
GluGlnPheAspAsnSerGly
I II
a b c a b c d
LeuIleValCysMet
TyrTrp
ArgGlnGlu
HisProSerThr
AspAsnLys
GlyAla
Phe
Sequence Structural
Functional
Topological comparison of AARS
Biologia molekularna Bioinformatyka
Selekcja targetu
OrganizmStrukturasekwencja
Selekcja leku (antibiotic)
Baza dancych: 106 związków
Nowy Lek
BacteryjnaAARS Ludzka AARS
Testy In silico
Modelowanie molekularneDokowanie molekularne
Testy In vitro
Inhibicja syntezy białek(aminoacylacja)
Search for ligands
Heuristic activity / toxicity check
Molecular modeling
Start from amino acid analog
Molecular docking procedures
In vitro tests
Molecular modeling
no
Selekcja organizmu i sekwencji do
projektowania leków
Przygotowanie struktury do
celów obliczeniowych
Eucaryotic structure selection
Is deposited (yes/no)
Prokaryotic AARS structure selection
Is deposited (yes/no)
Known inhibitor?(yes/no)
Target selection
New drugs
no
no
Data verificationWyszukiwanie najlepszego
ligandu
Informacje pomocne w wyborze liganda
Zwiazki dotychczas znane o udokumentowanym działaniu
Związki wyjściowe:
Potencjalne ligandy:
Lista podobnych zwiazków (www.ligand.info)
No Ligand ID Code SMILES
1 2 383 NC(CC1=CC=C(O)C=C1)C(=O)NC(C2C(O)C3(O)COC(C3O)N2O)C(O)=O
2 36 629321 NC(CC1=CC=C(O)C=C1)C(=O)NC(C2C(O)C(O)(CO)C(O)CN2O)C(O)=O
3 37 545321CCCCOC(=O)C(NC(=O)C(N)CC1=CC=C(O)C=C1)C2C(O)C(O)
(CO)C(O)CN2O
4 38 485351 CC1OC(C(O)C(O)C1O)C(NC(=O)C(N)CC2=CC=C(O)C=C2)C(O)=O
5 39 DTY2 (Tyrosine) NC(CC1=CC=C(O)C=C1)C(O)=O
6 45 CSY NC(CO)C1NC(CC2=CC=C(O)C=C2)C(=O)N1CC(O)=O
7 59 AXL CC1(C)SC(NC1C(O)=O)C(NC(=O)C(N)C2=CC=C(O)C=C2)C=O
8 92 GHP NC(C(O)=O)C1=CC=C(O)C=C1
9 26 545CCCCOC(=O)C(NC(=O)C(N)CC1=CC=C(O)C=C1)C2C(O)C(O)
(CO)C(O)CN2O
10 100 CCY66 NC(CS)C1NC(CC2=CC=C(O)C=C2)C(=O)N1CC(O)=O
11 117 TYB3 NC(CC1=CC=C(O)C=C1)C=O
12 124 1661 NC(=N)CCCCC(C1C(O)CC2=CC=C(C=C12)C3=CC=C(O)C=C3)C(O)=O
Wyniki dokowania
Dokowanie ligandu w strukturze Tyr-RS czlowieka i
gronkowca
Dobry ligand wiąże się trwale z targetem
Procedura eksperymentalna
Obecnie prowadzone sa badania eksperymantalne skuteczności wybranych zwiazkow metodami chromatograficznymi oraz na hodowlach komórkowych.
Analiza Bioinformatyczna zastosowanie medyczne
Tenascyny -C
Znajdz gen którego ekspresja w komórkach nowotworych jest istotnie wyższa niż w zdrowych
• Analiza danych mikromacierzy z bazy danych „GEO Profile” NCBI.
• Geny z danego klonu sa normalizowane pod kontem liczby klonow dla kazdej tkanki, Każdy gen zawiera informacje na tema typu tkanki, stadium rozwoju, zastosowanych metod eksperymentalnych.
• Najbardziej obiecującym targetem wynikajacym z tej analizy okazał się gen Tenascyny-C. Analiz wykazała istotne różnice w normalizacji Tenascyny dla mózgu.
Bioinformatyczne metody wyboru celu
Expression analysis of TN-C(Tenascyna-C – duże wielodomenowe białko około 200kDa.)
Analiza danych mikromacierzy z dostępnych baz danych pokazuje zwiększony poziom ekspresji w komórkach nowotworowych)
Aby sprawdzic czy Tenascyna-C nie jest nadmiernie reprezentowana w komórkach nowotworowych poziom ekspresji został zbadany eksperymentalnie.
Analiza budowy transkryptu TN-C
Izoform number
Exons and corresponding protein domains
HSP33,EGFHeptads
FNIII (1-5)
FNIII (6-9) FNIII (10) FNIII (11) FNIII (12) FNIII(13-15),
fibrinogen
Protein molecular mass
(kDa)
1 2-10 11-14 15 16 17 18-28240,8
2 2-10 - 15 - 17 18-28191,3
3 2-10 - 15 16 17 18-28201,3
4 2-10 11-14 15 - 17 18-28230,8
5 2-10 - - - 17 18-28181,5
6 2-10 - - - - 18-28171,3
Budowa TN-C
Przewidywanie struktury domen TN-C
a) domena HSP33, b) region heptad, c) EGF, d) fibronektyna typu III (FNIII) z motywem RGD, e) fibrynogen
Motyw StrukturalnySekwencja
FunkcjaPrzeszukiwanie
hierarhiczneSerwer bazy danych
Użytkownik
Internet
Węzł
y
Klaster Linuxowy
Projektowanie RNAi
• Uwzględnienie struktury drugorzędowej.
• Uwzględnienie motywów sekwencyjnych powodujących reakcje lizozymu
• Uwzględnienie domen ulegających alternatywnemu składaniu
• Uwzględnienie polimorfizmów (formy alleliczne w populacji)
Próby Kliniczne
• Badania przeprowadzone na 37 pacjentach w tym 17 pacjentow w fazie 4 - najbardziej zaawansowane stadium choroby, obszar guza powyzej 40mm
• Bez operacji przezywalnosc - 3 miesiace• Z operacja 6 miesiecy.• Po podaniu tenascyny - 1.5 roku• 7 pacjentow jeszcze zyje (2 lata po zabiegu)
CT przed operacja
WG
Stadium: IV
Rozmiar guza: 57x47x50 mm
MRI po operacji
Podsumowanie
• Budowa TN-C jest bardzo istotnym czynnikiem w procesie powstawania przerzutów.
• Zmienność izoform TN-C może być kluczowa podczas tworzenia markerów specyficznych dla konkretnych typów nowotworów.
• Na podstawie przeprowadzonej analizy ekspresji określiliśmy kolejny cel badań – rak jajnika.
Pas J, Wyszko E, Rychlewsk L, Nowak S, Żukiel R, Barciszewski J,Analysis of structure and function of tenascin-CInternational Journal of Biochemistry and Cell Biology - In press