Upload
others
View
24
Download
0
Embed Size (px)
Citation preview
1
Projektowanie Nowych Chemoterapeutyków
Jan MazerskiKatedra Technologii Leków i Biochemii
Wydział Chemiczny
Gdańsk
:&
XV. QSAR 3D
QSAR w przestrzeni
:&
Rozwój metod ustalania struktury 3D dla białek i ich kompleksów.
Modelowanie molekularne pozwala na obliczenie najbardziej prawdopodobnej struktury 3D ligandów.
Dopasowanie I
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym
Dopasowanie I
:&
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym
Czy znając strukturę miejsca receptorowego można zaprojektować strukturę wiążącego się w nim ligandu ?
?
Dopasowanie II
:&
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym
Czy dysponując serią ligandów o zróżnicowanym powinowactwie można zaprojektować strukturę „lepszego” ligandu ?
Zgodność oddziaływań
:&
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym
Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale również zgodności oddziaływań.
Każda cząsteczka generuje wokół siebie pole sił danego typu oddziaływań.
2
Dopasowanie polowe
:&
Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi miejsca receptorowego.
Jak opisać pole oddziaływania ?
Jakie typy oddziaływań uwzględnić ?
Pola wektorowe i skalarne
:&
Znamy dwa typy pól:
Pola wektorowe wymagają 3 razy więcej danych.
pola wektorowe – w każdym punkcie pola zdefiniowany jest wektor
pola skalarne – w każdym punkcie pola zdefiniowana jest wielkość skalarna: liczba
Pole oddziaływań
:&
Trwałość kompleksu ligand-receptor zależy od energii oddziaływań (wielkość skalarna)
W technikach QSAR 3D korzysta się z pól energii oddziaływań.
Oddziaływań z czym ?
Powszechnie stosuje się obiekty próbne, np. dla oddziaływań elektrostatycznych jednostkowy ładunek dodatni.
Opis pola
:&
Znamy 2 sposoby opisu pól:
Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych pól.
Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji.
opis analityczny – znana postać funkcji opisującej wartość pola w dowolnym punkcie przestrzeni
opis tabelaryczny – znane wartości pola w wybranych punktach przestrzeni, węzłach siatki.
Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów siatki.
Opis tabelaryczny
:&
Tabelaryczny opis pól generuje ogromne tabele danych:
14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki
Opis tabelaryczny
:&
Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów).
M = Nw * Np
Liczba zmiennych M:
Nw – liczba węzłów siatki
Np – liczba obiektów próbnych (typów oddziaływań)
Należy dokonać racjonalnej redukcji wymiarowości zadania – analiza czynników.
3
Opis pola a aktywność biologiczna
:&
Aby powiązać aktywność biologiczną związku z generowanymi przez ten związek polami oddziaływań należy stworzyć wielowymiarowy model zależności.
Wymaga to:
zestawu kilkudziesięciu związków o zróżnicowanej aktywności
dla każdego związku wyznaczenia najbardziej prawdopodobnej struktury 3D
ustalenia zasad ustawienia związków względem układu współrzędnych
dla każdego związku wyznaczenia wartości pól oddziaływań we wszystkich węzłach siatki
konstrukcji modelu zależności
oceny zdolności prognostycznych modelu
Korzyści z modelu zależności
:&
Poprawny model zależności można wykorzystać dwojako:
do przewidywania aktywność nowych związków przed ich zsyntetyzowaniem
do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i niekorzystnych pól oddziaływań
Metoda CoMFA(ang. Conformational Molecular Field Analysis)
:&
Cramer i Milne (1979)
• porównywanie cząsteczek przez dopasowanie wybranych atomów i generację pól oddziaływań
Wold (1986)
• redukcja wymiarowości zadania w przypadku skorelowanych zmiennych objaśniających – technika PLS
Cramer, Patterson i Bunce (1988)
• powstanie CoMFA
CoMFA - założenia
:&
Aktywność biologiczna zależy od właściwości strukturalnych liganda.
Za właściwości strukturalne odpowiedzialne są oddziaływania fizykochemiczne:
Van der Waalsa
elektrostatyczne
wiązania wodorowe
oddziaływania hydrofobowe
Etapy metody CoMFA
:&
Metoda CoMFA obejmuje następujące etapy:
Zgromadzenie danych – seria związków o zróżnicowanej aktywności
przewidywanie aktywności
wymogi przestrzenne dla planowania nowych ligandów
Ustalenie struktury 3D
Określenie zasad dopasowania związków
Wyznaczenie wartości oddziaływań w węzłach siatki
Konstrukcja modelu regresyjnego
Walidacja modelu
Zastosowanie modelu
Dobór serii związków
:&
Seria musi obejmować związki oddziałujące z tym samym celem molekularnym.
Związki mogą mieć różnorodną budowę chemiczną !
Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny)
Seria związków powinna zawierać co najmniej kilkadziesiąt związków różniących się aktywnością o 2 3 jednostki logarytmiczne
4
Struktura 3D
:&
Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu.
Metody obliczeniowe:
Metody doświadczalne:
mechanika molekularna:
dyfrakcyjna analiza monokryształu
obliczenia ab initio
metody półempiryczne
modele empiryczne
promieniowanie rentgenowskie
promieniowanie neutronowe
spektroskopia NMR
dynamika molekularna:
Struktura 3D – metody obliczeniowe (I)
:&
Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej).
Obliczenia ab initio:
„rozdzielczość” do pojedynczego elektronu
niezbędna duża moc obliczeniowa
dowolna budowa chemiczna
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
ograniczenie do kilkuset elektronów
Struktura 3D – metody obliczeniowe (II)
:&
Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej).
Obliczenia półempiryczne:
„rozdzielczość” do pojedynczego elektronu
mniejsze zapotrzebowanie na moc obliczeniową
parametryzacja dla typowych grup chemicznych
poprawnie wyznacza geometrię i rozkład ładunku elektrycznego
ograniczenie do kilkuset elektronów walencyjnych
Struktura 3D – metody obliczeniowe (III)
:&
Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej).
Model empiryczny:
„rozdzielczość” do pojedynczego atomu
poprawnie wyznacza geometrię
potrzebna informacja o ładunkach cząstkowych
małe zapotrzebowanie na moc obliczeniową
ograniczenie do kilkuset atomów (problem minimum globalnego)
parametryzacja dla typowych grup chemicznych
Struktura 3D – metody obliczeniowe (IV)
:&
Dynamika molekularna – generuje zespół geometrii energetycznie dopuszczalnych w danej temperaturze.
Model empiryczny:
„rozdzielczość” do pojedynczego atomu
możliwość stosowania do układów zawierających nawet kilkadziesiąt tysięcy atomów (obecność rozpuszczalnika, biopolimery)
poprawnie wyznacza geometrię
potrzebna informacja o ładunkach cząstkowych
małe zapotrzebowanie na moc obliczeniową
parametryzacja dla typowych grup chemicznych
Struktura 3D – metody doświadczalne (I)
:&
Analiza dyfrakcyjna monokryształu .
bezpośrednia informacja o strukturze 3D
tylko gdy substancja tworzy kryształy
geometria „zamrożona” w sieci krystalicznej
5
Struktura 3D – metody doświadczalne (II)
:&
Spektroskopia NMR.
uśredniona struktura w roztworze
krzywa Carplusa – kąty dwuścienne pomiędzy wodorami wicynalnymi
efekt Overhausera – bliskość przestrzenna dwóch atomów wodoru
modelowanie molekularne – geometria spełniająca powyższe wymogi
Siatka przestrzenna
:&
Rozmiar oczek siatki determinuje:
szczegółowość opisu oddziaływań
liczbę zmiennych objaśniających
Niezbędny jest racjonalny kompromis !
14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki
Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości wiązania.
Orientacja ligandów
:&
Właściwa orientacja ligandów ma kluczowe znaczenie.
Błąd na tym etapie rzutuje na wynik całej analizy.
Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż nakładanie się elementów struktury chemicznej.
Etap bardzo subiektywny – wymaga dużej praktyki.
Orientacja ligandów
Kierunki wiązań wodorowych:
Słaba zgodność !
Wykonajmy obrót wokół wiązania C-R
Orientacja ligandów
Kierunki wiązań wodorowych:
Duża zgodność !
:&
Oddziaływania polowe
:&
W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań z obiektami próbnymi.
Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne:
oddziaływania elektrostatyczne – H+
oddziaływania steryczne – CH3
oddziaływania hydrofobowe – H2O
donorowe wiązania wodorowe – O=
akceptorowe wiązania wodorowe – HO
6
Redukcja liczby zmiennych
:&
Należy dokonać redukcji liczby zmiennych – analiza czynników.
analiza głównych składowych - PCA
cząstkowa metoda najmniejszych kwadratów - PLS
Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów).
PCA - przykład
:&
Obszary w ramkach mają duże udziały w kolejnych głównych składowych.
30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie:
Analiza czynników - PCA
:&
Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10 do 20 głównych składowych.
Kolejne główne składowe ekstrahują informację wspólną zawartą w tysiącach zmiennych.
Główne składowe traktowane są jako zmienne objaśniające w modelu regresyjnym - model PCR.
Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną –metoda odrzucania.
Analiza czynników - PLS
:&
Informacja wspólna nieskorelowana z aktywnością zostaje pominięta.
Kolejne czynniki PLS ekstrahują informację wspólną najsilniej skorelowaną z aktywnością biologiczną.
Model regresyjny tworzony jest podczas ekstrakcji informacji.
Metoda PLS jest czynnikowym odpowiednikiem metody dołączania.
Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego modelu regresyjnego.
Dobór liczby czynników
:&
Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy wzrasta jakość prognozy ?
Kluczowe jest poprawne ustalenie liczby czynników (głównych składowych) w modelu regresyjnym.
Miernik jakości dopasowania – współczynnik determinacji:
%100yy
yy1R
2i
2ii2
Miernik jakości prognozy – współczynnik walidacji:
%100yy
yy1Q
2i
2ipi2
Walidacja modelu
:&
Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków ze zbioru uczącego (interpolacja).
Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór testowy (walidacyjny).
Liczba związków w zbiorze testowym nie może być za mała ( >10).
Można dokonać walidacji modelu bez zbioru testowego – technika cross-validation.
Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po usunięciu innego związku.
usuwamy tymczasowo ze zbioru uczącego 1 związek na podstawie pozostałych N-1 związków budujemy model przewidujemy aktywność usuniętego związku i porównujemy z aktywnością zmierzoną
7
Walidacja modelu - przykład
Związki te opisane są przy pomocy 25 110 deskryptorów.
30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.
Zbiór testowy zawiera 21 pochodnych tego samego typu.
Do budowy modelu regresyjnego zastosowano metodę PLS.
n R2(X) R2(y) Q2cv Q2zt
1 7 48 39 18
2 12 58 43 19
3 15 64 45 29
4 17 73 51 34
5 18 76 34 31
Walidacja modelu - przykład
:&
Związki te opisane są przy pomocy 25 110 deskryptorów.
30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.
Zbiór testowy zawiera 21 pochodnych tego samego typu.
Do budowy modelu regresyjnego zastosowano metodę PLS.
n R2(X) R2(y) Q2cv Q2zt
1 7 48 39 18
2 12 58 43 19
3 15 64 45 29
4 17 73 51 34
5 18 76 34 31
Model regresyjny PLS
:&
Model adekwatny
:&
Obszary „wrażliwe” na zawadę przestrzenną:
Przy planowaniu syntezy nowych pochodnych należy korzystać tylko z modeli adekwatnych.
Obecność podstawników w obszarach (+) zwiększa aktywność, a w obszarach (-) obniża.