w13 QSAR 3D

1

Projektowanie Nowych Chemoterapeutyków

Jan MazerskiKatedra Technologii Leków i Biochemii

Wydział Chemiczny

Gdańsk

:&

XV. QSAR 3D

QSAR w przestrzeni

:&

Rozwój metod ustalania struktury 3D dla białek i ich kompleksów.

Modelowanie molekularne pozwala na obliczenie najbardziej prawdopodobnej struktury 3D ligandów.

Dopasowanie I

Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie ligandu do miejsca receptorowego w celu molekularnym

Dopasowanie I

:&


Czy znając strukturę miejsca receptorowego można zaprojektować strukturę wiążącego się w nim ligandu ?

?

Dopasowanie II

:&


Czy dysponując serią ligandów o zróżnicowanym powinowactwie można zaprojektować strukturę „lepszego” ligandu ?

Zgodność oddziaływań

:&


Dopasowanie dotyczy nie tylko zgodności kształtu (pozytyw - negatyw), ale również zgodności oddziaływań.

Każda cząsteczka generuje wokół siebie pole sił danego typu oddziaływań.

2

Dopasowanie polowe

:&

Warunkiem dużej aktywności jest możliwie ścisłe dopasowanie wszystkich oddziaływań polowych ligandu z oddziaływaniami polowymi miejsca receptorowego.

Jak opisać pole oddziaływania ?

Jakie typy oddziaływań uwzględnić ?

Pola wektorowe i skalarne

:&

Znamy dwa typy pól:

Pola wektorowe wymagają 3 razy więcej danych.

pola wektorowe – w każdym punkcie pola zdefiniowany jest wektor

pola skalarne – w każdym punkcie pola zdefiniowana jest wielkość skalarna: liczba

Pole oddziaływań

:&

Trwałość kompleksu ligand-receptor zależy od energii oddziaływań (wielkość skalarna)

W technikach QSAR 3D korzysta się z pól energii oddziaływań.

Oddziaływań z czym ?

Powszechnie stosuje się obiekty próbne, np. dla oddziaływań elektrostatycznych jednostkowy ładunek dodatni.

Opis pola

:&

Znamy 2 sposoby opisu pól:

Analityczny opis pola możliwy jest tylko dla prostych, nieskomplikowanych pól.

Tabelaryczny opis pola jest możliwy dla pól o dowolnym stopniu komplikacji.

opis analityczny – znana postać funkcji opisującej wartość pola w dowolnym punkcie przestrzeni

opis tabelaryczny – znane wartości pola w wybranych punktach przestrzeni, węzłach siatki.

Jakość opisu tabelarycznego zależy od gęstości rozmieszczenia węzłów siatki.

Opis tabelaryczny

:&

Tabelaryczny opis pól generuje ogromne tabele danych:

14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki

Opis tabelaryczny

:&

Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów).

M = Nw * Np

Liczba zmiennych M:

Nw – liczba węzłów siatki

Np – liczba obiektów próbnych (typów oddziaływań)

Należy dokonać racjonalnej redukcji wymiarowości zadania – analiza czynników.

3

Opis pola a aktywność biologiczna

:&

Aby powiązać aktywność biologiczną związku z generowanymi przez ten związek polami oddziaływań należy stworzyć wielowymiarowy model zależności.

Wymaga to:

zestawu kilkudziesięciu związków o zróżnicowanej aktywności

dla każdego związku wyznaczenia najbardziej prawdopodobnej struktury 3D

ustalenia zasad ustawienia związków względem układu współrzędnych

dla każdego związku wyznaczenia wartości pól oddziaływań we wszystkich węzłach siatki

konstrukcji modelu zależności

oceny zdolności prognostycznych modelu

Korzyści z modelu zależności

:&

Poprawny model zależności można wykorzystać dwojako:

do przewidywania aktywność nowych związków przed ich zsyntetyzowaniem

do uzyskania informacji o przestrzennym rozmieszczeniu korzystnych i niekorzystnych pól oddziaływań

Metoda CoMFA(ang. Conformational Molecular Field Analysis)

:&

Cramer i Milne (1979)

• porównywanie cząsteczek przez dopasowanie wybranych atomów i generację pól oddziaływań

Wold (1986)

• redukcja wymiarowości zadania w przypadku skorelowanych zmiennych objaśniających – technika PLS

Cramer, Patterson i Bunce (1988)

• powstanie CoMFA

CoMFA - założenia

:&

Aktywność biologiczna zależy od właściwości strukturalnych liganda.

Za właściwości strukturalne odpowiedzialne są oddziaływania fizykochemiczne:

Van der Waalsa

elektrostatyczne

wiązania wodorowe

oddziaływania hydrofobowe

Etapy metody CoMFA

:&

Metoda CoMFA obejmuje następujące etapy:

Zgromadzenie danych – seria związków o zróżnicowanej aktywności

przewidywanie aktywności

wymogi przestrzenne dla planowania nowych ligandów

Ustalenie struktury 3D

Określenie zasad dopasowania związków

Wyznaczenie wartości oddziaływań w węzłach siatki

Konstrukcja modelu regresyjnego

Walidacja modelu

Zastosowanie modelu

Dobór serii związków

:&

Seria musi obejmować związki oddziałujące z tym samym celem molekularnym.

Związki mogą mieć różnorodną budowę chemiczną !

Z serii należy wydzielić zbiór uczący i zbiór testowy (walidacyjny)

Seria związków powinna zawierać co najmniej kilkadziesiąt związków różniących się aktywnością o 2 3 jednostki logarytmiczne

4

Struktura 3D

:&

Należy możliwie poprawnie ustalić strukturę 3D każdego ligandu.

Metody obliczeniowe:

Metody doświadczalne:

mechanika molekularna:

dyfrakcyjna analiza monokryształu

obliczenia ab initio

metody półempiryczne

modele empiryczne

promieniowanie rentgenowskie

promieniowanie neutronowe

spektroskopia NMR

dynamika molekularna:

Struktura 3D – metody obliczeniowe (I)

:&

Mechanika molekularna – poszukiwanie pojedynczej struktury o najniższej energii (najbardziej prawdopodobnej).

Obliczenia ab initio:

„rozdzielczość” do pojedynczego elektronu

niezbędna duża moc obliczeniowa

dowolna budowa chemiczna

poprawnie wyznacza geometrię i rozkład ładunku elektrycznego

ograniczenie do kilkuset elektronów

Struktura 3D – metody obliczeniowe (II)

:&


Obliczenia półempiryczne:

„rozdzielczość” do pojedynczego elektronu

mniejsze zapotrzebowanie na moc obliczeniową

parametryzacja dla typowych grup chemicznych

poprawnie wyznacza geometrię i rozkład ładunku elektrycznego

ograniczenie do kilkuset elektronów walencyjnych

Struktura 3D – metody obliczeniowe (III)

:&


Model empiryczny:

„rozdzielczość” do pojedynczego atomu

poprawnie wyznacza geometrię

potrzebna informacja o ładunkach cząstkowych

małe zapotrzebowanie na moc obliczeniową

ograniczenie do kilkuset atomów (problem minimum globalnego)


Struktura 3D – metody obliczeniowe (IV)

:&

Dynamika molekularna – generuje zespół geometrii energetycznie dopuszczalnych w danej temperaturze.

Model empiryczny:

„rozdzielczość” do pojedynczego atomu

możliwość stosowania do układów zawierających nawet kilkadziesiąt tysięcy atomów (obecność rozpuszczalnika, biopolimery)

poprawnie wyznacza geometrię

potrzebna informacja o ładunkach cząstkowych

małe zapotrzebowanie na moc obliczeniową


Struktura 3D – metody doświadczalne (I)

:&

Analiza dyfrakcyjna monokryształu .

bezpośrednia informacja o strukturze 3D

tylko gdy substancja tworzy kryształy

geometria „zamrożona” w sieci krystalicznej

5

Struktura 3D – metody doświadczalne (II)

:&

Spektroskopia NMR.

uśredniona struktura w roztworze

krzywa Carplusa – kąty dwuścienne pomiędzy wodorami wicynalnymi

efekt Overhausera – bliskość przestrzenna dwóch atomów wodoru

modelowanie molekularne – geometria spełniająca powyższe wymogi

Siatka przestrzenna

:&

Rozmiar oczek siatki determinuje:

szczegółowość opisu oddziaływań

liczbę zmiennych objaśniających

Niezbędny jest racjonalny kompromis !

14 x 11 x 7 = 1078 węzłów siatki dla każdej cząsteczki

Dla małocząsteczkowych ligandów rozmiar oczka zbliżony do długości wiązania.

Orientacja ligandów

:&

Właściwa orientacja ligandów ma kluczowe znaczenie.

Błąd na tym etapie rzutuje na wynik całej analizy.

Przy ustalaniu reguł orientacji ważniejsza jest zgodność oddziaływań niż nakładanie się elementów struktury chemicznej.

Etap bardzo subiektywny – wymaga dużej praktyki.


Kierunki wiązań wodorowych:

Słaba zgodność !

Wykonajmy obrót wokół wiązania C-R


Kierunki wiązań wodorowych:

Duża zgodność !

:&

Oddziaływania polowe

:&

W każdym węźle siatki należy teraz wyznaczyć energię oddziaływań z obiektami próbnymi.

Do każdego typu oddziaływań zaproponowano odpowiednie obiekty próbne:

oddziaływania elektrostatyczne – H+

oddziaływania steryczne – CH3

oddziaływania hydrofobowe – H2O

donorowe wiązania wodorowe – O=

akceptorowe wiązania wodorowe – HO

6

Redukcja liczby zmiennych

:&

Należy dokonać redukcji liczby zmiennych – analiza czynników.

analiza głównych składowych - PCA

cząstkowa metoda najmniejszych kwadratów - PLS

Liczba zmiennych objaśniających (deskryptorów) dziesiątki lub setki razy przewyższa liczbę obiektów (ligandów).

PCA - przykład

:&

Obszary w ramkach mają duże udziały w kolejnych głównych składowych.

30 pochodnych benzamidu oraz naftylamidu nałożonych na siebie:

Analiza czynników - PCA

:&

Do wyekstrahowania większości informacji wspólnej potrzeba zwykle od 10 do 20 głównych składowych.

Kolejne główne składowe ekstrahują informację wspólną zawartą w tysiącach zmiennych.

Główne składowe traktowane są jako zmienne objaśniające w modelu regresyjnym - model PCR.

Tylko niektóre główne składowe skorelowane są z aktywnością biologiczną –metoda odrzucania.

Analiza czynników - PLS

:&

Informacja wspólna nieskorelowana z aktywnością zostaje pominięta.

Kolejne czynniki PLS ekstrahują informację wspólną najsilniej skorelowaną z aktywnością biologiczną.

Model regresyjny tworzony jest podczas ekstrakcji informacji.

Metoda PLS jest czynnikowym odpowiednikiem metody dołączania.

Wystarcza zwykle nie więcej niż 5 czynników dla zbudowania poprawnego modelu regresyjnego.

Dobór liczby czynników

:&

Ze wzrostem liczby czynników wzrasta jakość dopasowania modelu, ale czy wzrasta jakość prognozy ?

Kluczowe jest poprawne ustalenie liczby czynników (głównych składowych) w modelu regresyjnym.

Miernik jakości dopasowania – współczynnik determinacji:

%100yy

yy1R

2i

2ii2

Miernik jakości prognozy – współczynnik walidacji:

%100yy

yy1Q

2i

2ipi2

Walidacja modelu

:&

Związki ze zbioru testowego powinny mieć właściwości zbliżone do związków ze zbioru uczącego (interpolacja).

Do klasycznej walidacji modelu regresyjnego potrzebny jest zbiór testowy (walidacyjny).

Liczba związków w zbiorze testowym nie może być za mała ( >10).

Można dokonać walidacji modelu bez zbioru testowego – technika cross-validation.

Przywracamy związek do zbioru uczącego i obliczenia powtarzamy po usunięciu innego związku.

usuwamy tymczasowo ze zbioru uczącego 1 związek na podstawie pozostałych N-1 związków budujemy model przewidujemy aktywność usuniętego związku i porównujemy z aktywnością zmierzoną

7

Walidacja modelu - przykład

Związki te opisane są przy pomocy 25 110 deskryptorów.

30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.

Zbiór testowy zawiera 21 pochodnych tego samego typu.

Do budowy modelu regresyjnego zastosowano metodę PLS.

n R2(X) R2(y) Q2cv Q2zt

1 7 48 39 18

2 12 58 43 19

3 15 64 45 29

4 17 73 51 34

5 18 76 34 31

Walidacja modelu - przykład

:&

Związki te opisane są przy pomocy 25 110 deskryptorów.

30 pochodnych benzamidu oraz naftylamidu tworzy zbiór uczący.

Zbiór testowy zawiera 21 pochodnych tego samego typu.

Do budowy modelu regresyjnego zastosowano metodę PLS.

n R2(X) R2(y) Q2cv Q2zt

1 7 48 39 18

2 12 58 43 19

3 15 64 45 29

4 17 73 51 34

5 18 76 34 31

Model regresyjny PLS

:&

Model adekwatny

:&

Obszary „wrażliwe” na zawadę przestrzenną:

Przy planowaniu syntezy nowych pochodnych należy korzystać tylko z modeli adekwatnych.

Obecność podstawników w obszarach (+) zwiększa aktywność, a w obszarach (-) obniża.

Documents

w13 QSAR 3D