1
Keminformatika
Készítette: Mátyus Péter és Balogh Balázs
Semmelweis University, Department of Organic Chemistry
2017. március
Bevezetés
Semmelweis University, Department of Organic Chemistry
Definició
Keminformatika vagy kemoinformatika (bioinformatika)
A kifejezést a 1990-es években definiálták: számítástechnikaimódszerek alkalmazása kémiai problémák megragadására különöstekintettel a kémiai szerkezeti információ manipulálására.
„Chemoinformatics is the mixing of information resources to transform data intoinformation, and information into knowledge, for the intended purpose of makingbetter decisions faster in the arena of drug lead identification and optimisation”(Brown et al, 1998)
„Chem(o)informatics is a generic term that encompasses the design, creation,organisation, management, retrieval, analysis, dissemination, visualisation and useof chemical information” (Paris et al, 2000)
Semmelweis University, Department of Organic Chemistry
F.K. Brown Ann. Rep. Med. Chem. 33, 375-384 (1998)
W.A. Warr Meth. Mol. Biol. 672, 1-37 (2011)
A kemoinformatika alkalmazása a gyógyszerkutatásban
A kemoinformatikát a gyógyszerkutatás számos területén alkalmazzák:
• új szintetikus utak tervezése és lekérdezés adatbázisokban
• biológiai hatás becslése kvantitatív szerkezet-hatás összefüggés modellekkel
• receptor-ligandum kölcsönhatások vizsgálata dokkolással
• új vegyületek keresése in silico szűréssel
A keminformatikára jellemző, hogy általában nagy számú vegyülettel (vegyületadatbázissal) dolgozik. Az adatbázis általában tartalmaz szerkezeti információt,ami az alkalmazott módszertől függően a felhasznált szerkezetek lehetnek 2- vagy3-dimenziósak, az adatnyerés módjától függően beszélhetünk Database mining,Graph mining, Molecule mining, Sequence mining és Tree mining módszerektől.
Semmelweis University, Department of Organic Chemistry
A molekulák ábrázolása
Semmelweis University, Department of Organic Chemistry
Semmelweis University, Department of Organic Chemistry
Néhány megfontolás vegyületek (számítógépes)
2D rajzolásával kapcsolatbanA szénatomokat általában nem szoktuk kirajzolni: ha nincs feltüntetve a vegyjel,
akkor szénatomról beszélünk. Kivétel: a láncvégi szénatomok.
A hidrogénatomokat általában nem szoktuk kirajzolni: ha egy atomnak szabad
vegyértéke lenne, azt úgy kell tekintenünk, mintha hidrogénnel lennének
helyettesítve. Kivétel: a láncvégi és a heteroatomokon található hidrogének.
Vegyületek berajzolásánál a szerkezeteket általában síkban kiterítve rajzoljuk oly
módon, hogy a három egymást követő atom által bezárt szög 120° legyen.
Hosszabb láncok esetén arra törekszünk, hogy egyszer az egyik, majd a másik
irányba törjük meg a láncot, így „zegzugos” vonalat kapunk.
CH3 CH3 CH3 OH CH3
OCH3 CH3
NCH3
CH3
CH3 NH2 CH3
NHCH3
CH3 CH3
CH3
CH3 CH3
CH3
CH3 CH3
7
Semmelweis University, Department of Organic Chemistry
Forrás: http://www.acdlabs.com/
Cég: ACD Labs
Rajzolóprogram: ChemSketch
„az Advanced Chemistry
Development (ACD/Labs) ingyenes
ChemSketch-licenszeket adott
számos akadémiai intézményeinek”
A nómenklatúra modul gomb:
Az ingyenes változat korlátozásai:
- Maximum 50 atom
- Maximum 3 (anellált) gyűrű
A vegyület „szótár” az ingyenes
változatban nem érhető el:
ChemSketch: kémiai rajzoló- és
nevezéktan program
A program képes szerkezetet alapján
SIMILES- és InChi kódok
meghatározására vagy ezek alapján
a szerkezet megrajzolására
8
Semmelweis University, Department of Organic Chemistry
Cég: Chemaxon
Rajzolóprogram: MarvinSketch
„Az ingyenes akadémiai licensz-
programú iskolák és egyetemek
részére”
Komputációs eszközök, a
protonáltság (pKa), a megoszlás
(logP, logD), az izomerizáció és a
töltések becslésére, valamint NMR
spektrum szimuláció.
Forrás: http://www.chemaxon.com/
MarvinSketch: kémiai rajzoló- és
nevezéktan program
A beépített nómenklatúra modul
segítségével korlátozások nélkül
tudunk szabályos kémiai (IUPAC)
nevet generálni, a szoftver
adatbázisában pedig a legtöbb ismert
szerves vegyület „tradicionális”
elnevezése is szerepel.
Semmelweis University, Department of Organic Chemistry
3D ábrázolás: atomok
Színezés: bár az egyes kémiai programok eltérő színekkel jelölhetik az egyes
atomokat, a legfontosabb atomok színezése általában megegyezik.
Méret: az atomokat jelölhetjük egyforma vagy a van der Waals sugárral arányos
méretű gömbökkel, amelyből következtethetünk az egyes atomok térigényére is.
A leggyakoribb atom
színkódok:
Szén: szürke
Hidrogén: fehér
Oxigén: vörös
Nitrogén: kék
Kén: sárga
Klór: zöld
Drótváz (wire) / ball & wire: Az atomok középpontját egyenes vonalak kötik össze, a vonal
színe megegyezik az atom színével. Az atomokat gömbökkel
is szokták jelölni (ball & wire). Minden gömb sugara
egyforma (nem van der Waals sugár)!
Semmelweis University, Department of Organic Chemistry
3D ábrázolás: grafikus modellek
Csövek (tube) / ball & sticks:Az atomok középpontját megvastagított vonalak (csövek)
kötik össze, végük lekerekített. Az atomokat gömbökkel is
szokták jelölni (ball & wire). A gömb sugara arányos a van
der Waals sugárral.
Térkitöltő (Space Filling) vagy CPK*: models Az atomok átmérője megfelel a van der Waals sugárnak, az
így kapott alakzat közel megfelel az elektronsűrűség
felszínnek.
Gra
fik
ai
igén
yb
evét
el
*Robert Corey, Linus Pauling and Walter Koltun kémikusok után
Semmelweis University, Department of Organic Chemistry
Néhány fontosabb fájltípus
http://www.ch.ic.ac.uk/chemime/ és http://openbabel.org/wiki/Category:Formats
MDL Molfile
Filename Extensions mdl, mol, sd, sdf
Chemical MIME Type chemical/x-mdl-molfile
Specification URL http://www.mdl.com/downloads/public/ctfile/ctfile.jsp
Sybyl mol2
Filename Extensions mol2
Chemical MIME Type chemical/x-mol2
Specification URL http://www.tripos.com/data/support/mol2.pd
PDB (Protein Data Base)
Filename Extensions ent, pdb
Chemical MIME Type chemical/x-pdb
Specification URLhttp://www.rcsb.org/pdb/static.do?p=file_formats/pdb/ind
ex.html
A kémiai szerkezet kódolása
Semmelweis University, Department of Organic Chemistry
13
Semmelweis University, Department of Organic Chemistry
Kémiai szerkezet kódolása ASCII-
karakterekkel: InChI
Az InChI betűszó az angol International Chemical Identifier (nemzetközi kémiai
azonosító) rövidítéséből ered, az IUPAC és az NIST (National Institute of Standards
and Technology) fejlesztette ki az 2000 és 2005 között.1,2 Arra tervezték, hogy
segítségével a molekuláris információt standardizált és ember által is könnyen
értelmezhető módon kódolják, ingyenesen hozzáférhető, szabad forráskódú szoftver.
Az InChI Key rögzített hosszúságú (25 karakter), tömör, digitális leképezése az
InChI-nek, amely azonban ember által már nem értelmezhető.
1 McNaught, Alan (2006). "The IUPAC International Chemical Identifier:InChl". Chemistry International (IUPAC) 28 (6).
http://www.iupac.org/publications/ci/2006/2806/4_tools.html. Retrieved on 2007-09-18.
2 The IUPAC International Chemical Identifier (InChI)". IUPAC. 5 September 2007. http://www.iupac.org/inchi/release102.html. Retrieved
on 2007-09-18.
CH3
OHInChI=1/C2H6O/c1-2-3/h3H,2H2,1H3
InChI Key=LFQSCWFLJHTTHZ-UHFFFAOYAB
O
OH OH
O
OH
OHInChI=1/C6H8O6/c7-1-2(8)5-3(9)4(10)6(11)12-5/h2,5,7-10H,1H2/t2-,5+/m0/s1
InChI Key=CIWBSHSKHKDKBQ-JLAZNSOCBT
14
Semmelweis University, Department of Organic Chemistry
A SMILES betűszó, az angol simplified molecular input
line entry specification (egyszerűsített, begépelhető
molekula-leíró rendszer) rövidítéséből ered, Arthur és David
Weininger fejlesztette ki az 1980-as években1,2. Széles körben
használt leíró nyelv a molekulák ASCII-karakterekkel történő
tömör kódolására. A legtöbb molekula-rajzoló és kémiai
adatbázis program elfogadja bemenetként a SMILES
kódokat, és képes azokat kétdimenziós rajzokká konvertálni.
1D. Weininger J. Chem. Inf. Comput. Sci. 28, 31-36 (1988).
2D. Weininger et al. J. Chem. Inf. Comput. Sci. 29, 97-101 (1989).
CH3
OH
O
OH OH
O
OH
OH
SMILES code: CCO SMILES code: OC=1C(=O)O[C@H]([C@@H](O)CO)C=1O
http://www.daylight.com/dayhtml/doc/theory/theory.smiles.html
Kémiai szerkezet kódolása ASCII-
karakterekkel: SMILES
15
Semmelweis University, Department of Organic Chemistry
A SMARTS (SMiles ARbitrary Target Specification) leíró nyelv segítségével
molekula részleteket vagy mintázatokat ún. „substructural patterneket”
definiálhatunk. Ezek a leírók nagyon hasonlítanak a SMILES kódokra (minden
SMILES leíró valid SMARTS leíró), de vannak apróbb eltérések. A
leglényegesebb, hogy a SMILES teljes molekulákat, míg a SMARTS molekula
részleteket (láncokat, gyűrűket, funkciós csoportokat stb.) ír le. A pontos és jól
definiált SMART leírók rendszere olyan keminformatikai felhasználásokat tesz
lehetővé mint például a keresés, a szűrés vagy az összehasonlítás.
Hasonlóan a SMILEShoz, itt is két alapvető szimbólum létezik: atomok és
kötések. Ezen szimbólumok segítségével ún. gráfokat definiálhatunk, ami leírja
az adott molekulát/atomcsoportot, de a SMARTS néhány további jelölést is
tartalmazhat, például logikai operátorokat és a SMILES-nál általánosabb
speciális jelöléseket is.
SMARTS minmtázatok (patterns)
16
Semmelweis University, Department of Organic Chemistry
SMARTS: példák
http://www.daylight.com/dayhtml/doc/theory/theory.smarts.html
cc any pair of attached aromatic carbons
c:c aromatic carbons joined by an aromatic bond
c-c aromatic carbons joined by a single bond (e.g. biphenyl)
O any aliphatic oxygen
[O;H1] simple hydroxy oxygen
[O;D1] 1-connected (hydroxy or hydroxide) oxygen
[O;D2] 2-connected (etheric) oxygen
[C,c] any carbon
[F,Cl,Br,I] the 1st four halogens.
[N;R] must be aliphatic nitrogen AND in a ring
[!C;R] (NOT aliphatic carbon) AND in a ring
[n;H1] H-pyrrole nitrogen
[n&H1] same as above
[c,n&H1] any aromatic carbon OR H-pyrrole nitrogen
[c,n;H1] (aromatic carbon OR aromatic nitrogen) and exactly one H
*!@* two atoms connected by a non-ring bond
*@;!:* two atoms connected by a non-aromatic ring bond
[C,c]=,#[C,c] two carbons connected by a double or triple bond
Kémiai szerkezeti kulcsok (structural keys), kémiai ujjlenyomatok (fingerprints) és
farmakofór modell
Semmelweis University, Department of Organic Chemistry
A kémiai ujjlenyomatok (molecular fingerprints)
Semmelweis University, Department of Organic Chemistry
A kémiai ujjlenyomatok (molecular fingerprints), vagy bináris vektorok
vagy bit vektorok olyan 1-esekből és 0-ból álló számsorozatok,
amelyek a molekula 2D (vagy 3D) szerkezete alapján generálunk és
mindig egyedi, csak az adott molekulára jellemző mintázatot ad. Így
aztán ez a számsor – hasonlóan a valódi ujjlenyomatokhoz – alkalmas a
vegyület azonosítására.
A kémiai ujjlenyomatokat elterjedten használják különféle keminformatikai
műveletek mint pl. a kémiai hasonlóság vizsgálata vagy a ligandum alapú
virtuális szűrés.
Számos típusuk létezik, a csoportosítás alapja leggyakrabban a módszer illetve a
kiindulási vegyület dimenzionalitása (2D vagy 3D).
2D ujjlenyomatok
Semmelweis University, Department of Organic Chemistry
• Feature-based (szerkezeti kulcs alapú) pl. MACCS1
• Path-based (útvonal alapú) pl. Daylight FP22
• Circular pl. Multilevel Neighborhoods of Atoms (MNA)3
vagy MolPrint2D4
• Tree-based pl. kD grid5
• Atom-pairs6
• Pharmacophore (2D) pl. ChemAxon7
1 J.L. Durantet al. J. Chem. Inf. Comp. Sci. 42, 1273-1280 (2002).2 http://www.daylight.com/dayhtml/doc/theory/theory.finger.html3 D. Filimonov et al. J. Chem. Inf. Comput. Sci. 39, 666-670 (1999).4 A. Bender et al. J. Chem. Inf. Comput. Sci. 44, 170-178 (2004).5 T.G. Kristensen et al. Algorithms Mol. Biol. 5:9 (2010).6 R.E.Carhart et al. J. Chem. Inf. Comput. Sci. 25, 64-73 (1985).7 https://docs.chemaxon.com/pages/viewpage.action?pageId=14942989
3D ujjlenyomatok
Semmelweis University, Department of Organic Chemistry
• Three-point pharmacophore fingerprints (pharmacophoric
triplets) pl. Schrödinger CANVAS1
• 3D-ligand-based methods (capture the SAR by identifying
common pharmacophoric features within a set of active
molecules)2
• 3D-methods focuses on the comparison of the shape of
molecules, pl. Overlay of Chemical Structures (ROCS)3
1 S.D. Pickett et al. J. Chem. Inf. Model. 36, 1214-1223 (1996).2 O.F. Güner editor. Pharmacophore Perception, Development, and Use in Drug Design.
IUL Biotechnology Series. La Jolla: International University Line (2000).3 A. Nicholls et al. J. Comput. Aided Mol. Des. 19, 661-686 (2005).
A kémiai szerkezeti kulcsok (structural keys)
Semmelweis University, Department of Organic Chemistry
A „Structural keys” az ujjlenyomatok egyik speciális változata, bizonyos források
különálló módszernek tekintik. Az egyik legkorábban alkalmazott kémiai
adatbázis HTS eljárás. A módszer lényege, hogy kiválasztjuk a fontosnak tartott
szerkezeti vonásokat (features), ezekből egy listát állítunk össze, majd az adatbázis
egyes molekuláira lebontva egy IGEN (1) / NEM (0) listát állítunk össze, annak
függvényében, hogy az adott molekula tartalmazza-e azt a szerkezeti elemet.
Bár egy ilyen lista összeállítása hosszadalmas és bonyolult feladat, két molekula
összehasonlítása az így kapott „bit string” alapján már nagyon gyors.
A vonásokat általában SMARTS kódok segítségével definiálják.
A MACCS az egyik legelterjedtebb szerkezeti kulcs módszer.
Semmelweis University, Department of Organic Chemistry
MACCS kulcsok
MACCS (Molecular ACCess Systemkey) ujjlenyomatokat az MDL cég fejlesztette ki (a
1970-es évek végén). Sajnos az első publikáció nem ismert, a legtöbb cikk/dolgozat idézni
szokott az a cikk, amelyben az MDL azt írja le hogyan `reoptimilizálták` ezeket a
kulcsokat.*
*J.L. Durant et al. J. Chem. Inf. Comp. Sci. 42, 1273-1280 (2002).
A MACCS tehát egy sor az adott kémiai szerkezetre vonatkozó kérdésből áll. Az ezekre
adott válaszok listája bináris értékek – lehet igaz (1) vagy hamis (0). Ez a lista (bitstring)
lesz ezután az adott vegyület MACCS kulcs kémiai ujjlenyomata.
A MACCS kulcsok 166 ilyen kérdést tartalmaznak (166 bit) de létezik egy 960 bites
változat is (általában a 166-osat használják). Kérdéses, hogy valaha hivatalosan
közzétették-e ezt a listát, az általánosan elterjedt változat valószínűleg az MDL Isis/Base
szoftver súgó fájlából származik.
Példa kérdések:
• Kevesebb mint 3 oxigén atom van? → igen → 1
• Található S-S kötés? → igen → 1
• A gyűrű tagszáma 4? → nem → 0
• Van legalább egy F, Cl, Br, vagy I atom?→igen → 1
Szerkezet: String:
1 1 0 1
Semmelweis University, Department of Organic Chemistry
S. Vilar et al. Nat. Protoc. 9, 2147–2163 (2014) doi:10.1038/nprot.2014.151
MACCS példa: diazepam
Gyakori, hogy a kettes szám-
rendszerben kódolt bitstringet
átkonvertálják decimális vagy
hexadecimális kóddá.
Semmelweis University, Department of Organic Chemistry
MACCS keys description
http://www.mayachemtools.org/docs/modules/html/MACCSKeys.html#generatemaccskeys
Bond types:
- : Single
= : Double
T : Triple
# : Triple
~ : Single or double query bond
% : An aromatic query bond
None : Any bond type; no explicit bond specified
$ : Ring bond; $ before a bond type specifies ring bond
! : Chain or non-ring bond; ! before a bond type specifies chain bond
@ : A ring linkage and the number following it specifies the atoms position in the line, thus @1 means
linked back to the first atom in the list.
Aromatic: Kekule or Arom5
Kekule: Bonds in 6-membered rings with alternate single/double bonds or perimeter bonds
Arom5: Bonds in 5-membered rings with two double bonds and a hetero atom at the apex of the ring.
Atom symbols for 166 keys:
A : Any valid periodic table element symbol
Q : Heteroatoms; any non-C or non-H atom
X : Halogens; F, Cl, Br, I
Z : Others; other than H, C, N, O, Si, P, S, F, Cl, Br, I
Semmelweis University, Department of Organic Chemistry
A szerkezeti kulcsok hoz lépest a következő evolúciós lépést az azoknál jóval
absztraktabb, előre definiált mintázatokat nem tartalmazó ujjlenyomat
módszerek jelentették, amelyek mindig magából az adott szerkezetből hozhatóak
létre. Egy ilyen algoritmus például az alábbiak alapján jár el:
• minden egyes atomra létrehoz egy-egy mintázatot
• létrehoz továbbá az adott atomot és a legközelebbi szomszédjait (illetve a
közöttük lévő kötéseket) tartalmazó mintázatot
• az adott atomcsoportot (és annak kötéseit) valamit a tőle két kötés
távolságra, vagyis „lépésre” (paths) találhatóakat
• … 3 lépésre találhatóakat
• … folytatva 4, 5, 6 és 7 lépésig
Például egy OC=CN „molekula” esetében:
Ujjlenyomatok
0-bond paths: C O N
1-bond paths: OC C=C CN
2-bond paths: OC=C C=CN
3-bond paths: OC=CN
Semmelweis University, Department of Organic Chemistry
A „hasított” (hashed) ujjlenyomatok
A hash (hasító) függvények segítségével a változó méretű leíró adatot fix méretű
digitális adatként térképezhetjük fel. A hash függvény által generált adatot
nevezzük hash értéknek, kódnak, összegnek vagy egyszerűen csak
„hasheknek”. A hasítófüggvények informatikában használt speciális eljárások a
kereső algoritmusoknál használt indexstruktúrák hasítótáblák felépítésére,
amelyek nagy méretű adatállományok adatelemeinek gyors, hatékony
megkeresését teszi lehetővé.
Semmelweis University, Department of Organic Chemistry
Az ujjlenyomatok és a szerkezeti kulcsok
összehasonlítása
• Univerzális: a szerkezeti kulcsokkal ellentétben az ujjlenyomat
módszerek nem alkalmaznak előre definiált kérdéseket, ezért
bármilyen típusú adatbázishoz / lekérdezéshez használhatóak.
• Hatékonyabb: a szerkezeti kulcsokkal generált „bitmap”
információtartalom szempontjából sokkal „ritkásabb” (a legtöbb
kérdésre adott válasz nemleges, tehát nagyrészt nullákból fog
állni), ezzel szemben a molekuláris ujjlenyomat sokkal „sűrűbb”
(kb. 20-40%-kal), vagyis ugyanannyi biten több információ
tárolható, anélkül, hogy a „megkülönböztető” erejéből veszítene.
• Pontosság: az ujjlenyomatokban rengeteg az átfedés, egy-egy
mintázat legalább két (de általában több) helyen is szerepel. Ennek
eredményeként minél bonyolultabb a molekula, annál
pontosabban írja le az ujjlenyomat.
28
A farmakofór modell
Definíció: a farmakofór modell a kémiai jegyek olyan térbeli
elrendeződése amely kiváltja az aktivitást az adott célponton.
• A hangsúly a farmakofór modell esetében tehát a specifikus kémiai
csoportok megfelelő térbeli elrendeződésén van.
• Ezért nem elegendő csupán azt tudnunk, hogy az aktív vegyületeinknek
(például) milyen közös csoportjai vannak
• De, hogy ezen csoportok egymáshoz képest hogyan helyezkednek el, azt is
pontosan ismernünk kellZsargon:
Farakofór csoportok (features) = farmakofór csoport típusok (általánosságban)
Farakofór csoportok (sites) = meghatározott farmakofór csoportok (egy adott molekulán belül)
Farakofór hipotézis(hypothesis) = farmakofór modell vagy csak „farmakofór”
Paul Ehrlich: „olyan molekuláris szerkezet (phoros) amely hordozza azokat a csoportokat
(pharmaconok), amelyek felelősek a biológiai hatásért”
(Ehrlich. Dtsch. Chem. Ges. 1909, 42: p.17)
Peter Gund: „azon szerkezeti elemek összessége a molekulán belül, amelyeket a receptor kötő helye
felismer és így kiváltja az adott molekulára jellemző biológiai hatást.”
(Gund. Prog. Mol. Subcell. Biol. 1977, 5: p. 117–143)
Semmelweis University, Department of Organic Chemistry
29
OH
OH
CH3
CH3
N
O
OH
(A) (hidrogén) Akceptor / (D) Donor
(N) Negatív / (P) Pozitív
(R) Aromás / (H) Hidrofób (csoportok)
A Fexofenadine egy harmadik generációs antihisztamin (H1-receptoron ható) gyógyszer
amelyet a szénanátha, a csalánkiütés és egyéb allergiás tünetek kezelésére használnak
(Patikában kapható mint: Allegra, Telfast, Fastofen, Tilfur, Vifas, Telfexo, Allerfexo stb.)
Phase, version 4.1, Schrödinger, LLC, New York, NY, 2015.
PHASE (Schrödinger) farmakofór modellező szoftver
Semmelweis University, Department of Organic Chemistry
A bioinformatika gyakorlaton használt famakofór ujjlenyomatokat a Schrödinger
CANVAS modulja segítségével generáltuk. Ehhez a szoftver a molekulák 3D szerkezetéből
kiindulva 3- vagy 4 (a fenti elemből álló) farmakofórokat hoz létre (automatikusan).
A kémiai hasonlóság
Semmelweis University, Department of Organic Chemistry
A hasonlóságot számos módon mérhetjük:
Semmelweis University, Department of Organic Chemistry
• ekvivalencia osztályoko mondhatjuk, hogy két molekula vagy hasonló, vagy különböző
• numerikus méréso mondhatjuk, hogy két molekula hasonlósága pl. ~0,85
o a hasonlósági koefficiensek értéke általában 0,0 (teljesen különböző) és 1,0 (azonos)
között változik
• távolság méréso a hasonlóság “ellentéte” (0,0 = azonos; vagy nincs maximuma, vagy egy fix limithez
maximalizálják az értéket
a leírás valamely szintjén minden molekula azonosnak tekinthető• összegképlet
• szerkezeti gráf (with no distinction between node and bond types)
• csökkentett gráf
• azonos gyűrűrendszer
• azonos ujjlenyomatok
Numerikus hasonlóság számítás
Semmelweis University, Department of Organic Chemistry
Normálisan kiszámítják a hasonlóság numerikus értékét két molekula között
a keresett szerkezet a „célpont”
az adatbázisban található szerkezeteket rangsorolhatjuk a célponthoz való hasonlóságuk mértéke alapján
• keressen meg minden olyan molekulát, ahol ez az érték > mint egy megadott küszöbérték
• keresse meg a célponthoz leghasonlatosabb N molekulát
nem szükséges egy bizonyos szerkezeti jegy megléte az így megtalált molekulákban
• de lesznek a célponttal megegyező szerkezeti jegyeik is
Hasonlóság számítás
Semmelweis University, Department of Organic Chemistry
A hasonlóságot legkönnyebben szerkezeti jegyek vagy kémiai ujjlenyomatok alapján számíthatjuk ki
• megszámoljuk a az “on” biteket mindkét molekulára
• megszámoljuk a az “on” biteket a két molekulára külön-külön
A szerkezet: 00010100010101000101010011110100 13 bits “on” (A)
B szerkezet: 00000000100101001001000011100000 8 bits “on” (B)
A és B együtt: 00000000000101000001000011100000 6 bits “on” (C)
• A hasonlósági koefficiens kiszámítható
A, B és C alapjánA
B
C
Hasonlóság számítás
Semmelweis University, Department of Organic Chemistry
If we describe our molecules by the presence or absence of features, then
the binary association coefficients or similarity measures are based on the four
terms a, b, c, d shown in the two way table.
B molekula
0 1 Összeg
A molekula
0 d b b + d
1 a c a + c = A
Összeg a + d b + c = B nWhere:
a is the count of bits on in object A but not in object B.
b is the count of bits on in object B but not in object A.
c is the count of the bits on in both object A and object B.
d is the count of the bits off in both object A and object B.
In addition:
n = ( a + b + c + d )
A = ( a + c )
B = ( b + c )
Where:
n is the total number of bits on or off in objects A or B.
A is the count of the bits on in object A.
B is the count of the bits on in object B.
http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
Tanimoto koefficiens
Semmelweis University, Department of Organic Chemistry
hasonlóság
= 6 / (13 + 8 – 6) = 0.4A mindkét molekulában megtalálható bitek számát elosztjuk az
egyes molekulákban található bitek számával
A Tanimoto koefficiens (Jaccard koefficiensnek is nevezik) a
keminformatikában legelterjedtebben használt hasonlósági
koefficiens
𝑐
𝑎 + 𝑏 + 𝑐
36
Semmelweis University, Department of Organic Chemistry
További gyakran használt koefficiensek
http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
Measure Range Formula
Cosine 0.0, 1.0𝑐
𝑎 + 𝑏 ∗ (𝑏 + 𝑐)
Dice 0.0, 1.02.0 ∗ 𝑐
𝑎 + 𝑐 + (𝑏 + 𝑐)
Euclid 0.0, 1.0𝑐 + 𝑑
𝑎 + 𝑏 + 𝑐 + 𝑑
Forbes 0.0, ∞𝑐 ∗ (𝑎 + 𝑏 + 𝑐 + 𝑑)
𝑎 + 𝑐 ∗ (𝑏 + 𝑐)
Hamman -1.0, 1.0
𝑐 + 𝑑 − (𝑎 + 𝑏)
𝑎 + 𝑏 + 𝑐 + 𝑑
Kulczynski 0.0, 1.0 0.5 ∗𝑐
𝑎 + 𝑐+
𝑐
𝑏 + 𝑐
Measure Range Formula
Manhattan 1.0, 0.0(𝑎 + 𝑏)
(𝑎 + 𝑏 + 𝑐 + 𝑑)
Matching 0.0, 1.0𝑐 + 𝑑
𝑎 + 𝑏 + 𝑐 + 𝑑
Pearson -1.0, 1.0𝑐 ∗ 𝑑 − (𝑎 ∗ 𝑏)
𝑎 + 𝑐 ∗ 𝑏 + 𝑐 ∗ 𝑎 + 𝑑 ∗ (𝑏 + 𝑑)
Rogers-
Tanimoto0.0, 1.0
𝑐 + 𝑑
(𝑎 + 𝑏) + (𝑎 + 𝑏 + 𝑐 + 𝑑)
Russell-Rao 0.0, 1.0𝑐
𝑎 + 𝑏 + 𝑐 + 𝑑
Simpson 0.0, 1.0𝑐
min( 𝑎 + 𝑐 , 𝑏 + 𝑐 )
Yule -1.0, 1.0𝑐 ∗ 𝑑 − (𝑎 ∗ 𝑏)
𝑐 ∗ 𝑑 + (𝑎 ∗ 𝑏)
A kémiai leírók
Semmelweis University, Department of Organic Chemistry
Semmelweis Egyetem, Szerves Vegytani Intézet
1. MW (Molcular Weight) azaz molekulatömeg:
gyógyszervegyületek esetében ez általában 150 – 500 g/mol (a QP-ban 130-
750), ennél nagyobb molekulák általában már nehezen jutnak át a
sejtmembránon, ennél kisebb vegyületek meg nem fognak szelektíven csak
egy (vagy néhány) célponthoz kötődni (DE: antibiotikumok)
2. HBA/HBD (Hydrogen Bond Acceptors / Donors): hidrogén donor/akceptor
atomok száma:
a receptor-ligandum szempontjából ez a legjelentősebb kölcsönhatás
gyógyszervegyületek esetében általában 0 – 6 illetve 2 – 20
3. TPSA (Topological Polar Surfce Area): poláros felszín, azaz általában a
poláros N és O atomok Van der Waals felszínének összegét értjük ez alatt,
gyógyszervegyületek esetében ez általában 7 – 200 Å3
Számos változata létezik (SASA, FOSA, FISA, PISA, WPSA stb.)
Néhány fontosabb kémiai leíró
Semmelweis Egyetem, Szerves Vegytani Intézet
PSA számítása: klasszikus és fragmens alapú
Semmelweis Egyetem, Szerves Vegytani Intézet
5. Oktanol-víz megoszlási hányados (Octanol/water partition coefficient)
logaritmusa (logP):
egy adott anyag koncentrációjának a hányadosa két, egymással határos
fázisban (ez lehet két különböző folyadék vagy folyadék-gáz), tehát azt fejezi
ki, hogy az adott anyag hogyan oszlik meg a két fázis között
gyógyszervegyületek esetében általában a víz-oktanol rendszert szokták
vizsgálni (az oktanol lipofilitása nagyjából megegyezik a membránlipid
kettősréteg belsejében található lipofilitással), ennek értéke -2.0 – 6.5
Oktanol-víz megoszlási hányados
A megoszlási hányados klasszikus módszere a rázótölcséres
módszer, a korszerű HPLC és elektrokémiai módszerek
azonban gyorsabbak és pontosabbak.
A számítógépes kémiai becslés a 2D szerkezet alapján, atom-
vagy fragmensek alapján lehetséges.
Semmelweis Egyetem, Szerves Vegytani Intézet
Általánosnak tekinthető „ökölszabály” amelyet Christopher A. Lipinski dolgozott ki
1997-ben, a „gyógyszerszerűség” (druglikeness) meghatározására. Számos
gyógyszervegyületet megvizsgálva arra a következtetésre jutott, hogy ezek általában
relatíve kis méretűek és lipofil jellegűek. Tapasztalatait NÉGY pontban összegezte:
1. hidrogéndonor atomok száma (donorHB) ≤ 5
2. hidrogénaceptor atomok száma (acptHB) ≤ 10
3. a molekulatömeg (MW) < 500 dalton (vagy g / mol)
4. az oktanol-víz megoszlási hányados (logP) < 5
Ezek mindegyikében szerepel az ÖTÖS szám (vagy annak többszöröse), és állítása
szerint egy vegyület csak akkor lehet gyógyszer, ha az ezek közül legalább
HÁROM teljesül.
Azóta számtalan példa igazolja, hogy ezek a szabályok nem tekinthetők általános
érvényűnek, sokan tettek kísérletet a szabályok pontosítására / finomítására.
Lipinski 5-ös szabály (rule of 5)
Molconn-Z. eduSoft, LC, PO Box 1811, Ashland, VA 23005. http://www.edusoft-lc.com/molconn/
Molconn-Z is the standard program for generation of Molecular Connectivity,
Shape, and Information Indices for Quantitative Structure Activity Relationship
(QSAR) Analyses. New parameters and concepts of QSAR, including the E-State,
have been introduced first in Molconn-Z. The software is calculating the following
physicochemical parameters:
• Molecular Connectivity Chi Indices: mχt and mχtv
• Kappa Shape Indices: mκ and mκα
• Electrotopological State (E-State) Indices: Si
• Molecular Connectivity Difference Chi Indices:
dmχt and dmχtv
• Atom-type E-State Indices.
• Group-type E-State Indices.
• Topological Equivalence Classification of Atoms
• Other Topological Indices:
Shannon Index
Information Indices
Wiener Number
Platt Number
Bonchev-Trinajstiç
• Total Topological Index
• Counts of Subgraphs: paths,
rings, clusters, etc.
• Vertex Eccentricities
Molconn-Z leírók
Semmelweis Egyetem, Szerves Vegytani Intézet
Ajánlott irodalom1. CHEMOINFORMATICS FOR DRUG DISCOVERY
Jürgen Bajorath
John Wiley & Sons, 2014
ISBN 978-1-118-13910-3
2. AN INTRODUCTION TO CHEMOINFORMATICS
(Revised Edition)
Andrew R. Leach and Valerie J. Gillet
Springer, 2007
ISBN 978-1-4020-6290-2
3. BIOINFORMATICS: AN INTRODUCTION
(Second Edition)
Jeremy J. Ramsden
Springer, 2004
ISBN 978-1-84800-256-2
4. SOKVÁLTOZÓS ADATELEMZÉS (KEMOMETRIA)
Borosy András Péter
Nemzeti Tankönyv Kiadó, 2001
ISBN 963 19 2114X
Semmelweis University, Department of Organic Chemistry
Felhasznált szoftverek
Semmelweis University, Department of Organic Chemistry
1. MarvinSketch, version 15.4.6.0
(Marvin Beans for Scientist, free academic license)
ChemAxon Ltd., 2015
http://www.chemaxon.com
2. OpenBabelGUI
(OpenBabel version 2.3.2, General Public License)
http://openbabel.org/wiki/Windows_GUI
http://openbabel.org/wiki/Main_Page
N.M. O'Boyle et al. J. Cheminf. 3:33 (2011)
Semmelweis University, Department of Organic Chemistry
MDL Information SystemsMDL Information Systems (Molecular Design Limited) Inc. launched as a computer-aided drug design firm was
founded by Stuart Marson and W. Todd Wipke in 1978 in Hayward, California.
With 15 years of research on computer synthesis at the University of California, Santa Cruz, Wipke, with Marson,
fresh from a Ph.D. at Stanford University and a postdoctoral stint at the University of California, Berkeley, were
convinced that computer-assisted molecular design was possible as a commercial enterprise.
MDL was the first company to provide interactive graphical registry and full and substructural retrieval. The
company's initial products were first-of-their-kind systems for storing and retrieving molecules as graphical structures
and for managing databases of chemical reactions and related data. These systems revolutionized the way scientists
accessed and managed chemical information in the 1980s.
From its initial pioneering of computer handling of graphical chemical structures with MACCS (Molecular ACCess
System) in 1979, MDL continued at the forefront of the field now known as cheminformatics.
In 1985, MDL moved its corporate headquarters from Hayward to a larger campus in San Leandro, CA. In 1987, MDL
was purchased by Maxwell Communications Corporation.
In 1993, the company was publicly offered as MDL Information Systems, Inc. (MDLI) on the NASDAQ stock
exchange. In 1997, the company was purchased by Reed Elsevier, the Anglo-Dutch publisher and information
provider, becoming a wholly owned subsidiary of Elsevier, a publisher of scientific, technical and medical
information. In February 2006, Elsevier MDL moved its corporate headquarters from San Leandro to San Ramon, CA.
In October 2007, Elsevier MDL was acquired by Symyx Technologies, Inc., an R&D productivity company offering
software, modular workflow tools and research services to global enterprises in the life sciences, chemicals, energy
and consumer products industries. MDL was merged with Symyx Software, and the new combined organization is
based in San Ramon, CA. The infrastructure-related software applications and databases of MDL, including CrossFire
Beilstein, CrossFire Gmelin, the Patent Chemistry Database, xPharm and PharmaPendium — were retained by
Elsevier and integrated within Elsevier's Science & Technology operations.
http://en.wikipedia.org/wiki/MDL_Information_Systems
Semmelweis University, Department of Organic Chemistry
MACCS keys description1 ISOTOPE
2 103 < ATOMIC NO. < 256
3 GROUP IVA,VA,VIA
PERIODS 4-6 (Ge...)
4 ACTINIDE
5 GROUP IIIB,IVB (Sc...)
6 LANTHANIDE
7 GROUP VB,VIB,VIIB (V...)
8 QAAA@1
9 GROUP VIII (Fe...)
10 GROUP IIA (ALKALINE
EARTH)
11 4M RING
12 GROUP IB,IIB (Cu...)
13 ON(C)C
14 S-S
15 OC(O)O
16 QAA@1
17 CTC
18 GROUP IIIA (B...)
19 7M RING
20 SI
21 C=C(Q)Q
22 3M RING
23 NC(O)O
24 N-O
25 NC(N)N
26 C$=C($A)$A
27 I
28 QCH2Q
29 P
30 CQ(C)(C)A
31 QX
32 CSN
33 NS
34 CH2=A
35 GROUP IA (ALKALI
METAL)
36 S HETEROCYCLE
37 NC(O)N
38 NC(C)N
39 OS(O)O
40 S-O
41 CTN
42 F
43 QHAQH
44 OTHER
45 C=CN
46 BR
47 SAN
48 OQ(O)O
49 CHARGE
50 C=C(C)C
51 CSO
52 NN
53 QHAAAQH
54 QHAAQH
55 OSO
56 ON(O)C
57 O HETEROCYCLE
58 QSQ
59 Snot%A%A
60 S=O
61 AS(A)A
62 A$A!A$A
63 N=O
64 A$A!S
65 C%N
66 CC(C)(C)A
67 QS
68 QHQH (&...)
69 QQH
70 QNQ
71 NO
72 OAAO
73 S=A
74 CH3ACH3
75 A!N$A
76 C=C(A)A
77 NAN
78 C=N
79 NAAN
80 NAAAN
81 SA(A)A
82 ACH2QH
83 QAAAA@1
84 NH2
85 CN(C)C
86 CH2QCH2
87 X!A$A
88 S
89 OAAAO
90 QHAACH2A
91 QHAAACH2A
92 OC(N)C
93 QCH3
94 QN
95 NAAO
96 5M RING
97 NAAAO
98 QAAAAA@1
99 C=C
100 ACH2N
101 8M RING
102 QO
103 CL
104 QHACH2A
105 A$A($A)$A
106 QA(Q)Q
107 XA(A)A
108 CH3AAACH2A
109 ACH2O
110 NCO
111 NACH2A
112 AA(A)(A)A
113 Onot%A%A
114 CH3CH2A
115 CH3ACH2A
116 CH3AACH2A
117 NAO
118 ACH2CH2A > 1
119 N=A
120 HETEROCYCLIC ATOM >
1 (&...)
121 N HETEROCYCLE
122 AN(A)A
123 OCO
124 QQ
125 AROMATIC RING > 1
126 A!O!A
127 A$A!O > 1 (&...)
128 ACH2AAACH2A
129 ACH2AACH2A
130 QQ > 1 (&...)
131 QH > 1
132 OACH2A
133 A$A!N
134 X (HALOGEN)
135 Nnot%A%A
136 O=A > 1
137 HETEROCYCLE
138 QCH2A > 1 (&...)
139 OH
140 O > 3 (&...)
141 CH3 > 2 (&...)
142 N > 1
143 A$A!O
144 Anot%A%Anot%A
145 6M RING > 1
146 O > 2
147 ACH2CH2A
148 AQ(A)A
149 CH3 > 1
150 A!A$A!A
151 NH
152 OC(C)C
153 QCH2A
154 C=O
155 A!CH2!A
156 NA(A)A
157 C-O
158 C-N
159 O > 1
160 CH3
161 N
162 AROMATIC
163 6M RING
164 O
165 RING
166 FRAGMENTS
http://www.mayachemtools.org/docs/modules/html/MACCSKeys.html#generatemaccskeys