Upload
nguyenkiet
View
216
Download
0
Embed Size (px)
Citation preview
1© João Aires de Sousa
Química Computacional
1ª Parte: Quimio-informática
Moodle:http://moodle.fct.unl.pt/course/view.php?id=2753
João Aires de SousaEmail: [email protected]
Gabinete 332
2© João Aires de Sousa
Objectivos
• Conhecimentos sobre métodos computacionais para arquivar e processar informação química.
• Conhecimentos teóricos e práticos sobre métodos computacionais para o estabelecimento de relações entre estrutura e propriedades.
3© João Aires de Sousa
Exemplos de problemas
• Faça download do ficheiro 2.2.smi. Trata-se dum ficheiro com 1500 estruturas diferentes em formato SMILES. Proponha uma estratégia, e execute-a, para encontrar no ficheiro a estrutura mais parecida com o alcaloide estilopina. (Encontre na www, via Google, a estrutura de 'stylopine').
• Faça download dos ficheiros 2.6A.sdf e 2.6B.smi. O primeiro é um ficheiro com 300 estruturas em formato sdf, o segundo tem 248 estruturas moleculares em formato SMILES. Quantas moléculas (e quais) do primeiro ficheiro existem também no segundo?
• Construa uma árvore de decisão que preveja a propriedade biológica X a partir dos descritores calculados para o conjunto de treino. Obtenha previsões para o conjunto de teste.
4© João Aires de Sousa
Programa
Representação da estrutura molecular e reacções. Necessidade e estratégias para a representação de compostos químicos. A notação linear SMILES. Os formatos MDL Molfile e Sdfile. Software para a interconversão de ficheiros e para a estandardização de estruturas. Hashed fingerprints e hash codes. Definições de similaridade entre moléculas. Representação de estruturas 3D. Representação de reacções nos formatos SMILES e MDL Rdfile.
Descritores moleculares. Descritores constitucionais. Descritores de fragmentos. Descritores topológicos. O índice de Wiener. Vectores de autocorrelação 2D. Descritores 3D. Funções de distribuição radial. Software para o cálculo de descritores moleculares.
Introdução às relações quantitativas estrutura-propriedade (QSPR) e estrutura-actividade (QSAR). Selecção de conjuntos de treino, validação e previsão. Selecção de descritores. Treino e avaliação de modelos.
Métodos para análise de dados. Regressões multilineares. Árvores de decisão. Redes neuronais de back-propagation. Redes neuronais de Kohonen. Redes neuronais de counterpropagation.
5© João Aires de Sousa
Bibliografia
Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.
Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007.
Handbook of Chemoinformatics, Johann Gasteiger, Wiley-VCH, 2003.
Moodle: http://moodle.fct.unl.pt/course/view.php?id=2753
6© João Aires de Sousa
QUIMIO-INFORMÁTICA
7© João Aires de Sousa
Cheminformatics (also known as chemoinformatics and chemical informatics) is the use of computer and informational techniques, applied to a range of problems in the field of chemistry.
These in silico techniques are used in pharmaceutical companies in the process of drug discovery.
In the U.S., recent NIH emphasis has been placed on developing public domain Cheminformatics research by creating six Exploratory Centers for Cheminformatics Research (ECCRs) as part of the NIH Molecular Libraries Initiative.
Definição (wikipedia)
QUIMIO-INFORMÁTICA
8© João Aires de Sousa
Dimensão do domínio
9© João Aires de Sousa
Tipo de informação
• Estruturas moleculares (compostos)
• Propriedades (físicas, químicas, biológicas)
• p.f.,, viscosidade, solubilidade, espectros,…
• electrofilicidade, estabilidade, …
• toxicidades, actividades farmacológicas, …
• Reacções
10© João Aires de Sousa
Tipos de aprendizagem
• Aprendizagem dedutiva (métodos quânticos,
mecânica molecular)
• Aprendizagem indutiva (“aprender como os
químicos orgânicos têm aprendido”): métodos de
inteligência artificial, aprendizagem automática,
métodos estatísticos, relações estrutura/propriedade
11© João Aires de Sousa
Hierarquia de representação de estruturas
Nome (S)-Triptofano
Estrutura 2D
Estrutura 3D
Superfície molecular
12© João Aires de Sousa
Arquivo de estruturas no computador
13© João Aires de Sousa
Arquivo de estruturas no computador
• Para transferir informação é necessário codificá-la em formatos
interconvertíveis, que possam ser lidos por aplicações.
• Aplicações: visualização, gestão/pesquisa em bases de dados,
identificação de relações estatísticas entre estrutura e propriedades,
cálculo de propriedades, …
14© João Aires de Sousa
Codificação de estruturas
• Uma representação não ambígua identifica uma só estrutura possível
(ex: o nome ‘tolueno’).
• Uma representação é única se uma dada estrutura só puder ser
representada de uma forma (alguma nomenclatura não é, ex: 1,2-
dimetilbenzeno e o-xileno representam a mesma estrutura).
15© João Aires de Sousa
Nomenclatura IUPAC
Nome IUPAC: N-[(2R,4R,5S)-5-[[(2S,4R,5S)-3-acetamido-5-[[(2S,4S,5S)-3-acetamido-4,5-dihydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-4-hydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-2,4-dihydroxy-6-(hydroxymethyl)oxan-3-yl]acetamide
16© João Aires de Sousa
Nomenclatura IUPAC
• Vantagens:
• classificação sistemática estandardizada
• inclui estereoquímica
• bem difundida
• não ambígua
• permite reconstrução
• Desvantagens:
• regras complicadas
• nomes alternativos possíveis (não única)
• nomes complicados
Nome IUPAC: N-[(2R,4R,5S)-5-[[(2S,4R,5S)-3-acetamido-5-[[(2S,4S,5S)-3-acetamido-4,5-dihydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-4-hydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-2,4-dihydroxy-6-(hydroxymethyl)oxan-3-yl]acetamide
17© João Aires de Sousa
Notações lineares
Representam estruturas por sequências lineares de letras e números
(ex: nomenclatura IUPAC).
Notações lineares podem ser extremamente compactas, o que pode
ser uma vantagem para armazenar estruturas num computador
(sobretudo quando o espaço em disco era precioso…).
Permitem transmitir estruturas facilmente (por ex. uma pesquisa tipo
Google, ou uma estrutura no meio duma mensagem de email).
18© João Aires de Sousa
Notação SMILES
1. Átomos são representados pelos seus símbolos atómicos.
2. Átomos de H são omitidos (ficam implícitos).
3. Átomos vizinhos ficam um a seguir ao outro.
4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.
5. Ramificações representam-se por parênteses.
6. Anéis são representados atribuindo dígitos ao dois átomos que
fecham o anel.
Exemplo: Representação SMILES: CCCO
Exemplo: SMILES: CCC(Cl)C=C
19© João Aires de Sousa
Notação SMILES
1. Átomos são representados pelos seus símbolos atómicos.
2. Átomos de H são omitidos (ficam implícitos).
3. Átomos vizinhos ficam um a seguir ao outro.
4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.
5. Ramificações representam-se por parênteses.
6. Anéis são representados atribuindo dígitos ao dois átomos que
fecham o anel.
SMILES: CCC(Cl)C=C
a
b
c
d
e
f
a b c d e f
20© João Aires de Sousa
Notação SMILES
1. Átomos são representados pelos seus símbolos atómicos.
2. Átomos de H são omitidos (ficam implícitos).
3. Átomos vizinhos ficam um a seguir ao outro.
4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.
5. Ramificações representam-se por parênteses.
6. Anéis são representados atribuindo dígitos ao dois átomos que
fecham o anel.
SMILES: C1CCCCC1
1
21© João Aires de Sousa
Notação SMILES
1. Átomos são representados pelos seus símbolos atómicos.
2. Átomos de H são omitidos (ficam implícitos).
3. Átomos vizinhos ficam um a seguir ao outro.
4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.
5. Ramificações representam-se por parênteses.
6. Anéis são representados atribuindo dígitos ao dois átomos que
fecham o anel.
7. Anéis aromáticos representam-se com os átomos em minúsculas.
SMILES: Nc1ccccc1
22© João Aires de Sousa
Notação SMILES
• Não é ambígua (um SMILES representa inequivocamente uma só
estrutura).
• É única ??
• Solução: algoritmo que garante sempre a mesma representação
(canónica) para cada composto.
• Mais em: http://www.daylight.com/dayhtml_tutorials/index.html
SMILES: Nc1ccccc1
mas também c1ccccc1N
ou c1cc(N)ccc1
23© João Aires de Sousa
Notação SMILES no MarvinSketch
Paste
24© João Aires de Sousa
Notação SMILES no MarvinSketch
25© João Aires de Sousa
Notação InChI(IUPAC International Chemical Identifier)
Exemplo:
Equivalente digital ao nome IUPAC para um composto.
Cinco camadas de informação: de conectividade, tautomérica, isotópica, estereoquímica e electrónica.
Algoritmo que gera uma notação não ambígua e única.
Web site oficial: http://www.iupac.org/inchi/
26© João Aires de Sousa
Teoria de grafos
Uma estrutura molecular pode ser interpretada como um grafo matemático em que cada átomo é um vértice e cada ligação é uma aresta.
Permite processar estruturas moleculares matematicamente usando teoria de grafos.
H3C CH3
H3C
27© João Aires de Sousa
Representação por matrizes
Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).
Matriz de adjacência: indica que átomos estão ligados.
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 0 0 0 0
2 1 0 1 0 0 0
3 0 1 0 1 1 0
4 0 0 1 0 0 0
5 0 0 1 0 0 1
6 0 0 0 0 1 0
28© João Aires de Sousa
Representação por matrizes
Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).
Matriz de adjacência: indica que átomos estão ligados.
1
2
3
4
5
6
1 2 3 4 5 6
1 1
2 1 1
3 1 1 1
4 1
5 1 1
6 1
29© João Aires de Sousa
Representação por matrizes
Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).
Matriz de adjacência: indica que átomos estão ligados.
1
2
3
4
5
6
1 2 3 4 5 6
1 1
2 1
3 1 1
4
5 1
6
30© João Aires de Sousa
Representação por matrizes
Matriz de distâncias: indica as distâncias entre átomos.
Distância definida como número de ligações entre os dois átomosao longo do caminho mais curto.
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
Distância também pode ser definida como distância 3D entre os dois átomos.
31© João Aires de Sousa
Representação por matrizes
Matriz de ligações: indica que átomos estão ligados e as ordens das ligações.
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 0 0 0 0
2 1 0 1 0 0 0
3 0 1 0 1 1 0
4 0 0 1 0 0 0
5 0 0 1 0 0 2
6 0 0 0 0 2 0
32© João Aires de Sousa
Tabela de conectividade
A representação por matrizes tem a desvantagem de o tamanho aumentar com o quadrado do número de átomos.
Uma tabela de conectividade lista os átomos existentes na molécula e lista as ligações entre eles (pode incluir átomos de H ou não).
1
2
3
4
5
6
Lista de átomos1 C2 C3 C4 Cl5 C6 C
Lista de ligações 1º 2º ordem 1 2 1 2 3 1 3 4 1 3 5 1 5 6 2
33© João Aires de Sousa
O formato MDL Molfile( http://www.mdli.com/downloads/public/ctfile/ctfile.jsp )
1
2
3
4
5
6
Nº de átomos
Nº de ligações Descrição de um átomo
Descrição de uma ligação
34© João Aires de Sousa
O formato MDL Molfile
35© João Aires de Sousa
O bloco dos átomos
36© João Aires de Sousa
O bloco dos átomos
37© João Aires de Sousa
O bloco dos átomos
38© João Aires de Sousa
O bloco dos átomos
39© João Aires de Sousa
O bloco dos átomos
40© João Aires de Sousa
O formato MDL Molfile
41© João Aires de Sousa
O bloco das ligações
42© João Aires de Sousa
O bloco das ligações
43© João Aires de Sousa
O bloco das ligações
44© João Aires de Sousa
O bloco das ligações
45© João Aires de Sousa
O formato MDL Molfile
46© João Aires de Sousa
O bloco das propriedades
2 átomos com carga
47© João Aires de Sousa
O bloco das propriedades
2 átomos com carga
átomo 4: carga +1átomo 6: carga -1
48© João Aires de Sousa
O bloco das propriedades
1 entrada para um isótopo
49© João Aires de Sousa
O bloco das propriedades
1 entrada para um isótopo
átomo 3: massa=13
50© João Aires de Sousa
O formato SDFile (.SDF)
Inclui informação estrutural em formato Molfilee dados associados para um ou mais compostos.
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
51© João Aires de Sousa
O formato SDFile (.SDF)
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
Exemplo
Dados associados (molecular)
52© João Aires de Sousa
O formato SDFile (.SDF)
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
Exemplo
Dados associados (atómicos)
53© João Aires de Sousa
O formato SDFile (.SDF)
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
Exemplo
Dados associados (molecular)
54© João Aires de Sousa
O formato SDFile (.SDF)
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
Exemplo
Início do Molfile2
Separador
55© João Aires de Sousa
O formato SDFile (.SDF)
Molfile1Dados associados$$$$Molfile2Dados associados$$$$…
Exemplo
56© João Aires de Sousa
O programa Standardize (JChem)
• Interconversão de formatos
• Geração de SMILES únicos
• Estandardização de estruturas
• Adicionar Hs, retirar Hs, identificar sistemas aromáticos, limpar estereoquímica, …
• Geração de estruturas 3D
57© João Aires de Sousa
O programa Standardize
58© João Aires de Sousa
Estruturas de Markush
Um diagrama de estruturas de Markush é um tipo de representação específica de uma SÉRIE de compostos químicos.
O diagrama não descreve apenas uma estrutura, mas várias famílias de compostos.
Tem um esqueleto base e substituintes que são listados como texto, separadamente do diagrama.
R1= H, halogénio, OH, COOHR2= H, CH3
X= Cl, Br, CH3
Usadas especialmente em bases de dados de patentes.
59© João Aires de Sousa
Representação de fragmentos moleculares
Tal como um documento de texto pode ser indexado usando palavras ou expressões nele contidas, uma estrutura química pode ser indexada usando fragmentos.
Podem ser por exemplo pequenos grupos de átomos, grupos funcionais, ou anéis, que são previamente definidos.
É uma representação ambígua: estrutura diferentes podem ter fragmentos comuns.
Fragmentos:• -OH• -COOH• >C=O• -NH2• -3-indole
60© João Aires de Sousa
Fingerprints
Codificam a presença num composto de determinadas características, por exemplo fragmentos.
0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0
Se forem definidos 20 fragmentos, o fingerprint tem um comprimento de 20.
Representação ambígua. Permite pesquisas de semelhanças.
61© João Aires de Sousa
‘Hashed Fingerprints’
Codificam a presença de sub-estruturas. Estas não estão previamente definidas.
São listados todos os padrões de• 1 átomo• 2 átomos ligados e a sua ligação• Sequências de 3 átomos e as suas ligações• Sequências de 4 átomos e as suas ligações• …
Padrões até 3 átomos • C, N, O• C-C, C-N, C=O, C-O• C-C-C, C-C-N, C-C=O, C-C-O, O=C-O
62© João Aires de Sousa
‘Hashed Fingerprints’
Cada padrão activa um determinado nº de posições do fingerprint (bits), por exemplo duas:
C-N C-C-C C-C=O
0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0
Os bits que são activados por um dado padrão são determinados por um algoritmo. O mesmo padrão activa sempre os mesmos bits. O algoritmo é capaz de atribuir bits a qualquer padrão que apareça.
Pode haver colisões. Não é preciso pré-definir fragmentos. Mas também não é possível interpretar os fingerprints.
63© João Aires de Sousa
‘Hashed Fingerprints’
C-N C-C-C C-C=O
0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0
Átomos de H omitidos. Estereoquímica não considerada.
Variáveis a definir: comprimento do fingerprint, tamanho dos padrões e nº de bits activados por cada padrão.
Principal aplicação: pesquisa de semelhanças em grandes bases de dados.
64© João Aires de Sousa
‘Hashed Fingerprints’Influência das variáveis
Comprimento do fingerprint:• muito pequeno ⇒ quase todos os bits=1, não distingue moléculas.• muito grande ⇒ muitos bits=0, desperdiça espaço.
Tamanho máximo dos padrões:• muito pequenos ⇒ pouca capacidade para distinguir moléculas.• muito grandes ⇒ capacidade para distinguir moléculas, mas muitos
bits=1.
Nº de bits activados por cada padrão:• poucos ⇒ pouca capacidade para distinguir padrões.• muitos ⇒ capacidade para distinguir padrões, mas muitos bits=1.
Mais em: http://www.daylight.com/dayhtml/doc/theory/theory.finger.html
65© João Aires de Sousa
‘Hashed Fingerprints’ou Daylight fingerprints
Podem ser calculados com o comando generfp do programa JCHEM (Chemaxon).
Comprimento (em bytes)
Tamanho máximo dos padrões
Nº de bits activados por padrão
Ficheiro de input
Ficheiro de output
66© João Aires de Sousa
‘Hashed Fingerprints’ou Daylight fingerprints
Podem ser calculados com o comando generfp do programa JCHEM (Chemaxon).
67© João Aires de Sousa
Cálculo de semelhanças com fingerprints
A semelhança entre dois compostos X e Y pode ser calculada com base na semelhança entre os seus fingerprints.
a = nº de bits ‘on’ no composto X mas não no Y.b = nº de bits ‘on’ no composto Y mas não no X.c = nº de bits ‘on’ tanto no composto X como no Y.d = nº de bits ‘off’ tanto no composto X como no Y.
n = ( a + b + c + d ) é o total de bits
Coeficiente Euclideano:( c + d ) / n (quantos bits são iguais em X e Y)
Coeficiente de Tanimoto:c / (a + b + c)
68© João Aires de Sousa
‘Hash codes’
São transformações da estrutura molecular numa sequência de letras e/ou números. Codificam fragmentos existentes na molécula.
Têm comprimento variável, dependente do composto.
Não são interpretáveis. São usados como identificadores únicos de estruturas, por exemplo para pesquisar rapidamente numa grande base de dados se existe um determinado composto.
Também podem ser definidos para átomos ou ligações.
69© João Aires de Sousa
Representação da estereoquímica
Regras Cahn-Ingold-Prelog (CIP)
Úteis para nomenclatura mas difíceis de implementar: determinação das prioridades.
Mas num ficheiro Molfile? Os átomos estão ordenados…Podemos atribuir prioridades consoante a numeração no ficheiro.
1
2
3
1
2
3
Prioridades CIP: OH > CO2H > CH3 > H
70© João Aires de Sousa
Representação da estereoquímica
Paridade nos ficheiros Molfile
1. Numerar os 4 átomos ligados a um centro quiral de 1 a 4 de acordo com a numeração no bloco dos átomos (se um for H atribui-se o número 4).
2. Olhar para o centro quiral de modo que a ligação ao átomo 4 fica
para trás do plano definido pelos átomos 1, 2 e 3.
3. Se a ordem ascendente (1,2,3) está no sentido dos ponteiros do relógio, a paridade é ‘1’. No caso contrário é ‘2’.
71© João Aires de Sousa
Representação da estereoquímica
Ficheiro Molfile
Centro quiral: átomo 1. Ligandos: átomos 2, 3, 4 e H. Considera-se H o último. Visualiza-se o centro quiral com o último para trás (é como está na Figura). A ordem ascendente é no sentido contrário ao relógio.
Logo paridade = 2.
72© João Aires de Sousa
Representação da estereoquímicaficheiro Molfile
Centro quiral: átomo 4. Ligandos: átomos 1, 3, 5 e H. Considera-se H o último. Visualiza-se o centro quiral com o último para trás (é como está na Figura). A ordem ascendente é no sentido do relógio.
Logo paridade = 1.
1. Numerar os 4 átomos ligados a um centro quiral de 1 a 4 de acordo com a numeração no bloco dos átomos.
2. Olhar para o centro quiral de modo que a ligação ao átomo 4 fica para trás do plano definido pelos átomos 1, 2 e 3.
3. Se a ordem ascendente (1,2,3) está no sentido dos ponteiros do relógio, a paridade é ‘1’. No caso contrário é ‘2’.
73© João Aires de Sousa
Representação da estereoquímicaficheiro Molfile - bloco das ligações
74© João Aires de Sousa
Representação da estereoquímicano formato SMILES
A quiralidade num centro tetraédrico é especificada com os caracteres @ (sentido oposto ao do relógio) ou dois @ (sentido do relógio). Olhando a partir do 1º ligando que aparece no SMILES, os outros três aparecem no sentido do relógio ou oposto a este na ordem listada.
C[C@H](N)C(O)=O
O
NH2
H3C
OH
1º
Centro quiral
2º 3º 4º
1º
2º
3º
4º>(
2º
3º
4º
@
75© João Aires de Sousa
Representação da estereoquímicacis-trans de ligações duplas
A estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres ‘\’ e ‘/’.
Cl
ClPor exemplo trans-1,2-dicloroeteno é Cl/C=C/Cl (a partir do 1º cloro a ligação vai para cima para C=C e desta vai para cima para o 2º cloro).
Cl Cl
cis-1,2-dicloroeteno é Cl/C=C\Cl (a partir do 1º cloro a ligação vai para cima para C=C e desta vai para baixo para o 2º cloro).
76© João Aires de Sousa
Representação da estereoquímicacis-trans de ligações duplas
A estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres ‘\’ e ‘/’.
C\C(F)=C(/C)Cl
Dois substituintes cis
F Cl
H3C CH3
Ligação para baixoLigação para cima
77© João Aires de Sousa
Representação da estrutura 3D
A estrutura tridimensional determina muitas propriedades das moléculas (por exemplo muitas propriedades biológicas).
Isomeria conformacional – rotação em torno de ligações rotáveis.
Diferentes confórmeros têm diferentes energias. Interconvertem-se mais ou menos rapidamente uns nos outros.
78© João Aires de Sousa
Representação da estrutura 3D
Representação mais habitual consiste num sistema de coordenadas Cartesianas, ou seja, nas coordenadas x, y e z de cada átomo.
Para uma mesma conformação existem infinitas coordenadas possíveis, dependendo da orientação da estrutura relativamente aos eixos de referência.
No formato Molfile podem listar-se as coordenadas 3D.
79© João Aires de Sousa
Representação da estrutura 3D no formato Molfile
80© João Aires de Sousa
Representação da estrutura 3D
Também é possível representar apenas as coordenadas Cartesianas, sem especificação das ligações. Estas podem inferir-se com razoável segurança a partir das distâncias 3D entre os átomos. Mas exige pós-processamento por algum software.
81© João Aires de Sousa
Representação da estrutura 3D
Outra representação da estrutura 3D é a matriz Z, em que se especificam coordenadas internas (comprimentos de ligação, ângulos de ligação e ângulos diedros). Usada em input de cálculos de mecânica quântica. Ex. para ciclopropano:
C 0.00 0.00 0.00 0 0 0C 1.35 0.00 0.00 1 0 0C 1.35 60.00 0.00 2 1 0H 1.10 110.00 120.00 3 2 1H 1.10 110.00 240.00 3 2 1H 1.10 110.00 120.00 2 1 3H 1.10 110.00 240.00 2 1 3H 1.10 110.00 120.00 1 2 3H 1.10 110.00 240.00 1 2 3
dist. ao át. 1dist. ao át. 2
âng 1-2-3
âng 9-1-2-3
82© João Aires de Sousa
Geração da estrutura 3D
Métodos teóricos:
ab initio (ex. Gaussian)
semi-empíricos (ex. Mopac)
mecânica molecular (ex. Mopac, Chem3D)
Métodos empíricos (ex. CONCORD, CORINA)
usam fragmentos com geometrias previamente definidas
usam regras
usam bases de dados de geometrias
usam optimizações simples
83© João Aires de Sousa
Geração da estrutura 3D
Chemaxon’s Marvin
84© João Aires de Sousa
Geração da estrutura 3D
Chemaxon’s Standardizer
85© João Aires de Sousa
Geração da estrutura 3D - CORINA
http://www.mol-net.com/online_demos/corina_demo.html
86© João Aires de Sousa
Representação de superfícies moleculares
A estrutura 3D apresentada até aqui é o ‘esqueleto’ da molécula, mas a molécula tem ‘pele’… a superfície molecular.
A superfície molecular divide o espaço 3D num volume interno e num volume externo. Isto é apenas uma analogia com objectos macroscópicos porque as moléculas não podem ser tratadas simplesmente pelas leis da mecânica clássica. A densidade electrónica é contínua e existe uma probabilidade de encontrar um electrão em qualquer ponto do espaço (tende para zero a distâncias infinitas dos núcleos).
A distribuição electrónica “à superfície” é determinante das interacções que uma molécula pode estabelecer com outras (ex. docking com proteína).
87© João Aires de Sousa
Representação de superfícies moleculares
A superfície molecular pode exprimir diferentes propriedades, como a carga, o potencial electrostático, ou a hidrofobicidade, usando cores.
Estas propriedades podem ser determinadas experimentalmente (RMN 2D, cristalografia de raios-X e criomicroscopia electrónica dão indicações sobre as características 3D das moléculas), ou calculados teoricamente.
Há diversos modos de definir a superfície. Superfícies mais usadas: superfície de van der Waals, superfície acessível a um solvente e superfície de Connolly.
88© João Aires de Sousa
Superfícies de van der Waals
É a superfície molecular mais simples. Pode ser determinada a partir dos raios de van der Waals de todos os átomos. Cada átomo é representado por uma esfera. As esferas de todos os átomos são fundidas – o volume total é o volume de van der Waals e o envelope define a superfície de van der Waals. É rápida de calcular.
89© João Aires de Sousa
Superfícies de Connolly
É gerada simulando uma esfera a rolar sobre a superfície de van der Waals. A esfera representa o solvente. O raio da esfera pode ser escolhido (normalmente 1.4 Å, raio efectivo da água). A superfície de Connolly tem duas regiões: superfície de contacto convexa (segmento da superfície de van der Waals) e superfície côncava (onde a esfera tem contacto com dois ou mais átomos).
90© João Aires de Sousa
Superfície acessível ao solvente
É a superfície definida pela trajectória do centro da esfera que gera a superfície de Connolly.
91© João Aires de Sousa
Superfícies moleculares com o MarvinSpace
92© João Aires de Sousa
Superfícies moleculares com o MarvinSpace
93© João Aires de Sousa
Superfícies moleculares com o MarvinSpace
94© João Aires de Sousa
Superfícies moleculares com o MarvinSpace
95© João Aires de Sousa
Representação de reacções
96© João Aires de Sousa
Reacções em Quimio-informática
• Arquivo de informação sobre reacções em bases de dados.
• Pesquisa de informação sobre reacções em bases de dados.
• Comparação e análise de conjuntos de reacções.
• Definir a generalidade/limitações dum tipo de reacção.
• Desenvolver modelos de reactividade.
• Prever o resultado de reacções.
• Analisar redes de reacções (ex. sínteses orgânicas, vias metabólicas, vias de degradação de compostos na atmosfera).
• Desenvolver métodos para o design de sínteses.
Tipos de problemas:
97© João Aires de Sousa
Representação de reacções
• Reacções no formato SMILES
• Reacções no formato RDF (derivado de Molfile)
• Especificação dos centros da reacção
98© João Aires de Sousa
Representação de reacções em SMILES
SMILES_1.SMILES_2 >> SMILES_3.SMILES_4
Reagente 1
Reagente 2
Produto 1
Produto 2
Representa a seta
Representa o ‘+’
Exemplo: CC=O.CCCN>>CCC\N=C\C.O
99© João Aires de Sousa
Representação de reacções em SMILES
Exemplo: CC=O.CCCN>>CCC\N=C\C.O
100© João Aires de Sousa
Representação de reacções em SMILES
Compostos que não intervêm na reacção(ex. solventes ou catalisadores)
CCC(=O)O.OCC>[H+].[Cl-].OCC>CCC(=O)OCC.O
101© João Aires de Sousa
Representação de reacções em formato RXN
nº de reagentes
nº de produtos
Molfile do 1º reagente
Molfile do 2º reagente
102© João Aires de Sousa
Representação de reacções em formato RXN
Molfile do 1º produto
Molfile do 2º produto
103© João Aires de Sousa
Representação de reacções em formato RDF
Várias reacções em formato RXN no mesmo ficheiro
104© João Aires de Sousa
Especificação do centro da reacção
Ligações que se quebram
Ligações que se formam
Se estas ligações estiverem identificadas, é mais fácil, por exemplo, encontrar numa base de dados reacções iguais mas com reagentes diferentes.
105© João Aires de Sousa
Especificação do centro da reacção no formato RDF
106© João Aires de Sousa
Especificação do centro da reacção no formato RDF
( http://www.mdli.com/downloads/public/ctfile/ctfile.jsp )
107© João Aires de Sousa
Mapeamento átomo-a-átomo
Que átomos dos reagentes correspondem a que átomos dos produtos.
108© João Aires de Sousa
Mapeamento átomo-a-átomo no formato
RDF
109© João Aires de Sousa
Especificação do centro da reacção com o MarvinSketch
Clicar com o botão direito do rato sobre uma ligação
110© João Aires de Sousa
Mapeamento átomo-a-átomocom o MarvinSketch