Upload
lamnhan
View
218
Download
0
Embed Size (px)
Citation preview
Biologia In Silico - Centro de Informática - UFPE
Ivan G. Costa [email protected]
Centro de InformáticaUniversidade Federal de Pernambuco
Análise de Dados de Expressão Gênica
Biologia In Silico - Centro de Informática - UFPE
Tópicos
• O que e expressão gênica?• Como medir expressão gênica?• Aspectos básicos da analise …
– pré-processamento, expressão diferencial
– analise de agrupamento e classificação.
– desvendar mecanismos de regulação gênica
http://www.cin.ufpe.br/~igcf/aeg.html
Biologia In Silico - Centro de Informática - UFPE
Disciplina
• Aulas - Marco a Abril– introdução de conceitos básicos
• Seminários - Abril a Maio– apresentação de artigos de analise de
expressão gênica (individual)• Projeto Maio a Junho
– analise de dados reais (de artigos discutidos) em grupo
– aulas práticas
Biologia In Silico - Centro de Informática - UFPE
Avaliação
• 50% - apresentação dos seminários– avaliação pelos companheiros de
classe e presença
• 50% - projeto (nota individual)– cada grupo é responsável por
descrever a participação
Biologia In Silico - Centro de Informática - UFPE
Bibliografia
• H. Causton, J. Quackebush, A. Brazma, Microarray Gene Expression Data Analysis, Blackwell publishing, 2003.
• Ver pagina para literatura especifica de cada aula …
http://www.cin.ufpe.br/~igcf/aeg.html
Biologia In Silico - Centro de Informática - UFPE
Biologia Molecular e
Expressão Gênica
Biologia In Silico - Centro de Informática - UFPE
Entender a vida a nível celular
• Como a informação genética é herdada
• Como a informação genética influencia processos celulares
• Como genes trabalham juntos para realizar uma função celular
Biologia In Silico - Centro de Informática - UFPE
Informação Genética - DNA
• DNA (ácido desoxirribonucleico) – Cadeia de
nucleotídeos – 4 tipos: A;C;G;T– forma fita dupla a
partir da complementaridade.
• A = T e C = G
Biologia In Silico - Centro de Informática - UFPE
Dogma Central - Transcrição
• Transcrição – DNA para RNA
• RNA (acido ribonucléico)– fita simples.– 4 tipos: A;C;G;U– Moléculas instáveis– Transporte de
informação do núcleo ao citoplasma
Biologia In Silico - Centro de Informática - UFPE
Dogma Central - Transcrição
• Transcrição – copia seqüência de bases do DNA para o RNA (com U ao invéss de T).
Biologia In Silico - Centro de Informática - UFPE
Dogma Central - Tradução
• Tradução– RNA -> Proteínas– realizada pelo ribossomo– Código genético
• Proteínas– cadeia de aminoácidos– 20 tipos diferentes– adquire uma estrutura tri-
dimensional– entidades funcionais da
célula
Biologia In Silico - Centro de Informática - UFPE
Tradução - Código Genético
• Combinações de códons (3 bases) codificam um dos 20 aminoácidos.
Biologia In Silico - Centro de Informática - UFPE
Tradução
• Animação!
Biologia In Silico - Centro de Informática - UFPE
Dogma Central
• Dogma: fluxo de informação
DNA → mRNA → Proteína• Gene: segmento de DNA
codificando uma proteína.• Transcrito: segmento de
RNA transcrito de uma gene.
• Um gene corresponde a uma proteína e uma função celular.
Biologia In Silico - Centro de Informática - UFPE
Controle da Expressão Gênica
• Como se da o controle da expressão gênica?
• Certas proteínas, fatores de transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição.
Biologia In Silico - Centro de Informática - UFPE
Controle da Regulação Gênica
Biologia In Silico - Centro de Informática - UFPE
Controle da Regulação Gênica
• Animacao!
Biologia In Silico - Centro de Informática - UFPE
Expressão Gênica
Biologia In Silico - Centro de Informática - UFPE
Expressão Gênicae Organismos
Biologia In Silico - Centro de Informática - UFPE
Complexidade de Organismos
• Levedura: 6,000 genes• Drosophila: 13,500 genes• Camundongo: 22,000 genes• Chimpanzé: 20,000 genes • H. Sapiens: 20,000 genes
Biologia In Silico - Centro de Informática - UFPE
Complexidade Celular
Biologia In Silico - Centro de Informática - UFPE
Complexidade Organismos Celulas• Regulação Transcripcional :
– Controla a quantidade e quais genes são transcritos.
• Splice alternativo:– um gene codifica mais de uma proteína.
• Formação de complexos:– Proteínas de agrupam em complexos para
realizar uma tarefa celular. • Epigenética, regulação pós-
transcripcional, …
Biologia In Silico - Centro de Informática - UFPE
Biologia Molecular no tempo dos `- ômas´• Genoma: conjuntos de genes de um organismo
– seqüenciadores sanger, seqüenciadores de 2da geração
• Transcriptôma: quantidade de transcritos em uma célula– micro-arranjos, SAGE, PCR, hibridização in-situ …
• Proteôma - quantidade de proteínas em uma célula – Espectrômetro de massa
• Interactôma – conjunto de complexos de proteínas em uma célula– `Yeast two-hybrid analysis´, purificação de afinidade
• Regulômica, Epigenômica, Metabôlomica, …
Biologia In Silico - Centro de Informática - UFPE
Biologia ComputacionalDesafio
Desenvolvimento de técnicas computacionais/estatísticas para
entender sistemas vivos a partir de dados de `omicas´
Biologia In Silico - Centro de Informática - UFPE
Biologia Molecular no tempo dos `- ômas´• Genoma: conjuntos de genes de um organismo
– seqüenciadores sanger, seqüenciadores de 2da geração
• Transcriptôma: quantidade de transcritos em uma célula– micro-arranjos, SAGE, PCR, hibridização in-situ …
• Proteôma - quantidade de proteínas em uma célula – Espectrômetro de massa
• Interactôma – conjunto de complexos de proteínas em uma célula– `Yeast two-hybrid analysis´, purificação de afinidade
• Regulômica, Epigenômica, Metabôlomica, …
Biologia In Silico - Centro de Informática - UFPE
Transcriptômica
Biologia In Silico - Centro de Informática - UFPE
Medindo TranscriçãoHibridização Complementar
Biologia In Silico - Centro de Informática - UFPE
Medindo TranscriçãoMicro-arranjos
• Um experimento mede a expressão de 10.000 de genes.
• Problemas:– qualidade dos
dados
Biologia In Silico - Centro de Informática - UFPE
Analise de dados de Micro-arranjos
• Diagnostico Personalizado– Dado a expressão de diversos tipos de câncer,
qual o tipo de câncer de um paciente novo?
• Expressão diferencial– Dado a expressão de pacientes com ou sem
câncer indicar quais genes tem alta ou baixa expressão
• Detecção de Módulos Funcionais/Regulatorios– Dado a expressão de uma célula em um
determinado processo• Divisão celular, desenvolvimento, tratamentos
– Quais genes tem o mesmo padrão de expressão?
Biologia In Silico - Centro de Informática - UFPE
Diagnostico Personalizado
Biologia In Silico - Centro de Informática - UFPE
Diagnostico Personalizado• Usar metodos de aprendizagem de maquina para fazer a classificacao de pacientes
• Desafios:• Normalmente existem poucos tecidos de
cancer• Retornar um padrao de confiaca• Explicar decisoes do classificador• Descoberta de novos sub-tipos de cancer• Replicabilidade de experimentos
Biologia In Silico - Centro de Informática - UFPE
Expressão Diferencial
• Usar métodos estatísticos para listar genes ativos ou inativos em uma determinada celular• Ie. câncer X não
câncer• Desafios:
• O que fazer quando mais de uma condição existe?
• Como definir limiar da lista de genes diferencias?
• …
Biologia In Silico - Centro de Informática - UFPE
Detecção de Módulos Funcionais/RegulatoriosModulo Funcional: conjunto de genes
associados a mesma função biológica
• genes tem o mesmo padrão de transcrição
• genes tem o mesmo reguladores
Usar métodos de aprendizagem não supervisionada/clustering
Biologia In Silico - Centro de Informática - UFPE
Modulos FuncionaisEstudo do Ciclo Celular da Levedura
• Processo de divisão celular
• Medir a expressão gênica de células ao decorrer do ciclo.
Biologia In Silico - Centro de Informática - UFPE
Modulos Funcional Ciclo Celular
tempo
gen
es
metodode clustering
Gru
po 1
Gru
po 2
Gru
po 3
Gru
po 4
YIR017CYJL118WYER019WYDR113CYJR043CYPL016WYBR156CYKR010CYPR141C...
YDL093WYER016WYNL126WYKL053WYJL099WYDL198CYCR085WYBR043CYDR325W...
Gu
rpos d
e g
en
es
---
---
Biologia In Silico - Centro de Informática - UFPE
3‘ UTRORF
Modulo RegulatoriosCiclo Celular
Gru
po 1
Gru
po 2
Gru
po 3
Gru
po 4
YIR017CYJL118WYER019WYDR113CYJR043CYPL016WYBR156CYKR010CYPR141C...
YDL093WYER016WYNL126WYKL053WYJL099WYDL198CYCR085WYBR043CYDR325W...
---
---
miR142
miR26a
miR181a
Biologia In Silico - Centro de Informática - UFPE
Ferramentas para Analise de Expressão Gênica
Biologia In Silico - Centro de Informática - UFPE
Bancos de dados
• Gene Expression Omnibus (ncbi)– http://www.ncbi.nlm.nih.gov/geo/
• Stanford Microarray Database– http://smd.stanford.edu/
• Array Express– http://www.ebi.ac.uk/microarray-as
Biologia In Silico - Centro de Informática - UFPE
Software
• Bioconductor (em R)– www.bioconductor.org– Pré-processamento, clustering, classificação
• GeneCluster– eisen.lbl.gov/EisenSoftware.html– Clustering e Red-green plots
• MiDAs/MEV – TIGR– www.tigr.org/softlab– Pre-processamento, clustering e
classificação