53
+ Bioinformática Genômica, Transcritômica e Metagenômica Gabriel da Rocha Fernandes Universidade Católica de Brasília [email protected] - [email protected]

Gabriel - Bioinfo Grad - Aula 2 06-12-2014

Embed Size (px)

DESCRIPTION

bioinformática

Citation preview

Page 1: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

BioinformáticaGenômica, Transcritômica e Metagenômica

Gabriel da Rocha FernandesUniversidade Católica de Brasília

[email protected] - [email protected]

Page 2: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Estratégia de sequenciamento

2

Page 3: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Estratégia de sequenciamento

3

Page 4: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Sequenciadores

4

Page 5: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Arquivos de sequências

nAB1 e ESD - Sanger

nFastq - Illumina

nSFF - 454

nEsses arquivos tem que ser processados e a sequencia FASTA gerada.

nAlguns programas disponibilizam também o arquivo de qualidade das sequencias.

nPossível montagem sem a conversão em FASTA.

5

Page 6: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+FastQ

6

Page 7: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Qualidade

7

Page 8: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Montagem

8

Page 9: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise de sequências?

nTransformar os dados do sequenciador em conhecimento biológico.

nBase calling.

nMontagem.

nPredição de genes.

nIdentificação de promotores e marcadores.

nGenômica comparativa.

9

Page 10: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Montagem do genoma

nAlinhamento das sequencias para geração de um consenso.

nIdentificação e eliminação dos gaps.

10

Page 11: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Predição de genes

11

Page 12: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise Funcional

nAssocia uma função aos genes preditos.

nBaseada na homologia entre sequências.

nUtiliza bases de dados de sequências conhecidas e programas de alinhamento.

12

Page 13: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Transcritoma

13

nConjunto de todas as moléculas de RNA encontradas em uma população celular:n mRNAn tRNAn rRNAn miRNA

nTotal de transcritos encontrados em um organismo, tipo celular, condição...

nReflete os genes que estão sendo expressos em um determinado momento.

nSnapshot da função celular.

Page 14: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Métodos de estudo

nExpressed Sequence Tags.

nSequenciado por método de Sanger.

nClonagem dos fragmentos usando vetores.

nNão funciona em procariotos.

nLow throughput.

14

Page 15: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Métodos de estudo

15

nMicroarray.

nArranjos com os genes em locais determinados.

nComparação de amostras par a par.

nHibridização.

Page 16: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Next Generation Sequencing

16

Page 17: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Custo do sequenciamento

17

Page 18: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+RNA-seq

nUltra larga escala.

nNão necessita de clonagem.

nBaixo custo.

nValores absolutos.

nAnálise multi amostras.

nGrande cobertura.

18

Page 19: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Protocolo

nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo:

nRemoção de rRNA.

nAmplificação por PCR.

nConversão a cDNA.

nSingle read ou pair end.

19

Page 20: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Genoma referência vs. Montagem de novo

nMapeamento dos reads a um genoma referência.n Quantificação da expressão.n Identificação de variantes de splicing.

nMontagem de novo do transcritoma.n Caracterização dos genes expressos.n Identificação de isoformas.n Ausência de genoma referência.

20

Page 21: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+O que sai do sequenciador?

nFormato padrão para análises é o FastQ.

n @SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC+!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65

nPrimeira linha: identificador da sequência.n Nome da sequência.n Informação sobre filtros.

nTerceira linha: qualidade da chamada da base (em código).

21

Page 22: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Montagem

22

Page 23: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Mapeamento e quantificação

nAs sequências produzidas são mapeadas a um genôma referência.

nAlinhou em apenas uma região = ótimo.

nAlinhou em mais que uma região = dilema.

nO uso de replicatas é FUNDAMENTAL!

23

Repl. 1 Repl. 2 Repl. 3

Gene A 5 3 12

Gene B 16 25 35

Gene C 10 15 3

Gene D 750 500 500

Gene E 1504 1005 1030

Page 24: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.n Ambos os genes se expressam na mesma intensidade, mas o Gene E é

duas vezes maior que o Gene D.n Ambos os genes tem o mesmo tamanho e se expressam na mesma

intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.

nA causa é os três ao mesmo tempo.

nMas quando analisamos o mesmo gene em 2 condições diferentes, os efeitos 2 e 3 são desconsiderados.

24

Page 25: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Identificando genes diferencialmente expressos.

nComparar diferentes condições: controle com testes.n Célula normal com célula tumoral.n Planta sem e com estresse hídrico.n Animal sem e com parasita...

nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes.

nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental.

nAplicação de testes estatísticos.

25

Page 26: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Identificando genes diferencialmente expressos.

nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição.

26

Page 27: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Sou pobre, não vou usar replicata.

nLição de vida:n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,

tem 10 reads.n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!

n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.

n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo.

nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes.

27

Page 28: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Replicata técnica vs. Replicata biológica

nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene...

nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento.

28

Page 29: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Fontes de variaçãoVariância de Poisson

nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado.

nComo é baseado no valor da contagem em si, não é específico do experimento.

nEssa variância está relacionada a quantidade total de reads.

nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X.

29

Page 30: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Fontes de variaçãoVariância de Poisson

30

Page 31: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Fontes de variaçãoVariação Técnica Não-Poisson

nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente.

nVisto em replicatas técnicas.

nCausas:n Seleção de miRNA.n Depleção de rRNA.n Amplificação por PCR.n Armazenamento.n RNA-later.

nMoral da história: Manipule sua amostra o mínimo possível.

31

Page 32: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Fontes de variaçãoVariação Biológica

nOcorre naturalmente nas amostras.

nA expressão naturalmente flutua em células sob a mesma condição.

nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente.

nVariação biológica também sofre a influência das outras duas variações vistas.

32

Page 33: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Filosofando...

nMais replicatas vs. Mais reads.

nComo lidar com batch-effects?

nPreciso validar com RT-PCR?

nEu considero como diferencialmente expresso genes com p-value < 0.01.

nCalcular FDR (False discovery rate)

nLeia artigos que tenham usado benchmarks.

nConverse com o bioinformata que vai fazer as análises.

33

Page 34: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Metagenômica

nMetagenoma: material genético recuperado diretamente de amostras ambientais.

nFornece informações sobre os organismos em seu habitat natural.

Page 35: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Metagenômica

nCerca de 99% das bactérias não são cultiváveis.

nPermite o estudo de organismos que não são facilmente cultivados em laboratório.

nIdentificação de funções em espécies ainda não identificadas.

Page 36: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise do gene do rRNA 16s

nGene altamente conservado em bactérias e archaea.

nRegião hiper variável confere sequências com assinatura específica.

nFornece um perfil da diversidade na amostra.

Page 37: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Whole Genome Shotgun e nova geração de sequenciadores

nPermite uma visão mais global da comunidade.

nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos.

nEstudo de genes completos e de vias metabólicas da comunidade.

nReconstrução dos genomas.

nDemanda intensa análise bioinformática.

Page 38: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Etapas da análise metagenômica

nFatores influentes.

nInterdependências ocultas.

Page 39: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Métodos de estudo - Funcional

nIsolamento do DNA da amostra.

nClonagem do DNA em um hospedeiro.

nExpressão do gene e análise funcional.

nAnálise das sequências.

Page 40: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Métodos de estudo - Genômico

nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado.

nPermite montagem de todo metaboloma.

nAnálise filogenética.

nMetagenômica comparativa.

Page 41: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise filogenética e funcional

Page 42: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Pipeline de análise

Page 43: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Assinatura filogenética

nCada read é associado a um organismo (espécie, gênero, família…)

nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI.

nFerramenta de alinhamento.

nValores de identidade para definir o nível cladístico assinado.

88% 98% 99%

Bacteroides fragilis

Escherichia coli

70%

Page 44: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Assinatura filogenética

nComposição geral da amostra

nPrograma: MEGAN

nAgrupa multiplos alinhamentos em um nível cladístico.

Page 45: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise filogenética

nQual clado prevalece na amostra?

nExiste um perfil filogenético?

nIdentificação de marcadores filogenéticos.

nAssociação da presença de um clado a uma determinada característica.

Page 46: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Anotação funcional

nAvaliar o potencial genético da amostra.

nMontagem dos contigs.

nPredição dos genes.

nAlinhamento dos genes preditos a uma base de dados.

Page 47: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Análise funcional

nQual função está mais presente?

nExiste alguma função do seu interesse?

nMontagem do mapa metabólico do ambiente.

nRastrear a função e identificar o organismo que executa.

Page 48: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

Page 49: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

Page 50: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

Page 51: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

Page 52: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+

Page 53: Gabriel - Bioinfo Grad - Aula 2 06-12-2014

+Visualização