40
Biologia In Silico - Centro de Informática - UFPE Ivan G. Costa Filho [email protected] Centro de Informática Universidade Federal de Pernambuco Classificação Expressão Gênica

Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Ivan G. Costa [email protected]

Centro de InformáticaUniversidade Federal de Pernambuco

Classificação Expressão Gênica

Page 2: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Tópicos

• O que é classificação?• Representação de dados• Visualização• Classificação

– Classificação de câncer– Analise de sobrevivência

Page 3: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Representação dos Dados Tabela X com N genes X L amostras

proveniente do pré-processamento Valores absolutos (ex. Affymetrix) Valores relativos (ex. CDNA) Podem conter dados faltosos (NA)

Cond A Cond B Cond CGene 1 -1,1 0,1 1,5Gene 2 3,1 3,4 2,1Gene 3 -2,2 -1,9 NA

Cond A Cond B Cond CGene 1 100 200 400Gene 2 2000 2400 1500Gene 3 100 100 50

Page 4: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Representação de Dados Valores Relativos (razão do log)

Valoriza genes com mesmo padrão de expressão

Baseado no fato de que certos genes são X-vezes mais expressos que outros

Valores Absolutos Valoriza genes com mesmos valores de

expressão Mantêm informação se expressão média

é baixa ou alta

Page 5: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Visualização I

Amostras

Gen

es

Gráficos Red-greenQualquer cores

(vermelho/azul)Escala logarítmica

Colunas/linhas são ordenadas para ter vizinhos similaresTree-leave ordering (Bar-

Joseph)Estatísticas de expressão

diferencial (t-score)

Page 6: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Visualização I

Amostras

Gen

es

Gráficos Red-green Qualquer cores

(vermelho/azul) Escala logarítmica

Colunas/linhas são ordenadas para ter vizinhos similares

Tree-leave ordering (Bar-Joseph)

Estatísticas de expressão diferencial (t-score)

Page 7: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Visualização II

Gráficos Scatter Pontos

representam amostras

Necessitam técnicas de redução de dimensão (PCA)

Escolha de poucos genes (2-3) discriminativos

Page 8: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação

Page 9: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Diagnóstico Personalizado Atualmente diagnostico é baseado em

aspectos macro-moleculares Sintomas do pacientes, morfologia de

tumores, ... Desafio: Realizar diagnostico medico

usando (também) informação genética de pacientes

Expressão gênica, polimorfismos (não vamos ver!)

Previsão de resposta a tratamentos

Page 10: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação

Dados matriz X (expressão) classificação Y (tipos

de câncer) Achar uma função

f(x) → yGen

e 1

Gene 2

Page 11: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação

Dados matriz X (expressão) classificação Y (tipos

de câncer) Achar uma função

f(x) → y Diagnosticar novo

paciente f(x') → y'

Gen

e 1

Gene 2

novo paciente ?

Page 12: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificador Linear

Função Linearf (x , A) = a0+a1x1+...+aLxL

f ( x, A) > 0 ⇒ classe A

f ( x, A) ≤ 0 ⇒ classe B

Apenas para 2 classes Achar coeficientes A

estimação Achar genes relevantes

Seleção de atributos

Gen

e 1

Gene 2

Page 13: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação LinearEstimação

Função Linearf (x , A) = a0+a1x1+...+aLxL

y = -1 (se classe A)

y = 1 (se classe B)Achar A maximizando

Pode ser estimado com perceptron, SVM, programação linear

2

1

( ( , ) )N

i ii

f x A y

Page 14: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação LinearProblemas

• Nem sempre classes são linearmente separáveis

• Treinamento sempre gera erro!

• Solução: usar funções não lineares

Page 15: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Avaliação

• Como avaliar métodos de classificação?

– A acurácia de um método é sempre baseado em exemplos não usados no treinamento

• Validação cruzada• Validação Leave-one-out • ...

Page 16: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Validação cruzada r-Fold

X

Treino Teste

Média e desvio-padrão

de desempenho

r=3

• Quando r = no dados leave-one-out

Page 17: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação Não-Linear

• Função Polinomialf (x , A) = a0+ a11x

31+...

+aL1x3

L

a12x2

1+...+aL2x

2L

a12x1+...+aL2xL

Exemplo função de terceira ordem

Problema: Mais parâmetros!

Page 18: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificação (Não)-LinearProblemas

• Quais genes usar para a classificação?

• Bases contem poucos pacientes e muitos genes.

Page 19: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade • Volume do espaço cresce

exponencialmente com a dimensão

• Pontos (pacientes) são distribuídos esparsamente no espaço.

Page 20: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade

• Exemplo de espaço esparso

– Três genes– 2 exemplos

de treino

Page 21: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade

• Exemplo de espaço esparso

– Três genes– 2 exemplos

de treino• Milhares de

„bons“ classificadores são possíveis (no treino)

Page 22: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade

• Novo exemplo para classificação (verde)

• Nenhum dos classificadores generaliza!

• Exemplo clássico de overfitting!

Page 23: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade II

• Funções complexas (mais parâmetros)

funções polinomiais

• Muito mais alternativas de funções!

• São mais propensas a overfitting

Page 24: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da Dimensionalidade na Pratica

• O uso de mais de 30 genes leva a overfitting!

QDA – discriminador quadrático e LDA – discriminador linear

Page 25: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Maldição da DimensionalidadeSoluções:• Usar classificadores baseados

em modelos com limite de soluções

– Exemplo: classificadores de margem larga

• Reduzir o espaço ao usar apenas dados relevantes

Page 26: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Classificadores de Margem Larga

• Requer uma margem (m) entre a linha de decisão

• Achar A maximizando

• Sugeito a

• Exemplo: SVMs

m

| ( , ) |if x A m

2

1

( ( , ) )N

i ii

f x A y

Page 27: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Seleção de Atributos

• Quais genes usar?– Questão biológica: quantos/quais

genes são discriminativos para o diagnostico?

– Estatística: Quantos genes são necessários para realizar classificação sem overfitting?

• Bases contem ate 30.000 genes

Page 28: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Seleção de Atributos• Muitos atributos são irrelevantes ao

problema (não diferencialmente expressos)

• Muitos atributos (relevantes ou não) são correlacionados

Page 29: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Estratégias para Seleção de Atributos• Filtros:

• Seleção de genes antes da classificação• Usar métodos de expressão diferencial de

genes.

• Wrappers:• seleção é realizada paralelamente a

aprendizagem• Ex: Nearest Shrunken Centroids, Random

Forests

Page 30: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Filtros

• Usar métodos de expressão diferencial para escolher atributos• T-test, Willcox Test, …• Requer a definição de um numero de

genes ou p-value

Atenção: seleção de atributos é um parâmetro do método a ser ajustar. Deve ser baseado apenas no conjunto de treinamento!

Page 31: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Métodos WrapperNearest Shrunken Centroids

Page 32: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Nearest Shrunken CentroidsEncolher a participação de genes

não discriminativos

Page 33: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Nearest Shrunken CentroidsResultados

• Resultados:– small round blue

cell tumors

• Valores de seleção média são melhores

• Necessita definição do delta.

Page 34: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Random Forests

• Inferir varias arvores de decisão• em subconjuntos dos pacientes

• Escolha baseada em bootstrap

• em subconjuntos de variáveis (genes)• Escolhidos aleatoriamente

• Juntar os vários „classificadores usando métodos ensemble.• Não requer seleção de variáveis e

indica peso final das variáveis.

Page 35: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Atributos Faltosos

• Nem todos os métodos aqui descritos suportam dados faltosos

• Solução: imputar valores faltosos• Weighted Nearest Neighbors

• Procurar os k genes mais próximos• Usar a media ponderada dos valor da

variável faltosa • A ponderação é inversa a distancia dos genes.

Page 36: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Confiança na Classificação

• Em dados clínicos é importante dar um grau de confiança da classificação.

• Ex: distância do exemplo a margem de decisão

Page 37: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Alguns Resultados

Page 38: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Resultados

Page 39: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Considerações Finais

• Cada um desses conjuntos de dados tem características como:• Numero de pacientes, tamanho das classes,

distribuição dos dados, plataforma do array, presença de ruído, …

• É possível que certos classificadores sejam melhor em determinadas situações.

• Como explorar isto?

Page 40: Classificação Expressão Gênicaigcf/aeg/aula-classificacao.pdf · Tabela X com N genes X L amostras ... Gene 1 -1,1 0,1 1,5 Gene 2 3,1 3,4 2,1 Gene 3 -2,2 -1,9 NA Cond A Cond B

Biologia In Silico - Centro de Informática - UFPE

Referencia

• Sandrine Dudoit and Jane Fridlyand, Classification in microarray experiments, Technical Report 2002.