40

Bioestatística

Embed Size (px)

DESCRIPTION

Uma aula de (Bio)Estatística que fiz para ajudar uns colegas a não confundir conceitos (ex: homo e heterocedasticidade, valor de "p", nível de significância, hipóteses nula e alternativa, etc). Espero que seja útil para alguém! Acredito que a aula esteja bem didática e ajude na compreensão da estatística básica ministrada em aulas de (Bio)estatística!

Citation preview

Page 1: Bioestatística
Page 2: Bioestatística
Page 3: Bioestatística

O que é estatística?

• Estatística é a ciência que se ocupa de coletar, organizar, analisar e

interpretar dados para que se tomem decisões.

Média

• Valor que “representa” vários outros.

Ex: Qual foi sua média em fisiologia no segundo semestre?

Suas notas: 9,3; 6,2; 8,5; 5,2.

• “S” = Soma das notas

• “n” = número de notas que você teve

• “M” = Média.

M = S/n = 9,3 + 6,2 + 8,5 + 5,2/4 = 7,3

Page 4: Bioestatística

Medidas de dispersão

• Muitas vezes a média não é suficiente para avaliar um conjunto de

dados. Por exemplo:

• Grupos de mulheres com idade média de 18 anos. Esse dado,

sozinho, não significa muito.No grupo, podem ter muitas mulheres

de 24 anos, outras com 38 anos, e outras tantas com 3 anos de

idade.

• Dispersão – diferença existente entre a média e os valores do conjunto.

• Vamos calcular o desvio (diferença de cada nota em relação à média):

Notas Média Desvio

9,3 7,3 2

6,2 7,3 -1,1

8,5 7,3 1,2

5,2 7,3 -2,1

Page 5: Bioestatística

• Outro dado importante em estatística: Soma dos desvios ao quadrado.

• Cada desvio é elevado ao quadrado e, em seguida, somados.

Variância

• Soma dos quadrados dos desvios dividida pelo número de ocorrências

• V = 11,06/4 = 2,765

Notas Média Desvio Quadrado dos

desvios

9,3 7,3 2 4

6,2 7,3 -1,1 1,21

8,5 7,3 1,2 1,44

5,2 7,3 -2,1 4,41

Soma dos quadrados dos desvios 11,06

Page 6: Bioestatística

Desvio padrão

• Valor obtido a partir da média e da variância

• Desvios foram elevados ao quadrado, portanto, deve-se tirar a raiz

quadrada da variância para achar o desvio padrão:

• Dp = Raiz quadrada (2,765) = 1,663

• O desvio é o quanto varia para mais ou para menos o valor das notas

• Desempenho: “M+Dp” e “M-Dp”

• D = 7,3 + 1,7 = 9

• D = 7,3 - 1,7 = 5,6

Notas Desvio Padrão (+) (-)

9,3 1,7 11 7,6

6,2 1,7 7,9 4,5

8,5 1,7 10,2 6,8

5,2 1,7 6,9 3,5

Page 7: Bioestatística

Erro Padrão de Estimativa

• Amostra qualquer de tamanho “n” – Média aritmética populacional

• Outra amostra aleatória – Média aritmética difere da primeira amostra

• Variabilidade das médias – Erro padrão

(precisão do cálculo da média populacional)

• Sx = s/raiz quadrada (n)

• Sx = erro padrão

• s = desvio padrão

• n = tamanho da amostra

• Observação: quanto melhor a precisão no cálculo da média

populacional, menor será o erro padrão.

Page 8: Bioestatística

• Exemplo 1: Numa população obteve-se o desvio padrão de 3,52 com

uma amostra aleatória de 76 elementos. Qual o provável erro padrão?

• Sx = n/raiz quadrada (n)

• Sx = 3,52/raiz quadrada (76)

• Sx = 3,52/8,717797887081347

• Sx = 0,404 (a média pode variar para mais ou para menos nesse valor)

• Exemplo 2: Numa população obteve-se desvio padrão de 1,43 com uma

amostra aleatória de 134 elementos. Sabendo que para essa mesma

amostra obteve-se uma média de 7,75, determine o valor mais provável

para a média dos dados.

•Sx = n/raiz quadrada (n)

•Sx = 1,43/raiz quadrada (134)

•Sx = 0,123

• Média = 7,75 +/- 0,12 (a média pode ser 7,87 ou 7,63)

Page 9: Bioestatística

Média x Mediana

• Média – Soma das observações divididas pelos nos de observações.

• Média de: 3, 3, 4, 5, 5, 5, 6, 8, 9 = (3+3+4+5+5+5+6+8+9)/9 = 5,33

• Mediana = Número que ocupa a posição central da série de

observações.

• Determine a mediana das duas séries de dados:

(a) 8, 4, 9, 5, 5.

(b) 7, 5, 2, 4, 5, 9.

Respostas:

(a) Para séries pares

4, 5, 5, 8, 9 (o valor em negrito é a mediana)

(b) Para séries ímpares

2, 4, 5, 5, 7, 9 = (2+4+5+5+7+9)/2 = 16

*** Média + Desvio padrão.

*** Mediana + Erro padrão.

Page 10: Bioestatística

Diferença entre Mediana e Moda

• Mediana = Número que ocupa a posição central da série de

observações.

• Moda = Valor que detém o maior número de observações; o valor que

ocorre com maior frequência num conjunto de dados (valor mais comum).

É especialemnte útil quando os valores ou observações não são

numéricos, uma vez que mediana e média podem não ser bem definidas.

• Amodal – não possui moda

{1,5,9,2,6,3,4,8,7}

• Multimodal – possui mais do que dois valores modais.

{1,1,2,5,5,3,4,7,7,8,9}

• Bimodal – possui dois valores modais

{1,4,7,7,9,9}

{pêra, uva, laranja, pessego, pessego, pessego, abacaxi}

Page 11: Bioestatística

Teste t-Student

• Teste de hipóteses – Conceitos estatísticos para rejeitar ou não uma hipótese

nula, ou seja, quando a estatística do teste, na verdade, segue uma distribuição

normal, mas a variância da população é desconhecida.

Hipótese nula – Apresentada sobre determinados fatos estatísticos, e cuja

falsidade de um determinado teste de hipóteses tenta-se provar. Geralmente a

hipótese nula afirma que não existe relação entre dois fenômenos medidos.

Ex: (1) Um aumento de 5% no preço de um determinado produto não afetará

adversamente as vendas dele. (2) O aumento da diferença de potencial não afeta

a corrente em um condutor.

• Hipótese que pretende-se confrontar com os dados.

• Quando não é possível ou viável observar toda a população – observação de

uma amostra aleatória da população (parâmetro mais frequente – média +

desvio padrão).

• Muitas vezes a hipótese nula consiste em afirmar que os parâmetros ou

características matemáticas de duas ou mais populações são idênticos, ou seja,

uma igualdade (hipóteses simples).

Page 12: Bioestatística

Hipótese Nula (H0)

• Duas amostras aleatórias de caranguejos. Uma amostra oriunda do Manguezal do

Portinho da Praia Grande e a outra amostra oriunda do Manguezal Guaratuba de Bertioga.

Queremos ver se existe diferença no tamanho dos indivíduos dessas duas populações. A

hipótese nula seria - "que a média do tamanho dos indivíduos amostrados da população de

Praia Grande é a mesma dos indivíduos amostrados em Bertioga.“

H0: u1 = u2

• u1 = a média do tamanho dos indivíduos da população 1

• u2 = a média do tamanho dos indivíduos da população 2

H0: u1-u2 = 0 (α = 0,05)

* α - nível de significância mais comumente aceito.

• Duas decisões podem ser tomadas:

(1) Rejeitar a hipótese nula

(2) Não rejeitar a hipótese nula – Salienta-se que não rejeitar a hipótese nula significa

apenas que não se conseguiu, através dos dados disponíveis, demonstrar a sua

falsidade, o que difere completamente de provar a sua veracidade.

Analogia: Nos processos judiciais, a hiótese nula seria que o réu é inocente. Durante o julgamento

tenta-se provar a falsidade desta hipótese, ou seja, que o réu é culpado. Entretanto no caso de não

conseguir provar a culpa, isso não significa que o réu seja inocente; significa apenas que não foram

encontradas provas suficientes. O fato de não se poder “aceitar” a hipótese nula, porém apenas

“não a rejeitar”, tem a ver com os erros que podem ser cometidos ao rejeitar ou não rejeitar a

hipótese.

Page 13: Bioestatística

Hipótese Alternativa (H1)

• Hipótese contraditória a hipótese nula.

• A escolha do par hipótese nula/hipótese alternativa depende do

contexto do problema, do parâmtero que se deseja testar e das

conclusões a que se pretende chegar. Deve-se sempre levar em conta

que a hipótese nula é sempre formulada sob a forma de igualdade.

• Hipótese nula (H0: u = 0)

• Hipótese alternativa (H1: u # 0; H1: u < 1; H1: u > 1)

• Cada par de hipótese nula/hipótese alternativa conduz a um teste de

hipóteses diferente. Uma diferente hipótese alternativa pode conduzir a

uma decisão diferente em comparação a hipótese nula.

Page 14: Bioestatística

Diferença entre nível de significância (α) e o “Valor-p”

• Não confundir nível de significância com probabilidade de significância

• Ex: Ao fazer um teste com uma média, se fosse possível repetir um

número muito grande de amostras para calcular a média, em

aproximadamente 5% dessas amostras, seria rejeitada a hipótese nula

quando esta é verdadeira.

Experimento real:

1 amostra qualquer 5% onde a hipótese nula é realmente verdadeira.

95% onde a hipótese nula é realmente falsa.

* Estabelece-se o intervalo de confiança

• Intervalo de confiança de 95% - equivalente a um Erro do Tipo 1 (5%).

• Tem-se a confiança que o intervalo contêm o parâmetro estimado.

• Uma vez que reporta-se um intervalo numérico, o parâmetro populacional

desconhecido ou está dentro do intervalo ou fora; não existe uma

probabilidade desse intervalo conter o parâmetro. *Necessidade testes!

Page 15: Bioestatística

Diferença entre nível de significância (α) e o “Valor-p”

• Probabilidade de se obter uma estatística de teste igual ou mais extrema

que aquela observada em uma amostra, sob a hipótese nula.

Page 16: Bioestatística

Teste t-Student (Teste de hipóteses) – Conceitos estatísticos para

rejeitar ou não uma hipótese nula, ou seja, quando a estatística do teste,

na verdade, segue uma distribuição normal, mas a variância da

população é desconhecida.

Distribuição normal (normalidade) – Conhecida também como

Distribuição de Gauss ou Gaussiana. A lei da distribuição normal de

erros, apresenta uma curva em formato de sino, utilizada por todos que

trabalham com estatística.

A área em azul escuro está a menos de um desvio padrão(σ) da média. Em uma distribuição normal, isto

representa cerca de 68% do conjunto. Dois desvios padrões desde a média (azul médio e escuro)

representam cerca de 95% do conjunto. Já os três desvios padrões (azul claro, médio e escuro) cobrem

cerca de 99,7% do conjunto.

Page 17: Bioestatística

Variância

• A variância de uma variável aleatória é uma medida da sua dispersão estatística,

indicando quão longe em geral os seus valores se encontram do valor esperado.

Variável aleatória – pode ser entendida como uma variável quantitativa, cujo

resultado (valor) depende de fatores aleatórios.

• A variância não é medida ponto a ponto (é a "distância média") entre a média das

amostras e seus pontos...

Ex: Temos dois pontos 1 e 3, a média é 2 e a variância é 1, pois cada um dos

pontos está distante em uma unidade da média.

Homo e heterocedasticidade (medida de dispersão da variância, não tem nada a

ver com o valor do “p”. O “p” valida se uma hipótese é nula ou alternativa)

HETEROCEDASTICIDADE - Forte dispersão dos dados em torno de uma reta.

* Uma distribuição de frequências em que todas as distribuições condicionadas têm

desvios padrão diferentes.

HOMOCEDASTICIDADE - Os dados regredidos encontram-se mais

homogeneamente e menos dispersos (concentrados) em torno da reta de

regressão do modelo.

Page 18: Bioestatística

Nível de significância de 5% α = 0,05

Page 19: Bioestatística

Nível de significância de 5% α = 0,05

“variâncias desiguais"

(p ≤ 0,05)

Necessidade de utilizar um

teste não paramétrico.

Page 20: Bioestatística

Testes paramétrico e não paramétrico

PARAMÉTRICO: Refere-se a média e ao desvio-padrão, que são parâmetros que

definem as populações que apresentam distribuição normal.

NÃO PARAMÉTRICO: Refere-se a mediana e erro padrão.

Razão para a transformação dos dados

• Quando algum dos requisitos para o emprego da estatística paramétrica

(normalidade da distribuição dos erros, homogeneidade das variâncias e

aditividade dos efeitos dos fatores de variação) não puder ser preenchido

pelos dados da sua amostra experimental, o pesquisador ainda pode tentar o

recurso da transformação dos dados, antes de optar pela aplicação da estatística

não-paramétrica. É um recurso que sempre vale a pena tentar, porque a

estatística paramétrica é evidentemente mais poderosa que a não-paramétrica.

• A estatística não-paramétrica foi desenvolvida como um recurso complementar,

destinado a suprir a necessidade de testes estatísticos nos casos em que alguma

restrição desaconselhava o uso da estatística paramétrica, ou quando a própria

natureza dos dados, muitas vezes não exatamente numéricos, vedava a

aplicação desta.

Page 21: Bioestatística

• Executando o teste t-Student (paramétrico)

• “p” bicaudal (ou bilateral): utilizado quando interessam os

resultados de ambos os lados da curva.

• “p” monocaudal (ou unilateral): usado quando são

importantes os resultados de apenas um lado da curva.

Resposta: Em ambas as latitudes os animais apresentaram

LC com tamanhos semelhantes.

(t = 1,5429; p = 0,1254; gl = 1185)

Outros (n)

valores

Page 22: Bioestatística

.

.

Amostragem de dados não paramétricos

• Teste t-Student (independência).

• Programa mostra: “variâncias desiguais" (p ≤ 0,05)

• Aplicação da estatística não-paramétrica.

Teste Mann Whitney (Teste U) - Os valores de “U” calculados pelo teste

avaliam o grau de entrelaçamento dos dados dos dois grupos após a

ordenação.

• Determinada população tende a ter valores “extremos”.

• Distribuições não normais (mistura de distribuições normais).

Resposta: Existe diferença na densidade populacional das duas latitudes. A diferença mediana de Uca leptodactylus é maior em Aracaju do que em Bertioga. ( Mann-Whitney: U = 582; p<0,0001).

Outros (n)

valores

Page 23: Bioestatística

.

.

ANOVA (Análise de Variância) – Teste F

• Visa fundamentalmente verificar se existe uma diferença significativa entre as

médias e se os fatores exercem influência em alguma variável dependente. Dessa

forma, permite que vários grupos sejam comparados a um só tempo (fatores

podem ser de origem qualitativa ou quantitativa), porém a variável dependente

deverá necessariamente ser contínua*.

*Qualquer valor numérico em um determinado intervalo ou coleção de intervalos.

Ex: Lançamento de um disco – distância classificatória máxima de 50m e

distância classificatória mínima de 20m. Tem-se que 20 ≥ X ≤ 50. Esse intervalo

permite infinitas interpretações. O disco poderia cair, por exemplo em 49 metros,

52 centímetros e 20 milímetros.

• Teste paramétrico (variável de interesse deve ter distribuição normal) e os

grupos devem ser independentes.

Page 24: Bioestatística

.

.

ANOVA (Análise de Variância)

• Compara várias médias ao mesmo tempo - variável contínua x variável categórica.

• Nos diz se existe diferença entre pelo menos um par de médias das categorias de

exposição (diferentes tratamentos).

Diferença entre Teste t-Student x Análise de Variância (ANOVA)

• Se H0 não for rejeitada, não é preciso fazer mais nada.

• Se H0 for rejeitada, testamos dentro dos subgrupos de médias se há alguma que

seja diferente das demais.

Pressupostos para a realização da ANOVA

• Distribuição aproximadamente normal

• Variância dos dados é semelhante para todos os grupos comparados

• Observações são independentes

(Infinitas interpretações) (Salinidade e temperatura)

Page 25: Bioestatística

One-way ANOVA (1 entrada)

Ex 1: Quantificação de plasmídeos internalizados por espermatozóides bovinos

sexados e não sexados utilizando DNA circular e linear.

*Unsorted – Indiferenciados; *X-Clasificados; Y-Classificados.

Page 26: Bioestatística

Two-way ANOVA (2 entradas)

Ex: Avaliação da expressão do gene KRAS de células tumorais tratadas com

diferentes concentrações (1, 10, 100) dos compostos X,Y,Z.

Page 27: Bioestatística

Factorial ANOVA (2 ou mais entradas)

• Comparação de médias com dois fatores ou mais.

Ex: Avaliação da expressão gênica de células tumorais A549 tratadas com diferentes

compostos antitumorais, com diferentes concentrações em tempos diferentes.

Page 28: Bioestatística

Testes post-hoc (“a posteriori”) [ANOVA]

• São realizados apenas se houver diferenças significativas entre as médias

(p < 0,05)

• Identificam onde está a diferença e quais são os grupos que diferem.

• Existem diversos testes post-hoc. Ex:

• Tukey [mais usado e mais exigente]

• SNK (Student-Newman-Keuls)

•Distribuição aproximadamente normal

(SIMÉTRICA)

• Variância dos dados é semelhante

para todos os grupos comparados

• Observações são independentes

Page 29: Bioestatística

Teste deTukey (Teste de comparação de médias)

(1) É um dos testes de comparação de média mais utilizados, por ser bastante rigoroso e de

fácil aplicação;

(2) Não permite comparar grupos de tratamentos (“grupos de médias”) entre si;

(3) É utilizado para testar toda e qualquer diferença entre duas médias de tratamento;

(4) É aplicado quando o teste “F” para tratamentos de análise de variância for significativo.

(5) Base – A Diferença Mínima Significativa (D.M.S.)

Page 30: Bioestatística

Teste deTukey

Page 31: Bioestatística

One-way ANOVA (1 entrada)

Ex 2: Em seu TCC, Murilo resolveu avaliar o impacto de um determinado detergente sobre a abundância de

Nematodas em praias. Para isso ele escolheu duas praias que não recebiam resíduos do detergente (praias 1

e 2) e outras duas praias que sim (praias 3 e 4). As quatro praias tinham características muito parecidas e a

contaminação era o principal fator variável. Qual a conclusão que o pesquisador chegou com os dados

coletados? Descreva, em um pequeno texto, o resultado encontrado e o teste utilizado. Represente

graficamente.

Resposta: Foi realizado primeiramente a ANOVA (1 critério) (ANOVA (F): 6,0696; p = 0,0015), pois tratam-se

de 4 amostras independentes, e a posteriori o teste Tukey. Este demonstrou que as médias das praias 1 e 2

não apresentaram diferenças significativas, dessa forma receberam a letra (a), e a média das praias 3 e 4

também não tiveram diferenças significativas, recebendo a letra (b). Já as médias entre as praias 1 e 3; 1 e 4;

2 e 3, 2 e 4 foram diferentes (p< 0,05). Através da análise da Figura 1, infere-se que a abundância de

nematodas nas praias é inversamente proporcional quanto ao despejo dos resíduos de detergente, sendo

assim conclui-se que o impacto nas praias 3 e 4 é considerável.

Page 32: Bioestatística

Teste SNK (Student-Newman-Keuls)

• Procura contornar os inconvenientes do teste t-Student, quando mais de dois

tratamentos estão envolvidos no experimento.

• O teste procura ajustar o valor de “t” de acordo com as distâncias entre as

médias ordenadas dos tratamentos.

Definição: Uma relação decrescente de “t” médias (n médias), duas delas

(y1 e y2) possuem significância se o valor calculado em módulo para tsnk for

maior ou igual ao valor tabelado para o nível de significância α (costuma ser

α = 0,05) com graus de liberdade* para resíduo e uma distância i entre as

médias (i = p + 2). [p = número de médias existentes entre as duas médias [+2]

comparadas na relação decrescente.

Definições para grau de liberdade:

* Graus de liberdade (gl): Número de classes de resultados menos o número de

informações da amostra que é necessário para o cálculo dos valores esperados

em cada classe (número de classes – 1).

Ex : Qual o grau de liberdade de uma herança genética onde existem duas

características (uma recessiva e outra dominante)?

[Resposta: gl = n-1, portanto gl = 2-1 = 1]

Page 33: Bioestatística

** No caso de dados tabelados, deve-se considerar apenas a área dos dados,

dessa forma gl = (número de linhas -1 x número de colunas -1)

*** Em estatística usa-se gl = n-2 (dois refere-se a linha + coluna)

Ex: Qual o grau de liberdade de um n = 272?

[Resposta: gl = 272-2 = 270]

• Observação: Usa-se o valor de “gl” para encontrar o valor do “t” tabelado em

análises estatísticas de regressão múltipla. Com o valor do “t” calculado + o valor

do “t” tabelado vemos quais hipóteses (nula ou alternativa) validar.

NÃO CONFUNDIR ‘Teste t-Student ‘ de ‘Teste t’ usado em análise de regressão.

Page 34: Bioestatística

Amostragem de dados não paramétricos

• ANOVA

• Programa mostra que a distribuição não é normal (assimétrica).

• Aplicação da estatística não-paramétrica.

Teste Kruskal Wallis (One-Way ANOVA) [Teste H] – Usado para testar a

hipótese nula de que todas as populações possuem funções de distribuição iguais

contra a hipótese alternativa de que ao menos duas populações possuem funções

de distribuição diferentes.

• Usado quando não há distribuição normal.

• Não coloca nenhuma restrição (ex: amostras independentes e normalmente

distribuídas) sobre a comparação.

• Quando o teste conduz a resultados significativos, pelo menos uma das

amostras é diferente das restantes.

• O teste não identifica onde ocorrem e quantas são as diferenças.

Page 35: Bioestatística

Teste Kruskal Wallis (One-Way ANOVA) [Teste H]

O teste não identifica onde ocorrem e quantas são as diferenças.

Ex:

• Validou a hipótese alternativa (H1)

•Ao menos duas populações possuem funções de distribuição diferentes.

Page 36: Bioestatística

EXTRA: ‘Teste t’ usado em análise de regressão.

* LC – Largura cefalotorácica

* CC – Comprimento cefalot.

• Constantes alométricas: *b = Constante alométrica

• Isometria – A variável dependente e a variável independente crescem na mesma proporção, mas

não com um mesmo valor. (b = 1)

• Alometria positiva – A variável dependente cresce mais que a variável independente. (b > 1)

• Alometria negativa – A variável dependente cresce menos que variável independente. (b < 1)

Variável Independente (eixo X)

Variável Dependente (eixo Y)

Page 37: Bioestatística

Testando o valor da constante alométrica

Hipóteses estatísticas:

• Hipótese nula (H0) – Isometria [b=1]

• Hipótese alternativa (H1) – Alometria [b#1]

o Alometria positiva [b>1]

o Alometria negativa [b<1]

EXTRA: ‘Teste t’ usado em análise de regressão.

Outros (n) valores

Page 38: Bioestatística

EXTRA: ‘Teste t’ usado em análise de regressão.

Ex: Programa Statistica - Plotar dados (logaritimizados) - Clicar em "Statistics" -

"Multiple Regression" - Definir variáveis independentes e dependentes -

"Regression results“.

Dados fornecidos pelo programa:

• b = 1,12553421203224

• Sb (Erro padrão do b) = 0,122114039797593

Realização do ‘Teste t’

• – constante alométrica ( = 1)

• b – valor calculado para constante alométrica

• Sb – erro padrão da constante alométrica

• Grau de liberdade (gl = n-2)

Page 39: Bioestatística

EXTRA: ‘Teste t’ usado em análise de regressão.

Realização do ‘Teste t’

‘t’calculado > ‘t’ tabelado

Valida hipótese alternativa – H1 [crescimento alométrico]

‘t’ calculado < ‘t’ tabelado

Valida a hipótese nula – H0 [crescimento isométrico]

Page 40: Bioestatística

EXTRA: ‘Teste t’ usado em análise de regressão.

Realização do ‘Teste t’

= 1

b = 1,12553421203224

Sb = 0,122114039797593

‘t‘ calculado = -1,02801

• n amostral – 26

• gl (n-2) – gl = 26 – 2 = 24

• Nível de significância adotado (α = 0,05)

• ‘t’ tabelado = 2,064

Resposta: Validamos H0 - Isometria

2,064 -2,064

-1,02801