Aula - Estatística Descritiva

Preview:

DESCRIPTION

Slides de aula sobre Estatística Descritiva

Citation preview

ANÁLISE DESCRITIVA

FORMATAÇÃO & DESIGN

Cléber da Costa Figueiredo

figuecl@usp.br

Thiago Rodrigo Alves Carneiro

thiagorodrigo@ime.usp.br

Texto da aula

Profª Carmen Diva Saldiva de André

Prof. Gilberto Alvarenga Paula

Classificação das variáveis

Variável Qualquer característica associada a uma população

Classificação Classificação

Qualitativa QuantitativaQualitativa Quantitativa

nominal contínua nominal contínua

ordinal discreta ordinal discreta

Exemplo

Arquivo Pulse do Minitab

Refere-se a um experimento feito por alunos.

Cada aluno registrou sua altura, peso, sexo,

hábito de fumar, nível de atividade física

usual e pulsação em repouso.

Então todos eles jogaram moedas e aqueles

que tiraram cara fizeram corrida estacionária

por um minuto.

Depois disso todos os alunos mediram

novamente sua pulsação.

Informações do arquivo Pulse

Information of the worksheet Column Count Name

C1 92 Pulse1

C2 92 Pulse2

C3 92 Ran (1:correu, 2:não correu)

C4 92 Smokes (1:fumante, 2:não fumante)

C5 92 Sex (1:masculino, 2:feminino)

C6 92 Height

C7 92 Weight

C8 92 Activity (1:leve, 2:moderada, 3:forte)

(Pulsação antes de correr)

(Pulsação depois de correr)

MTB > INFO

Pulse1 Pulse2 Ran Smokes Sex Height Weight Activity

64 88 1 2 1 66.00 140 2

58 70 1 2 1 72.00 145 2

62 76 1 1 1 73.50 160 3

66 78 1 1 1 73.00 190 1

64 80 1 2 1 69.00 155 2

74 84 1 2 1 73.00 165 1

84 84 1 2 1 72.00 150 3

68 72 1 2 1 74.00 190 2

62 75 1 2 1 72.00 195 2

......

Informações do arquivo Pulse

Média

Mediana

Moda

Quartis

Máximo

Mínimo

Variáveis Quantitativas

Medidas de posição

Amplitude

Variância

Desvio padrão

Intervalo interquartil

Coeficiente de Variação

Variáveis Quantitativas

Medidas de dispersão

MTB > DESCRIBE C1 C2 C6 C7

Descriptive Statistics Variable N Mean Median Tr Mean StDev SEMean

Pulse1 92 72.87 71.00 72.61 11.01 1.15

Pulse2 92 80.00 76.00 78.85 17.09 1.78

Height 92 68.72 69.00 68.78 3.66 0.38

Weight 92 145.15 145.00 144.52 23.74 2.48

Variáveis quantitativas no arquivo

Pulse

MTB > DESCRIBE C1 C2 C6 C7

Descriptive Statistics Variable Min Max Q1 Q3

Pulse1 48.00 100.00 64.00 80.00

Pulse2 50.00 140.00 68.00 87.00

Height 61.00 75.00 66.00 72.00

Weight 95.00 215.00 125.00 156.50

Variáveis quantitativas no arquivo

Pulse

MTB > DESCRIBE C1;

SUBC > BY C5.

Descriptive Statistics Variable Sex N Mean Median Tr Mean StDev SEMean

Pulse1 1 57 70.42 70.00 70.27 9.95 1.32

2 35 76.86 78.00 76.65 11.62 1.96

Descrever a pulsação em repouso

segundo o sexo

MTB > DESCRIBE C1;

SUBC > BY C5.

Descriptive Statistics Variable Sex Min Max Q1 Q3

Pulse1 1 48.00 92.00 63.00 75.00 2 58.00 100.00 66.00 86.00

Calcular o intervalo-interquartil para cada sexo

Descrever a pulsação em repouso

segundo o sexo

Variáveis Qualitativas

Para dados qualitativos podemos

construir tabelas que os quantificam

por categoria de classificação

Variáveis qualitativas no arquivo Pulse

Ran

Smokes

Sex

Activity

MTB > TALLY C3 C4 C5 C8

Summary Statistics for Discrete Variables Ran Count Smokes Count Sex Count Activity Count

1 35 1 28 1 57 0 1

2 57 2 64 2 35 1 9

N= 92 N= 92 N= 92 2 61

3 21

N= 92

Variáveis qualitativas no arquivo Pulse

Rows: Sex Columns: Smokes

1 2 All

1 20 37 57

35.09 64.91 100.00

2 8 27 35

22.86 77.14 100.00

All 28 64 92 30.43 69.57 100.00

MTB > Table 'Sex' 'Smokes';

SUBC > Counts;

SUBC > RowPercents.

Há indícios de associação entre sexo e

hábito de fumar?

Dentre as mulheres, qual a

porcentagem das que correram?

Rows: Ran Columns: Sex

1 2 All

1 24 11 35

42.10 31.43 38.04

2 33 24 57

57.90 68.57 61.96

All 57 35 92

100.00 100.00 100.00

MTB > Table 'Ran' 'Sex';

SUBC> Counts;

SUBC> ColPercents.

Gráficos para variáveis quantitativas

Histograma

O histograma para uma variável

contínua é obtido agrupando-se os

valores dessa variável em classes.

Características do Histograma

- Bases iguais

Construir um retângulo para cada classe,

com base igual ao tamanho da classe e

altura proporcional à frequência da classe.

Exemplo 1

Faixa Etária Frequência Proporção

20 30 10 0,2530 40 20 0,5040 50 10 0,25

40

Histograma de frequência (proporção)

f

0,6 -

0,5 -

0,4 -

0,3 -

0,2 -

0,1 -

0,0 -

20 30 40 50 idade

Histograma de densidade

h

0,06 -

0,05 -

0,04 -

0,03 -

0,02 -

0,01 -

0,00 - 20 30 40 50 idade

Área (frequência) = base x altura (densidade)

f = 10 x h

h = (f / 10)

Bases diferentes

Exemplo 1 modificado

Construir um retângulo para cada classe,

com base igual ao tamanho da classe e

área do retângulo igual à frequência da

classe. A altura será dada por:

h = f/base f: frequência relativa

Faixa Etária Frequência Proporção

20 30 10 0,25030 35 15 0,37535 50 15 0,375

h

0,025 0,075 0,025

Histograma de frequência

f

0,6 -

0,5 -

0,4 -

0,3 -

0,2 -

0,1 -

0,0 - 20 30 35 50 idade

Faz sentido?

Histograma de densidade

h

0,07 -

0,06 -

0,05 -

0,04 -

0,03 -

0,02 -

0,01 -

0,00 - 20 30 35 50 idade

74,573,071,570,068,567,065,564,062,561,0

20

10

0

Height

Fre

qu

en

cy

Distribuição de frequência

para altura (arquivo PULSE)

Classe de altura f fr

60,25-61,75

61,75-63,25

63,25-64,75

64,75-66,25

66,25-67,75

67,75-69,25

69,25-70,75

70,75-72,25

72,25-73,75

73,75-75,25

Total

1

10

2

13

7

20

7

15

9

8

92

0,011

0,109

0,022

0,141

0,076

0,217

0,076

0,163

0,098

0,087

1

MTB > HIST C6

Arquivo PULSE – Histograma da altura

(Height)

Arquivo Pulse – Diagrama de pontos

(Dotplot) da pulsação em repouso

MTB > DOTPLOT C1

. .

. : . :

: : : :

: . : : : . . . : . : : : . . .

. : : : : : : : : : : . . : . : . : : : : : : : : : : . . : . :

. : : :.: : : : : : : : : : : : .. : : : . : . . : : :.: : : : : : : : : : : : .. : : : . : .

---+---------+---------+---------+---------+---------+- ---+---------+---------+---------+---------+---------+-

50 60 50 60 70 80 90 100 70 80 90 100

Pulse1 Pulse1

Arquivo Pulse – Dotplot da pulsação

em repouso segundo Sexo

MTB > DotPlot 'Pulse1';

SUBC> Same; SUBC> By 'Sex'.

::

SexSex 1 : 1 : : : . : : .

. : . : . . . : : : :. : : : : . . . .

. : : : : : : : : : : : . . . : . : : . : : : : : : : : : : : . . . : . : :

--+---------+---------+---------+---------+---------+- --+---------+---------+---------+---------+---------+-

SexSex 2 . . 2 . . ::

. . . . : . : : : : : : : : ..: . . : . . : . : : : : : : : : ..: . . : . .

--+---------+---------+---------+---------+---------+- --+---------+---------+---------+---------+---------+-

50 60 70 80 90 100 50 60 70 80 90 100

Pulse1 Pulse1

Diagrama de caixa (Boxplot)

Representa os dados através de um

retângulo construído com os quartis e

fornece informações sobre valores

extremos

_Q3

_Q1

_md

linha

auxiliar

_Q3

_Q1

_md

_Q1-1,5d

_Q3+1,5d

* *

*

* *

*

_Q3

_Q1

_md

_Q1-1,5d

_Q3+1,5d

altura _Q3

_Q1

d

Q1 = 1º quartil md = mediana Q3 = 3º quartil d = diferença interquartil

Construção do Boxplot

Arquivo Pulse – Boxplot da pulsação

em repouso

MTB > BOXPLOT C1

Arquivo Pulse – Boxplot da pulsação

em repouso

MTB > BOXPLOT C1*C5

Arquivo Cholest – Boxplot do nível de

colesterol segundo o número de dias

após o enfarto

Diagrama de dispersão

Avalia o comportamento conjunto de

duas variáveis quantitativas

MTB > PLOT C6*C7

Arquivo Pulse – Relação entre o peso

a altura dos alunos

Recommended