Upload
maryana-scoralick
View
222
Download
1
Embed Size (px)
DESCRIPTION
Elaborado por: Pedro Ferreira Filho - UFSCar
Citation preview
UUNNIIVVEERRSS IIDDAADDEE FFEEDDEERRAALL DDEE SSOO CCAARRLLOOSS CC EENN TTRROO DD EE CC II NNCC II AA SS EE XXAA TT AASS EE DD EE TT EE CCNNOO LLOOGG II AA
DD EE PP AARR TT AAMMEENN TTOO DD EE EE SS TT AA TT SS TT II CC AA
IINNTTRROODDUUOO AAOO PPLLAANNEEJJAAMMEENNTTOO EE AANNLLIISSEE EESSTTAATTSSTTIICCAA DDEE
EEXXPPEERRIIMMEENNTTOOSS -- CC
CCAAPP TTUULLOO 22
AANN LL II SS EE DD EE SS CCRR II TT II VV AA EE EE XXPP LL OORRAA TTRR II AA DD EE DD AADDOOSS
EE LL AA BBOORR AA DDOO PPOORR :: PP RROO FF .. PP EE DD RROO FF EE RR RR EE II RR AA FF II LL HH OO
11 SS EEMMEE SS TT RR EE DD EE 22000099
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 12
22 .. AANN LL II SS EE DD EE SS CCRR II TT II VV AA EE EE XX PP LL OORRAA TTRR II AA DD EE DD AADDOOSS :: Um estudo, ou investigao de uma determinada hiptese, deve do ponto de
vista estatstico, contemplar as etapas de planejamento, coleta, organizao, anlise
descritiva e exploratria dos dados, inferncia estatstica e a tomada de decises
(concluses).
O papel da estatstica pode ser considerado como a de uma minerao de
dados. Os dados devem ser cuidadosamente coletados (observados), devidamente
conhecidos e utilizados para analisar e interpretar a sua variabilidade de forma a
possibilitar uma correta resposta hiptese em estudo.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 13
22 .. 11 .. CCOONNCC EE II TTOOSS BB SS II CCOOSS EEMM EE SS TT AA TT SS TT II CC AA ::
INFORMAO NUMRICA: Um conjunto de dados estatsticos consiste de uma ou mais medidas, escores
ou valores observados (coletados) de certo nmero de indivduos, objetos, ensaios,
experimentos, etc.
ASPECTO BSICO DA INFORMAO: A anlise estatstica de um conjunto de dados s faz sentido quando existir
variabilidade nos valores observados, ou seja, os valores devem apresentar
diferenas nas diferentes unidades de observao utilizadas. A no existncia de
variabilidade entre os valores observados torna desnecessria a utilizao de
qualquer mtodo estatstico.
POPULAO: Conjunto de indivduos ou objetos os quais o pesquisador tem interesse, que
apresentam relevncia para a investigao de hiptese em estudo. Podemos ainda
dizer que a populao formada por todos os valores possveis de serem observados
numa dada situao. No caso de estudos experimentais, o alvo sempre uma dada
populao. A resposta para a hiptese de interesse dada por uma concluso a
respeito da populao em estudo.
Nesse sentido fundamental, m qualquer situao, definir claramente qual a
populao que se tem interesse. Muitas vezes, por incrvel que parea, isso no est
suficientemente claro para os responsveis pelo estudo (experimento).
Conseqentemente, corre-se o risco de estender concluses a situaes mais amplas
do que aquelas realmente possveis a partir do estudo realizado.
Uma populao pode ser classificada em duas diferentes situaes:
Populao Finita: Todos os elementos da populao so
conhecidos e possveis de serem identificados;
Populao Infinita: No possvel uma enumerao de todos
os elementos da populao;
Uma populao pode ser investigada a partir da observao de seus
elementos atravs de duas diferentes formas: Censo ou Amostra.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 14
CENSO: Denominamos de censo aquelas situaes onde a investigao realizada a
partir da observao de todos os elementos de uma populao. Esse tipo de
observao somente possvel em populaes finitas.
AMOSTRA: Na grande maioria das vezes (quase sempre!) no possvel observar todos
os elementos de uma populao, porm possvel observar-se uma parte desta
populao. O conjunto de elementos efetivamente observado denominado
amostra. Podemos ento dizer que uma amostra todo e qualquer subconjunto
necessariamente finito da populao.
Para que a amostra seja uma representao realista, no tendenciosa, da
populao, necessrio que seus elementos sejam escolhidos de forma
rigorosamente aleatria. Esta condio fundamental na prtica, porque as
inferncias estatsticas sempre supem que as amostras so representativas da
populao. Por isso ao realizar um experimento, devemos sempre tomar o cuidado
para coletar os dados de modo que a hiptese de aleatoriedade, seja se no,
rigorosamente, pelo menos aproximadamente obedecida.
Amostra Aleatria:
Amostra de N valores ou indivduos (unidades experimentais) obtidos de tal
forma que todos os possveis elementos da populao tenham a mesma chance de
participar na amostra.
OBTENO DE UMA AMOSTRA EM PESQUISAS CIENTFICAS:
Nas pesquisas cientficas as amostras, em geral so obtidas de duas diferentes
formas: Estudos observacionais e experimentos planejados.
Nos estudos observacionais os dados so obtidos medida que se tornam
disponveis. Por exemplo, suponha que um pesquisador esteja avaliando o
desempenho de um processo de fabricao de componentes plsticos atravs da
injeo em molde. Pode-se observar o processo, selecionar componentes medida
que so fabricados e medir importantes caractersticas de interesse, tais como a
espessura da parede, o encolhimento ou a resistncia da pea. O pesquisador pode
MarianaDestacar
MarianaDestacar
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 15
medir tambm e registrar as variveis de processo potencialmente importantes, tais
como a temperatura do molde, o contedo de umidade da matria-prima e o tempo
do ciclo. Freqentemente, em um estudo observador, o pesquisador est interessado
em usar os dados para construir um modelo do sistema ou processo. Esses modelos
so freqentemente chamados de modelos empricos. Uma outra maneira e que os
dados observados so obtidos atravs da anlise de dados histricos do sistema ou
processo. Por exemplo, na fabricao de semicondutores, e razoavelmente comum
manter registros extensos de cada batelada ou lote de pastilhas que foi produzido.
Esses registros incluiriam dados de teste de caractersticas fsicas e eltricas das
pastilhas, assim como as condies de processamento sob as quais cada batelada de
pastilhas foi produzida. Se aparecerem questes relativas a uma mudana em uma
importante caracterstica eltrica, a histria do processo pode ser estudada em um
esforo para determinar o ponto no tempo onde a mudana ocorreu e para ganhar
algum discernimento em relao as variveis do processo que devem ser
responsveis pela mudana. Freqentemente, esses estudos envolvem um conjunto
muito grande de dados e requerem um firme domnio dos princpios estatsticos, se o
pesquisador quiser alcanar o sucesso.
Nos experimentos planejados, o engenheiro (ou pesquisador) faz
variaes propositais nas variveis controlveis de alguns sistemas ou processos,
observa os dados de sada do sistema resultante e, ento, faz uma inferncia ou
deciso sobre as variveis que so responsveis pelas mudanas observadas no
desempenho de sada. O planejamento de experimentos tem um papel muito
importante no projeto e desenvolvimento de engenharia e na melhoria dos processos
de fabricao. Geralmente, quando produtos e processos so planejados e
desenvolvidos com experimentos planejados, eles tm melhor desempenho, mais
alta confiabilidade e menores custos globais. Experimentos planejados tambm
desempenham um papel crucial na reduo do tempo de conduo de um projeto de
engenharia e do desenvolvimento de atividades.
MarianaDestacar
MarianaDestacar
MarianaDestacar
MarianaDestacar
MarianaDestacar
MarianaDestacar
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 16
INFERNCIA ESTATSTICA: Embora seja observada apenas uma amostra, o objetivo de qualquer estudo
estabelecer concluses com respeito populao de interesse. A metodologia
utilizada para se fazer a passagem dos resultados obtidos na amostra para
concluses populacionais chamada inferncia estatstica.
A inferncia estatstica pode ser definida em duas etapas:
Estimao: Obter informao sobre uma caracterstica populacional;
Teste de Hipteses: Utilizao da informao amostral para responder as
hipteses de interesse no estudo.
ANLISE ESTATSTICA: O processo de organizao, processamento, sumarizao e retirada de
concluses sobre um determinado conjunto de dados (amostra) chamado de
anlise estatstica. As hipteses (questes de interesse) daqueles que realizam o
estudo indicam o tipo de dado que precisa der obtido e conseqentemente a
inferncia a ser realizada.
O quadro abaixo resume uma anlise estatstica de dados.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 17
Figura 2.1. Anlise Estatstica.
22 .. 22 .. OORRGGAANN II ZZ AA OO ,, SSUUMMAARR II ZZ AA OO EE RR EE PPRR EE SS EENNTT AA OO DD EE DD AADDOOSS ::
A organizao, sumarizao e apresentao dos dados observados so
essenciais para um bom julgamento estatstico, dado que permitem que sejam
identificadas caractersticas importantes da amostra e ainda mais, indicar modelos
que podem ser mais adequados para verificao da hiptese em estudo.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 18
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 19
22 .. 22 .. 11 .. TT II PPOOSS DD EE VV AARR II VV EE II SS ::
As informaes obtidas em uma amostra so denominadas, usualmente, de
variveis em estudo. Em cada estudo pode-se observar uma ou mais variveis em
funo das necessidades e objetivos a serem investigados. Assim, por exemplo,
pode-se observar uma nica medida num dado experimento, como possvel
observar uma srie de caractersticas de interesse na aplicao de um questionrio.
As variveis observadas em uma amostra podem ser classificadas em dois
tipos: Variveis Categricas (Qualitativas) ou Variveis Contnuas
(Quantitativas).
Variveis Categricas: Denominamos variveis categricas aquelas medidas
(caractersticas) observadas na amostra que apenas identificam a unidade de
observao. Em outras palavras, uma varivel categrica identifica um atributo,
classe, qualidade,..., da unidade de observao.
Exemplo: Sexo, Grau de escolaridade, tipo de solo, fornecedor, etc.
As variveis qualitativas podem ainda ser classificadas como qualitativas
nominais e qualitativas ordinais. As nominais apenas identificam um atributo
unidade experimental sem qualquer outra propriedade (sexo, por exemplo),
enquanto que as ordinais identificam um atributo que estabelece uma estrutura de
ordem nas unidades de observao (grau de escolaridade, por exemplo).
Variveis Quantitativas: Denominamos de variveis quantitativas aquelas medidas
(caractersticas) observadas na amostra que estabelecem uma informao resultante
de uma contagem ou de uma mensurao feita na unidade experimental.
As variveis quantitativas podem tambm ser classificadas em dois grupos:
Quantitativas discretas ou quantitativas contnuas. As quantitativas discretas podem
assumir um conjunto finito ou enumervel de valores (nmero de acidentes em uma
determinada regio da cidade, por exemplo), por outro lado, as quantitativas
contnuas podem assumir valores num intervalo de nmeros reais.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 20
Observao:
Uma varivel quantitativa pode ser categorizada, porm a recproca no possvel.
importante, porm considerar a PERDA DE INFORMAO que ocorre nesses casos.
Figura 2.2. Classificao das Variveis.
Para cada tipo de varivel existem tcnicas apropriadas para organizar e
resumir a informao, embora em muitos casos se verifique as tcnicas usadas em
um caso podem ser adaptadas para outros.
22 .. 22 .. 22 .. AA PPRR EE SS EENNTT AA OO DDOOSS DD AADDOOSS ::
A apresentao de informaes contidas num conjunto de dados pode ser
feita de vrias formas. Para cada tipo de varivel existe formas mais adequadas e
corretas de apresent-las. O objetivo de uma apresentao dos dados organizar os
valores observados de forma a obter o mximo de informao. Os procedimentos
usuais de apresentao de dados so tabelas e grficos.
Consideremos o seguinte experimento: Uma indstria qumica formula um
experimento para verificar se um novo mtodo de fabricao de um produto qumico
superior a um mtodo tradicional de fabricao. Um experimento foi realizado
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 21
obtendo-se dados de produo industrial dos mtodos A (Tradicional) e B (Novo
Mtodo), cujos resultados esto apresentados na Tabela 2.1:
TABELA 2.1. Dados de Produo Industrial.
Lote Mtodo Produo Lote Mtodo Produo
1 A 89.7 11 B 84.7
2 A 81.4 12 B 86.1
3 A 84.5 13 B 83.2
4 A 84.8 15 B 91.9
5 A 87.3 15 B 86.3
6 A 79.7 16 B 79.3
7 A 85.1 17 B 82.6
8 A 81.7 18 B 89.1
9 A 83.7 19 B 83.7
10 A 84.5 20 B 88.5
O problema apresenta duas variveis: Mtodo de Produo e Produo
Observada. A varivel mtodo de produo categrica nominal e a varivel
produo quantitativa contnua.
A apresentao usual dos dados observados feita atravs de uma tabela
denominada distribuio de freqncias. Nesta forma so apresentados os
valores observados, a freqncia com que cada valor foi observado, o percentual que
este nmero de freqncia representa em relao ao total de observao, bem como
os respectivos valores acumulados.
Para tabela acima as distribuies de freqncias so dadas por:
TABELA 2.2. Distribuio de Freqncia da Varivel Mtodo de Produo Industrial.
Mtodo
Mtodo Freqncia Absoluta
Freqncia Percentual
Freqncia Acumulada
Percentual Acumulada
A 10 50.00 10 50.00
B 10 50.00 20 100.00
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 22
TABELA 2.3. Distribuio de Freqncia da Varivel Produo Industrial
Produo
Produo Freqncia Absoluta
Freqncia Percentual
Freqncia Acumulada
Percentual Acumulada
79.3 1 5.00 1 5.00
79.7 1 5.00 2 10.00
81.4 1 5.00 3 15.00
81.7 1 5.00 4 20.00
82.6 1 5.00 5 25.00
83.2 1 5.00 6 30.00
83.7 2 10.00 8 40.00
84.5 2 10.00 10 50.00
84.7 1 5.00 11 55.00
84.8 1 5.00 12 60.00
85.1 1 5.00 13 65.00
86.1 1 5.00 14 70.00
86.3 1 5.00 15 75.00
87.3 1 5.00 16 80.00
88.5 1 5.00 17 85.00
89.1 1 5.00 18 90.00
89.7 1 5.00 19 95.00
91.9 1 5.00 20 100.00
Notao:
fi = freqncia do i-simo valor
pi = freqncia percentual do i-simo valor pi = fi / n
n = tamanho da amostra (nmero de unidades observadas)
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 23
Fi = freqncia acumulada at o i-simo valor, ou seja, nmero de observaes at o
i-simo valor =
=i
a
ai fF1
Pi = freqncia percentual acumulada at o i-simo valor, ou seja, percentual de
observaes at o i-simo valor =
=i
a
ai pP1
Observao:
Nos casos de variveis qualitativas nominais a freqncia acumulada e
percentual acumulada no tem sentido de interpretao.
Problema:
No caso das variveis quantitativas, como no exemplo acima, podemos ter
que a varivel assume um grande nmero de valores todos (ou a grande maioria)
com baixas freqncias, logo a distribuio de freqncias se torna grande sem uma
maior contribuio para a interpretao dos dados.
Nessas situaes, recomenda-se a categorizao da varivel atravs do
estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:
TABELA 2.4. Distribuio de Freqncia da Varivel Produo Industrial Categorizada.
Produo Categorizada
Produo Categorizada
Freqncia Absoluta
Freqncia Percentual
Freqncia Acumulada
Percentual Acumulada
Menor que 80 2 10.00 2 10.00
[80,85) 10 50.00 12 60.00
[85,90) 7 35.00 19 95.00
90 ou mais 1 5.00 20 100.00
Sugesto Usual:
Os intervalos gerados pela categorizao devem ter o mesmo comprimento
e/ou aproximadamente mesmas freqncias.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 24
Uma segunda forma de apresentao dos dados atravs de uma
representao grfica dos mesmos. Usualmente representa-se graficamente a
distribuio de freqncias. O tipo de grfico a ser utilizado est associado ao tipo de
varivel em estudo.
Variveis qualitativas podem ser representadas por:
Grfico em Barras
Grfico de Setores (Grfico de Pizza)
Grfico em Retngulo
Variveis quantitativas podem ser representadas por:
Diagrama de Pontos
Histogramas
Polgono de Freqncias
Ramos e Folhas
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 25
RR EE PPRR EE SS EENNTT AA OO GGRR FF II CC AA DDAADDOOSS CC AA TT EEGGRR II CCOOSS
58.06
41.94
0
20
40
60
80
100
Masculino Feminino
Sexo
Sexo
Sexo
Masculin
o
58%
Feminino
42%
Masculino Feminino
Sexo
58.06 41.94
0% 20% 40% 60% 80% 100%
Masculino Feminino
32.26
58.06
9.68
0 20 40 60 80 100
Bom
Algum
Nenhum
Computador
Bom
32%
Algum
58%
Nenhum
10%
Bom Algum Nenhum
32.26
58.06
9.68
0%
20%
40%
60%
80%
100%
Dominio de Computador
Bom Algun Nenhum
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 26
RR EE PPRR EE SS EENNTT AA OO GGRR FF II CC AA DD AADDOOSS QQUUAANNTT II TT AA TT II VVOOSS Ramo e Folhas 5 5 22222 10 5 55689 14 6 0014 (8) 6 55555789 9 7 124 6 7 57 4 8 01 2 8 5 1 9 0
Diagrama de Pontos . . : : : :. .. :. . : .. . . . .. . . . . . -----+---------+---------+---------+---------+---------+-Peso 56.0 63.0 70.0 77.0 84.0 91.0
Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos
PESO
N
o
o
f
o
b
s
16.1%
6.5%
3.2% 3.2%3.2%
6.5%
3.2% 3.2%
16.1%
3.2%3.2%3.2% 3.2%3.2% 3.2%3.2% 3.2% 3.2%3.2% 3.2% 3.2%
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
8
9
Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos
PESON
N
o
o
f
o
b
s
29.0%
32.3%
12.9% 12.9%
6.5% 6.5%
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
0 1 2 3 4 5 6 7
Peso dos Alunos Peso dos Alunos Peso dos Alunos Peso dos Alunos
PESON
N
o
o
f
o
b
s
29.0%
61.3%
74.2%
87.1%
93.5%
100.0%
0
3
6
9
12
15
18
21
24
27
30
33
0 1 2 3 4 5 6 7
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 27
22 .. 22 .. 33 .. SSUUMMAARR II ZZ AA OO DDOOSS DD AADDOOSS ::
A distribuio de freqncias alm de apresentar os dados observados,
tambm pode ser considerada uma sumarizao de dados. Porm, na maioria dos
casos, desejado obter valores que possam representar cada uma das variveis em
estudo. Esses valores devem ser medidas que, sob algum ponto de vista sejam
representativos dos dados observados. As medidas usualmente utilizadas se referem
a locao e disperso dos dados.
22 .. 22 .. 33 .. 11 .. MM EE DD II DD AA SS DD EE LL OO CC AA OO OO UU TT EE NN DD NN CC II AA CC EE NN TT RR AA LL ::
Medidas relacionadas posio dos dados, ou ainda a valores em torno dos
quais os valores observados tendem a se agrupar. As principais medidas de posio
so:
Moda
Mediana
Quartis, Decis, Percentis.
Mdia
MODA:
Definio: Valor (Classe, intervalo..) que ocorre com maior freqncia.
Vantagem: Pode ser obtida para qualquer tipo de varivel, porm, mais
apropriada para dados qualitativos nominais.
Observaes:
1) Podemos encontrar variveis em um conjunto de dados com mais de uma
moda (bimodal, tri-modal.);
2) Podemos ter variveis em um conjunto de dados onde a moda no existe.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 28
MEDIANA: Definio: Valor que ocupa a posio central num conjunto de dados ordenados,
ou seja, valor para o qual 50% dos valores observados so inferiores e 50% dos
valores observados so superiores a ele.
Condio: Para obteno da mediana a varivel em estudo deve ser pelo menos
qualitativa ordinal.
Clculo da Mediana:
1) Dados devem ser ordenados
2) Se o nmero de observaes :
2.1) mpar: Mediana o valor que est no centro da srie, ou seja o valor que
ocupa a posio (n+1)/2.
2.2) Par: Mediana qualquer valor entre aqueles dois valores que esto no
centro da srie, ou seja, qualquer valor entre aqueles que ocupam as posies
n/2 e (n/2)+1. Valor usual: Mdia dos valores que ocupam a posio (n/2) e
(n/2)+1.
QUARTIS, DECIS, PERCENTIS: Definio: A mediana divide o conjunto de dados em duas partes. Quartis decis
e percentis seguem o mesmo princpio, porm dividem os dados observados em
4, 10 e 100 partes respectivamente.
Desta forma temos que:
percentil (50) = mediana ou segundo quartil (Md)
percentil (25) = primeiro quartil (Q1)
percentil (75) = terceiro quartil (Q3)
percentil (10) = primeiro decil
Observao: Mediana, Quartis, Decis, Percentiis tambm so chamados de
separatrizes.
MDIA ARITIMTICA:
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 29
Definio: A mdia aritmtica simples de um conjunto de dados observados o
quociente da diviso por n da soma dos valores destas observaes.
Seja x1, x2, x3, .....xn os valores de uma varivel observada na amostra. A
mdia x (l-se x barra) dada por:
Onde xi o smbolo que indica a observao de ordem i = 1,2,....n
Condio: Possvel de obteno apenas para dados quantitativos.
Propriedades: A mdia aritmtica possui propriedades interessantes que podem ser
teis em determinadas situaes:
1) Se x1=x2=x3=......=xn= a ento
a mdia de uma constante a prpria constante;
2) Se a todo valor observado adicionado uma constante a, ento:
se adicionamos uma mesma constante a toda observao, a mdia tambm
fica adicionada deste valor.
3) Se a todo valor observado multiplicado por uma constante a, ento:
n
x
n
xxxxx
n
i
i
n
==
++++= 1321
...
an
a
x
n
i ====1
axn
ax
n
y
yaxy
n
i
i
n
i
i
ii +=+
===+=== 11
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 30
se multiplicamos toda observao por uma mesma constante, a mdia
tambm fica multiplicada deste valor.
4) A soma dos desvios em torno da mdia zero:
Observao: Outros tipos de mdias so conhecidos tais como: mdia ponderada,
mdia harmnica, mdia geomtrica, mdia aparada. Cada uma destas mdias tem
sua utilizada e aplicaes especficas e podem ser encontradas na grande maioria de
textos de Estatstica Bsica.
22 .. 22 .. 33 .. 22 .. CC OOMM PP AA RR AA NN DD OO MM EE DD II DD AA SS DD EE LL OO CC AA OO OO UU TT EE NN DD NN CC II AA CC EE NN TT RR AA LL ::
Uma comparao da mdia, mediana e moda, nas situaes onde possvel
calcular todos estes valores, podem nos revelar uma informao sobre o
comportamento dos dados, denominada assimetria.
Definio: Uma varivel dita ter comportamento (ou distribuio) assimtrica
quando os seus valores esto mais concentrados em um dos seus extremos (valores
altos ou baixos). As possveis situaes de assimetria e simetria so derivadas do
comportamento dos valores da mdia, mediana e moda e podem ser representadas
da seguinte forma:
xan
ax
n
y
yaxy
n
i
i
n
i
i
ii ======= 11
( ) 01
==
n
i
i xx
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 31
Figura 2.3. Assimetria de Uma Varivel
22 .. 22 .. 33 .. 33 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS OO ::
Na anlise de uma varivel de interesse em qualquer estudo, quase nunca
suficiente para descrever de modo satisfatrio, observar apenas uma nica medida
de posio. Podemos facilmente encontrar variveis que apresentam o mesmo valor
para uma medida de locao (mdia, por exemplo), porm com dados apresentando
comportamentos completamente diferentes. Esses diferentes comportamentos so
conseqncia de dados com diferentes graus de disperso.
Objetivo: Verificar o quanto os valores observados esto dispersos, ou ainda o
quanto variam os dados.
Apresentamos a seguir algumas medidas de disperso.
AMPLITUDE: Definio: Diferena entre o maior e o menor valor observado na amostra.
Notao:
Seja X(n) = maior valor observado para a varivel na amostra;
Seja X(1) = menor valor observado para a varivel na amostra;
Amplitude = A = X(n) X(1)
Observaes:
1) Medida sujeita a influencia da presena de valores extremos.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 32
2) O aumento do nmero de observaes na amostra no produz qualquer
mudana no valor dado pela amplitude.
DIFERENA DE QUARTIS: Definio: Valor dado pela diferena entre os valores que delfinem os 50%
dos valores centrais observados.
Notao:
Seja Q(1) = 1 quartil dos dados observados (25% das observaes na
amostra);
Seja Q(3) = 3 quartil dos dados observados (75% das observaes na
amostra);
Logo Q(3) Q1) contm 50% das observaes e, consequentemente
Diferena de Quartis = DQ = Q(3) Q(1)
VARINCIA DESVIO PADRO: Definio: A VARINCIA uma medida de variabilidade dos dados em torno
da mdia, ou seja, ela quantifica a variabilidade ou o espalhamento ao redor da
mdia.
natural procurar uma medida de disperso que dependa dos desvios de
cada observao em relao mdia (xi x ), e razovel considerar a soma de
todos estes desvios. Quanto maior forem os desvios, maior ser a variabilidade
presente nos dados. Entretanto, pela definio de mdia, (xi x ) = 0 para
qualquer conjunto de dados.
Uma alternativa, para se obter uma medida de disperso, elevar os desvios
de cada observao em relao mdia ao quadrado, isto ,
di= (xi - x )2
Assim,
(xi x )2
a soma dos quadrados dos desvios em relao mdia. Desta forma somamos
somente valores positivos. Torna-se necessrio considerar o n de observaes,
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 33
pois quanto maior o n de observaes maior ser o valor deste somatrio. Assim,
a varincia amostral definida por:
1
)(2
2
1
==n
xxin
iS Por que (n-1)?
Quando dividimos por n-1 temos que S2 um estimador no viciado, importante
propriedade da inferncia estatstica:
Se a amostra grande, os valores obtidos dividindo por n ou n-1 so praticamente
iguais.
Propriedades da Varincia
1) A varincia de uma constante zero, isto , xi = a, para todo i= 1, 2,..,n
ento S2 = 0
2) Se multiplicarmos cada valor da varivel por uma constante a, a varincia ser
a varincia da varivel original multiplicada por a2.
y = a X, ento Var(y) = Var (a x)= a2 Var(x).
3) Se somarmos ou subtrairmos de cada valor da varivel uma constante a, a
varincia no se altera.
Seja y = X + a, ento Var(y) = Var (x + a)= Var(x).
4) Se dividirmos cada valor da varivel por uma constante a, a varincia ser a
varincia da varivel original dividida por a2.
Seja xa
y1
= ento Var(y) = Var ( xa
1)=
2
1
aVar(x).
Note que a unidade de medida de S2 a unidade de medida das
observaes elevada ao quadrado. Ento, para obter uma medida de
variabilidade com a mesma unidade de medida das observaes extra-se a raiz
quadrada. Esta medida denominada DESVIO PADRO e definida por:
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 34
1
)( 2
1
==n
xxin
iS
Observaes:
1) S mede a disperso em torno da mdia e s deve ser calculado quando a
mdia tomada como medida de locao.
2) S 0. Logo, quanto maior a disperso em torno da mdia, maior o valor do
desvio padro, ou maior valor de S.
Alm das medidas de disperso aqui apresentadas, algumas outras so
encontradas na literatura, como por exemplo, as medidas de simetria e de
achatamento (tambm ditas de curtose). Para as aplicaes que sero feitas ao
longo desse curso, as medidas aqui apresentadas so suficientes, outras medidas
podem ser encontradas em livros de Estatstica Bsica.
22 .. 22 .. 33 .. 44 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS OO RR EE LL AA TT II VV AA ::
Em muitos casos, em particular em situaes que desejamos comparar a
disperso de variveis com diferentes unidades de medida, conveniente expressar
a disperso em termos relativos, ou seja, expressar a variabilidade dos dados tirando
a influncia da ordem de grandeza da varivel.
COEFICIENTE DE VARIAO: Definio: O desvio padro descreve o desvio padro relativo mdia.
expresso em termos de valores percentuais.
Notao:
O coeficiente de variao, que definido por:
100*x
SCV =
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 35
O coeficiente de variao (CV) adimensional, isto , um nmero puro e
usualmente expresso em porcentagem. Sua utilidade fornecer uma medida para a
homogeneidade do conjunto de dados. Quanto menor o CV mais homogneo o
conjunto de dados.
Pelo fato do CV ser adimensional, possvel comparar a variabilidade de dois
conjuntos de dados muitos distintos. O CV muito til na comparao de duas
variveis ou dois grupos que a princpio no so comparveis (por exemplo, com
ordens de grandeza das variveis muito diferentes).
Um valor de CV maior que 50% indica um alto grau de disperso e
conseqentemente uma baixa representatividade da mdia. Um valor de CV menor
ou igual a 25% geralmente indicar que o conjunto de dados razoavelmente
homogneo. Entretanto, esse padro varia de acordo com a aplicao. Uma possvel
classificao a seguinte:
CV:
Baixo - (inferior a 0,10);
Mdio - (de 0,10 a 0,25);
Alto - (0,25 a 0,35);
Muito Alto - (0,35).
22 .. 22 .. 33 .. 55 .. UUMM AA RR EE PP RR EE SS EE NN TT AA OO GG RR FF II CC AA CC OO NN JJ UU NN TT AA DD EE MM EE DD II DD AA SS DD EE LL OO CC AA OO EE DD EE DD II SS PP EE RR SS OO ::
Como apresentado anteriormente, uma anlise de dados deve, minimamente
considerar conjuntamente uma medida de locao e uma medida de disperso.
Nesse sentido importante tambm estabelecer uma representao grfica conjunta
de medidas de locao e disperso atravs da qual seja possvel verificar o
comportamento da varivel em ambos os aspectos.
ESQUEMA DE CINCO NMEROS: Proposta: Identificar 5 valores dentre o conjunto de n observados que possa
dar condies de se ter uma idia geral do comportamento geral das observaes.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 36
Condio: Possvel para variveis quantitativas;
Valores Propostos (Tukey):
Mediana
Valor Maximo (X(n)) e Valor Mnimo (X(1))
1 e 3 Quartis
Observao:
Alguns outros autores e softwares propem o uso de mdia e desvio padro
no lugar de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as
mesmas so medidas de locao e disperso que no so influenciadas pela
presena de valores extremos no conjunto de dados e que, portanto permitem uma
mais fcil identificao de presena dos mesmos dentre os valores observados.
DESENHO ESQUEMATICO BOX PLOT: Proposta: Representao grfica do esquema de 5 nmeros.
O Box-plot obtido seguindo-se os passos:
1. Numa reta so marcados o 1 quartil (Q1), a mediana (Q2 ) e o 3 quartil (Q3).
2. Acima dessa reta constri-se um retngulo com limites iguais s posies do
1 e 3 quartis, cortado por um segmento de reta na posio relativa
mediana.
3. A partir dos limites do retngulo, traam-se linhas at:
a. Encontrar um extremo (valor mximo ou mnimo) ou
b. Um valor correspondente a 1,5 DQ, se o extremo correspondente
estiver a mais de 1,5 DQ do quartil respectivo.
Os pontos que esto a mais de 1,5 DQ do quartil correspondente at 3DQ so
chamados pontos externos (* ) e os que esto a mais de 3DQ, pontos soltos (o).
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 37
Figura 2.4. Construdo o Box - Plot
Mximo
Q3
Mediana
Q1
Mnimo
25%
50%
75%
ConstruoLS=Q3+1,5(Q3-Q1)
LI=Q1-1,5(Q3-Q1)
Mximo o maior valor menor que LS;
Mnimo o menor valor maior que LI.
Figura 2.5. Forma Final do Box - Blot
O Box Plot um procedimento que permite iidentificar em um conjunto de
dados:
Simetria
Disperso
Valores Discrepantes
_Q3
_Q1
_md
linha
auxiliar
_Q3
_Q1
_md
_Q1-1,5d
_Q3+1,5d
****
**
****
**
_Q3
_Q1
_md
_Q1-1,5d
_Q3+1,5d
altura_Q3
_Q1
d
Q1 = 1 quartil Q1 = 1 quartil mdmd = mediana Q3 = 3 quartil d = diferena = mediana Q3 = 3 quartil d = diferena interquartilinterquartil
BoxBox--PlotPlot
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 38
IMPORTANTE:
O BoxPlot, alm das aplicaes apresentadas, um procedimento
extremamente importante na comparao de diferentes grupos (tratamentos) que
so observados e, por exemplo, dentre os quais, deseja-se identificar aquele com
melhor desempenho.
Exemplo:
Comparando o total de pontos obtidos pelos alunos ingressos no
processo seletivo 2005 nos diferentes cursos da UFSCar.
Captulo 2 Anlise Descritiva e Exploratria de Dados
Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 39
22 .. 33 .. RR EE FF EE RR NNCC II AA SS BB II BB LL II OOGGRR FF II CC AA SS ::
Barros Neto, B., Scarminio, I. S., Bruns, R. E. (2001) Como Fazer
Experimentos: Pesquisa e desenvolvimento na cincia e na indstria.
Editora da Unicamp, Campinas, SP.
Montgomery, D. C., Runger, G. C. (2003) Estatstica APlicada e
Probabilidade para Engenheiros, LTC Editora, 2a Edio, Rio Janeiro, RJ.
Triola, M. F. (2005) Introduo a Estatstica, LTC Editora, 9 Edio, Rio
Janeiro.
Anderson, T.W., Sclove, S. L. (1974) Introductory Statistical Analysis,
Houghton Miflin, Boston.
Vieira, S. (1999) Princpios de Estatstica, Pioneira, So Paulo, SP.