Estatística Computacional - 2370
Estatística Computacional - 2370
Estatística Computacional - 2370
Estatística com Excel
Apresentar os conceitos:
Variáveis, casos (unidade amostral)
Base de dados no Excel.
Objetivos na aula do dia 19 e 22/02/08
AplicaçãoPesquisa de Opinião da
TCC;Pesquisa de Opinião da Qualidade de Vida
Identificando variáveis
Pesquisa de Opinião: Questionário VariáveisItens do questionário
Pesquisa saúde: Medidas de interesse para pesquisa
Qualitativase
Quantitativas
VariáveisIMC, hipertensão
Pesquisa agronômica: Medidas de interesse para pesquisa
VariáveisPeso, produtividade
Identificando a unidade amostral
Pesquisa de Opinião: Entrevistado Casos Um questionário
Pesquisa Saúde : Pessoa, Rato, prontuário Casos Pessoa, rato, prontuário
Pesquisa Agronômica: Planta,
ParcelaCasos planta ou parcela
Base de dados
É a disposição das informações coletadas
Nos aplicativos :a linha representa os casos;a coluna representa as variáveis
Exemplo de uma pesquisa de opinião
Exemplo de uma pesquisa de opinião
Questionário da TCC
Continuação do questionário da TCC
Apresentação do Excel
casos
Variáveis
Planilha do Excel para o questionário da QV
Identificar as questõesna primeira linha
Planilha do Excel para o questionário TCC
Exercício 1
Na planilha do Excel para o questionário TCC, insira os 10 questionários
Exercício 2
Crie uma planilha no Excel para o questionário QV
Estatística com Excel
Comandos de edição no Excel:Substituir ;Format;Excluir e incluir
Funções no Excel:Soma multiplicação e divisão;freq
Tabelas dinâmicas
Histograma
Tabelas e Gráficos
Trata-se de um conjunto de técnicas analíticas ;
Objetivo: resumir o conjunto de todos os dados coletados numa dada investigação;
Envolve basicamente:
Estatística descritiva
A idéia básica é a de se estabelecer uma descrição dos dados relativos a cada uma das variáveis.
Distribuição de Freqüência Medidas da Tendência Central
Medidas de DispersãoAvaliação quanto a simetria e
homogeneidade
DISTRIBUIÇÃO DE FREQÜÊNCIAS
Para dados categóricos, basta contarmos quantos casos ocorrem em cada categoria.
Para dados numéricos, inicialmente criamos os intervalos de classe e, posteriormente, contamos quantos casos ocorrem em cada intervalo.
As freqüências das categorias ou intervalos de classe podem ser expressas por seu número absoluto, pela proporção em relação ao total de casos ou pela porcentagem em tabelas e gráficos (os gráficos serão construídos no Statistica)
Obtenção
Apresentação
DISTRIBUIÇÃO DE FREQÜÊNCIAS
A tabela deve ser auto-explicativa.
Elementos da tabela:
TÍTULO: deve responder as questões:
Do que se trata? aponta o fenômeno, Onde ocorreu? local de ocorrência; Quando ocorreu? época da ocorrência
Tabelas Apresentação
Título;Cabeçalho;Coluna indicadora; Corpo.
DISTRIBUIÇÃO DE FREQÜÊNCIAS
CABEÇALHO: informa sobre o conteúdo das colunas; COLUNA INDICADORA: informa sobre o conteúdo das linhas;CORPO: apresenta as informações.
Elementos complementares da tabela:
Tabelas Apresentação
Fonte cita o informante;
Notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação;
Chamadas esclarecem pontos específicos da tabela.
Fonte cita o informante;
Notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação;
Chamadas esclarecem pontos específicos da tabela.
DISTRIBUIÇÃO DE FREQÜÊNCIAS
Tabela 1: Título
Tabelas Apresentação
Coluna indicadora Cabeçalho
Conteúdo da linha
C
O
L
U
N
A Fonte:Nota: CORPO DA TABELA
DISTRIBUIÇÃO DE FREQÜÊNCIAS - Obtenção
Dados categóricos; A variável tipo sangüíneo é proveniente de uma amostra, de 30 doadores de um hemocentro.AAAAAAAAAA,BBB, AB, OOOOOOOOOOOOOOOO;
Exemplo
O | | | | | | | | | | | | | | | | 16 A | | | | | | | | | | 10B | | | 3AB | 1
Tipo sangüíneo Contagem Freqüência
DISTRIBUIÇÃO DE FREQÜÊNCIAS - Obtenção
Dados numéricos; A variável peso ao nascer, em gramas, é proveniente de uma amostra, de 22 recém-nascidos de Maringá.2300,2354,2456,2576,2598,2670,2647,2691,2750,2789,2810,2860,2835,2904,2926,2954,3100,3250,3376,3400,3505,3940.
Exemplo
Peso Contagem Freqüência
Menos de 2500g | | | 32500g a 3500g | | | | | | | | | | | | | | | | | 173500g ou mais | | 2
DISTRIBUIÇÃO DE FREQÜÊNCIAS - Apresentação
Tabela 1: Distribuição dos doadores por tipo sangüíneo – Maringá 2005
Fonte: Hemocentro Nota: dados fictícios
Exemplo
Tipo sangüíneo Freqüência Percentual
O 16 53
A 10 33
B 3 10
AB 1 4
Total 30 100
DISTRIBUIÇÃO DE FREQÜÊNCIAS - Apresentação
Exemplo
Peso, em gramas Freqüência Percentual
Menos de 2500 3 14
2500 |-- 3500 17 77
3500 ou mais 2 9
Total 22 100
Tabela 2: Distribuição do peso dos recém-nascidos – Maringá 2005
Distribuição Normal
•Média: É a soma de todos os resultados dividida pelo número total de casos, podendo ser considerada como um resumo da distribuição
como um todo. •Moda: É o evento ou categoria de eventos que ocorreu com maior
freqüência, indicando o valor ou categoria mais provável. •Mediana : É o valor da variável aleatória a partir do qual metade dos
casos se encontra acima dele e metade se encontra abaixo. Observação: Na distribuição normal a Média=Mediana= Moda
Medidas da Tendência Central
Fornecem indicadores da distribuição da variável, isto é indica o valor que ocorre mais tipicamente
Avaliando a homogeneidade - Medidas de dispersão Amplitude, desvio médio, variância, desvio padrão, erro padrão e coeficiente
de variação
São medidas da variação de um conjunto de dados em torno da média, ou seja, da maior ou menor variabilidade dos resultados obtidos. Elas permitem se identificar até que ponto os resultados se concentram ou não ao redor da média de um conjunto de observações. Cada uma dessas medidas expressão diferentes formas de se quantificar a tendência que os resultados de um experimento aleatório tem de se concentrarem ou não em determinados valores (quanto maior a dispersão, menor a concentração e vice-versa).
Avaliando a homogeneidade
Avaliando a simetria Quartis, Amplitude interquartilica, Box Plot
Quartis: Q1 Q2 Q3
É o valor da variável aleatória a partir do qual 25%, 50% e 75% dos casos se encontra acima dele respectivamente;
Amplitude Interquartilica(AIQ)AIQ = Q3 – Q1
Avaliando a simetria:
mínimo máximo
* *
valores
outliers Q1 Q2 Q3 outliers
Avaliando Presença de Outliers
Os dados suspeitos são aqueles que estão muito distantes do centro da distribuição, que até podem ocorrer, mas que, às vezes, resultam de erro de medida, de anotação ou de digitação. Por exemplo, em um estudo sobre altura de crianças de idade escolar, encontramos casos com valor 220cm e 240cm. O mais provável é que tenha ocorrido erro de anotação ou de digitação. Se estes casos não forem retirados da amostra, haverá séria distorção da média, do desvio padrão e comprometimento dos testes estatísticos. Estes valores extremos são chamados de pontos fora da curva (outliers).
Considera-se pontos fora da curva aqueles que são maiores que Q3+1,5AIQ ou menores que Q1-1,5AIQ, onde 1,5AIQ é 1,5 vezes a amplitude interquartil. Isto pode ser visto no Box -Plot
Identificando Outliers
Apresentação do Format
celulas
Substituir
O nome ou valor que se deseja trocarO nome ou valor
que será trocador
Atividade
Para a variável RAÇA, do arquivo perfil , atribua:
1 = Branca2 = Negra 3 = Outras
Formatar
Atividade
Considere as variáveis Peso Altura Formate com duas decimais
Tabelas e gráficos para variáveis qualitativas
Construindo a tabela e gráfico para raça da base de dados perfil
No menu principal Clicar em : DADOSFazer a opção: RELATÓRIO DE TABELA E GRÁFICO DINÂMICO, mostrado na tela abaixo:
No Excel é trabalhoso construir gráficos quando comparado ao Statistica por isto, veremos superficialmente os gráficos neste software
Etapas para construir tabelas e gráficos para variáveis qualitativas no Excel
clicar
Clicar para definir
variável(is)
Continua no próximo slide
Continuação do slide anterior
Definindo a variável raça
Definindo a localização da tabela
Configurando a tabela
Selecionando a opção de freqüência
Da base de dados “QV” construir a tabela de freqüência para as variáveis: questões 1, 3 e 5 , sexo e estado cívil
Atividade
Tabela de freqüência – variáveis quantitativas
Definir as classes: método visto em estatística geral;
Ferramentas e análise de dados e escolha a opção histograma.
Caso a opção Análise de Dados não esteja disponível, siga os passos a seguir: Passo 1: Clicar em Ferramentas Passo 2: clicar em suplementos Passo 3: clicar Ferramentas de Análise e ok.
CONSTRUINDO HISTOGRAMA
Análise de dados
CONSTRUINDO HISTOGRAMA
Valores da variávelIntervalo de classe
Atividade
Construa a tabela de freqüência para o peso e para altura do arquivo perfil.
Estatística Computacional – 2370 Aulas: 26/02/08 e 29/02/08
Medidas descritivas
Para obter as medidas descritivas no Excel siga os passos a seguir
Passo 1: Clicar em ferramentas , Análise de Dados Passo 2: na caixa de diálogo a seguir clicar em Estatística Descritiva
Passo 3:
clicar
clicar
Medidas descritivas em subgrupos da amostra
Pode ser de interesse obter medidas descritivas de uma variável quantitativa por categorias de uma ou mais variáveis qualitativas .
Passo 1: Clicar em Dados, Relatório de Tabela Dinâmica Passo 2: Seguir as mesmas etapas para construção da tabelaPasso 3: no layout as variáveis qualitativas são colocadas na Linha e/ou Colunas da tabela e a quantitativa no centro ( Dados). No lugar de contagem ..., escolher a estatistica de interesse.
A caixa de diálogo vai criar uma tabela com média e desvio padrão da idade para cada categoria da variável sexo
Função SE - Sintaxe da expressão para categorizar uma variável no Excel
Considere o exemplo do Excel com a planilha.
Expressão :SE(A2>89;"A";SE(A2>79;"B"; SE(A2>69;"C";SE(A2>59;"D";"F"))))
Suponha que a variável A deve ser categorizada da seguinte forma:Categoria 1: Se A<59, atribuir o valor FCategoria 2: Se 59<A<69, atribuir o valor DCategoria 3: Se 69<A<79, atribuir o valor CCategoria 4: Se 79<A<89, atribuir o valor BCategoria 5: Se A>89, atribuir o valor A
Estatística Computacional – 2370 Aulas: 29/02/08 - Exercício
Ver o arquivo “dados gordura no corpo.txt”
PEQUENO RESUMO DOS DADOS: Algumas medidas do corpo foram realizadas em 252 homens com objetivo de obter um método de baixo custo que estime a gordura corporal. As variáveis listadas abaixo são:
Densidade do corpo (gm/cm3) ;Percentual de gordura no corpo usando a equação de Siri's (1956);Idade (anos); Peso (lbs) Altura (inch) Circunferência do pescoço (cm) Circunferência do tórax (cm) Circunferência do Abdômen (cm) Circunferência do quadril (cm) Circunferência do glúteo (cm) Circunferência do joelho (cm) Circunferência do tornozelo (cm) Circunferência do Bíceps (estendido) (cm) Circunferência do Antebraço(cm) Circunferência do Punho (cm)
Questões
Q1: Abrir a base de dados no Excel e nomear as variáveis;Q2: Sabendo que 1 polegada(inch) equivale 2,540 cm modifique a variável altura
para m;Q3: Sabendo que 1 libra equivale a 0,45359 quilogramas transforme a variável
peso para quilogramas;Q4: Obtenha o índice de massa corporal (IMC) que é dado por:IMC=Peso,em
quilogramas/(altura, em metros)2;Q5: Categorize a variável IMC nas quatro categorias descritas a seguir:
Q6: Categorize a variável idade em três categorias, sendo:Categoria1: idade < idade média – desvio-padrãoCategoria2: idade média – desvio-padrão idade idade média + desvio-padrãoCategoria3: idade > idade média – desvio-padrão. Q7: Faça um gráfico para a variável idade categorizada; Q8: Faça tabela e gráfico para circunferência do abdômen;Q9: Faça medidas descritivas para as variáveis quantitativas;Q10: Faça as medidas descritivas das variáveis quantitativas por
IMC, classificado
Condição IMC em adultos abaixo do peso abaixo de 18,5 no peso normal entre 18,5 e 25 acima do peso entre 25 e 30 obeso acima de 30
Box Plot no Excel
Passo 2:
Passo 1: Construir uma tabela com a seguinte seqüência:
Marcar tabela
Clicar assistente
gráfico
Passo 2: Marcar tabela e clicar assistente gráfico
Box Plot no ExcelPasso 3: Marcar linha
Opção: linhas
Passo 4: Marcar linhas e avançar
Box Plot no Excel
Passo 5: Por título do gráfico e eixos e concluir
Passo 6: Marcar qualquer dado e clicar botão direito
Box Plot no Excel
Passo 7: Clicar Formatar série de dados e Opções
Passo 8:
Clicar
Marcar
Marcar
Box Plot no Excel
Observações: 1. A construção do box plot no Excel é limitada, por exemplo, não é possível
especificar quais são as observações discrepantes ou outliers.2. Para melhores resultados será usado o aplicativo estatístico “Statistica”.
Box-plot da idade dos entrevistados - Maringá - 2008
0
5
10
15
20
25
30
1
Idade
Série1
Série2
Série3
Série4
Série5