Upload
trannga
View
214
Download
0
Embed Size (px)
Citation preview
Probabilidade e Estatística Prof. Dr. Jhames Sampaio
Associação Entre Variáveis Qualitativa vs Qualitativa
• Tabelas de dupla entrada • Gráfico segmentado
Qualitativa vs Quantitativa • Categorização • Boxplot por categorias
Quantitativa vs Quantitativa • Gráficos de dispersão • Correlação
Nós consideramos um estudo que investigou a discriminação de gênero na década de 1970 ao avaliar as decisões de pessoal dentro de um banco. A questão que esperamos responder é:
"As mulheres são, injustamente, discriminadas em decisões de promoção realizadas por gerentes do sexo masculino?”
Os participantes deste estudo são 48 supervisores bancários do sexo masculino que frequentaram um instituto de administração da Universidade da Carolina do Norte em 1972. Eles foram convidados a assumir o papel do diretor de pessoal de um banco e lhes foi dado um arquivo pessoal para julgarem se a pessoa deveria ser promovida a uma posição de gerente de filial. Os arquivos estipulados para os participantes eram idênticos, exceto que metade deles indicava candidatos do sexo masculino e a outra metade indicava candidatos do sexo feminino. Esses arquivos foram aleatoriamente designados para os sujeitos.
Associação Entre Variáveis Qualitativa vs Qualitativa
Associação Entre Variáveis Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino totalpromovido 14 21 35
nãopromovido 10 3 13total 24 24 48
Uma forma interessante de avaliarmos a distribuição conjunta e as relações de dependência entre as variáveis é relativizarmos os resultados da tabela.
Associação Entre Variáveis Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino totalpromovido 29,17% 43,75% 72,92%
nãopromovido 20,83% 6,25% 27,08%total 50% 50% 100%
Dividimos os valores da tabela pelo número total de participantes que é 48
Associação Entre Variáveis Qualitativa vs Qualitativa
Uma boa maneira de organizarmos os dados é por meio de uma tabela de dupla entrada
feminino masculino totalpromovido 29,17% 43,75% 72,92%
nãopromovido 20,83% 6,25% 27,08%total 50% 50% 100%
Dividimos os valores da tabela pelo número total de participantes que é 48
• 50% dos participantes é homem • 20,83% dos não promovidos são mulheres
Associação Entre Variáveis Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 58,33% 87,50% 72,92%
nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%
Dividimos os valores da tabela pelo número total de cada coluna
Associação Entre Variáveis Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 58,33% 87,50% 72,92%
nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%
• 41,67 % das mulheres não foram promovidas • 12,50% dos homens não foram promovidos
Dividimos os valores da tabela pelo número total de cada coluna
Associação Entre Variáveis Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 58,33% 87,50% 72,92%
nãopromovido 41,67% 12,50% 27,08%total 100% 100% 100%
• 41,67 % das mulheres não foram promovidas • 12,50% dos homens não foram promovidos 0.00
0.25
0.50
0.75
1.00
feminino masculinoGênero
Obs
erva
do Decisão
Não promovido
Promovido
Gráfico Segmentado
Associação Entre Variáveis Qualitativa vs Qualitativa
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 40,00% 60,00% 100%
nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%
Dividimos os valores da tabela pelo número total de cada linha
Associação Entre Variáveis Qualitativa vs Qualitativa
• 76,92% dos não promovidos são mulheres • 60% dos promovidos são homens
Dividimos os valores da tabela pelo número total de cada linha
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 40,00% 60,00% 100%
nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%
Associação Entre Variáveis Qualitativa vs Qualitativa
0.00
0.25
0.50
0.75
1.00
não promovido promovidoDecisão
Obs
erva
do Gênero
Feminino
Masculino
Gráfico Segmentado
Se estamos interessados em avaliar o que ocorre dentro das categorias, podemos olhar para as colunas ou para as linhas que representam cada categoria:
feminino masculino totalpromovido 40,00% 60,00% 100%
nãopromovido 76,92% 23,08% 100%total 68,57% 31,43% 100%
• 76,92% dos não promovidos são mulheres • 60% dos promovidos são homens
Associação Entre Variáveis Qualitativa vs Quantitativa
Vamos considerar os tempos de prova dos ganhadores da maratona de Nova York registrados nos anos de 1970 a 1999.
1 1980 masculino 2.16139
2 1981 masculino 2.13694
3 1982 masculino 2.15806
4 1983 masculino 2.14972
5 1984 masculino 2.24806
6 1985 masculino 2.19278
7 1986 masculino 2.18500
8 1987 masculino 2.18361
9 1988 masculino 2.13889
10 1989 masculino 2.13361
11 1990 masculino 2.21083
12 1991 masculino 2.15778
13 1992 masculino 2.15806
14 1993 masculino 2.16778
15 1994 masculino 2.18917
16 1995 masculino 2.18333
17 1996 masculino 2.16500
18 1997 masculino 2.13667
19 1998 masculino 2.14583
20 1999 masculino 2.15389
21 1980 feminino 2.42833
22 1981 feminino 2.42472
23 1982 feminino 2.45389
24 1983 feminino 2.45000
25 1984 feminino 2.49167
26 1985 feminino 2.47611
27 1986 feminino 2.46833
28 1987 feminino 2.50472
29 1988 feminino 2.46861
30 1989 feminino 2.42500
31 1990 feminino 2.51250
32 1991 feminino 2.45889
33 1992 feminino 2.41111
34 1993 feminino 2.44000
35 1994 feminino 2.46028
36 1995 feminino 2.46833
37 1996 feminino 2.47167
38 1997 feminino 2.47833
39 1998 feminino 2.42139
40 1999 feminino 2.41833
41 1970 masculino 2.52722
42 1971 masculino 2.38167
43 1972 masculino 2.46444
44 1973 masculino 2.36500
45 1974 masculino 2.44167
46 1975 masculino 2.32417
47 1976 masculino 2.16944
48 1977 masculino 2.19111
49 1978 masculino 2.20333
50 1979 masculino 2.19500
51 1971 feminino 2.92278
52 1972 feminino 3.14472
53 1973 feminino 2.95194
54 1974 feminino 3.12472
55 1975 feminino 2.77056
56 1976 feminino 2.65306
57 1977 feminino 2.71944
58 1978 feminino 2.54167
59 1979 feminino 2.45917
Associação Entre Variáveis Qualitativa vs Quantitativa
Para avaliar o que ocorre dentro de cada categoria podemos construir um Boxplot para cada uma delas
2.1
2.4
2.7
3.0
feminino masculinoGênero
Tem
po d
e pr
ova
Box−plot
É bastante evidente que o tempo de prova do grupo masculino é bem menor que o do grupo feminino
Associação Entre Variáveis Dispersão por categorias
Como possuímos a variável “tempo", podemos criar um gráfico de dispersão em relação à variável "tempo"
Aqui escolhemos a cor dos pontos de acordo com a categoria gênero.
2.1
2.4
2.7
3.0
1970 1980 1990 2000Gênero
Tem
po d
e pr
ova
1
1
Gênero
Feminino
Masculino
Gráfico de dispersão
Associação Entre Variáveis Quantitativa vs Quantitativa
Quando trabalhamos com duas variáveis quantitativas é bastante imediata a nossa vontade de construir um gráfico de dispersão que relacione os valores das variáveis em questão
Nós iremos considerar os dados relativos aos funcionários de uma empresa de vendas
Agente Anos de serviço
Número de clientes
Roberto 2 48Ana 3 50João 4 56Pedro 5 52Júlia 4 43
Agente Anos de serviço
Número de clientes
Teresa 6 60Matheus 7 62Regina 8 58Caio 8 64Bruna 10 72
Associação Entre Variáveis Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50
60
70
2 4 6 8 10Anos de serviço
Núm
ero
de c
lient
es
Gráfico de dispersão
Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário
Associação Entre Variáveis Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50
60
70
2 4 6 8 10Anos de serviço
Núm
ero
de c
lient
es
Gráfico de dispersão
Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário
Associação Entre Variáveis Quantitativa vs Quantitativa
Abaixo segue o gráfico de dispersão dos “Anos de Serviço” contra o “Número de Clientes"
50
60
70
2 4 6 8 10Anos de serviço
Núm
ero
de c
lient
es
Gráfico de dispersão
Parece haver uma associação clara entre os anos de serviço e o número de clientes de um funcionário
Nosso desejo é criar uma medida que seja capaz de captar a associação entre variáveis quantitativas
Associação Entre Variáveis Dados Brutos
0
5
10
0 2 4 6
−10
−5
0
5
0.0 2.5 5.0
−20
0
20
40
0 5 10
Associação positiva Associação negativa Ausência de associação
Associação Entre Variáveis Dados brutos
0
5
10
0 2 4 6
−10
−5
0
5
0.0 2.5 5.0
−20
0
20
40
0 5 10
Associação positiva Associação negativa Ausência de associação
Associação Entre Variáveis Centralizando
−4
0
4
−2 0 2
−5
0
5
10
−5.0 −2.5 0.0 2.5
−20
0
20
40
−4 0 4
Associação positiva Associação negativa Ausência de associação
Associação Entre Variáveis Normalizando
−2
0
2
−2 0 2
−2
0
2
−2 0 2
−2
0
2
4
−2 0 2
Associação positiva Associação negativa Ausência de associação
Associação Entre Variáveis Medidas de Associação
Correlação
CovariânciaCov(X,Y ) =
1
n
nX
i=1
(xi � x)(yi � y)
Corr(X,Y ) =
1
n
nX
i=1
(xi � x)(yi � y)
dp(x)dp(y)
Associação Entre Variáveis Medidas de Associação
agente anos de serviço
número de clientes
Roberto 2 48 -3,70 -8,50 -1,54 -1,05 0,16
Ana 3 50 -2,70 -6,50 -1,12 -0,80 0,09
João 4 56 -1,70 -0,50 -0,71 -0,06 0,00
Pedro 5 52 -0,70 -4,50 -0,29 -0,55 0,02
Júlia 4 43 -1,70 -13,50 -0,71 -1,66 0,12
Teresa 6 60 0,30 3,50 0,12 0,43 0,01
Matheus 7 62 1,30 5,50 0,54 0,68 0,04
Regina 8 58 2,30 1,50 0,95 0,18 0,02
Caio 8 64 2,30 7,50 0,95 0,92 0,09
Bruna 10 72 4,30 15,50 1,78 1,91 0,34
Total 57 565 0,00 0,00 0,00 0,00 0,88
Correlação
x� x
y � y zy = y�ydp(y)
zx
⇥zy
nzx
= x�x
dp(x)
Associação Entre Variáveis Gráfico Bolha
pais rep_capita mort_inf exp_vida pop regiaoAfeganistão US$1925,00 91,10 61,726 32526562 Asia
Albania US$10620,00 14,00 77,807 2896679 EuropeAlgéria US$13434,00 24,00 71,246 39666519 Africa
… … … … … …Zâmbia US$4034,00 67.80 59,853 16211767 Africa
Zimbábue US$1801,00 79,60 62,017 15602751 Africa
Vamos considerar os dados (Gapminder) de 2015 que revelam características dos países.
Para cada país temos a informação acerca da “renda per capita”, “mortalidade infantil”, "expectativa de vida”, “tamanho da população” e “região no mapa”.
Associação Entre Variáveis Gráfico Bolha
Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?
Associação Entre Variáveis Gráfico Bolha
Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?
50
60
70
80
0 50000 100000 150000Renda per capita
Expe
ctat
iva d
e vi
da
Gráfico de dispersão
Associação Entre Variáveis Gráfico Bolha
Será que há associação entre a renda per capita dos países e suas respectivas expectativas de vida?
50
60
70
80
0 50000 100000 150000Renda per capita
Expe
ctat
iva d
e vi
da
Gráfico de dispersão
A associação não aparenta ser linear de modo que tomamos o logaritmo da renda per capita
Associação Entre Variáveis Gráfico Bolha
Neste gráfico podemos visualizar melhor os países
50
60
70
80
8 10 12Renda per capita
Expe
ctat
iva d
e vi
da
Gráfico de dispersão
50
60
70
80
8 10 12Renda per capita
Expe
ctat
iva d
e vi
da
Gráfico de dispersão
Associação Entre Variáveis Gráfico Bolha
Podemos também procurar alguns "outliers"
50
60
70
80
8 10 12Renda per capita
Expe
ctat
iva d
e vi
da
Gráfico de dispersão
Associação Entre Variáveis Gráfico Bolha
Podemos também procurar alguns "outliers"
Serra Leoa
MacauCosta do Marfim
50
60
70
80
8 10 12Renda per capita
Expe
ctat
iva d
e vi
da
Região
Africa
Americas
Asia
Europe
Oceania
Gráfico de dispersão
Associação Entre Variáveis Gráfico Bolha
Adicionamos informação ao gráfico categorizando as cores por região
MacauCosta do Marfim
Serra Leoa
Associação Entre Variáveis Gráfico Bolha
E adicionamos mais informação, atribuindo o tamanho da população à área de cada ponto