EEE933 - ESTUDO DE CASO 2 - FÁBIO MAFRA KUNOH, MARCEL SOUZA OLIVEIRA

Planejamento e Analise de Experimentos - Estudode Caso 2Marcel Souza Oliveira Fabio Mafra Kunoh

[email protected], and [email protected]

Universidade Federal de Minas Gerais

IntorducaoNo contexto de veculos automotores, a eficiencia no consumode combustvel e entendida como a economia de energia deum determinado veculo que e dada como a razao entre adistancia percorrida pela unidade de combustvel consumido.Normalmente, e expressa em quilometro por litro (Km/l).

A eficiencia no uso de combustveis leva em consideracaodiversas caractersticas do veculo, incluindo os parametrosdo motor, arrasto aerodinamico, peso, dentre outros. Nopresente estudo de caso, deseja-se eliminar a influenciadestas diferencas, buscando encontrar a magnitude media dadiferenca entre a eficiencia de um tipo de combustvel dadodois tipos de terreno.

No Brasil, o Compet em parceria com o INMETRO, saoorgaos responsaveis por realizar medicoes de eficiencia deveculos, levando em consideracao diferentes tipos de com-bustveis, categoria e modelos de carros. Os dados utiliza-dos neste estudo, trazem eficiencia no uso de combustveis deveculos leves que sao comercializados no Brasil.

DesenvolvimentoOs dados fornecidos para estudo continham informacoes ref-erentes a varios modelos, sua categoria e sobre seus consumosmedios por tipo de combustvel (gasolina e etanol) e tipo deterreno (cidade e estrada). Foram fornecidos dados de 234modelos de carros de diferentes categorias e fabricantes com-ercializados no Brasil.

No presente estudo de caso, deseja-se verificar se adiferenca de terreno tem impacto significante no consumodos veculos da classe grande, desconsiderando possveisdiferencas nos parametros de cada um dos veculos. Taisparametros podem ser entendidos como uma fonte de variacaoespuria dos dados e devem ser eliminados.

Uma fonte de variacao espuria e uma relacao matematicana qual dois ou mais eventos nao tem relacao direta de causal-idade. Neste caso, para que seja possvel reduzir ou retirarestes efeitos, usa-se tecnicas para o pareamento de medidas,onde os dados sao considerados em pares. Deve-se entao, re-alizar a subtracao das medias dos dados de consumo de com-bustvel nos dois tipos de terreno, o que resulta em um con-junto de dados unico (dados pareados).

Para verificar se existe diferenca significativa, deve-seaplicar um teste de hipoteses, onde pode-se definir o seguinte:{

H0 : C E = 0H1 : C E 6= 0 [1]

Pode-se entender a hipotese nula como a ausencia devariacao no uso do etanol em ambos os terrenos. Isso indicaque todos os valores dos dados pareados (diferenca entre osvalores de consumo em ambos os terrenos) e igual a zero. Ahipotese alternativa descreve a situacao contraria.

Nestas condicoes, para que seja possvel aplicar o testede hipoteses sobre os dados pareados, algumas condicoes de-vem ser satisfeitas. Sao elas: testes de normalidade e teste

de independencia dos dados. Estes testes serao detalhados aseguir.

Testes de Normalidade e Independencia dos DadosPara possibilitar a execucao dos testes de normalidade e inde-pendencia, primeiramente devem-se aplicar tratamentos aosdados fornecidos, visado apresenta-los de forma mais conve-niente para o processamento. Estes dados foram dispostosem seis colunas (modelo, consumo de gasolina e etanol nosterrenos estrada e cidade e categoria), das quais apenas duaseram necessarias. Logo utilizou-se os seguintes comandos emR para que fossem recuperadas apenas as colunas consumo deetanol na estrada e na cidade apenas.

data

2 1 0 1 2

2.6

2.2

1.8

Normal QQ Plot

Theoretical Quantiles

Sam

ple Q

uant

iles

Fig. 2. Quantile-Quantile Plot dos dados em estudo.

O primeiro dos graficos apresenta uma curva com um com-portamento que se distancia em varios aspectos de uma curvanormal. Percebe-se que o valor central da distribuicao estadistante do valor mais provavel, caracterstica que descarac-teriza os dados em estudo como tal.

O segundo grafico apresenta varios pontos que se distan-ciam da reta, o que nao e esperado para o QQ-plot de umadistribuicao normal.

O resultado do teste de Shapiro-Wilk pode ser visto aseguir:

Shapiro-Wilk normality testdata: etCidade - etEstradaW = 0.9287, p-value = 0.1455

O ultimo dos testes de normalidade resultou em um valor-p de 0.1455, o que pode ser considerado baixo quando com-parado ao nvel de confianca estabelecido (0.05). Logo, diz-seque os dados nao apresentam comportamento normal.

O segundo dos testes e o teste de Durbin-Watson, re-sponsavel por verificar a independencia do conjunto de dados.Os resultados deste teste sao apresentados a seguir:

Durbin-Watson testdata: (etCidade - etEstrada) ~ 1DW = 1.1085, p-value = 0.005205alternative hypothesis: true autocorrelation is greater

than 0

Os valores obtidos pelo teste de Durbin-Watson levam a`desconfianca da independencia dos dados. Uma forma de vi-sualizar a independencia destes e plota-los com o intuito deverificar se os mesmos ocupam o espaco de maneira dispersa.Ao plotar os dados, verificou-se que sempre que havia umamudanca de patamar do nvel dos dados, os pontos seguintesseguiam os mesmos valores.

A Tabela 1 apresenta os valores das diferencas de consumo.Percebe-se que carros de uma mesma montadora, costumamter os mesmos valores de consumo de combustvel. Por exem-plo, os tres carros da marca Kia (Tabela 1, linhas 11 a 13)apresentam os mesmos valores, assim como os 4 carros Focusda marca Ford (Tabela 1, linhas 14 a 17).

Uma vez que, para uma mesma montadora, os valores deconsumo se mantem, e esperado tambem que a premissa denormalidade nao seja atendida. Pois uma montadora queapresente, por exemplo, 10 carros na tabela, afetara a dis-tribuicao de forma muito mais significativa que uma monta-dora que apresente 2. Sendo assim, a ideia central do tra-balho, que e a eliminacao de fatores espurios, nao esta sendorespeitada. O fator montadora esta alterando significativa-mente os resultados dos testes.

Dessa forma, uma nova perspectiva para o trabalho e ado-tada onde serao escolhidos carros, considerando apenas umveculo por montadora. Este procedimento sera apresentadoa seguir.

Filtragem dos dadosRealizando a filtragem proposta, a quantidade de veculos caiude 29 para 6. Esta diferenca era esperada, uma vez que muitoscarros apareciam repetidamente (o carro Ford Focus represen-tava 10 dos 29 veculos presentes nos dados originais).

Novamente foram realizados testes de normalidade dos da-dos baseados no Q-Q plot, Density plot e teste de ShapiroWilk. Os resultados destes testes sao apresentados a seguir.

2.8 2.4 2.0 1.6

0.0

0.5

1.0

1.5

2.0

density.default(x = (etCidade etEstrada))

N = 6 Bandwidth = 0.1173

Den

sity

Fig. 3. Density Plot dos dados filtrados.

1.0 0.5 0.0 0.5 1.0

2.5

2.3

2.1

Normal QQ Plot

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Fig. 4. Quantile-Quantile Plot dos filtrados.

Shapiro-Wilk normality testdata: etCidade - etEstradaW = 0.9124, p-value = 0.4522

Analisando-se os testes graficos, percebe-se pontos bemcomportados no Q-Q Plot, que se distribuem bem ao re-dor da reta, caracterstica que indica a normalidade dos da-dos. O Density plot gerado, apresenta uma curva visualmenteproxima de uma normal. Existe apenas uma leve elevacaoem sua porcao esquerda que, por sua vez, nao leva a rejeicaoda hipotese de normalidade. Ambos os resultados dos testesgraficos, quando comparados aos testes realizados nos dadoscompletos, apresentaram melhoras significativas.

O teste de Shapiro-Wilk apresentou um valor-p de aprox-imadamente 0.45, o que e muitas vezes maior que o limite de0.05 que foi definido previamente como alfa. Essa e mais umainformacao que prove a` rejeicao da hipotese de nao normal-idade, uma grande seguranca, validando a premissa de nor-malidade.

2

Validadas as premissas de normalidade, pode-se verificar aindependencia dos dados em estudo. Mais uma vez, utilizou-se o teste de Durbin Watson para tanto. Os resultados desteteste sao apresentados a seguir.

Durbin-Watson testdata: (etCidade - etEstrada) ~ 1DW = 1.6991, p-value = 0.3419alternative hypothesis: true autocorrelation is greater

than 0

O teste de Durbin Watson, que indicou problemas nogrupo completo de veculos, neste novo grupo aceitou a pre-missa de independencia, apresentando um valor-p elevado(0.34). Sendo assim, as premissas de normalidade e inde-pendencia foram comprovadas e o teste pareado t pode serrealizado para avaliacao do problema principal.

Teste tUma vez comprovados ambas as premissas, pode-se entao re-alizar o teste t. O teste t de Student e um teste de hipotesesque usa conceitos estatsticos para a rejeicao ou nao de umahipotese nula.

Para tanto, utiliza-se em R os seguintes comandos.

t.test(etCidade,etEstrada,alternative="two.sided",mu=0,var.equal = FALSE,conf.level=0.95,paired=T)

Como pode ser observado, o comando em R recebe comoparametros dois vetores contendo os dados a serem trabalha-dos (etCidade eetEstrada), a media estimada mu=0, o nvelde confianca conf.level igual a 95% e o indicador de pari-dade dos testes paired=T. O resultado deste e apresentado aseguir.

Paired t-testdata: etCidade and etEstradat = -27.9768, df = 5, p-value = 1.092e-06

alternative hypothesis: true difference in means is notequal to 0

95 percent confidence interval:-2.420340 -2.012993sample estimates:mean of the differences

-2.216667

Pelo teste realizado, observou-se que o intervalo de con-fianca de 95% da diferenca de rendimento dos carros se localizano intervalo [-2.420340 -2.012993]. Como o valor nulo naose encontra neste intervalo, pode-se afirmar que existe umadiferenca de consumo com nvel de significancia 95%.

Garantida uma significancia estatstica, uma avaliacao im-portante esta relacionada a` significancia pratica da diferencade consumo. A diferenca media de 2.217 representa mais de20% do maior valor de rendimento informado pelos dados. Oque e um valor elevado. Utilizando-se o estimador de Co-hen, que e dado pela razao entre diferenca media e varianciaamostral, obtemos um valor maior que 58.84. Isso mostra quetemos uma grande diferenca media sendo que ha uma baixavariancia das medidas, o que reforca o ponto avaliado nestetrabalho.

Consideracoes finaisComo conclusao deste trabalho, pode-se inicialmente citar quea decisao de filtrar os dados por montadora foi acertada umavez que tal filtro permitiu que os dados atendessem as premis-sas necessarias para o teste. O resultado do teste estatsticorespondeu claramente a pergunta motivadora do trabalho quee O desempenho de carros tipo grande em condicoes decidade estrada e significativamente diferente? e Qual a mag-nitude dessa diferenca. Como foi citada na secao anterior,essa diferenca existe, e clara e significativa. Foi comprovadoque a cultura popular de que ambientes diferentes que exigemdinamicas de direcao diferentes resultam em consumos varia-dos de combustvel.

3

Tabela 1. Modelo e consumo de combustvel na estrada e na cidade.

N MODELO ET.CIDADE ET.ESTRADA Et-Dif

1 HONDA.Civic.LXS.1.8.16V.Flex 7.4 13.4 -2.1

2 HONDA.Civic.LXS.1.8.16V.Flex 7.3 13.4 -2.7

3 TOYOTA.Corolla.Gli.1.8.16V.Flex 7.1 13.3 -2

4 TOYOTA.Corolla.XLi.1.8.16V.Flex 7.1 13.3 -2

5 TOYOTA.Corolla.Gli.1.8.16V.Flex 7 13.5 -2.6

6 TOYOTA.Corolla.XLi.1.8.16V.Flex 7 13.5 -2.6

7 KIA.Cerato.EX3.1.6.16V.Flex 6.8 14 -2.5

8 KIA.Cerato.LX3.1.6.16V.Flex 6.8 14 -2.5

9 KIA.Cerato.SX3.1.6.16V.Flex 6.8 14 -2.5

10 RENAULT.Fluence.Dynamique.2.0.16V.Flex 6.8 14.1 -2.4

11 KIA.Cerato.EX3.1.6.16V.Flex 6.6 12.4 -2.5

12 KIA.Cerato.LX3.1.6.16V.Flex 6.6 12.4 -2.5

13 KIA.Cerato.SX3.1.6.16V.Flex 6.6 12.4 -2.5

14 FORD.Focus.Hatch.GL.1.6.16V.Flex 6.5 12.9 -2.2

15 FORD.Focus.Hatch.GLX.1.6.16V.Flex 6.5 12.9 -2.2

16 FORD.Focus.Sedan.GL.1.6.16V.Flex 6.5 12.9 -2.2

17 FORD.Focus.Sedan.GLX.1.6.16V.Flex 6.5 12.9 -2.2

18 HONDA.Civic.LXR.2.0.16V.Flex 6.5 12.8 -2.7

19 HONDA.Civic.EXR.2.0.16V.Flex 6.5 12.8 -2.7


21 FORD.Focus.Hatch.Titanium.2.0.16V.Flex 6.4 11.7 -1.7


23 NISSAN.Sentra.20.2.0.16V.Flex 6 11.7 -2.1

24 NISSAN.Sentra.20S.2.0.16V.Flex 6 11.7 -2.1

25 NISSAN.Sentra.20SL.2.0.16V.Flex 6 11.7 -2.1


27 FORD.Focus.Hatch.Titanium.2.0.16V.Flex 5.7 11.3 -2.1


29 FORD.Focus.Sedan.Titanium.2.0.16V.Flex 5.7 11.3 -2.1

Tabela 2. Modelo e consumo de combustvel na estrada e na cidade(dados Filtrados).

N MODELO ET.CIDADE ET.ESTRADA Et-Dif

1 HONDA.Civic.LXS.1.8.16V.Flex 7.4 9.5 2.1

2 TOYOTA.Corolla.Gli.1.8.16V.Flex 7.1 9.1 2.0

3 KIA.Cerato.EX3.1.6.16V.Flex 6.8 9.3 2.5

4 RENAULT.Fluence.Dynamique.2.0.16V.Flex 6.8 9.2 2.4

5 FORD.Focus.Hatch.GL.1.6.16V.Flex 6.5 8.7 2.2

6 NISSAN.Sentra.20.2.0.16V.Flex 6.0 8.1 2.1

4

Documents

EEE933 - ESTUDO DE CASO 2 - FÁBIO MAFRA KUNOH, MARCEL SOUZA OLIVEIRA