5
 Planejamento e An´ alise de Experimentos - Estudo de Caso 2 Mar cel Souza Oliveira  F´abio Mafr a Kuno h  [email protected], and  [email protected] Universidade Federal de Minas Gerais Intordu¸ c˜ ao No c ontexto de ve´ ıculos automo tores, a eciˆ encia no c onsumo de combust ´ ıvel ´ e entendida como a economia de energia de um determinado ve ´ ıculo que ´ e dada como a raz˜ ao entre a distˆ ancia percorrida pela unidade de combust ´ ıvel c onsumido. Normalmente, ´ e ex pressa em qu ilˆ ometro por litro (Km/l). A e ciˆ encia no uso de combust´ ıveis leva e m c onsider ao diversas caracter´ ısticas do ve´ ıculo, incluindo os parˆ ametros do motor, arrasto aerodinˆ amico, pes o, dentre outros. No pre sente estudo de cas o, des eja-se eliminar a inenc ia destas diferen¸ cas, buscando e ncontrar a magnitude m´ edia da diferen¸ ca entre a eciˆ encia de um tipo de combust´ ıvel dado dois tipos de terreno. No Brasil, o Compet em parceria com o INMETRO, s˜ ao ´ org˜ aos respons ´ aveis por realizar medi¸ oes de eciˆ encia de ve ´ ıculos, levando em considera¸ ao diferentes tipos de com- bust ´ ıvei s, categor ia e modelos de carro s. Os dados utiliza- dos neste estudo , tr azem eciˆ encia no us o de combust´ ıveis de ve ´ ıculos leves que ao comercializados no Brasil. Desenvolvimento Os dados fornecidos para estudo continham informa¸ oes ref- erentes a v´ arios modelos, sua categoria e sobre seus consumos edios por tipo de combust ´ ıvel (gasolina e etanol) e tipo de terr eno (cidad e e estr ada ). Foram forneci dos dados de 234 modelos de carros de diferentes categorias e fabricantes com- ercializados no Brasil. No presen te estudo de caso, deseja -se veri car se a diferen¸ ca de ter reno tem impacto sig nicante no consumo dos ve´ ıculos da classe ’grande’, desconsiderando poss ´ ıveis diferen¸ cas nos par ˆ ametr os de cada um dos ve ´ ıculos . T ais parˆ ametros podem ser entendidos como uma fonte de varia¸ ao esp´ uria dos dados e devem ser eliminados. Uma fonte de varia¸ ao esp´ uri a ´ e u ma rela ¸ ao matem´ atica na qual dois ou mais eventos n˜ ao tem rela¸ ao direta de causal- idade. Neste caso, para que seja poss´ ıvel reduzir ou retir ar estes e feitos, usa-se ecnicas para o pareamento de medidas, onde os dados s˜ ao considera dos em pares . Deve-se ent˜ ao, re- alizar a subtra¸ c˜ao das m´ edias dos dados de consumo de com- bust ´ ıvel nos dois tipos de terren o, o que resulta em um con-  junto de dados ´ unico (dados pareados). Pa ra ve ricar se exi ste dif ere ca signicativa, deve -se aplicar um teste de hip´ oteses, onde pode-se denir o seguinte: H 0 :  µC  − µE  = 0 H 1  :  µC  − µE  = 0  [ 1 ] Pod e-s e entender a hip´ otese nula como a ausˆ encia de varia¸ ao no uso do etanol em ambos os terren os. Isso indic a que todos os valores dos dados pareados (diferen¸ ca entre os va lores de consu mo em ambos os terren os) ´ e igual a zero. A hip´ otese alternativa descreve a situa¸ c˜ao contr´ aria. Nestas condi¸ oes, para que seja poss´ ıvel aplicar o teste de hip´ oteses sobre os dados pareados, algumas condi¸ oes de- vem ser sat isf eita s. ao elas: tes tes de normalidade e teste de independˆ encia dos dados. Estes testes ser˜ ao detalhados a seguir. Testes de Normalidade e Independˆencia dos Dados Para possibilitar a execu¸ ao dos testes de normalidade e inde- pendˆ encia, primeiramente devem-se aplicar tratamentos aos dados fornecidos, visado apresenta-los de forma mais conve- nie nt e par a o proc essamento. Estes dados foram dis post os em seis colunas (modelo, consumo de gasolina e etanol nos terrenos estrada e cidade e categoria), das quais apenas duas eram necess ´ arias . Logo utilizo u-se os seguin tes comandos em R para que fossem recuperadas apenas as colunas consumo de etanol na estrada e na cidade apenas. data<-read.table("cars.txt",header=T) data<-data[dataCATEGORIA=="GRANDE", c("MODELO","ET.CIDADE","ET.ESTRADA")] etCidade<-data[,2] etEstrada<-data[,3] As vari´ aveis etCidade e  etEstrada guardam os consumos de etanol de, todos os ve´ ıculos da categoria grande, na cidade e na estrada respectivamente. Para realizar o teste de normalidade utilizou-se os testes de Shapiro-Wilk juntamente dos gr´ acos  Quantile-Quantile  e Density . Todos estes testes podem ser executados em R com os seguintes comandos: shapiro.test(etCidade-etEstrada) qqnorm((etCidade-etEstrada),pch=16, col="blue",cex=0.75) qqline((etCidade-etEstrada),pch=16, col="blue",cex=0.75) plot(density((etCidade-etEstrada))) ´ E importante ressaltar que os testes foram realizados com um vetor de diferen¸ cas (etCidade-etEstrada). A seguir s˜ ao apres entad os os gr´ acos  Quantile-Quantile  e Density  dos dados em estudo: 3.0 2.5 2.0 1.5       0  .       0       0  .       4       0  .       8       1  .       2 density.default(x = (etCidade etEstrada)) N = 29 Bandwidth = 0.1364       D      e      n      s       i       t      y Fig. 1.  Density Plot  dos dados em estudo.

EEE933 - ESTUDO DE CASO 2 - FÁBIO MAFRA KUNOH, MARCEL SOUZA OLIVEIRA

Embed Size (px)

DESCRIPTION

Um catalisador ́e uma substˆancia qu ́ımica que tem como func ̧a ̃o aumentar ou diminuir a velocidade de uma dada reac ̧a ̃o, os quais na ̃o sa ̃o consumidos pela mesma. Um catal- isador pode participar de mu ́ltiplas reac ̧o ̃es qu ́ımicas sem perder suas propriedades, em outras palavras, o catalisador na ̃o se modifica com a reac ̧a ̃o, caracter ́ıstica que o diferencia de um reagente.

Citation preview

  • Planejamento e Analise de Experimentos - Estudode Caso 2Marcel Souza Oliveira Fabio Mafra Kunoh

    [email protected], and [email protected]

    Universidade Federal de Minas Gerais

    IntorducaoNo contexto de veculos automotores, a eficiencia no consumode combustvel e entendida como a economia de energia deum determinado veculo que e dada como a razao entre adistancia percorrida pela unidade de combustvel consumido.Normalmente, e expressa em quilometro por litro (Km/l).

    A eficiencia no uso de combustveis leva em consideracaodiversas caractersticas do veculo, incluindo os parametrosdo motor, arrasto aerodinamico, peso, dentre outros. Nopresente estudo de caso, deseja-se eliminar a influenciadestas diferencas, buscando encontrar a magnitude media dadiferenca entre a eficiencia de um tipo de combustvel dadodois tipos de terreno.

    No Brasil, o Compet em parceria com o INMETRO, saoorgaos responsaveis por realizar medicoes de eficiencia deveculos, levando em consideracao diferentes tipos de com-bustveis, categoria e modelos de carros. Os dados utiliza-dos neste estudo, trazem eficiencia no uso de combustveis deveculos leves que sao comercializados no Brasil.

    DesenvolvimentoOs dados fornecidos para estudo continham informacoes ref-erentes a varios modelos, sua categoria e sobre seus consumosmedios por tipo de combustvel (gasolina e etanol) e tipo deterreno (cidade e estrada). Foram fornecidos dados de 234modelos de carros de diferentes categorias e fabricantes com-ercializados no Brasil.

    No presente estudo de caso, deseja-se verificar se adiferenca de terreno tem impacto significante no consumodos veculos da classe grande, desconsiderando possveisdiferencas nos parametros de cada um dos veculos. Taisparametros podem ser entendidos como uma fonte de variacaoespuria dos dados e devem ser eliminados.

    Uma fonte de variacao espuria e uma relacao matematicana qual dois ou mais eventos nao tem relacao direta de causal-idade. Neste caso, para que seja possvel reduzir ou retirarestes efeitos, usa-se tecnicas para o pareamento de medidas,onde os dados sao considerados em pares. Deve-se entao, re-alizar a subtracao das medias dos dados de consumo de com-bustvel nos dois tipos de terreno, o que resulta em um con-junto de dados unico (dados pareados).

    Para verificar se existe diferenca significativa, deve-seaplicar um teste de hipoteses, onde pode-se definir o seguinte:{

    H0 : C E = 0H1 : C E 6= 0 [1]

    Pode-se entender a hipotese nula como a ausencia devariacao no uso do etanol em ambos os terrenos. Isso indicaque todos os valores dos dados pareados (diferenca entre osvalores de consumo em ambos os terrenos) e igual a zero. Ahipotese alternativa descreve a situacao contraria.

    Nestas condicoes, para que seja possvel aplicar o testede hipoteses sobre os dados pareados, algumas condicoes de-vem ser satisfeitas. Sao elas: testes de normalidade e teste

    de independencia dos dados. Estes testes serao detalhados aseguir.

    Testes de Normalidade e Independencia dos DadosPara possibilitar a execucao dos testes de normalidade e inde-pendencia, primeiramente devem-se aplicar tratamentos aosdados fornecidos, visado apresenta-los de forma mais conve-niente para o processamento. Estes dados foram dispostosem seis colunas (modelo, consumo de gasolina e etanol nosterrenos estrada e cidade e categoria), das quais apenas duaseram necessarias. Logo utilizou-se os seguintes comandos emR para que fossem recuperadas apenas as colunas consumo deetanol na estrada e na cidade apenas.

    data

  • 2 1 0 1 2

    2.6

    2.2

    1.8

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple Q

    uant

    iles

    Fig. 2. Quantile-Quantile Plot dos dados em estudo.

    O primeiro dos graficos apresenta uma curva com um com-portamento que se distancia em varios aspectos de uma curvanormal. Percebe-se que o valor central da distribuicao estadistante do valor mais provavel, caracterstica que descarac-teriza os dados em estudo como tal.

    O segundo grafico apresenta varios pontos que se distan-ciam da reta, o que nao e esperado para o QQ-plot de umadistribuicao normal.

    O resultado do teste de Shapiro-Wilk pode ser visto aseguir:

    Shapiro-Wilk normality testdata: etCidade - etEstradaW = 0.9287, p-value = 0.1455

    O ultimo dos testes de normalidade resultou em um valor-p de 0.1455, o que pode ser considerado baixo quando com-parado ao nvel de confianca estabelecido (0.05). Logo, diz-seque os dados nao apresentam comportamento normal.

    O segundo dos testes e o teste de Durbin-Watson, re-sponsavel por verificar a independencia do conjunto de dados.Os resultados deste teste sao apresentados a seguir:

    Durbin-Watson testdata: (etCidade - etEstrada) ~ 1DW = 1.1085, p-value = 0.005205alternative hypothesis: true autocorrelation is greater

    than 0

    Os valores obtidos pelo teste de Durbin-Watson levam a`desconfianca da independencia dos dados. Uma forma de vi-sualizar a independencia destes e plota-los com o intuito deverificar se os mesmos ocupam o espaco de maneira dispersa.Ao plotar os dados, verificou-se que sempre que havia umamudanca de patamar do nvel dos dados, os pontos seguintesseguiam os mesmos valores.

    A Tabela 1 apresenta os valores das diferencas de consumo.Percebe-se que carros de uma mesma montadora, costumamter os mesmos valores de consumo de combustvel. Por exem-plo, os tres carros da marca Kia (Tabela 1, linhas 11 a 13)apresentam os mesmos valores, assim como os 4 carros Focusda marca Ford (Tabela 1, linhas 14 a 17).

    Uma vez que, para uma mesma montadora, os valores deconsumo se mantem, e esperado tambem que a premissa denormalidade nao seja atendida. Pois uma montadora queapresente, por exemplo, 10 carros na tabela, afetara a dis-tribuicao de forma muito mais significativa que uma monta-dora que apresente 2. Sendo assim, a ideia central do tra-balho, que e a eliminacao de fatores espurios, nao esta sendorespeitada. O fator montadora esta alterando significativa-mente os resultados dos testes.

    Dessa forma, uma nova perspectiva para o trabalho e ado-tada onde serao escolhidos carros, considerando apenas umveculo por montadora. Este procedimento sera apresentadoa seguir.

    Filtragem dos dadosRealizando a filtragem proposta, a quantidade de veculos caiude 29 para 6. Esta diferenca era esperada, uma vez que muitoscarros apareciam repetidamente (o carro Ford Focus represen-tava 10 dos 29 veculos presentes nos dados originais).

    Novamente foram realizados testes de normalidade dos da-dos baseados no Q-Q plot, Density plot e teste de ShapiroWilk. Os resultados destes testes sao apresentados a seguir.

    2.8 2.4 2.0 1.6

    0.0

    0.5

    1.0

    1.5

    2.0

    density.default(x = (etCidade etEstrada))

    N = 6 Bandwidth = 0.1173

    Den

    sity

    Fig. 3. Density Plot dos dados filtrados.

    1.0 0.5 0.0 0.5 1.0

    2.5

    2.3

    2.1

    Normal QQ Plot

    Theoretical Quantiles

    Sam

    ple

    Qua

    ntile

    s

    Fig. 4. Quantile-Quantile Plot dos filtrados.

    Shapiro-Wilk normality testdata: etCidade - etEstradaW = 0.9124, p-value = 0.4522

    Analisando-se os testes graficos, percebe-se pontos bemcomportados no Q-Q Plot, que se distribuem bem ao re-dor da reta, caracterstica que indica a normalidade dos da-dos. O Density plot gerado, apresenta uma curva visualmenteproxima de uma normal. Existe apenas uma leve elevacaoem sua porcao esquerda que, por sua vez, nao leva a rejeicaoda hipotese de normalidade. Ambos os resultados dos testesgraficos, quando comparados aos testes realizados nos dadoscompletos, apresentaram melhoras significativas.

    O teste de Shapiro-Wilk apresentou um valor-p de aprox-imadamente 0.45, o que e muitas vezes maior que o limite de0.05 que foi definido previamente como alfa. Essa e mais umainformacao que prove a` rejeicao da hipotese de nao normal-idade, uma grande seguranca, validando a premissa de nor-malidade.

    2

  • Validadas as premissas de normalidade, pode-se verificar aindependencia dos dados em estudo. Mais uma vez, utilizou-se o teste de Durbin Watson para tanto. Os resultados desteteste sao apresentados a seguir.

    Durbin-Watson testdata: (etCidade - etEstrada) ~ 1DW = 1.6991, p-value = 0.3419alternative hypothesis: true autocorrelation is greater

    than 0

    O teste de Durbin Watson, que indicou problemas nogrupo completo de veculos, neste novo grupo aceitou a pre-missa de independencia, apresentando um valor-p elevado(0.34). Sendo assim, as premissas de normalidade e inde-pendencia foram comprovadas e o teste pareado t pode serrealizado para avaliacao do problema principal.

    Teste tUma vez comprovados ambas as premissas, pode-se entao re-alizar o teste t. O teste t de Student e um teste de hipotesesque usa conceitos estatsticos para a rejeicao ou nao de umahipotese nula.

    Para tanto, utiliza-se em R os seguintes comandos.

    t.test(etCidade,etEstrada,alternative="two.sided",mu=0,var.equal = FALSE,conf.level=0.95,paired=T)

    Como pode ser observado, o comando em R recebe comoparametros dois vetores contendo os dados a serem trabalha-dos (etCidade eetEstrada), a media estimada mu=0, o nvelde confianca conf.level igual a 95% e o indicador de pari-dade dos testes paired=T. O resultado deste e apresentado aseguir.

    Paired t-testdata: etCidade and etEstradat = -27.9768, df = 5, p-value = 1.092e-06

    alternative hypothesis: true difference in means is notequal to 0

    95 percent confidence interval:-2.420340 -2.012993sample estimates:mean of the differences

    -2.216667

    Pelo teste realizado, observou-se que o intervalo de con-fianca de 95% da diferenca de rendimento dos carros se localizano intervalo [-2.420340 -2.012993]. Como o valor nulo naose encontra neste intervalo, pode-se afirmar que existe umadiferenca de consumo com nvel de significancia 95%.

    Garantida uma significancia estatstica, uma avaliacao im-portante esta relacionada a` significancia pratica da diferencade consumo. A diferenca media de 2.217 representa mais de20% do maior valor de rendimento informado pelos dados. Oque e um valor elevado. Utilizando-se o estimador de Co-hen, que e dado pela razao entre diferenca media e varianciaamostral, obtemos um valor maior que 58.84. Isso mostra quetemos uma grande diferenca media sendo que ha uma baixavariancia das medidas, o que reforca o ponto avaliado nestetrabalho.

    Consideracoes finaisComo conclusao deste trabalho, pode-se inicialmente citar quea decisao de filtrar os dados por montadora foi acertada umavez que tal filtro permitiu que os dados atendessem as premis-sas necessarias para o teste. O resultado do teste estatsticorespondeu claramente a pergunta motivadora do trabalho quee O desempenho de carros tipo grande em condicoes decidade estrada e significativamente diferente? e Qual a mag-nitude dessa diferenca. Como foi citada na secao anterior,essa diferenca existe, e clara e significativa. Foi comprovadoque a cultura popular de que ambientes diferentes que exigemdinamicas de direcao diferentes resultam em consumos varia-dos de combustvel.

    3

  • Tabela 1. Modelo e consumo de combustvel na estrada e na cidade.

    N MODELO ET.CIDADE ET.ESTRADA Et-Dif

    1 HONDA.Civic.LXS.1.8.16V.Flex 7.4 13.4 -2.1

    2 HONDA.Civic.LXS.1.8.16V.Flex 7.3 13.4 -2.7

    3 TOYOTA.Corolla.Gli.1.8.16V.Flex 7.1 13.3 -2

    4 TOYOTA.Corolla.XLi.1.8.16V.Flex 7.1 13.3 -2

    5 TOYOTA.Corolla.Gli.1.8.16V.Flex 7 13.5 -2.6

    6 TOYOTA.Corolla.XLi.1.8.16V.Flex 7 13.5 -2.6

    7 KIA.Cerato.EX3.1.6.16V.Flex 6.8 14 -2.5

    8 KIA.Cerato.LX3.1.6.16V.Flex 6.8 14 -2.5

    9 KIA.Cerato.SX3.1.6.16V.Flex 6.8 14 -2.5

    10 RENAULT.Fluence.Dynamique.2.0.16V.Flex 6.8 14.1 -2.4

    11 KIA.Cerato.EX3.1.6.16V.Flex 6.6 12.4 -2.5

    12 KIA.Cerato.LX3.1.6.16V.Flex 6.6 12.4 -2.5

    13 KIA.Cerato.SX3.1.6.16V.Flex 6.6 12.4 -2.5

    14 FORD.Focus.Hatch.GL.1.6.16V.Flex 6.5 12.9 -2.2

    15 FORD.Focus.Hatch.GLX.1.6.16V.Flex 6.5 12.9 -2.2

    16 FORD.Focus.Sedan.GL.1.6.16V.Flex 6.5 12.9 -2.2

    17 FORD.Focus.Sedan.GLX.1.6.16V.Flex 6.5 12.9 -2.2

    18 HONDA.Civic.LXR.2.0.16V.Flex 6.5 12.8 -2.7

    19 HONDA.Civic.EXR.2.0.16V.Flex 6.5 12.8 -2.7

    20 FORD.Focus.Hatch.GLX.2.0.16V.Flex 6.4 11.7 -1.7

    21 FORD.Focus.Hatch.Titanium.2.0.16V.Flex 6.4 11.7 -1.7

    22 FORD.Focus.Sedan.GLX.2.0.16V.Flex 6.4 11.7 -1.7

    23 NISSAN.Sentra.20.2.0.16V.Flex 6 11.7 -2.1

    24 NISSAN.Sentra.20S.2.0.16V.Flex 6 11.7 -2.1

    25 NISSAN.Sentra.20SL.2.0.16V.Flex 6 11.7 -2.1

    26 FORD.Focus.Hatch.GLX.2.0.16V.Flex 5.7 11.3 -2.1

    27 FORD.Focus.Hatch.Titanium.2.0.16V.Flex 5.7 11.3 -2.1

    28 FORD.Focus.Sedan.GLX.2.0.16V.Flex 5.7 11.3 -2.1

    29 FORD.Focus.Sedan.Titanium.2.0.16V.Flex 5.7 11.3 -2.1

    Tabela 2. Modelo e consumo de combustvel na estrada e na cidade(dados Filtrados).

    N MODELO ET.CIDADE ET.ESTRADA Et-Dif

    1 HONDA.Civic.LXS.1.8.16V.Flex 7.4 9.5 2.1

    2 TOYOTA.Corolla.Gli.1.8.16V.Flex 7.1 9.1 2.0

    3 KIA.Cerato.EX3.1.6.16V.Flex 6.8 9.3 2.5

    4 RENAULT.Fluence.Dynamique.2.0.16V.Flex 6.8 9.2 2.4

    5 FORD.Focus.Hatch.GL.1.6.16V.Flex 6.5 8.7 2.2

    6 NISSAN.Sentra.20.2.0.16V.Flex 6.0 8.1 2.1

    4

  • 5