Upload
joao-gabriel-lima
View
127
Download
1
Embed Size (px)
Citation preview
Introdução à Mineração dedados
Regressão Linear
PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA
LINKEDIN.COM/IN/JOAOGABRIELL IMA
Mineração dedadoscomWEKA- Prof.João GabrielLima
Oqueémineração dedados?
Mineração dedadosAtransformação degrandes quantidades dedadosem
padrões eregras:
Direcionada eNão Direcionada
Direcionada:tentamos prever umponto dedadosemparticular◦ Ex.:preço devenda deuma casabaseado em informações sobreoutras casasà venda nobairro
Mineração dedadoscomWEKA- Prof.João GabrielLima
Mineração dedados
Não direcionada:
◦ Tentamos criar grupos dedados,ou achar padrões em dadosexistentes
Mineração dedadoscomWEKA- Prof.João GabrielLima
Qual oobjetivo?
Mineração deDadosOobjetivo damineração dedadosé criar ummodelo quepossamelhorar omodo pelo qual interpretamos nossos
dados existentes efuturos.
Comohá muitas técnicas demineração dedados,opassoprincipalparacriar umbommodelo é determinar quetipo
detécnica deve ser usada.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Modelos deRegressãoGUIA PRÁTICO EPASSO APASSO
Mineração dedadoscomWEKA- Prof.João GabrielLima
Regressão Linear
Omodelo deregressão é então usado paraprever oresultado deuma variável dependente desconhecida,dadosos valores das
variáveis independentes.Modelos deregressão linearsão frequentemente ajustados usando a
abordagem dosmínimos quadrados.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Regressão Linear
- SIMPLES- MÚLTIPLA
Mineração dedadoscomWEKA- Prof.João GabrielLima
Método dosmínimos quadradosRegressão LinearSimples
Paraestimar os valores davariável dependente y,considerando osvalores davariável xtemos:
𝛼 - Parâmetrodomodelo chamado deconstante (porque nãodepende dex.𝛽- Parâmetro domodelo chamado decoeficiente davariável x.𝜀- Erro- representaavariaçãodeyquenãoéexplicadapelomodelo
Mineração dedadoscomWEKA- Prof.João GabrielLima
𝑦 = 𝛼 + 𝛽𝑥 + 𝜀
Método dosmínimos quadradosRegressão LinearSimples
Também temos uma basededadoscomnvalores observados deyedexyexsão vetores - representam uma lista devalores,umparacadaobservação dabasededados.Ométodo dosmínimos quadrados ajuda aencontrar asestimativasde𝛼e𝛽Serãosomente estimativas desses parâmetros,porque ovalorrealdosparâmetros são desconhecidos.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Método dosmínimos quadradosRegressão LinearSimples
Ométodo dosmínimos quadrados minimiza asomadosquadradodosresíduos,ou seja,minimiza
Aideia por trás dessa técnica é que,minimizando asomadoquadrado dosresíduos,encontraremos a eb quetrarão amenordiferença entreaprevisão dey eoy realmente observado
Mineração dedadoscomWEKA- Prof.João GabrielLima
Método dosmínimos quadradosRegressãoMúltipla
Aregressão múltipla apresenta umfuncionamento parecido comodaregressãosimples,porém,levaem consideração diversas variáveis explicativas xinfluenciando y ao mesmo tempo
Mineração dedadoscomWEKA- Prof.João GabrielLima
Método dosmínimos quadradosObservações
Ao usar ométodo dosmínimos quadrados,assumimos algumas premissas arespeito dasvariáveis:
Os regressores são fixos:Asvariáveis damatriz Xnão são estocásticas.Erro é aleatório commédia 0:Oerro éHomoscedasticidade:Avariância doerro é constante.Sem correlação:Não existe correlação entreos erros dasobservaçõesParâmetros são constantes:𝛼 e𝛽 são valores fixos desconhecidos.Modelo é linear:Os dadosdavariável dependente yforam gerados pelo processo linearErro temdistribuição normal:Oerro é distribuído conforme acurva dedistribuição normal.
Caso alguma dessas premissas não seja verdadeira,ométodo pode gerar resultados sub-ótimosou comviés.
Mineração dedadoscomWEKA- Prof.João GabrielLima
R²Coeficiente dedeterminaçãoÉ uma medida deajuste deummodelo estatístico linearem relação aos valores observados.
OR²varia entre0e1,indicando,em percentagem,oquanto omodelo consegue explicar osvalores observados.
Quanto maior oR²,mais explicativo é modelo,melhor ele seajusta à amostra
Componentes:- SomaTotaldosQuadrados:asomadosquadrados dasdiferenças entreamédia ecada valorobservado
- SomadosQuadrados Explicada:asomadosquadrados dasdiferenças entreamédia dasobservações eovalorestimado paracada observação
- SomadosQuadrados dosResíduos:calcula apartequenão é explicada pelo modelo
Mineração dedadoscomWEKA- Prof.João GabrielLima
R²SomaTotaldosQuadrados
SomadosQuadrados Explicada
SomadosQuadrados dosResíduos
Sabemos que
Mineração dedadoscomWEKA- Prof.João GabrielLima
R²Equação :
Mineração dedadoscomWEKA- Prof.João GabrielLima
R²AjustadoAinclusão deinúmeras variáveis,mesmo quetenham muito poucopoder explicativo sobre avariável dependente,aumentarão ovalorde R².Isto incentiva ainclusão indiscriminada devariáveis,prejudicando oprincípio daparcimônia.Paracombateresta tendência,podemos usar uma medidaalternativa docoeficiente dedeterminação,quepenaliza ainclusãoderegressores pouco explicativos
Mineração dedadoscomWEKA- Prof.João GabrielLima
R²AjustadoTrata-sedo R²ajustado:
Onde (k+1)representa onúmero devariáveis explicativas mais aconstante.Ainclusão demais variáveis compouco poder explicativo prejudica ovalordoR²ajustado,porque aumenta kuma unidade,sem aumentarsubstancialmente oR².
Mineração dedadoscomWEKA- Prof.João GabrielLima
Regressão LinearABORDAGEM PRÁTICA
Regressão - ExemploEx.:
Calcular opreço deuma casa:(dados- https://goo.gl/5aZzcs)
Opreço dacasa(avariável dependente)é oresultado demuitas variáveis independentes— ametragem quadrada dacasa,otamanho dolote,sehá granito na cozinha,seos banheiros foramreformados,etc
Omodelo é criado combaseem outras casascomparáveis nobairro enopreço pelo qual elasforam vendidas (omodelo),eentão colocando os valores desua própria casaneste modelo para
produzir opreço esperado.
Mineração dedadoscomWEKA- Prof.João GabrielLima
RegressãoEx.:Estessão números reais decasasqueestão à venda nobairro,evamos tentar achar ovalordacasaquesequer vender:
Valores dacasaparaomodelo deregressão
Tamanho Tamanho dolote Quartos Granito Banheiroreformado
Preço devenda
3529 9191 6 0 0 $205,000
3247 10061 5 1 1 $224,900
4032 10150 5 0 1 $197,900
2397 14156 4 1 0 $189,900
2200 9600 4 0 1 $195,000
3536 19994 6 1 1 $325,000
2983 9365 5 0 1 $230,000
3198 9669 5 1 1 ?????
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
Mineração dedadoscomWEKA- Prof.João GabrielLima
WaikatoEnvironmentforKnowledgeAnalysis(WEKA)
OWEKAé umproduto daUniversidade deWaikato(NovaZelândia)
GNUGeneralPublicLicense(GPL)
Linguagem Java™
APIparaincorporar oWEKAem aplicações próprias
Mineração dedadoscomWEKA- Prof.João GabrielLima
Carregando dadosnoWEKAFormato deArquivo deAtributo-Relação (ARFF)
Noarquivo,definimos cada coluna eoquecada coluna contém:
@relation<relation-name>
@attribute<attribute-name><datatype>
*numeric,nominal,string,date[<date-format>]
@data
<data1>, <data2>,<data3>,<data4>,<data5>
Mineração dedadoscomWEKA- Prof.João GabrielLima
Carregando dadosnoWEKA@relationLCCvsLCSH
@attributeLCCstring
@attributeLCSHstring
@ attributetimestampDATE"yyyy-MM-dd HH:mm:ss"
@data
AG5,'Encyclopediasanddictionaries.;Twentieth century.', "2001-04-0312:12:12"
AS262,'Science-- SovietUnion-- History.', "2001-04-0312:12:12"
AE5,'Encyclopediasanddictionaries.', "2001-04-0312:12:12"
AS281,'Astronomy,Assyro-Babylonian.;Moon -- Phases.', "2001-04-0312:12:12"
AS281,'Astronomy,Assyro-Babylonian.;Moon -- Tables.’, "2001-04-0312:12:12"
Mineração dedadoscomWEKA- Prof.João GabrielLima
Conhecendo oAmbiente deTrabalhoWEKAWORKBENCH
Mineração dedadoscomWEKA- Prof.João GabrielLima
Mineração dedadoscomWEKA- Prof.João GabrielLima
Abrindo nosso arquivo arff noWEKA
Criando omodelo deregressão comoWEKANaguia Classify:
1- Cliquenobotão Choose,eentão expanda aramificação functions.
2- Selecione afolha LinearRegression.
Obs:Nocaso domodelo deregressão,estamoslimitados auma coluna deNUMERICou deDATE
Nosso arquivo dedados…
Mineração dedadoscomWEKA- Prof.João GabrielLima
Criando omodelo deregressão comoWEKA– Opções
Suppliedtestset: onde é possível fornecer umconjunto diferente dedadosparaconstruir omodelo;
Cross-validation: quedeixa oWEKAconstruir ummodelo baseado em subconjuntos dosdadosfornecidos eentão calcular sua média paracriar ummodelo final;
Percentagesplit: onde oWEKAtoma umsubconjunto percentual dosdadosfornecidos paraconstruir ummodelo final.
Usetrainingset:Isto diz ao WEKAqueparaconstruir nosso modelo desejado,podemossimplesmente usar oconjunto dedadosquefornecemos em nosso arquivo ARFF
Mineração dedadoscomWEKA- Prof.João GabrielLima
Criando omodelo deregressão comoWEKA– Opções
Oúltimo passo paracriar nosso modelo é escolher avariáveldependente (acoluna queestamos tentando prever).
Sabemos queeste deve ser opreço devenda,pois é isso queestamostentando determinar.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Criando omodelo deregressãocomoWEKA
Analisando oResultado
Mineração deDados- Prof.Msc.João GabrielLima
Mas…é esseoresultado?
Interpretando omodeloderegressão
Mineração dedadoscomWEKA- Prof.João GabrielLima
Resultado daregressão
preco =(-26,6882*tamanhoCasa)+(7,0551*tamanhoLote)+(43.166,0767*quartos)+(42.292,0901*banheiro)-
21.661,1208
Mineração dedadoscomWEKA- Prof.João GabrielLima
Calculando oValordacasausando omodelo deregressão
preco =(-26,6882*3198)+(7,0551*9669)+(43.166,0767*5)+(42.292,0901*1)-21.661,1208
preco =$219,328
Tamanho Tamanho dolote Quartos Granito Banheiroreformado
Preço devenda
3198 9669 5 1 1 ?????
Mineração dedadoscomWEKA- Prof.João GabrielLima
Ahhhh!
Interpretando os padrões econclusões domodelo
◦Ogranito não temimportância
◦ OWEKAsó usa ascolunas quecontribuem estatisticamente paraaprecisão do
modelo (medido em Rao quadrado).
◦ Ele descarta eignora ascolunas quenão ajudam acriar umbom modelo.
◦ Assim,este modelo deregressão está nos dizendo queogranito dacozinha não afeta
ovalordacasa.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Interpretando os padrões econclusões domodelo
◦Os banheiros são importantes
◦ Comousamos umsimplesvalor0ou 1paraumbanheiro reformado,podemos usar ocoeficiente
domodelo deregressão paradeterminar ovalorqueumbanheiro reformado representa parao
valordacasa.
◦ Omodelo nos diz paraacrescentarmos $42.292ao valordacasa.
Mineração dedadoscomWEKA- Prof.João GabrielLima
Quemassa!
Interpretando os padrões econclusões domodelo
◦ Casasmaiores reduzem ovalor
◦ Não faz sentido?
◦ Omodelo pode estar sendo afetado por uma variável quenão é indepenendente.
◦ “Tamanho”?
Mineração dedadoscomWEKA- Prof.João GabrielLima
Vamosexercitar!Agoraaplique seus conhecimentosem umnovodesafio…
Mineração dedadoscomWEKA- Prof.João GabrielLima
Exercício 1
◦ NaabaPreprocess doWEKAé possível removercolunas doconjunto de
dados.
◦ Remova acoluna TamanhoCasa ecrie outromodelo.Comoisso afeta o
preço dacasa?
◦ Estenovomodelo faz mais sentido?
◦ Qual onovovalordacasacomesta alteração nos dadosdeentrada?
Mineração dedadoscomWEKA- Prof.João GabrielLima
Exercício 2Apartir dabasedisponível em:https://goo.gl/GfFX8lAplique os conhecimentos adiquiridos nesta aula,destacando asvariáveis independentes queteminfluência sobre oresultado eafunção queexpressa omodelo deregressão paraabasededados
analisada.Apresente explicando aabordagem matemática eautilização da
ferramenta
Mineração dedadoscomWEKA- Prof.João GabrielLima
ReferênciasAbaixoestãolistadasasprincipaisfontesutilizadasparaaconcepçãodestaapresentação:
http://www.portalaction.com.br/analise-de-regressao/
http://www.mathsisfun.com/data/correlation.html
https://pt.wikipedia.org/wiki/R%C2%B2
https://pt.wikipedia.org/wiki/M%C3%A9todo_dos_m%C3%ADnimos_quadrados
http://support.minitab.com/pt-br/minitab/17/topic-library/modeling-statistics/regression-and-correlation/goodness-of-fit-statistics/r-squared/
https://www.ibm.com/developerworks/br/opensource/library/os-weka1/
https://mineracaodedados.wordpress.com/
http://hunch.net/?p=3692542
http://en.wikipedia.org/wiki/Regression_analysis
http://weka.wikispaces.com/ARFF+%28book+version%29
http://www.ibm.com/developerworks/forums/dw_forum.jsp?forum=375&cat=5
http://machinelearningmastery.com/regression-machine-learning-tutorial-weka/
Mineração dedadoscomWEKA- Prof.João GabrielLima
Introdução à Mineração dedados
Regressão Linear
PROF.JOÃO GABRIELL IMA@JGABRIEL_L IMA
LINKEDIN.COM/IN/JOAOGABRIELL IMA
Mineração dedadoscomWEKA- Prof.João GabrielLima