DataMining Pre

Embed Size (px)

Citation preview

  • 8/15/2019 DataMining Pre

    1/44

    DATA MINING Trabalho Análise Preditiva: Análisede Abandono

    CASE STUDY – Teleco !nica"#es $%S

    Joel Nogueira nº 21302119

  • 8/15/2019 DataMining Pre

    2/44

    Análise Preditiva – Análise de Abandono

    Índice

    INT&%DU'(%))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))*%+,ECTI$% E INT&%DU'(% D%S DAD%S))))))))))))))))))))))))))))))))))))))))))))))))))))))))-

    T&ATAMENT% DAS $A&I.$EIS)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))/.&$%&ES DE DECIS(%))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))) 01&EG&ESS(% 2%GISTICA))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))03C%MPA&A'(% D%S M%DE2%S E C%NC2US4ES)))))))))))))))))))))))))))))))))))))))))))))03

    1

  • 8/15/2019 DataMining Pre

    3/44

    Análise Preditiva – Análise de Abandono

    INTRODUÇÃO

    Co o 5resente trabalho 5retende os e6ect!ar ! a análise 5reditivares5ondendo desta 6or a7 a ! 5roble a solicitado 5ela e 5resa $%S7 8!e5retende 9car a conhecer elhor os se!s clientes7 o6erecer ! servi"o de

    elhor 8!alidade aos se!s clientes7 e de 6or a 5r ;activa red!o de

    deter inadas t@cnicas de análise7 co o ob ectivo de encontrar 5adr#escaracterio s>odetectáveis 8!ando os dados s>o analisados e Bbr!to 7 o! se a7 se aa5lica">o dos odelos 5reditivos)&es! ida ente os odelos 5reditivos consiste na a5lica">o deal orit os sobre ! deter inado con !nto de variáveis7 variáveis essas 8!ete de estar relacionados co o nosso ob ectivo tar etF7 o! se a a8!ilo 8!e5retende os 5rever)Dentre os odelos 5reditivos deve os salientar as árvores de decis>o e are ress>o lo stica 5ois s>o esses 8!e ir>o ser a5licados no caso de est!do)

    Este ti5o de análise te ! vasto con !nto de a5lica"#es7 tais co o nabanca 5ara 5revis>o de inc! 5ri ento de cr@ditoH no retalho 5ara 5revis>ode co 5ra de deter inado 5rod!toH nas teleco !nica"#es 5ara 5revis>o deabandono de deter inado clienteH na ind stria 5ara 5revis>o de avarias7etcJ

    *

  • 8/15/2019 DataMining Pre

    4/44

    Análise Preditiva – Análise de Abandono

    OBJE TI!O E INTRODUÇÃO DO" D#DO"Co o 5resente est!do a e 5resa $%S 9cará a conhecer 8!e ti5o declientes t? aior tend?ncia 5ara abandonare o servi"o) Este @ o nossoob ectivo Tar etF)

    Para o e6eito 6ora !tilio os 5resentes na se !inte tabela:

    No$e !ari%&el De'cri()oNu$ero*Tele+one N ero de tele6one do cliente !tili

  • 8/15/2019 DataMining Pre

    5/44

    Análise Preditiva – Análise de Abandono

    U dos 5assos a ter e aten">o era as caracter sticas das variáveisa8!ando do carre a ento do Dataset) Assi sendo7 as variáveis 6oracarre adas co as caracter sticas solicitadas7 con6or e se 5ode veri9car na9 !ra 1)

    K

  • 8/15/2019 DataMining Pre

    6/44

    Análise Preditiva – Análise de Abandono

    igura 2 arac,er ',ica' !ari%&ei' no da,a'e,

    A5 s análise das variáveis constata os o 8!e te os:• 0Q $ariáveis do ti5o BIn5!t• 0 $ariável do ti5o BID•

    0 $ariável do ti5o BTar et• * $ariáveis B+inarR• * $ariáveis BNo inal• 0K $ariáveis BInterval

    /

  • 8/15/2019 DataMining Pre

    7/44

    Análise Preditiva – Análise de Abandono

    TR#T#.ENTO D#" !#RI4!EI"5

    % 5asso se !inte 6oi veri9car 8!ais os valores o issos e o!tliers5resentes nas várias variáveis)Este 5rocesso @ 6!nda ental 5ois os odelos 5reditivos 8!e !tilio 8!er a re ress>o lo stica n>o 6!ncionacorrecta ente co a 5resen"a de o!tliers nos dados)No caso da re ress>o lo stica7 5ara al@ dos o!tliers te os de ter eaten">o os valores o issos 8!e in !encia ne ativa ente osres!ltados 9nais)

    A5 s e=5lora">o dos histo ra as 9 )*F 5ode os veri9car 8!e eal ! as variáveis e=iste 8!er o!tliers 8!er valores o issos 8!enecessita de ser tratados)

    igura 3 6i',ogra$a' da' &ari%&ei'7 a''inalando calore' o$i''o' e ou,lier'

  • 8/15/2019 DataMining Pre

    8/44

    Análise Preditiva – Análise de Abandono

    TR#T#.ENTO DE OUT8IER"Constatá os 8!e te os de tratar d!as variáveis:

    • Anti !idade• N! Cha adas Intl

    igura 6i',ogra$a #n,iguidade

    A etodolo ia se !ida 6oi s!bstit!ir o %!tlier 5or ! valor o isso7 5ara5osterior ente ser tratado !nta ente co as o!tras variáveis 8!e t?valores o issos) %s 5assos se !idos 6ora :

    3

    igura : ; /a$ada' in,ernacionai'

  • 8/15/2019 DataMining Pre

    9/44

    Análise Preditiva – Análise de Abandono

    Criá os ! n “Replacement” )

    No ca 5o B Default Limits Method” !tili

    Se !ida ente va os de9nir esse intervalo) Essa o5era">o @ e6ect!adano ca 5o Replacement Editor.De9ni os co o Replacement Upper Limit -LL na variável BAnti !idadee -L na variável BN! Cha adas Intl ) Isto 5er ite 8!e todos osvalores 5resentes nas variáveis s!5eriores aos li ites de9nidos 5aracada ! a delas7 se a s!bstit! dos !tilio a o issos)

    % res!ltado da altera">o e6ect!ada 5ode ser con9r ado no %!t5!terado 5elo n de &e5lace ent

    Q

    igura ? De=ni()o de li$i,e' e $@,odo de 'u ',i,ui()o

  • 8/15/2019 DataMining Pre

    10/44

    Análise Preditiva – Análise de Abandono

    igura A Ou, u, eCecu()o do Re lace$en,

    TR#T#.ENTO DE O.I""O"

    %s odelos 5reditivos e 8!e se a5lica t@cnicas de re ress>o n>o5ode conter valores o issos) Nesse sentido t nha os d!asalternativas7 8!e era a n>o !tili

  • 8/15/2019 DataMining Pre

    11/44

    Análise Preditiva – Análise de Abandono

    igura 9 "elec()o do $@,odo no n> I$ u,e

    A5 s e=ec!">o do n obte os os se !intes res!ltados7 onde 5ode osveri9car o res!ltado da e=ec!">o co a cria">o das novas variáveis)

    D#T# -#RTITION -ar,i()o do' dado'5

    A8!ando da i 5le enta">o dos odelos 5reditivos deve os ter eaten">o a 5arti">o dos dados) Isto n>o @ ais do 8!e a divis>o da a ostrados dados e dois o! tr?s s!bcon !ntos dos dados7 cha ados de con !ntode ,reino 7 con !nto de &alida()o e con !nto de ,e',e ) No nosso casoes5ec 9co a5enas va os !tilio irá ser a5licadono nosso caso)Na 9 !ra abai=o 5ode os veri9car co o 5roceder con9 !ra">o do n

    00

    igura 10 Re'ul,ado do I$ u,e

    igura 11 -ar,i()o do' dado'

  • 8/15/2019 DataMining Pre

    12/44

    Análise Preditiva – Análise de Abandono

    % res!ltado da e=ec!">o da 5arti">o dos dados @ o 8!e se 5ode veri9carna 9 !ra abai=o7 onde 5ode os veri9car a divis>o dos dados 8!er evalores absol!tos 8!er e 5ercenta e )

    Oeito este trabalho de 5re5ara">o dos dados 5ode os 9nal ente a5licaros al orit os 5reditivos 8!e nos ir>o a !dar a 5rever o nosso tar et)Neste caso 5erceber 8!e ti5o de clientes te 5ro5ens>o 5ara abandonara $%S)

    Co o á re6eri os anterio ente ire os !tili

  • 8/15/2019 DataMining Pre

    13/44

    Análise Preditiva – Análise de Abandono

    4R!ORE" DE DE I"ÃO

    As árvores de decis>o corres5onde a ! a 6or a de re5resenta">o doconheci ento7 e te co o 5rinci5al vanta e o 6acto de re5resentarere ras7 8!e s>o de si 5les inter5reta">o)

    A árvore de decis>o @ ! al orit o decisional7 e 8!e edida 8!e cadadivis>o @ e6ect!ada7 o conheci ento dos dados vai a! entando) Isto @7 oconheci ento dos dados @ aior nas 6olhas da res5ectiva árvore do 8!e naraio dos dados @ id?ntica nos dois casos7 5ois te os de 5erceber 8!e a

    divis>o @ 6eita tendo e conta a relevVncia das variáveis7 o! se a as aisrelevantes encontra ;se no in cio da árvore)

    %!tro 5onto a real"ar @ a !tilio) U a de 6or aan!al7 e d!as de 6or a a!to ática7 sendo 8!e as di6ere @ re5eti">o da

    !tilio do odelo)

    Nesse sentido a árvore de decis>o 6oi criada co as se !intescaracter sticas:

    igura 13 on=gura()o do n> da %r&ore de deci')o5

    Pontos i 5ortante:

    0*

  • 8/15/2019 DataMining Pre

    14/44

    Análise Preditiva – Análise de Abandono

    • U'e In u, Once NoF – Esta o5">o 5er ite 8!e a variável se a!tilio dio será 6eitae 1 ra os)

    • .aCi$u$ De ,/ ; Esta o5">o @ re6erente 5ro6!ndidade da árvore)%! se a7 no á=i o terá / ra os)

    Se !ida ente se !e;se a cria">o dos ra os) Isso @ e6ect!adoseleccionando o ca 5o BInteractive

    igura 1 "elec()o de a$ o In,erac,i&e

    Ai a5arece a Tree $ieW co o ra o inicial da árvore)

    igura 1: !i',a inicial do' dado'

    A8!i 5ode os constatar a 6or a co o o so6tWare 6a< a divis>o dos dados nocon !nto de treino e valida">o7 e res5ectivas 5ercenta ens de abandono o!n>o) %bvia ente as 5ercenta ens s>o bastantes se elhantes nos dois s!b;con !ntos7 co o teria de ser)

    Se !ida ente veri9car 8!al a variável co aior relevVncia7 5ara oob ectivo 5retendido Tar etF de 6or a a 6ao) Essain6or a">o @ dada 5elo lo Worth das variáveis) % lo Worth di< res5eito 8!alidade discri inante na divis>o de cada variável)

    0-

  • 8/15/2019 DataMining Pre

    15/44

    Análise Preditiva – Análise de Abandono

    % valor do lo Worth 5ode ser veri9cado na tabela no ca 5o –2o 5F

    Desta 6or a concl! os 8!e as variáveis co aior relevVncia na decis>os>o:

    • Montante Dia• N! Min!tos Dia• N! Cha adas Servico• Plano Internacional• Plano $oice ail

    1G I,era()o

    0K

    igura 1< " li, Node

    igura 1? Ta ela de di&i')o

  • 8/15/2019 DataMining Pre

    16/44

    Análise Preditiva – Análise de Abandono

    • Con6or e veri9cado na tabela !tilio:

    igura 1A Re'ul,ado -ri$eira I,era()o

    A8!i veri9cá os:• Clientes co cons! os abai=o de -K701X dia t? ! a 5robabilidade

    de abandono de 0L733 n esta 5ercenta e @ in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de 0-701F

    • Clientes co cons! os s!5eriores a -K701X dia a t? ! a5robabilidade de abandono de /*7-* esta 5ercenta e @ s!5erior

    5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701 F)

    2G I,era()o

    igura 19 Ta ela di&i')o 2

    0/

  • 8/15/2019 DataMining Pre

    17/44

    Análise Preditiva – Análise de Abandono

    igura 20 Re'ul,ado 2G i,era()o

    A8!i veri9cá os:• Clientes 8!e 6ao nova ente da variávelB ontante dia )

    igura 21 Ta ela di&i')o 3

    A5 s e=5ans>o o res!ltado @ o se !inte:

    0

  • 8/15/2019 DataMining Pre

    18/44

    Análise Preditiva – Análise de Abandono

    igura 22 Re'ul,ado 3G I,era()o

    A8!i veri9cá os:• Pessoas co cons! os abai=o de 1 71QKX dia t? ! a 5robabilidade

    de abandono de 3Q7K1 )

    Tendo e conta 8!e na 5ri eira itera">o !tilio 5ara 1 71QK)Essa altera">o @ e6ect!ada no 5ri eiro ra o7 editando o BInterval S5lit&!le 7 con6or e i a e )

    igura 23 #l,era()o do in,er&alo

    03

  • 8/15/2019 DataMining Pre

    19/44

    Análise Preditiva – Análise de Abandono

    1G I,era()o

    Con6or e veri9cado na tabela !tilio

    igura 2 Re'ul,ado 1 i,era()o

    A8!i veri9cá os:• Clientes co cons! os abai=o de 1 71QKX dia t? ! a

    5robabilidade de abandono de 017-0 esta 5ercenta e @ in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de 0-701F

    • Clientes co cons! os s!5eriores a 1 71QKX dia a t? ! a5robabilidade de abandono de 0K7LQ esta 5ercenta e @ s!5erior

    5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701 F)

    2G I,era()o

    Tendo e conta os res!ltados obtidos va os e=5andir o ra o dos clientes8!e te astos s!5eriores a 1 71QKX dia

    Con6or e veri9cado na tabela !tilio:

    igura 2: Ta ela di&i')o 2

    0Q

  • 8/15/2019 DataMining Pre

    20/44

    Análise Preditiva – Análise de Abandono

    A5 s e=5ans>o o res!ltado @ o se !inte:

    igura 2< Re'ul,ado 'egunda i,era()o

    A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e abai=o de -K701X dia

    t? ! a 5robabilidade de abandono de Q7Q1 esta 5ercenta e @in6erior 5ercenta e dos dados antes de a5licar o odelo 8!e @ de0-701F

    • Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a-K701X dia t? ! a 5robabilidade de abandono de /*7-* esta5ercenta e @ bastante s!5erior 5ercenta e dos dados antes dea5licar o odelo 8!e @ de 0-701 F

    3G I,era()o ; EC an')o do ra$o H :712Se !ida ente va os e=5andir o ra o

    Con6or e veri9cado na tabela !tilio:

    1L

    igura 2? Ta ela di&i')o 3

  • 8/15/2019 DataMining Pre

    21/44

    Análise Preditiva – Análise de Abandono

    A5 s e=5ans>o o res!ltado @ o se !inte:

    igura 2A Re'ul,ado ,erceira i,era()o

    A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a

    -K701X dia e se Plano $oiceMail t? ! a 5robabilidade deabandono de K71Q esta 5ercenta e @ s!5erior 5ercenta edos dados antes de introd!

  • 8/15/2019 DataMining Pre

    22/44

    Análise Preditiva – Análise de Abandono

    A8!i veri9cá os:• Clientes co cons! os s!5eriores a 1 71QK e i !ais o! s!5eriores a

    -K701X dia7 se Plano $oiceMail e co Montante Tarde [ 0-711Xt? ! a 5robabilidade de abandono de *K7-1 esta 5ercenta e @in6erior 5ercenta e dos dados antes de introd!o á bastante red!o)Nesse sentido7 decidi os desbastar a árvore no n anterior)

    Essa o5">o @ 6eita clicando e ci a do res5ectivo n e 6a

  • 8/15/2019 DataMining Pre

    23/44

    Análise Preditiva – Análise de Abandono

    % es o 5rocessose !ido anterior ente6oi e6ect!ado na divis>o dosrestantes ra os

    Assi no 9nal 9cá os co a se !inte árvore onde assinalá os a ver elhoos ra os e a a arelo as 6olhas)

    Oa

  • 8/15/2019 DataMining Pre

    24/44

    Análise Preditiva – Análise de Abandono

    de 3Q7K1 de abandono no con !nto de treino e 317Q* nocon !nto de valida">o

    *; Cons! os de ontantes s!5eriores o! i !ais a 1 71QKX dia asin6eriores a -K701X dia t? ! a 5ercenta e de abandono de

    Q7Q1 de abandono no con !nto de treino e 017/* no con !nto devalida">o)

    -; Cons! os de ontantes s!5eriores o! i !ais a -K701X dia e se5lano de voice ail t? ! a 5ercenta e de abandono de K71Qde abandono no con !nto de treino e /7/ no con !nto devalida">o)

    K; Cons! os de ontantes s!5eriores o! i !ais a -K701X dia e co5lano de voice ailt? ! a 5ercenta e de abandono de 0-71Q de abandono no

    con !nto de treino e *7** no con !nto de valida">o)I$ or,Kncia da' &ari%&ei' na cria()o do $odelo

    Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocesso dedivis>o 8!e se encontra 5or orde descendente)

    o$ ara()o re'ul,ado' en,re conLun,o de ,reino e conLun,o de&alida()o

    Co este rá9co 5ode os veri9car a rela">o dos res!ltados 8!er nocon !nto de treino 8!er no con !nto de valida">o) A5esar de al ! asdi6eren"as ni as7 os res!ltados obtidos s>o !ito se elhantes ea bos os con !ntos)

    1-

    igura 33 I$ or,Kncia da' &ari%&ei' na %r&ore de deci')o $anual

  • 8/15/2019 DataMining Pre

    25/44

    Análise Preditiva – Análise de Abandono

    igura 3 o$ ara()o do' re'ul,ado' do $odelo no conLun,o de ,reino e&alida()o5

    4R!ORE" DE DE I"ÃO #UTO.4TI #"Co o á 6oi dito anterior ente ! a das 6or as de cria">o das árvores dedecis>o de 6or a a!to ática)

    % 8!e va os 6ao no á=i o7 e 8!e se di6erenciar>o na re5eti">o o! n>oda es a variável de decis>o7 5ara divis>o de ra os)

    4R!ORE" DE DE I"ÃO #UTO.4TI #" O. RE-ETIÇ#O DE!#RI4!IE"5

    Para erar os a árvore criá os ! n de BDecion Tree co a con9 !ra">oabai=o a5resentada)

    igura 3: on=gura()o do n> Deci'ion Tree

    % res!ltado erado @ ! a árvore co / ra os onde as variáveis de decis>o5ode ser re5etidas

    1K

  • 8/15/2019 DataMining Pre

    26/44

    Análise Preditiva – Análise de Abandono

    Tendo e conta a árvore erada va os analisar os res!ltados de al ! as6olhas7 identi9cadas a a arelo na árvoreF e 8!e descende dos ra os

    assinalados a ver elhoF 8!e nos 5arece relevantes 5ara co 5reens>o doodelo)

    ECe$ lo 1

    E=iste ! a 5robabilidade de QL7-3 abandono no con !nto de treino e deQ*703 5ara o se !inte ti5o de clientes:

    .on,an,e*Dia \ -K701X

    -lano* !oice.ail : No

    1/

    igura 3< 4r&ore de deci')o #u,o$%,ica co$ re e,i()o de &ari%&ei'

  • 8/15/2019 DataMining Pre

    27/44

    Análise Preditiva – Análise de Abandono

    .on,an,e*Tarde \ 0-711X

    ECe$ lo 2

    E=iste ! a 5robabilidade de Q 7KL abandono no con !nto de treino e de

    Q*7 K 5ara o se !inte ti5o de clientes:.on,an,e*Dia [ -K701X

    Nu$* /a$ada'*"er&ico : \ *7K

    .on,an,e*Dia [ 1 71QKX

    .on,an,e*Tarde [ 0Q7 /KX

    ECe$ lo 3

    E=iste ! a 5robabilidade de L abandono no con !nto de treino e de L5ara o se !inte ti5o de clientes:

    .on,an,e*Dia [ -K701X

    Nu$* /a$ada'*"er&ico : \ *7K

    .on,an,e*Dia [ 1 71QKX

    .on,an,e*Tarde \ 0Q7 /KX

    .on,an,e*Dia \ 1-7QQX

    % interesse da análise deste e=e 5lo @ constatar os 8!e o odelo á seestá a tornar !ito co 5le=o e torna;se evidente 8!e á está a entrar esobre a5rendi

  • 8/15/2019 DataMining Pre

    28/44

    Análise Preditiva – Análise de Abandono

    Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocessode divis>o 8!e se encontra 5or orde descendente

    o$ ara()o re'ul,ado' en,re conLun,o de ,reino e conLun,o de&alida()o

    A5esar de al ! as di6eren"as ni as7 os res!ltados obtidos s>o !itose elhantes e a bos os con !ntos)

    4R!ORE" DE DE I"ÃO #UTO.4TI #" "E. RE-ETIÇ#O DE!#RI4!IE"5

    Para erar os a árvore criá os ! n de BDecion Tree co a con9 !ra">oabai=o a5resentada)

    igura 39 on=gura()o do n> Deci'ion Tree

    % res!ltado erado @ ! a árvore co / ra os onde as variáveis de decis>o

    n>o 5ode ser re5etidas

    13

    igura 3? !i'ualiMa()o da i$ or,Kncia da' &ari%&ei'

    igura 3A !i'ualiMa()o do' re'ul,ado' no conLun,o de ,reino e &alida()o

    igura 0 4r&ore de deci')o #u,o$%,ica 'e$ re e,i()o de &ari%&ei'

  • 8/15/2019 DataMining Pre

    29/44

    Análise Preditiva – Análise de Abandono

    Tendo e conta a árvore erada va os analisar os res!ltados de al ! as6olhas7 identi9cadas a a arelo na árvoreF e 8!e descende dos ra os

    assinalados a ver elhoF 8!e nos 5arece relevantes 5ara co 5reens>o doodelo) $isto n>o e=istir re5eti">o de variáveis a análise 5ode ser ais

    si 5les)

    ECe$ lo 1

    E=iste ! a 5robabilidade de QL7-3 abandono no con !nto de treino e deQ*703 5ara o se !inte ti5o de clientes:

    .on,an,e*Dia \ -K701X-lano* !oice.ail : No

    1Q

  • 8/15/2019 DataMining Pre

    30/44

    Análise Preditiva – Análise de Abandono

    .on,an,e*Tarde \ 0-711X

    ECe$ lo 2

    E=iste ! a 5robabilidade de QL7Q0 abandono no con !nto de treino e de0LL 5ara o se !inte ti5o de clientes:

    .on,an,e*Dia \ -K701X-lano* !oice.ail : No

    .on,an,e*Tarde [ 0-711X

    Nu$*.inu,o'*Dia \ *L170K

    De re6erir 8!e tendo e conta a 5e8!ena 8!antidade de indiv d!os 5arece;nos 8!e o odelo á se encontra !ito es5ec 9co)

    ECe$ lo 3

    E=iste ! a 5robabilidade de 3Q7K1 abandono no con !nto de treino e de317Q* 5ara o se !inte ti5o de clientes:

    .on,an,e*Dia [-K701X

    Nu$* /a$ada'*"er&ico : \ *7K

    Nu$*.inu,o'*Dia [ 0/L7KKX

    I$ or,Kncia da' &ari%&ei' na cria()o do $odelo

    Nesta tabela 5ode os constatar a i 5ortVncia das variáveis no 5rocesso dedivis>o 8!e se encontra 5or orde descendente

    *L

  • 8/15/2019 DataMining Pre

    31/44

  • 8/15/2019 DataMining Pre

    32/44

    Análise Preditiva – Análise de Abandono

    or ard – As variáveis s>o adicionadas ao odelo etestadas a cada itera">o) ] 5or isso ! a borda e do5artic!lar 5ara o eral)

    BacP ard –As variáveis s>o retiradas ao odelo e testadas a

    cada itera">o) ] 5or isso ! a aborda e do eral 5ara o5artic!lar)

    ",e i'e –As variáveis s>o adicionadas e retiradas con6or e asi ni9cVncia estat stica) ] ! a aborda e 8!e co bina a basas anteriores OorWard e +ac^WardF

    Tendo e conta o est!do de caso7 onde @ 5retendido 5rever a 5ro5ens>o deabandono o! n>o7 a re ress>o ais indicada será a lo stica) Ooraa5licados os * @todos de lo ostica aci a descritos: or ard7 BacP arde ",e i'e5

    A re ress>o lo stica7 ao contrário da arvore de decis>o7 @ sens vel aosdados co valores o issos e7 5or essa rao7 esses dados 6oraanteci5ada ente tratados 5elo @todo de BDestrib!tion 7 co ! BMissinC!to_ de KL )

    igura 3 ; on=gura()o de i$ u,a()o u'ada

    As variáveis abran idas 6ora : Nu$* /a$ada'*Dia7 Nu$*.inu,o'*Dia7Nu$*.inu,o'*Tarde7 RE-*Nu$* /a$ada'*In,l5

    igura Ou, u, da i$ u,a()o co$ a' &ari%&ei' a rangida'

    Regre'')o 8og ',ica ; or ard

    *1

  • 8/15/2019 DataMining Pre

    33/44

    Análise Preditiva – Análise de Abandono

    Neste @todo as variáveis s>o adicionadas tendo e conta asi ni9cVncia estat stica7 5elo 8!e res!lto! na se !inte orde a cadaitera">o:

    igura : Ou, u, co$ a orde$ da' &aria&ei' ue +ora$ in'erida'

    Ao de5arar o;nos co a variável estado se re5etia 5or KL 5arV etros7veri9cá os 8!e a5enas - K tinha ! PValue in6erior a K 7 o 8!e indica8!e todas as o!tras variáveis t? ! a 5robabilidade de sere L e7 co o5ode os ver na i a e aci a7 a variável estado acabo! 5or n>o terin !?ncia s!9ciente)

    Posto isto7 6oi decidido retirar an!al ente esta es a variável7 clicandoe ci a do n 7 de se !ida e BEdit $ariables e B&!n )

    igura < on=gura()o u'ada ara re,irar a &ari%&el QE',adoQ

    A ora á se a variável estado7 6ora adicionadas as se !intes variáveis acada itera">o:

    **

  • 8/15/2019 DataMining Pre

    34/44

    Análise Preditiva – Análise de Abandono

    igura ? Ou, u, co$ a orde$ da' &ari%&ei' 'e$ a &ari%&el QE',adoQ

    Co a a5lica">o deste @todo @ erado ! o!t5!t B%dds &atio Esti ates 7onde nos 5er ite veri9car o i 5acto das variáveis tendo e conta a

    variável Tar et7 lag*# andono )

    igura A Ou, u, da Regre'')o or ard

    Tendo e conta o o!t5!t erado7 5ode os destin ir 8!e e=iste / variáveis8!e in !encia ne ativa ente a 5robabilidade de abandono do cliente7

    8!e se veri9ca 5elo BPoint Esti ate s!5erior a 0:

    • A variável Plano_VoiceMail é a mais importante, visto que os indivíduos que não têm plano de Voice Mail têm maior probabilidade de abandono, do que os indivíduos quetêm Plano de Voice Mail, em 204, !"

    • A se#unda variável mais importante é Num_Chamadas_Servico, por cada c$amada deservi%o, aumenta a probabilidade de abandono em &2,&!"

    • A terceira variável mais importante é a variável Montante_Intl , ou se'a, por cada

    unidade de moeda cobrado, aumenta a probabilidade de abandono em 40,4!"

    *-

  • 8/15/2019 DataMining Pre

    35/44

    Análise Preditiva – Análise de Abandono

    • As variáveis Montante_Dia, Montante_Tarde e Num_Minutos_Noite ,in(luenciam, por cada unidade de moeda cobrado, o abandono do cliente em ),2!, ), !e 0,4! respetivamente"

    As variáveis c! o BPoint Esti ate @ in6erior a 07 re ete 5ositiva ente ! adi in!i">o da 5robabilidade de abandono:

    • A variável Plano_International é a que mais in(luência de (orma positiva, ou se'a, umindividuo que não ten$a Plano*+nternacional tem ) ,2! menor probabilidade deabandonar"

    • A variável IMP_REP_Num_Chamadas_Intl tem uma in(luência bai-a relativamenteao Plano*+nternational, mas ainda assim positiva, na medida em que por cada c$amadainternational que um individuo (a%a, diminui a probabilidade de abandono em ,4!"

    Analise do rá9co ; Cumulative Lift Este rá9co 5er ite;nos 5erceber a assertividade da a ostra Train sobre aa ostra Validate. Z!anto aior o li6t7 elhor ele acerta na a ostra devalida">o7 5or e=e 5lo7 se escolh?sse os 1L da 5o5!la">o7 ter a os !2i6t a5ro=i ada ente de *)

    Regre'')o 8og ',ica ; BacP ard

    Neste @todo as variáveis s>o retiradas tendo e conta a si ni9cVnciaestat stica7 5elo 8!e o @todo inicio! co as se !intes variáveis:

    *K

  • 8/15/2019 DataMining Pre

    36/44

    Análise Preditiva – Análise de Abandono

    igura 9 !ari%&ei' iniciai' adicionada'5

    % @todo ac!"ard a cada intera">o 6oi retirando as variáveis con6or e ose! si ni9cado estat stico ordenada ente:

    igura :0 Ou, u, da re,irada de &ari%&ei' elo $@,odo BacP ard

    A5 s a as variáveis sere re ovidas s>o erados os se !intes res!ltados:

    igura :1 Ou, u, da Regre'')o BacP ard

    %s res!ltados s>o bastante id?nticos ao do @todo for"ard 7 no entantoa5arece d!as novas variáveis: RE-*#n,iguidade e .on,an,e*Noi,e co! a in !?ncia ne ativa de L71 e 0L7* ) Devido 5o!ca relevVncia da

    */

  • 8/15/2019 DataMining Pre

    37/44

    Análise Preditiva – Análise de Abandono

    variável RE-*#n,iguidade 7 concl! dos 8!e esta n>o te in !?ncia 5orestar !ito 5r =i o de 0)

    Regre'')o 8og ',ica ; ",e i'e

    Neste @todo as variáveis s>o inseridas e retiradas tendo e conta asi ni9cVncia estat stica)

    No 9nal o o!t5!t de B%dds &atio Esti ates @ id?ntico ao 8!e veri9ca osco o @todo for"ard 7 co o 5ode os ver 5ela i a e :

    igura :2 Ou, u, da Regre'')o ",e i'e

    *

  • 8/15/2019 DataMining Pre

    38/44

    Análise Preditiva – Análise de Abandono

    o$ ara()o do' .odelo'No est!do caso criá os vários odelos co base e t@cnicas 5reditivasco o ob etivo de os co 5arar e 5erceber 8!al o elhor odelo) %s

    odelos criados 6ora re5resentados da se !inte 6or a:

    igura :3 !i')o geral do' $odelo' u'ado'5

    De odo a co 5arar os di6erentes odelos criados7 !sá os o n BModelCo 5arison 8!e 5er ite co 5arar os odelos e estabelece ! dos

    odelos co o o elhor)

    %s res!ltados do o!t5!t de co 5ara">o 6ora :

    igura : Re'ul,ado do Q.odel o$ ari'onQ

    Deste odo 5ode os observar 8!e o odelo co elhor 5er6or ance erela">o aos o!tros @ a %r&ore de deci')o au,o$%,ica co$ re e,i()o de&ari%&ei'7co base no $alid Misclassi9cation &ate)

    *3

  • 8/15/2019 DataMining Pre

    39/44

    Análise Preditiva – Análise de Abandono

    Pode os ta b@ observar 8!e e=iste ! a rande dis5aridade devalores de $alid Misclassi9cation &ate7 entre as árvores de decis>oa!to ática e os restantes odelos7 sendo 8!e as estas árvores a5resentavalores !ito bai=os7 no eada ente L7LK/KQ0 e L7LK 1K 7 econtra5osi">o a valores aci a de L70L 5ara os restantes odelos) % 8!e

    indica 8!e as árvores de decis>o a!to ática t? ! a elevada 9abilidadee rela">o aos restantes odelos)

    % odelo da %r&ore de deci')o $anual conse !i! a5resentar ! a9abilidade aior do 8!e 8!al8!er odelo de re ress>o lo stica e aindaassi ser ! odelo co re ras relativa ente si 5les7 8!e @ i 5ortanteter e considera">o)

    o$ ara()o do' $odelo' recorrendo ao RO /ar,

    .rvores a!to áticas

    Pode os observar 5elo rá9co &%C 8!e as c!rvas das linhas 8!ecorres5onde ás árvores de decis>o a!to ática est>o ais distantes eaci a da linha de aseline ) Deste odo 5ode os con6erir7 ais ! a veo a!to ática s>o as 8!e t? ! a aior9abilidade7 destacando;se das de ais) As linhas das árvores a!to áticasse re5eti">o de variáveis e co re5eti">o de variáveis sobre5#e ;se7 5elo8!e 5ode os concl!ir 8!e t? ! co 5orta ento !ito se elhante)

    igura :: RO /ar, da %r&ore 'e$ re e,i()o igura :< RO/ar, da %r&ore co$ re e,i()o

    E ter os 8!antitativos7 5ode;se analisar os odelos veri9cando osres!ltados 5revistos e os reais7 identi9cando assi :

    al'e nega,i&e' ; @ o n ero de 5revis#es incorretas 8!ando a classe real@ 5ositiva

    True Nega,i&e' ; s@ o n ero de 5revis#es corretas 8!ando a classe real

    @ ne ativa

    *Q

  • 8/15/2019 DataMining Pre

    40/44

    Análise Preditiva – Análise de Abandono

    al'e -o'i,i&e' ; @ o n ero de 5revis#es incorretas 8!ando a classereal @ ne ativa

    True -o'i,i&e' ; @ o n ero de 5revis#es corretas 8!ando a classe real @5ositiva

    Deste odo e ter os 8!antitativos7 5ara a árvore a!to ática core5eti">o de variáveis te os:

    !alore' reai'-re&i')o Abandono! N>o

    Abandono!Abandono! *-Q TPF 1- OPFN>oabandono!

    0-K ONF 1Q3L TNF

    Para a árvore a!to ática co re5eti">o de variáveis te os:

    !alore' reai'-re&i')o Abandono! N>o

    Abandono!Abandono! *-Q TPF *0 OPFN>oabandono!

    0-K ONF 1Q * TNF

    .rvore Man!al

    Ao analisar o rá9co &%C da árvore de decis>o an!al7 revelo!;se 8!e @ o5ior odelo e ter os de 9abilidade7 á 8!e @ a linha 8!e ais se a5ro=i ada linha de aseline ) A5enas se de onstro! elhor do 8!e as re ress#eslo sticas at@ o ei=o BS5eci9citR che ar aos L7LQ) &elativa ente ás árvoresde decis>o a!to ática7 o odelo an!al n>o se de onstro! 5roveitoso)

    igura :? RO /ar, da %r&ore $anual

    -L

  • 8/15/2019 DataMining Pre

    41/44

    Análise Preditiva – Análise de Abandono

    E ter os 8!antitativos7 5ara a árvore an!al te os:

    !alore' reai'-re&i')o Abandono! N>oAbandono!

    Abandono! *-Q TPF 1- OPFN>oabandono!

    0-K ONF 1Q3L TNF

    &e ress>o 2o stica)

    As linhas de re ress>o lo stica 6orWard7 bac^Ward e ste5Wise7 se elhan"ado 8!e acontece co as linhas das arvores de decis>o a!to áticas7sobre5#e ;se e deste odo 5ode os con9r ar 8!e t? 9abilidade !itose elhantes entre as es as)

    Deste odo7 os odelos de re ress>o lo stica torna ;se os se !ndoselhores odelos 5reditivos7 no 5resente caso de est!do)

    igura :A RO /ar, da Regre'')o or ard

    igura :9 RO /ar, da Regre'')o BacP ard

    -0

  • 8/15/2019 DataMining Pre

    42/44

    Análise Preditiva – Análise de Abandono

    igura

  • 8/15/2019 DataMining Pre

    43/44

    Análise Preditiva – Análise de Abandono

    Score &an^in s %verlaR ; 2i6t

    % rá9co de li6t ostra o 8!anto ais 5rovável @ receber res5ostas coodelo vers!s se odelo) Pelo rá9co de 2i6t 5ode os observar 8!e se

    contactar os a5enas 0L da 5o5!la">o7 co$ o' $odelo' de %r&ore' dedeci')o au,o$%,ica7 ode$o' o ,er

  • 8/15/2019 DataMining Pre

    44/44

    Análise Preditiva – Análise de Abandono

    onclu')o% ob etivo do caso de est!do era de tentar 5rever 8!e clientes t? ais5robabilidade de abandono)

    Co os dados 6ornecidos 5ela e 5resa $%S7 criá os ! odelo 5reditivode odo a de onstrar 8!e ti5o de clientes t? ais 5robabilidade deabandonar a e 5resa7 co base nas t@cnicas: 4r&ore' de deci')o

    an!al7 co e se re5eti">o de variaveisF e regre'')o log ',ica OorWard7 +ac^Ward e Ste5WiseF) A5 s a cria">o dos odelos7 os es os

    6ora co 5arados entre si 5ara analisar os 8!al deles seria ais 9ável5ara o est!do de caso)

    % Miner considero! 8!e7 de entre os odelos criados7 o elhor odelo @ oda %r&ore de deci')o au,o$%,ica co$ re e,i()o de &ari%&ei'5 Este

    odelo 5arece;nos o ais indicado 5ara identi9car os clientes co5ro5ens>o ao abandono no est!do de caso7 tendo e conta 8!e os odelosde re ress>o lo stica e árvore de decis>o an!al7 se de onstrara enos9áveis co o 6oi 5oss vel observar na co 5ara">o de odelos)