Descubrimiento de subgrupos aplicado al portal de comercio ... · Descubrimiento de subgrupos...

Preview:

Citation preview

Descubrimientodesubgruposaplicadoalportaldecomerciodeelectrónico:OrOliveSur.comCarmonaCJ*,delJesusMJ,GarcíaSDepartamentodeInformática*ccarmona@ujaen.es|953.21.19.56ResumenEldescubrimientodesubgruposesunatécnicademineríadedatosdescriptivacapazdedescribirconocimientoconunaestadísticainusualconrespectoaunavariabledeinterésenunconjuntodedatos.AlgoritmosbasadosenestatécnicasehanaplicadoalasvisitasregistradasporlosusuariosdelportaldecomercioelectrónicoOrOliveSur.com,quesecentraenlaventadeaceitedeolivavirgenextradelacomarcadeSierraMágina.Entrelosresultadosobtenidoscabedestacarlaobtencióndeunospatronesdecomportamientoporpartedelosvisitantesinteresantesdecaraalrediseñodelportalwebyasímejorarlasventasdelmismo.Abstract Subgroupdiscoveryisadescriptivedataminingtechniqueinordertodescribeknowledgewithanunusualstatisticalwithrespecttoaninterestvariableofthedataset.Analgorithmbasedonsubgroupdiscoveryisappliedtothevisitsregisteredinthee-commercewebsiteOrOliveSur.comwhichisfocusedontheextravirginoliveoilfromSierraMagina.Resultsobtainedshowbehaviourpatternsoftheusersveryinterestingwithrespecttothedesignofthewebsite.Theimprovementsindicatedinthisworkcouldincreasetheordersofthee-commerce.

1.IntroducciónElcomercioelectrónicoeslacompra-ventadeproductososerviciosmedianteunmedioelectrónico,talescomointernetoredesdecomputadores.Originalmente,estetérminoseaplicómediantelaejecucióndetransaccionescomointercambiodedatoselectrónicos.Sinembargo,amediadosdelos90conlaaparicióndeinternetsecomenzóprincipalmentearealizarventasdebienesyservicioseninternet,utilizandoprimordialmentepagoselectrónicos.Lacantidaddepagoselectrónicoshacrecidodeformaexponencialenlosúltimosaños.Unaampliavariedaddecomercioselectrónicoshansidopublicadosenlosúltimostiempos[Soaresetal.2008],estimulandolacreaciónyutilizacióndeinnovacionescomotransferenciaselectrónicas,marketingeninternet,procesamientodetransaccionesonline,sistemasderecolecciónautomáticadedatos,etc.EnAndalucíaexisteunaaltaconcentracióndecooperativasolivarerasqueenlosúltimostiemposestánproliferandoenlaexportacióndesusproductos[Moral-PajaresandLanzas-Molina,2009],yelusodeportalesdecomercioelectrónicoenlascooperativasylaadopcióndeTecnologíasdelaInformaciónylaComunicación(TIC)sonclavesparaestasexportaciones.LautilizacióndelasTICssurgeparaproponermetodologíasdeanálisisinteligentedelosdatosparahabilitarlaextraccióndeconocimientoútildelosmismos[Fayyadetal,1996].EsteeselconceptodeDescubrimientodeConocimientoenGrandesBasesdeDatos(eninglés,KnowledgeDiscoveryDatabases–KDD),quefuedefinidocomoelprocesonotrivialdeidentificacióndepatronesenlosdatosconlassiguientescaracterísticas:válido,novedoso,útilycomprensible[Han,2005].ElprocesoKDDesunconjuntodepasosinteractivoseiterativos,incluyendoentreelloselpre-procesamientodelosdatosparacorregirimprecisionesoinconsistencias,reducirelnúmeroderegistrosoencontrarlaspropiedadesmásrepresentativas,mineríadedatosqueeslaetapafundamentaldelprocesodondeseextraeelconocimiento,yanálisisyvisualizacióndelosresultados.KDDcombinalastécnicastradicionalesdelaextraccióndeconocimientoconnumerososrecursosdesarrolladoseneláreadelainteligenciaartificial.Enelproyectoabordadosehadescritounametodologíaespecíficaparaextraerinformaciónútildelosdatosderegistrosdeusuariosregistradosenelportaldecomercioelectrónicohttp://www.orolivesur.com.EstosdatosderegistrosdeusuariosdeOrOliveSurhansidoobtenidosmediantelaherramientaGoogleAnalytics.OrOliveSur.comsecentraenlaventaanivelnacionaleinternacionaldeaceitedeolivavirgenextradelacomarcadeSierraMágina.Lasetapasllevadasacaboenelanálisisdeesteportalsonlasdescritaspreviamente,esdecir,unaetapadepreprocesamientoparaprepararlosdatos,extraccióndeconocimientoyanálisisdelosresultadosobtenidos.AlolargodeestetrabajosepresentaráunresumendelportaldecomercioelectrónicoOrOliveSur,delasdiferentestécnicasyalgoritmosdedescubrimientodesubgruposutilizadosparaobtenerconocimiento

relacionadoconelcomportamientodelosusuariosenelportal,yparafinalizarsepresentanlosresultadosobtenidosenesteestudio.2.MaterialesyMétodosEnestasecciónsepresentanlascaracterísticasmásdestacadasdelportalOrOliveSur.com,lasprincipalescaracterísticasdelamineríadeusowebylospropiedadesyalgoritmodedescubrimientodesubgruposaplicadosalosdatos.2.1.Portaldecomercioelectrónico:OrOliveSur.comOrOliveSuresunproyectonacidoenlaprovinciadeJaénenAndalucía(España)enelaño2010.Elprincipalpropósitoesdaraconocerenelmundoeltesorodenuestratierra,elaceitedeolivavirgenextra.EstawebsecentroenelaceitedeolivaproducidoenunparticularterritoriodeJaén:ElparquenaturaldeSierraMágina.Estazonaesunáreaprotegidadeunas50.000hectáreasdeparquenaturalformadoporladerasboscosas,vallesrecónditosypicosmontañososescarpados.Elpicomásalto,MáginaeselmásaltodelaprovinciadeJaén,llegandoalos2167metrosdealtitudsobreelniveldelmar.

Ilustración1.Páginaprincipaldelportalwebhttp://www.OrOliveSur.com

ElampliocatálogoquepresentaOrOliveSursecentraenlavariedaddeaceitepicual.EstavariedadeslamásextensadelmundorepresentandoenEspañael

50%delaproducción.LamayoríadeestaseencuentrasituadaenAndalucía,especialmenteenlaprovinciadeJaén.Laaceitunaesdeuntamañograndeyconformaalargadaconunpicoalfinaldelamisma.Losárbolesdeestavariedadsondeuncolorplataintenso,abiertosybienestructurados.Además,lavariedadpicualtieneunaspropiedadesexcelentesyaqueeslavariedadconmejorestabilidadyácidooleicoconrespectoaotrasvariedadescomoarbequinauhojiblanca,entreotras.Enlaactualidad,esteportaldeventadeaceiteseencuentratraducidoíntegramentealinglés,yparcialmentealalemán,francésydanés.

Ilustración2.Descripcióndeunproductodelportalwebhttp://www.OrOliveSur.com

Alolargodelosúltimosaños,OrOliveSurharecibidopedidostantonacionalescomointernacionalesdesdeDinamarca,Alemania,ReinoUnido,Francia,etc.,ysuspedidosyvisitasincrementandíaadía.Lacaracterísticamásdestacadadeesteportalserelacionaconlacalidad-preciodesusproductos,puesseofrecenproductosdecalidadavaladosporelConsejoReguladordelaDenominacióndeOrigen“SierraMágina”abaratandosuscostesenenvíoypresentandomúltiplesmétodosdepago.Todoslosproductosllevanunadescripcióndetalladadelos

mismosconrespectoapropiedadesparafacilitaralosvisitanteslaeleccióndesusaceites.Porejemplo,enlaIlustración2sepuedeobservarlapresentacióndeunodesusproductos.2.2.MineríadeusowebEtzioni[Etzioni,1996]definiómineríawebcomoelusodetécnicasparadescubriryextraerconocimientoenunawebdeformaautomática,mientrasCooley[Cooleyetal,1999]fuemásalláenremarcarlaimportanciadeconsiderarelcomportamientoypreferenciasdelusuario.Encualquiercaso,losautorescoincidenensepararlamineríawebendistintasetapas[KosalaandBockeel,2000][Liu,2006]:

• Encontrarrecursos.• Seleccionarlainformaciónypreprocesar.• Descubrirelconocimiento.• Analizarlospatronesobtenidos.

Lamineríawebsepuedeclasificarentresdominiosconrespectoalanaturalezadelosdatos[Cooleyetal,1997][MarkovandLarose,2007]:mineríawebdecontenido,mineríadeestructuradedatosymineríadeusoweb.EnesteproyectonoscentramosenlamineríadeusowebquefuedefinidaporSrivastava[Srivastavaetal,2000]como:Elprocesodeaplicartécnicasdemineríadedatosparaeldescubrimientodepatronesútilesdesdelosdatosweb.Lospatronesserepresentancomounacoleccióndepáginasoítemsvisitadosporlosusuarios.Estospatronessepuedenemplearparacomprenderlasprincipalescaracterísticasdelcomportamientodelosusuariosparamejorarlaestructuradelawebycrearrecomendacionespersonalesydinámicassobreelcontenidodelaweb[Mobasher,2005].Lamineríadeusowebsepuedeemplearendiversaspropuestascomoporejemploparaanalizarsecuenciasdepáginas,calidaddeunawebobúsquedasglobalesefectivas.Todaslaspropuestashansidoclasificadasconrespectoaunataxonomíadefinidaen[FaccaandLanzi,2005]:

• Personalizacióncuyoobjetivosestábasadoenlarecomendacióndesistemas.

• Pre-fetchingycachingqueintentamejorarelrendimientodelosservidoresyaplicacionesenlacargadepáginasencachéantesquelosusuarioslassoliciten.

• Diseñoqueestárelacionadoconlausabilidaddeunaweb.Estudiosendiseñopuedenproporcionarlasmetasparamejorareldiseñodelaweb.

• ComercioelectrónicodondelastécnicasutilizadasdentrodeestegruposerelacionanconelCustomerRelationshipsManagement,queesunmodelodegestiónquepermiteincrementarlasventasdelosportalesdecomercioelectrónico.

2.3.DescubrimientodesubgruposElconceptodedescubrimientodesubgruposfueintroducidoinicialmenteporKloesgen[Kloesgen,1996]yWrobel[Wrobel,1997]ydefinidoformalmentecomo[Wrobel,2001]:Endescubrimientodesubgrupos,asumimosunapoblacióndeindividuosdada(objetos,clientes,…)yunapropiedaddeestosindividuosenlaqueestemosinteresados.Latareadeldescubrimientodesubgruposesentoncesdescubrirlossubgruposdelapoblaciónquesonestadísticamente``másinteresantes'',esdecir,individuosqueseantangrandescomoseaposibleytengaunadistribuciónestadísticalosmásatípicaposible,conrespectoaunapropiedaddeinterés.Eldescubrimientodesubgruposintentabuscarrelacionesentrediferentespropiedadesovariablesdeunconjuntoconrespectoaunavariableobjetivo.Debidoaqueeldescubrimientodesubgruposestácentradoenlaextracciónderelacionesconcaracterísticasinteresantes,noesnecesarioobtenerrelacionescompletassinoquesuelesersuficienteconrelacionesparciales.Estasrelacionessondescritasenformadereglasindividuales.Así,unareglaR,queconsistedeunadescripcióndeunsubgrupoinducido,puedeserdefinidaformalmentecomo:

R:Cond->VarObjdondeVarObjeselvalordelavariabledeinterésovariableobjetivoparalatareadedescubrimientodesubgrupos(puedeaparecerademásenlabibliografíaespecíficacomoClase),yCondescomúnmenteunaconjuncióndefunciones(paresatributo-valor)queescapazdedescribirunadistribuciónestadísticainusualconrespectoalavariableobjetivo.EnunarecienterevisiónpresentadaporHerrerayotros[Herreraetal,2011]sepuedenobservarloselementosfundamentalesdeldescubrimientodesubgrupos,medidasdecalidadutilizadas,algoritmosyaplicacionesaproblemasreales.Acontinuaciónsemencionanlosprincipaleselementosdeldescubrimientodesubgrupos,lasmedidasdecalidadutilizadasenelprocesoyelalgoritmoempleadoenesteestudio.2.3.1.PrincipaleselementosdeldescubrimientodesubgruposExistendiferenteselementosaespecificareneldiseñodeunalgoritmodedescubrimientodesubgrupos.Estoselementossedefinenacontinuación[Atzmuelleretal,2004]:

• Tipodelavariableobjetivo.Sepuedenencontrardiferentestiposdevariableobjetivo:binaria,nominalonumérica.Paracadaunadeellassepuedenaplicardiferentesanálisisconsiderandoeltipodelavariableobjetivo.

• Lenguajededescripción.Larepresentacióndelossubgruposdebeser

adecuadaparaobtenerreglasinteresantes.Lasreglasdebensersencillasyporellosesuelenrepresentarmedianteparesatributo-valorgeneralmenteenformanormalconjuntivaodisyuntiva.Además,losvaloressepuedenrepresentarmediantevalorespositivosy/onegativos,mediantelógicadifusa,omedianteelusodedesigualdadesoigualdades,entreotros.

• Medidasdecalidad.Éstassonunfactorclaveparalaextracciónde

conocimientoyaqueelinterésdelconocimientoextraídodependedirectamentedeellas.Además,lasmedidasdecalidadproporcionanalexpertolacalidadeimportanciadelossubgruposobtenidos.Sehanpresentadodiferentesmedidasdecalidadenlabibliografíaespecializada[GambergerandLavrac,2003][Kloesgen,1996][KloesgenandMay,2002][Lavracetal,2004],peroenningúnestudiopreviosehapresentadounconsensosobrecuálessonlasmásadecuadasparausarendescubrimientodesubgrupos.Enlasiguientesecciónsepresentaunresumendelasmedidasdecalidadutilizadas.

• Estrategiadebúsqueda.Esteelementoesmuyimportante,yaquela

dimensióndelespaciodebúsquedatieneunarelaciónexponencialrespectoalnúmerodepropiedadesyvaloresconsiderados.Hastaelmomentosehanutilizadodiferentesestrategias,porejemplobeamsearch,algoritmosevolutivos,búsquedaenespaciosmultirelacionales,etc.

2.3.2.MedidasdecalidadempleadasenesteestudioUnodelosaspectosmásrelevantespararesolverunproblemadedescubrimientodesubgruposeslaeleccióndelasmedidasmásadecuadasautilizarparaextraerlasmejoresreglasyevaluarlas.Enlaactualidad,existeunamplionúmerodemedidasdecalidadenlabibliografía.Lasmedidasmáscomunesdentrodeestatareasedescribenacontinuación:

• Confianzadifusa:Determinalafrecuenciarelativadelosejemplosquesatisfacentantoelantecedentecomoelconsecuentedeunareglaentreaquellosquesatisfacensóloelantecedente[DelJesusetal,2007].Secalculacomo:

𝐶𝑛𝑓𝐷 𝑅 =𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!/!!∈!"#$%&

𝐴𝑃𝐶(𝐸! ,𝑅)!!∈!

dondeAPCeselgradodecompatibilidadentreunejemplo(E)yelantecedentedeunaregladifusa.Enelcasodereglasnodifusas,losgradosdepertenenciasonloscorrespondientesaconjuntosclásicos,esdecir0ó1.Estollevaríaalaobtencióndelosmismosvalores,tantoparalaconfianzadifusa,comoparalanítidaenproblemasquecontenganúnicamentevariablesdiscretas.

• Relevancia:Larelevanciadeunareglasecalculaentérminosdesurazóndeverosimilitud,normalizadaconlarazóndeverosimilituddelumbralderelevancia,ysemidecomolarelacióndeprobabilidaddeunaregla[Kloesgen,1996].

𝑅𝑒𝑙𝑒 𝑅 = 2 ∙ 𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑) ∙ 𝑙𝑜𝑔𝑛(𝑉𝑎𝑟𝑂𝑏𝑗! ∙ 𝐶𝑜𝑛𝑑)

𝑛(𝑉𝑎𝑟𝑂𝑏𝑗!) ∙ 𝑝(𝐶𝑜𝑛𝑑)

!!

!!!

donden(VarObj-Cond)eselnúmerodeejemplosquesatisfacenlacondiciónyademáspertenecenalvalordelavariableobjetivoenlaregla,p(Cond)calculadocomon(Cond)/ns,seutilizacomounfactornormalizador,n(Cond)eselnúmerodeejemplosquesatisfacenlacondicióndeterminadaporelantecedentedelaregla,nseselnúmerodeejemplos,n(VarObj)eselnúmerodeejemplosdelavariableobjetivo,ynceselnúmerodevaloresdelavariableobjetivo.Aunquecadareglaestádefinidaparaunvalorespecíficodelavariableobjetivosedebedestacarquelamedidaderelevanciamidelanovedadenladistribuciónimparcialmente,paratodoslosvaloresdeestavariable.

• Sensibilidad:Estamedidamidelaproporcióndeejemploscorrectamente

descritos[Kloesgen,1996].Sepuedecalcularcomo:

𝑆𝑒𝑛𝑠 𝑅 = 𝑇𝑃𝑟 =𝑇𝑃𝑃𝑜𝑠 =

𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)

dondePossontodoslosejemplosdelvalordelavariableobjetivoqueseestáanalizandon(VarObj).EstamedidadecalidadseutilizaparaevaluarlacalidaddelossubgruposenelespacioROC(ReceiverOperatingCharacteristic).Lamedidadesensibilidadcombinalaprecisiónygeneralidadgeneradaparaunvalordelavariableobjetivo.

• Atipicidad:Estamedidasedefinecomolaprecisiónrelativaconpesos

[Lavracetal,1999].Sepuedecalcularcomo:

𝐴𝑡𝑖𝑝 𝑅 =𝑛(𝐶𝑜𝑛𝑑)

𝑛!𝑛(𝑉𝑎𝑟𝑂𝑏𝑗 ∙ 𝐶𝑜𝑛𝑑)

𝑛(𝐶𝑜𝑛𝑑) ∙𝑛(𝑉𝑎𝑟𝑂𝑏𝑗)

𝑛!

Laatipicidaddeunareglasepuededescribircomoelbalanceentrelacoberturadelareglap(Condi)ysugananciadeprecisiónp(VarObj-Cond)-p(VarObj).

2.3.4.NMEEF-SDElalgoritmoutilizadoenestetrabajosedenominaNMEEF-SD,queprovienedelasinicialesdeNon-dominatedMulti-objectiveEvolutionaryalgorithmforExtractingFuzzyrulesinSubgroupDiscovery[Carmonaetal,2010b].Estealgoritmoesunsistemadifusoevolutivo,en[Herrera,2008]sepuedeencontrarunaampliadescripcióndeestetipodesistemas.

ElobjetivoprincipaldelNMEEF-SDesextraersubgruposdescriptivosdifusosy/onítidos(dependiendodelanaturalezadelproblemaaresolver)queaportennovedad,precisióneinterpretabilidadalproblema.Elalgoritmoutilizamedidasdecalidaddereglasparaguiarelprocesodeaprendizaje,esdecirempleadiferentesmedidascomoobjetivosdelproceso,ytienecomoobjetivoobtenerreglasquealcancenvaloresadecuadosnosoloenestasmedidassinotambiénenotrosindicadoresdecalidadrelacionadosperonoconsideradosenesteprocesodebúsqueda.Además,estemodelopermiteelegirentreunconjuntodemedidascomosoporte,cobertura,relevancia,atipicidadyconfianza,lasmedidasdecalidadmásadecuadaspararesolverelproblemaplanteado.NMEEF-SDestáorientadoaresolverproblemasdedescubrimientodesubgruposyporelloutilizaoperadoresparaextraersubgrupossimpleseinterpretables,yconunaaltacalidadenlasmedidasestudiadas.ComoelobjetivogeneraldeNMEEF-SDesobtenerunconjuntodereglas,quedeberíansergeneralesyprecisas,elalgoritmoincluyecomponentesquepotencianestascaracterísticas.Másconcretamente,ladiversidadsemejoraenlapoblaciónutilizandounoperadordere-inicializaciónbasadaencobertura,ademásdelatécnicasdenichos(ladistanciadecrowdingeneloperadordeselección).Paraoptimizarlageneralidaddelossubgrupos,elalgoritmoincluyeoperadoresdeinicializaciónsesgadaymutaciónsesgada.Finalmente,parapotenciarlaprecisión,ademásdelosobjetivosempleadosporNMEEF-SDparaguiarelprocesoevolutivoysobrelasreglas,éstesolodevuelvecomosolucionesfinalesaquellasreglasquealcancenundeterminadoumbraldeconfianza.LaestructuradelasreglasutilizadasenelalgoritmoNMEEF-SDestábasadaenelusodelalógicadifusaparalarepresentacióndelasvariablescontinuas.Lasvariablescontinuassonconsideradascomovariableslingüísticas,ylosconjuntosdifusoscorrespondientesalasetiquetaslingüísticassepuedenespecificarporelusuarioodefinirsepormediodeunaparticiónuniformesielconocimientodelosexpertosnoestádisponible.ElalgoritmoNMEEF-SDpermitelaobtencióntantodereglasdifusascomonítidas,enfuncióndelanaturalezadelasvariablesdelproblemaaestudiar.Encasodetrabajarconvariablescontinuasseobtendránreglasdifusas,sisetrabajaconvariablesdiscretasseobtendránreglasnítidas,yencasodetrabajarenunproblemaconambostiposdevariablesseobtendránreglasquetendránamboscomponentes.3.ResultadosyDiscusiónElprincipalpropósitorealizadoenestetrabajosecentraenelestudiodeldiseñodelawebOrOliveSur.commediantetécnicasdemineríadeusoweb.EstastécnicassonaplicadasdentrodelprocesoKDDquesedivideendiferentesfases.Enconcreto,esteestudioserealizasiguiendolassiguientesfases:

3.1.Recopilaciónypre-procesamientodelosdatosLosdatossonobtenidosmediantelaherramientaGoogleAnalyticsdesdeelperiodo1deeneroa31dediciembreenelaño2011.Además,seaplicandiversosfiltrosenelconjuntodedatosdecaraaobtenersoloinstanciasconíndicesdereboteinferioresal100%.Estevaloreselporcentajedevisitasdeunapáginaúnicaovisitasenlasquelapersonadejaelportalenlamismapáginaenlaquellega,esdecir,soloseconsideranvisitadondelosusuarioshanvisitadolawebdurantemásdeunsegundo.Entotalelconjuntodedatosestácompuestopor8832instancias,juntocondistintaspropiedadesdelasvisitasquesedetallanacontinuación:

• Navegador:Estapropiedadcontieneelnombregenéricodelnavegador

utilizadoporelusuarioensuvisita.Entrelosposiblesvaloresquesepuedenencontrarsepuedever:InternetExplorer,MozillaFirefox,Chrome,Safari,etc.

• Tipodevisitante:Contieneeltipodevisitante.Estevalorpuedecontenerel

valordenuevovisitante(N)orecurrente(R).

• Palabraclave:Eslapalabraclavedeaccesoporpartedelusuarioalaweb.Todaslaspalabrasclaveshansidoclasificadasenseiscategorías.Hayqueremarcarquelaspalabrasclavesepuedenencontrarendistintosidiomas,perotodasellashansidoclasificadossiguiendolatraducciónenelinglés:

o Oliveoil:Estevalorcontienetodaslaspalabrasgenéricas

relacionadasconaceitedeoliva,comoporejemplo:buyoliveoil,ventadeaceite,aceiteecológico,huiled’olive,etc.

o Iberianproduct:Enestevalorseagrupantodaslaspalabras

genéricassobreproductosibéricoscomojamónibérico,comprarjamóndebellota,buyibéricoacorn-fedham,etc.

o Brand:Estapalabracontienetodaslasentradasrelacionadasala

marcadelosproductosdelcatálogocomoLaCasona,VerdeSalud,GámezPiñar,OrOlivesur,etc.

o Gift:Contienevaloresrelacionadosaregaloscomoboda,cestasde

navidad,etc.

o Other:Estevaloragrupatodoslosaccesosconpalabrasclavenoclasificadapreviamente.

o Nothing:Losaccesossinpalabrasclavesonclasificadosconesta

palabraclavecomoporejemplolosaccesosdirectos.

• Recurso:Estapropiedadindicaelrecursoutilizadoporelvisitanteparaaccederalaweb:

o Directo(D):Estevalorseutilizaparaaccesosrealizadosdirectosenlawebhttp://www.orolivesur.com

o MotordeBúsqueda(E):Estevalorseutilizaparaaccesosrealizados

atravésdemotoresdebúsquedacomoGoogle,YahoooBing,porejemplo.

o Correo(M):Indicaelaccesorealizadoatravésdecorreos

electrónicosconunenlacealaweb.

o Referencia(R):EstevalorseencuentraenaccesosrealizadosdesdeotraswebsconunenlacehaciaOrOliveSur.

o RedesSociales(N):Contienetodoslosaccesosrealizadosatravésde

redessocialescomoFacebook,Twitter,GooglePlus,etc.

• Nuevasvisitas:Indicaelnúmerodevisitasnuevasrealizadasconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistas:Indicaelnúmerodepáginasvistasporelusuarioconel

mismonavegador,tipodevisitante,palabraclaveyrecurso.

• Tiempoporvisita:Estapropiedadindicaeltiempoempleadoenlawebporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Visitas:Estapropiedadmuestraelnúmerodevisitasrealizadasconel

mismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistasúnicas:Presentaelnúmerodepáginasúnicasporlosusuariosconelmismonavegador,tipodevisitante,palabraclaveyrecurso.

• Páginasvistasporvisita:Muestraelnúmerocompletodepáginasvistaspor

cadavisita.

• Páginasvistasúnicasporvisita:Muestraelnúmerocompletodepáginasúnicasvistasporcadavisita.

• Tiempoporpágina:Presentaeltiempoempleadoporcadausuariopor

páginavista.

3.2.MineríadedatosUnavezquelosdatoshansidopreparados,yaestánlistosparapasaralafasedemineríadedatosyaplicarelalgoritmoNMEEF-SD.ElprincipalobjetivodelaaplicacióndeNMEEF-SDesproporcionaralequipodedesarrolladoresdelportalweb,informaciónparamejorareldiseñodelawebe

incrementarelnúmerodevisitasrecibidas.Enconclusiónelobjetivoesmejorarlavisualizacióndelportalyaumentarlasventasyclientesenelfuturo.Estatécnicasehautilizadoendiferentesdominiosysehanobtenidomuybuenosresultados[Romeroetal,2009][Carmonaetal,2010a][Carmonaetal,2011a][Carmonaetal,2011b][Carmonaetal,2013].EnlaTabla1sedescribenlosparámetrosutilizadosporNMEEF-SDenelestudiorealizado.Tabla1.ParámetrosutilizadosporelalgoritmoNMEEF-SD

Tamañodelapoblación=50Númerodeevaluaciones=10000Probabilidaddecruce=60%Probabilidaddemutación=10%Confianzamínima=0.6Representacióndelasreglas=CanónicasEtiquetaslingüísticas=9{Bastantebajo,Muybajo,Bajo,Normal,Alto,MuyAlto,BastanteAlto}Objetivo1=SensibilidadObjetivo2=Atipicidad3.3.AnálisisyvalidacióndelosdatosEnestasecciónsepresentanlosresultadosobtenidosporelalgoritmoNMEEF-SDparalosdatosobtenidosdelawebhttp://www.OrOliveSur.com.Comoyahemosmencionadopreviamente,elobjetivodeldescubrimientodesubgruposesobtenerrelacionesatípicasenlosdatosconrespectoaunavariabledeinterésuobjetivo.Enconcretoparaesteproblema,seanalizanpropiedadescomopalabrasclave,recursosdetipodevisitante,porejemplocomovariableobjetivo.Acontinuación,lossubgruposmásrelevantesquesehanobtenidoenesteestudioparaelalgoritmoNMEEF-SDconrespectoadiferentesvariablesobjetivoysusmedidasdecalidadasociadassemuestranenlaTabla2.Enestatablasedescribenlasreglasylasmedidasdecalidadrelevancia(RELE),atipicidad(ATIP),sensibilidad(SENS)yconfianzadifusa(FCNF).

Tabla2.ReglasyresultadosobtenidosporNMEEF-SD

# Regla RELE ATIP SENS FCNFR1 SIrecurso=EENTONCESpalabraclave=

oliveoil1949.707 0.117 0.999 0.483

R2 SIrecurso=EENTONCESpalabraclave=Brand

1949.707 0.073 1.000 0.303

R3 SItiempo/páginasvistas=BajoENTONCESpalabraclave=nothing

3.920 0.001 0.999 0.448

R4 SItiempo=BajoENTONCESpalabraclave=nothing

11.175 0.005 0,982 0.486

R5 SIpalabraclave=nothingY páginasvistas=MuybajoY páginasvistas=MuybajoENTONCESrecurso=R

2216.810 0.090 0.996 0.373

R6 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoENTONCESrecurso=R

2265.863 0.089 0.999 0.368

R7 SIpalabraclave=nothingY páginasvistas=MuybajoY page/visits=MuybajoENTONCESrecurso=R

2216.810 0.090 0.996 0.372

R8 SIpalabraclave=nothingY únicaspáginasvistas=MuybajoY únicaspage/visits=MuybajoENTONCESrecurso=R

2265.863 0.089 0.999 0.368

R9 SItipovisitante=NY únicaspáginasvistas=BajoENTONCESrecurso=E

90.077 0.038 0.658 0.653

R10 SInavegador=IEY páginasvistas=BajoENTONCESrecurso=E

137.419 0.057 0.575 0.709

R11 SInuevasvisitas=0 ENTONCEStipovisitante=R

2819.825 0.229 1.000 1.000

ComosepuedeobservarenlosresultadosobtenidosporNMEEF-SD,hayunagrannúmerodereglasconvaloresaceptablesenlamayoríademedidasdecalidad.AunquealgunasreglascomoR11esobviayaquesilosvisitantesnosonnuevoselconsecuenteesquelosusuariossonrecurrentes,nosayudanamostrarelcorrectofuncionamientodelalgoritmo.Entretodaslasreglasobtenidasporelalgoritmo,esinteresanteremarcarquelosusuariosqueaccedendirectamentealaweb,esdecirsinutilizaspalabrasclavecomoindicanlasreglasR3yR4,permanecenenlawebduranteuntiempoaceptableenlawebyeltiempoporpáginaesmuyinteresante.Además,lasreglasR5,R6,R7yR8muestranquelaspáginaswebquehacenreferenciaaOrOliveSur,talescomodirectoriosoblogs,sonvisitasconnúmeromuybajodepáginasvistasypáginasúnicasvistas.Enestesentido,elequipodedesarrolladoresdebemejorarladescripciónylaimagendeOrOliveSurenestaspáginasporqueesprobablequelosusuariosnoencuentrenloqueesperabanunavezlleganalaweb.Juntoatodoesto,lareglamásdestacadadescubiertaporelalgoritmoNMEEF-SDeslautilizacióndelnavegadorInternetExplorerporlamayoríadeusuarioquevisitanOrOliveSurmediantemotoresdebúsquedacomoGoogleoYahoo,porejemplo.Estosusuariosvisitanunamplionúmerodepáginasdentrodelportal.Enestesentido,recomendamosalequipodedesarrolladoresaanalizareldiseñodelawebparacomprobarquesemuestracorrectamenteenestenavegadorencualquierversión.

4.ConclusionesEnestetrabajosehapresentadounestudiobasadoentécnicasdemineríadedatosendatos,paraanalizarelaccesodeusuariosaunportaldeventadeaceitedeolivaonline.ElpropósitoeraextraerconocimientosobrelainformacióndeaccesodelosusuariosalportaldecomercioelectrónicoOrOliveSur.com.LosdatoshansidoobtenidosmedianteherramientasdeanalíticaquefacilitanlaobtencióndelosmismoscomoGoogleAnalytics.Lacombinacióndemineríadedatosendatosprovenientesdeaccesodeusuariosenweb,secatalogacomomineríaweb.Enconcreto,enesteestudiosehapresentadounestudiodemineríadeusowebrealizadomedianteelalgoritmoNMEEF-SDparalaobtencióndesubgruposdifusosconrespectoadiferentesvariablesobjetivocomorecursodeacceso,palabraclavedeacceso,etc.Losresultadosobtenidosmuestrandosfactoresclave:

• Primero,elequipodedesarrolladoresdebenprestarespecialatenciónalosvisitantesquellegandesdepáginasdereferenciaporquepermanecenmuypocotiempoenelportal.

• Segundo,lamayoríadevisitasvienendesdeelnavegadorInternetExplorer.Ademásestasvisitassonusuariosquenaveganduranteunbuenperiododetiempoatravésdelaweb.

5.AgradecimientosEstetrabajohasidosoportadoporelMinisteriodeEconomíayCompetitividadbajoelproyectoTIN-2012-33856(FondosFEDER),porelPlanAndaluzdeInvestigaciónbajoelproyectoTIC-3928(FondosFEDER),porelPlandeInvestigacióndelaUniversidadbajoelproyectoUJA2010/13/07ypatrocinadoporlaCajaRuraldeJaén.6.Bibliografía

• [Atzmuelleretal,2004]Atzmueller,M.,Puppe,F.&Buscher,H.P.(2004):TowardsKnowledge-IntensiveSubgroupDiscovery.InProceedingsoftheLernen-Wissensentdeckung-Adaptivität-FachgruppeMaschinellesLernen,(pp.111–117).

• [Carmonaetal,2010a]Carmona,C.J.,González,P.,DelJesus,M.J.,Romero,C.,&Ventura,S.(2010).Evolutionaryalgorithmsforsubgroupdiscoveryappliedtoe-learningdata.InProceedingsoftheIEEEinternationaleducationengineering(pp.983–990).

• [Carmonaetal,2010b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Herrera,F.(2010).NMEEF-SD:Nondominatedmulti-objectiveevolutionaryalgorithmforextractingfuzzyrulesinsubgroupdiscovery.IEEETransactionsonFuzzySystems,18,958–970.

• [Carmonaetal,2011a]Carmona,C.J.,González,P.,DelJesus,M.J.,Navío,M.,&Jiménez,L.(2011).Evolutionaryfuzzyruleextractionforsubgroup

discoveryinapsychiatricemergencydepartment.SoftComputing,15,2435–2448.

• [Carmonaetal,2011b]Carmona,C.J.,González,P.,DelJesus,M.J.,&Ventura,S.(2011).Subgroupdiscoveryinane-learningusagestudybasedonMoodle,InProceedingsoftheinternationalconferenceofEuropeantransnationaleducation(pp.446–451).

• [Carmonaetal,2013]CarmonaCJ,ChrysostomouC,SekerH,delJesusMJ.(2013).FuzzyRulesforDescribingSubgroupsfromInfluenzaAVirusUsingaMulti-objectiveEvolutionaryAlgorithm.AppliedSoftComputing,13,3439-3448.

• [Cooleyetal,1997]Cooley,R.,Mobasher,B.,&Srivastava,J.(1997).Webmining:InformationandpatterndiscoveryontheWorldWideWeb.OnToolswithArtificialIntelligence,558–567.

• [Cooleyetal,1999]Cooley,R.,Mobasher,B.,&Srivastava,J.(1999).DatapreparationforminingWorldWideWebbrowsingpatterns.KnowledgeandInformationSystems,1,5–32.

• [Debetal,2002]Deb,K.,Pratap,A.,Agrawal,S.,&Meyarivan,T.(2002).Afastandelitistmultiobjectivegeneticalgorithm:NSGA-II.IEEETransactionsEvolutionaryComputation,6,182–197.

• [DelJesusetal,2007]DelJesus,M.J.,González,P.,Herrera,F.&Mesonero,F.(2007)EvolutionaryFuzzyRuleInductionProcessforSubgroupDiscovery:Acasestudyinmarketing.IEEETransactionsonFuzzySystems,15(4),578–592.

• [Etzioni,1996]Etzioni,O.(1996).TheWorldWideWeb:Quagmineorgoldmine.CommunicationsoftheACM,39,65–68.

• [FaccaandLanzi,2005]Facca,F.M.,&Lanzi,P.L.(2005).MiningInterestingKnowledgefromWeblogs:ASurvey,53,225–241.

• [Fayyadetal,1996]Fayyad,U.M.,Piatetsky-Shapiro,G.,&Smyth,P.(1996).Fromdataminingtoknowledgediscovery:Anoverview.InAdvancesinknowledgediscoveryanddatamining(pp.1–34).AAAI/MITPress.

• [GambergerandLavrac,2003]Gamberber,D.&Lavrac,N.(2003)Activesubgroupmining:acasestudyincoronaryheartdiseaseriskgroupdetection.ArtificialIntelligenceinMedicine,2003,28(1),27–57.

• [Han,2005]Han,J.(2005).Datamining:Conceptsandtechniques.MorganKaufmannPublishersInc.

• [Herrera,2008]HerreraF.(2008).Geneticfuzzysystems:taxomony,currentresearchtrendsandprospects.EvolutionaryIntelligence,1,27–46.

• [Herreraetal,2011]Herrera,F.,Carmona,C.J.,González,P.,&DelJesus,M.J.(2011).Anoverviewonsubgroupdiscovery:Foundationsandapplications.KnowledgeandInformationSystems,29,495–525.

• [Kloesgen,1996]Kloesgen,W.(1996).Explora:Amultipatternandmultistrategydiscoveryassistant.InAdvancesinknowledgediscoveryanddatamining(pp.249–271).AmericanAssociationforArtificialIntelligence.

• [KloesgenandMay,2002]Kloesgen,W.&May,M.(2002)CensusDataMining-Anapplication.InProceedingsofthe6thEuropeanConferenceonprinciplesofdataminingandknowledgediscovery,pp.65–79.

• [KosalaandBockeel,2000]Kosala,R.,&Bockeel,H.(2000).Webminingresearch:Asurvey.SIGKDDExplorations,2,1–15.

• [Lavracetal,1999]Lavrac,N.,Flach,P.A.&Zupan,B.(1999)RuleEvaluationMeasures:AUnifyingView.InProceedingsofthe9thInternationalWorkshoponInductiveLogicProgramming,vol.1634LNCS,pp.174–185.Springer.

• [Lavracetal,2004]Lavrac,N.,Cestnik,B.,Gamberger,D.&Flach,P.A.(2004)DecisionSupportThroughSubgroupDiscovery:ThreeCaseStudiesandtheLessonsLearned.MachineLearning,57(1-2),115–143.

• [Liu,2006]Liu,B.(2006).Webdatamining:Exploringhyperlinks,contents,andusagedata(datacentricsystemsandapplications).Springer-Verlag.

• [MarkovandLarose,2007]Markov,Z.,&Larose,D.T.(2007).Dataminingtheweb.Uncoveringpatternsinwebcontent,structureandusage.Wiley-Interscience.

• [Mobasher,2005]Mobasher,B.(2005).Webusageminingandpersonalization.CRCPress,LLC.

• [Moral-PajaresandLanzas-Molina,2009]Moral-Pajares,E.,&Lanzas-Molina,J.R.(2009).LaexportaciondeaceitedeolivavirgenenAndalucia:Dinamicayfactoresdeterminantes.RevistadeEstudiosRegionales,86.

• [Romeroetal,2009]Romero,C.,González,P.,Ventura,S.,DelJesus,M.J.,&Herrera,F.(2009).Evolutionaryalgorithmforsubgroupdiscoveryine-learning:ApracticalapplicationusingMoodledata.ExpertSystemswithApplications,36,1632–1644.

• [Soaresetal.2008]Soares,C.,Peng,Y.,Meng,J.,Washio,T.,&Zhou,Z.H.(Eds.).(2008).Applicationsofdataminingine-businessandfinance.Frontiersinartificialintelligenceandapplications.IOSPress.

• [Srivastavaetal,2000]Srivastava,J.,Cooley,R.,Deshpande,M.,&Tan,P.(2000).Webusagemining:Discoveryandapplicationsofusagepatternsfromwebdata.SIGKDDExplorations,12–23.

• [Wrobel,1997]Wrobel,S.(1997).Analgorithmformulti-relationaldiscoveryofsubgroups.InProceedingsofthe1stEuropeansymposiumonprinciplesofdataminingandknowledgediscovery(pp.78–87).Springer.

• [Wrobel,2001]Wrobel,S.(2001).Inductivelogicprogrammingforknowledgediscoveryindatabases.Springer[ChapterRelationalDataMining,pp.74–101].

Recommended