Upload
maxcongo
View
234
Download
0
Embed Size (px)
Citation preview
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
1/24
Induccin al RapidMiner 5.1
KNOWLED AND SYSTEM
IRapi
S PERU
duccin aldMiner 5.1
www.kasperu.com
2012
W W W . K A S P E R U . C O M
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
2/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 2
Tabla de contenido
1. RAPIDMINER. ........................... ...................... ......................... ...................... ......................... ................ 3
2. USO BSICO. ........................... ...................... ......................... ...................... ......................... ................ 4
2.1. PERSPECTIVAS .................... ......................... ...................... ............................ ...................... ........ 4
2.2. ASPECTOS PRELIMINARES. ....................... ......................... ...................... ......................... ........ 5
2.3. OBJETIVOS DEL MODELO ........................ ....................... ......................... ......................... .......... 6
2.4. DESARROLLO DEL MODELO ............................ ...................... ......................... ...................... ..... 6
A. DEFINICION DE PROCESOS. ............................ ...................... ......................... ...................... ..... 6
B. LECTURA DE DATOS. ........................ ...................... ......................... ......................... ................... 8
C. TRANSFORMACION DE DATOS............................................................................................ 10D. EJECUCION DEL PROCESO.................................................................................................. 12
E. MUESTREO................................................................................................................................... 13
F. RANKING DE ATRIBUTOS .......................................................................................................... 14
G. MODELADO ............................................................................................................................... 16
H. CONSULTA DEL MODELO...................................................................................................... 19
I. RENDIMIENTO DEL MODELO.................................................................................................... 21
J. MODELO NAIVE BAYES.............................................................................................................. 22
K. MODELO REDES NEURONALES .............................................................................................. 23
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
3/24
Induccin al RapidMiner 5.1 www.kasperu.com
1. RAPIDMINER.
El RapidMiner es un software desarrollado por
Rapid-I, empresa basada en Dortmund,Alemania que en los ltimos aos ha venidoteniendo un desarrollo vertiginoso.
El producto principal de Rapid-I, es la solucinde anlisis de los datos RapidMiner es el ldermundial de cdigo abierto del sistema dedescubrimiento de conocimiento y minera dedatos. Est disponible como una aplicacinstand-alone para el anlisis de datos y comoun motor de minera de datos que pueden serintegrado en otros productos. Por ahora, miles
de aplicaciones de RapidMiner en ms de 30pases dan a sus usuarios una ventajacompetitiva. Entre los usuarios son empresasde renombre como Ford, Honda, Nokia, Miele,Philips, IBM, HP, Cisco, Merrill Lynch, BNPParibas, Bank of America, Mobilkom Austria,Akzo Nobel, Aureus Pharma, PharmaDM,Cyprotex, Celera, Revere, LexisNexis, Mitre ymuchas empresas pequeas y medianas sebenefician de el modelo de negocio de cdigoabierto de Rapid-I1.
RapidMiner (anteriormente, YALE, Yet AnotherLearning Environment) es un programainformtico desarrollado en Java para elanlisis y minera de datos. Permite eldesarrollo de procesos de anlisis de datosmediante el encadenamiento de operadores atravs de un entorno grfico. Se usa eninvestigacin y en aplicaciones empresariales.
La versin inicial fue desarrollada por eldepartamento de inteligencia artificial de laUniversidad de Dortmund en 2001. Se
distribuye bajo licencia GPL y est hospedadoen SourceForge desde el 2004.
RapidMiner proporciona ms de 500operadores orientados al anlisis de datos,incluyendo los necesarios para realizaroperaciones de entrada y salida, pre-procesamiento de datos y visualizacin.Tambin permite utilizar los algoritmosincluidos en Weka y en R.
1 www.rapid-i.com
En una encuesta realizada por KDnuggets2 ,una pgina de minera de datos, RapidMinerocup el segundo lugar en herramientas deanaltica y de minera de datos utilizadas para
proyectos reales en 2009, fue el primero en2010 y en el 2011.
Which data mining/analytic tools you used in thepast 12 months for a real project (not justevaluation) [1103 voters]
% users in 2011% users in 2010
RapidMiner(305)
27.7%37.8%
R (257) 23.3%29.8%
Excel (240) 21.8%24.3%
SAS (150) 13.6%12.1%
Your owncode (134)
12.1%18.4%
KNIME (134) 12.1%19.2%
Weka(Pentaho)(130)
11.8%14.4%
Salford (117) 10.6%1.6%
Statistica (94) 8.5%6.3%
IBM SPSSModeler (91)
8.3%7.3%
MATLAB (79) 7.2%9.2%
IBM SPSSStatistics (79)
7.2%7.9%
SASEnterpriseMiner (78)
7.1%5.5%
JMP (63) 5.7%
11 AntsAnalytics (62)
5.6%
Microsoft SQLServer (54)
4.9%6.9%
2 www.kdnuggets.com/polls/index.html
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
4/24
Induccin al RapidMiner 5.1
Caractersticas Desarrollado en Java Multiplataforma Representacin interna de l
anlisis de datos en ficheros Permite el desarrollo de
travs de un lenguaje de scri Puede usarse de diversas m A travs de un GUI En lnea de comandos En batch (lotes) Desde otros programas
llamadas a sus bibliotecas Extensible Incluye grficos y her
visualizacin de datos Dispone de un mdulo de i
R y con Weka
Programacin basada enoperadores
Pgina 4
s procesos deXMLprogramas a
ptaneras:
a travs de
amientas de
ntegracin con
controles u
2. USO BSICO.
2.1. PERSPECTIVA
El rapidminer perperspectivas:
a. Perspectiva de DAmbiente para diseade datos.
En esta perspectiva eoperadores y con los
Los operadores corrde algoritmos estandencadenar tal y comproyecto de minera d
Los repositoriosalmacenes de datos y
www.kasperu.com
ite trabajar en tres
iseor el proceso de la minera
s posible trabajar con losepositorios.
esponden a un conjuntoarizados que se pueden
un lego para armar une datos.
corresponden a losde proyectos.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
5/24
Induccin al RapidMiner 5.1
b. Perspectiva de ResultadosAmbiente para ver los rmodelado.
c. Perspectiva de Bienvenida.
Pantalla inicial al entrar a la herr
d. Mi primer modelo en rapid
Introducir en el desarrollomediante la herramienta de miRapidMiner, haciendo uso de lCRISP.
Pgina 5
.sultados del
mienta.
iner
de modelosera de datos
a metodologa
2.2. ASPECTOS PR
a) Identificar el dire
b) Definir la ubica
procesos
.. exercises\exerci
c) Identificar la fuePara el desarrollousa los datos dep
exercises\exercise
d) Identificar el tipoLos tipos de dataceptados porsiguientes.
Tipo de Datoattribute_valuenominalnumericintegerrealtext
binomialpolynomicfile_pathdate_timedatetime
www.kasperu.com
LIMINARES.
ctorio de trabajo.
in del repositorio de
se 01\repository
te de los datos.de este ejercicio se hacesitados en:
01\data\SampleData.xls
de dato y de atributoos y tipos de atributosl Rapidminer son los
Tipo de Atributoattributelabelidweightbatchcluster
predicticoutliercostbase_value
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
6/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 6
2.3. OBJETIVOS DEL MODELO
Crear un modelo para calcular la
probabilidad de que un cliente de laempresa BikeBuyer compre uno de losproductos de la empresa, se proporcionalos siguientes datos:
Clave IDAtributos MaritalStatus, Gender,
YearlyIncome, Children,Education, Occupation,HomeOwner, Cars,CommuteDistance, Region, Age
Clase BikeBuyer
1. Efectuar las siguientes transformaciones dedatos: LogYearlyIncome = log(YearlyIncome) Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de
integer a polynominal. Transforme el tipo de dato Cars de
nominal a numerical
2. Genere una muestra balanceada de datos(1000 de Yes y 1000 de No) observe que el
balanceo de datos se efecta sobre laclase BikeBuyer.
3. Identificar los atributos con mayorrelevancia para el proceso de clasificacin,mediante el clculo de los pesos de cadaatributo. No aplique la normalizacin de lospesos. Elimine aquellos atributos cuyo nivelde relevancia es menor a un valor que seestablecer por experimentacin.
4. Aplique el algoritmo Decision Tree para
desarrollar un modelo predictivo queidentifique los atributos que mejor explicanla clase para los datos proporcionados.
5. Aplique modelo al 100 de los datosproporcionados y a la muestra deentrenamiento.
6. Calcule el desempeo del modelo (para el100% de los datos) mediante la aplicacinde las siguientes medidas de evaluacin:a. Matriz de confusin.
2.4. DESARROLLO DEL MODELO
Para desarrollar el modelo de prediccin se
ejecutaran los siguientes pasos:
A. DEFINICION DE PROCESOS.
En RapidMiner los proyectos se trabajanmediante una definicin de procesos, unadefinicin de proceso es un conjunto deoperadores o mdulos encadenados en unasecuencia. Una definicin de procesos es unarchivo que se almacena en un repositorio.
Un repositorio, adems de almacenar archivos
de definicin de procesos, puede almacenardatos pre-cargados en archivos de lecturarpida.
a) Crear el repositorio de procesos.
Seleccione new local repository
Definir el nombre del repositorio o alias[Exercise 01] y seleccione la ruta donde seubicar el repositorio.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
7/24
Induccin al RapidMiner 5.1
.. exercises\exercise 01\repo
Presiones Finish
Confirme la creacin del rep
Por otro lado verifique que eencuentre el archivo:
Exercise 01.properties
b) Crear una nueva definicin
Una definicin de procesosde operadores encadeterminado orden con la fidatos desde diversas fu
transformacin, crear momodelos, optimizar modeloresultados.
Para crear una definicin del cono New:
Esto genera automticperspectiva de diseo vaca.
Pgina 7
sitory
sitorio.
n la carpeta se
de procesos
es un conjuntoenados enalidad de leer
entes, aplicar
elos, evaluary grabar los
procesos use
amente una
www.kasperu.com
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
8/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 8
B. LECTURA DE DATOS.
a) Leer el archivo de datos desde un
operador.
Use el operador Read Excel para leer elarchivo de datos.
El operador Read Excel se diferencia deloperador Read Excel with Format, en queel primero permite la definicin de cadaatributo por el usuario, en el caso delsegundo usa la definicin proporcionadapor el Excel.
Lleve el cono al panel Process y
encadnelo de la siguiente forma.
Observe que no debe encadenar la entradafil
Verifique los parmetros del operador en elpanel Parameters
Use la opcin Import ConfigurationWizard, para definir los atributos a leer, lostipos de datos y los tipos de atributos.
Seleccione el archivo de datos, desde lacarpetaexercises\exercise 01\data\SampleData.xls
Seleccione la hoja con la que trabajar y
visualice los datos:
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
9/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 9
Defina las anotaciones para los atributos,
estos pueden ser de cuatro tipos:- Es una fila de datosName Es la fila de nombresComment Es una fila de comentariosUnit Indica la unidad de los datos
Asigne [Name] a la primera fila y [] alresto de filas de datos (sin los []).
Asigne el tipo de dato y el tipo de atributo acada atributo segn la siguiente tabla:
Atributo Tipo deDato
Tipo deAtributo
ID integer id
MaritalStatus binomial attributeGender binomial attributeYearlyIncome integer attributeChildren polynominal attributeEducation polynominal attributeOccupation polynominal attributeHomeOwner binomial attributeCars polynominal attributeCommuteDistance polynominal attributeRegion polynominal attributeAge integer attribute
BikeBuyer binomial label
Presione Finish para terminar la configuracinde la importacin de datos.
b) Creacin de una Meta Data.
La desventaja de los operadores Read esque requieren abrir y leer los datos desdeel archivo original de datos, una alternativaes leerlo una sola vez y almacenarlo en unformato que RapidMiner requiere para serprocesado, denominado MetaData.
Use la opcin Import Excel Sheet paraimportar los datos de la hoja de Excel ygrabarlo como un repositorio de datos.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
10/24
Induccin al RapidMiner 5.1
Esta opcin genera una secventanas similares a laConfiguration Wizard delExcel.
La quinta venta permitedatos en un repositorio activ
Pgina 10
encia de cincopcin Importperador Read
almacenar los.
C. TRANSFORMACI
a) Crear un sub pr
operadores de pr
Denomine alTransformation
Encadene los opforma:
b) Aplique las siguia los datos.
LogYearlyInco Discretizar Ye Transforme el
integer a polyn Transforme el
nominal a num
Para esto use los
1. Generate attri2. Discretize by b3. Numerical to p4. Nominal to nu
www.kasperu.com
ON DE DATOS.
ceso para contener los
eparacin de datos:
sub proceso Data
radores de la siguiente
entes transformaciones
me = log(YearlyIncome)rlyIncome en 4 bins
l tipo de dato Age deominal.
tipo de dato Cars deerical
siguientes operadores:
utesinsolynominal
erical
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
11/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 11
Configure cada uno de los cuatrooperadores de transformacin de datos,segn las indicaciones anteriores.
1. Generate attributes
2. Discretize by bins
3. Numerical to polynominal
4. Nominal to numerical
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
12/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 12
D. EJECUCION DEL PROCESO.
Para ejecutar los operadores use el botn
Execute
Observe que ahora se pasa a laperspectiva de resultados.
a) Analice los resultados obtenidos.
La herramienta proporciona cuatro (vistas):
1. Meta Data viewPresenta una vista de las propiedadesde los datos.
2. Data viewPresenta una vista de los datos.
3. Plot ViewProporciona una potente herramientapara el ploteo de datos.
4. Annotations
Proporciona una ambiente para escribircomentarios acerca del modelo.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
13/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 13
E. MUESTREO
Objetivo. Generar una muestra
balanceada de datos (1000 de Yes y 1000de No) observe que el balanceo de datosse efecta sobre la clase BikeBuyer.
Para el proceso de muestreo se aplicar eloperado Sample
Use los siguientes parmetros para eloperador:
Identifique los estados de la clase
Se observa que 1,000 registroscorresponden a Yes y 9,000 corresponden
a No.
Para obtener una muestra balanceada dedatos se puede extraer el 100% de los Yesy el 11.11% de los No, obtenindose en
total 2,000 registros.
Los ratios se definen en la opcin sampleratio per class.
Ejecute la definicin del proceso paravisualizar los resultados.
Para los datos originales se dispone de10,000 registros.
Para los datos muestreados se dispone de1,999 registros.
El balanceo de los datos se puedeobservar en la opcin Plot View.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
14/24
Induccin al RapidMiner 5.1
Pgina 14
F. RANKING DE AT
Objetivo. Identifi
mayor relevanciclasificacin, mepesos de cadanormalizacin daquellos atributoses menor a un valexperimentacin.
Para el procesdimensionalidad soperadores queproceso Weight.
a) Clculo de los pe
Los pesos seoperadorWeight
El operador percontribucin delclase, debe consiclculo a priori,considerando queen la clase, asrelacin entre losse calcula sin comodelo.
www.kasperu.com
IBUTOS
icar los atributos con
para el proceso deiante el clculo de losatributo. No aplique la
los pesos. Eliminecuyo nivel de relevancia
or que se establecer por
de reduccin de lae aplicar un conjunto dee agruparan en el sub-
sos de cada atributo
calcularn usando ely Information Gain
ite calcular el nivel detributo para predecir laerarse que el peso es uns decir que se calculacada atributo por influyemiendo que no existeatributos y por otro lado
nstruir ni evaluar ningn
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
15/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 15
Los criterios usados son los siguientes:
Weight by Information Gain
Weight by Information Gain RatioWeight by RuleWeight by Value AverageWeight by DeviationWeight by CorrelationWeight by Chi Squared StatisticWeight by Gini IndexWeight by Tree ImportanceWeight by UncertaintyWeight by ReliefWeight by SVMWeight by PCA
Weight by Component ModelWeight by User Specification
Para los 1,999 registros seleccionado ypara el operador de pesos Weight byInformation Gain se obtiene los siguientesresultados:
attibute weightAge 0.073CommuteDistance 0.014Education 0.010
Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000
b) Eliminacin de los pesos menores
Use el operador Select by Weights paraseleccionar aquellos atributos con un nivelde relevancia mayor a un valor que seestablecer por experimentacin.
Observando los datos, Qu valorconsidera apropiado para ubicar el puntode corte?
Asigne los siguientes parmetros aloperador (observe que los valores son
referenciales y estos deben ser obtenidospor experimentacin.
Ejecute la definicin de procesos para
observar los resultados.Atributos orginales
Atributos seleccionados
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
16/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 16
G. MODELADO
Objetivo. Aplicar el algoritmo Decision
Tree para desarrollar un modelo predictivoque identifique los atributos que mejorexplican la clase para los datosproporcionados.
Para crear el modelo se puede hacer usode diferentes algoritmos, no se puedeafirmar que uno de ellos es mejor que losotros, la utilidad de los algoritmos dependede los datos proporcionados, de lastransformaciones aplicadas y del problemaa resolver.
a) Creacin del rbol de decisin.
El rbol de decisin se crea usando eloperador Decision Tree basado en elalgoritmo Quinlan's C4.5 or CART.
b) Datos de entrenamiento.
Los datos para el entrenamiento del rbolprovienen del proceso de seleccin anteriory corresponden a:
c) Parmetros del modelo
Este operador entrena rboles de decisina partir de datos nominales y numricos.
Cada vez que un nuevo nodo se crea en undeterminado momento, un atributo seescoge para maximizar el poder dediscriminacin de ese nodo con respecto alas dems alternativas asignadas alsubrbol en particular.
Criterion: especfica el criterio deseleccin de atributos y de divisionesnumricas (ganancia de informacin,ndice gini, precisin, proporcin deganancia).
Minimal size for Split: tamao mnimode divisiones que se pueden dar encada nodo.
Minimal leaf size: tamao mnimo dela hoja.
Minimal gain: la ganancia mnima quedebe lograrse con el fin de producir unadivisin.
Maximal depth: La profundidadmxima del rbol.
Confidence: El nivel de confianzautilizado para el clculo del errorpesimista de la poda.
Number of prepruning: El nmero denodos alternativos probados cuando latcnica de la poda evitara una divisin.
No prepruning: Las reglas de poda seaplican luego de cada iteracin
Prenuning: Las reglas de poda basadaen el criterio correspondiente despusde generar el rbol.
Determinar los parmetros ptimos de un
modelo es un arte y una ciencia, para
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
17/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 17
propsitos de este ejercicio se usaran lossiguientes valores.
Los parmetros ptimos en la prctica se
calculan mediante un proceso deoptimizacin, proceso bastante costoso entiempo de computadora.
d) rbol de decisin
Luego de correr el modelo se obtiene lossiguientes resultados.
Dado que rbol no se puede visualizarfcilmente se presenta las reglasidentificadas por el algoritmo.
CommuteDistance = 0-1 Miles| Education = Bachelors: Yes {Yes=142, No=86}| Education = Graduate Degree: Yes {Yes=111, No=73}| Education = High School: No {Yes=31, No=44}| Education = Partial College: Yes {Yes=100, No=62}| Education = Partial High School: No {Yes=10, No=37}
CommuteDistance = 1-2 Miles| Education = Bachelors: Yes {Yes=35, No=26}| Education = Graduate Degree: No {Yes=23, No=52}| Education = High School: Yes {Yes=44, No=29}
| Education = Partial College: Yes {Yes=66, No=41}
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
18/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 18
| Education = Partial High School: No {Yes=10, No=30}
CommuteDistance = 10+ Miles| Region = Europe: No {Yes=10, No=40}
| Region = North America: No {Yes=44, No=89}| Region = Pacific: Yes {Yes=49, No=48}
CommuteDistance = 2-5 Miles| Occupation = Clerical: No {Yes=11, No=14}| Occupation = Management: Yes {Yes=23, No=17}| Occupation = Manual: No {Yes=15, No=27}| Occupation = Professional: Yes {Yes=85, No=78}| Occupation = Skilled Manual: Yes {Yes=50, No=22}
CommuteDistance = 5-10 Miles: No {Yes=141, No=184}
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
19/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 19
En este rbol se puede identificar quealgunos atributos con alto peso no fuerenseleccionados por el rbol de decisin, tal
es el caso de Age y Children.
attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002
YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000
H. CONSULTA DEL MODELO
Objetivo. Aplicar el modelo a la muestra de
entrenamiento y al 100% de los datosproporcionados.
a) Consulta del modelo
Luego de crear el modelo es necesarioconsultarlo, para este propsito se usar eloperadorApply Model.
Este operador requiere dos entradas: El modelo generado por el rbol de
decisin. Los datos (sin label) a los que se les
asignar la prediccin.
Los parmetros del modelo son lossiguientes: Application parameters: Los
parmetros del modelo para suaplicacin (por lo general no esnecesario).
Create view: Indica que los modelosdeben crear una nueva vista paravisualizar los resultados sin cambiar losdatos.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
20/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 20
Para propsitos de este ejercicio seconsultar el modelo con los datos deentrenamiento y con los datos originales.
Observe que el modelo se transfieredesde el operador Decisin Tree al primeroperador Apply Model y desde esteoperador al siguiente operador ApplyModel.
b) Resultados obtenidos.
Luego de ejecutar la definicin del procesose obtiene los siguientes resultados:
Datos originales:
Datos de entrenamiento:
Observar que se han creado 3 atributosespeciales adicionales:
prediction respuesta del modeloconfidence_Yes Probabilidad de Yesconfidence_No Probabilidad de No
Estos atributos presentan los valores quese muestran en la siguiente tabla:
Observar que la suma de las confianzas es1.0 y que la prediccin depende de laconfianza, la prediccin corresponde a laconfianza que es > 0.5.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
21/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 21
I. RENDIMIENTO DEL MODELO
Objetivo. Calcular el desempeo del
modelo (para el 100% de los datos)mediante la aplicacin de las siguientesmedidas de evaluacin:
a. Matriz de confusin.
El rendimiento del modelo se calcularusando la matriz de confusin.
a) Calcular la medida de rendimiento.
La matriz de confusin se implementamediante el operadorPerformance.
En contraste con los otros mtodos de
evaluacin de rendimiento, como porejemplo el rendimiento de clasificacin,rendimiento de clasificacin binomial o derendimiento de regresin, este operador sepuede utilizar para todo tipo de tareas deaprendizaje.Se determinar automticamente el tipo detarea de aprendizaje y calcular los criteriosms comunes para este tipo.
El operador requiere como entrada losdatos etiquetados con la prediccin.
Cmo resultado se obtiene la medida deperformance y los datos etiquetados.
El operador tiene un solo parmetro quepor lo general no se usa, indica si el pesode ejemplo se debe utilizar para losclculos de rendimiento.
b) Resultados obtenidos
Datos originalestrue Yes true No sum class
precision
pred. Yes 705 4,293 4,998 14.11%
pred. No 295 4,707 5,002 94.10%
sum 1,000 9,000
class recall 70.50% 52.30%
El %VP es del 70.50% y el %VN es del52.30%.
El %VPP es del 14.11% y del VPN es del94.10%
Datos de entrenamientotrue Yes true No sum class
precision
pred. Yes 705 482 1,187 59.39%
pred. No 295 517 812 63.67%
Sum 1,000 999
class recall 70.50% 51.75%
El %VP es del 70.50% y el %VN es del51.75%.
El %VPP es del 59.39% y del VPN es del63.67%
Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
22/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 22
J. MODELO NAIVE BAYES
a) Modelo Naive Bayes.
El modelo naive bayes clasifica usando unadistribucin normal estimada.
Considera que cada atributo influye demanera independiente en el resultado.
Tiene un nico parmetro Laplacecorrection, se usa para reducir la influencia delcero en la probabilidad.
b) Modificacin del Modelo.
Modifique la definicin de procesos parareemplazar el operador Decision Tree porel operador Naive Bayes.
Por otro lado elimine los operadores de
reduccin de dimensionalidad dado quecuando se usa el operador Apply Modeleste requiere el los atributos de la consultacoincidan con los atributos del modelo.
El resto del modelo permanece igual.
c) Resultados obtenidos
Datos originales
trueYes
trueNo sum
classprecision
pred. Yes 660 3,376 4,036 16.35%
pred. No 340 5,624 5,964 94.30%
sum 1,000 9,000
class recall 66.00% 62.49%
El %VP es del 66.00% y el %VN es del62.49%.
El %VPP es del 16.35% y del VPN es del94.30%
Datos de entrenamientotrue
Yes
true
No sum
class
precision
pred. Yes 660 363 1,023 64.52%
pred. No 340 636 976 65.16%
sum 1,000 999
class recall 66.00% 63.66%
El %VP es del 66.00% y el %VN es del
63.66%.
El %VPP es del 64.52% y del VPN es del65.16%
Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
23/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 23
K. MODELO REDES NEURONALES
a) Red Neuronal.
El modelo de redes neuronales es aplicablesolo para atributos numricos, por lo quees necesario asegurar que todos los datossean numricos (enteros o reales).
b) Parmetros de la Red Neuronal
hidden layers: Neuronas de las capasintermedias.
training cycles: pocas default: 500 learning rate: Ratio de aprendizaje. momentum: momentum de decay: Indica si el ratio de aprendizaje
se reduce en el tiempo shuffle: Indica si la data de entrada es
reordenada antes del aprendizaje normalize: Indica si la data es
normalizada en el rango -1 a +1 error epsilon: Error de entrenamiento
mnimo para detener el entrenamiento.
Dejando por defecto los parmetros de lacapa intermedia se obtiene la siguientearquitectura, 12 neuronas en la capa de
entrada, 9 neuronas en la capa intermediay 2 neuronas en la capa de salida.
c) Modelo de la Red Neuronal
Disee la siguiente definicin de procesos,donde se incluye un operador queconvierte los valores nominales anumricos.
7/23/2019 104509028 Tutorial de Induccion Al RapidMiner
24/24
Induccin al RapidMiner 5.1 www.kasperu.com
Pgina 24
d) Preparacin de datos
Antes de proceder a trabajar con la redneuronal es necesario convertir todos losatributos categricos a numricos
Use el operador Nominal to Numericalpara convertir los valores categricos envalores numricos mediante elprocedimiento de numbering.
Asigne los siguientes parmetros aloperador:
d) Resultados obtenidos
Datos originalestrue
Yes
true
No sum
class
precision
pred. Yes 794 3,743 4,537 17.50%
pred. No 206 5,257 5,463 96.23%
sum 1,000 9,000
class recall 79.40% 58.41%
El %VP es del 79.40.00% y el %VN es del58.41%.