Upload
duongkiet
View
221
Download
0
Embed Size (px)
Citation preview
UNIVERSIDAD CENTRAL DEL ECUADOR
FACULTAD DE INGENIERÍA CIENCIAS FÍSICAS Y MATEMÁTICA
CARRERA DE INGENIERÍA INFORMÁTICA
IMPLEMENTACIÓN DE ARQUITECTURA BI UTILIZANDO
HERRAMIENTAS OPEN SOURCE, PARA CONTRASTE DE DATOS
RESULTANTES DE LA EVALUACIÓN DE APRENDIZAJE
CURRICULAR EN LA CARRERA DE EDUCACIÓN PARVULARIA.
TRABAJO DE GRADUACIÓN PREVIO LA OBTENCIÓN DEL TÍTULO
DE INGENIERO INFORMÁTICO
AUTOR: EMERSON ESTUARDO GUATEMAL GUATEMAL
TUTOR: CARRILLO FLORES RENÉ ALFONSO.
QUITO, 12 DE OCTUBRE
2016
ii
AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL
iii
APROBACIÓN DEL TUTOR.
iv
APROBACIÓN DEL TRIBUNAL
v
vi
DEDICATORIA.
A mis padres,
por su esfuerzo y apoyo incondicional,
a mi hermano
que siempre me apoyo en todo.
vii
AGRADECIMIENTO.
Ing. René Alfonso Carrillo, por su gran labor y enseñanza académica al presente
proyecto integrador.
A los docentes que conforman la Facultad de Ingeniería Ciencias Físicas y Matemáticas,
por compartir sus conocimientos y sabiduría logrando que cada día crezca
profesionalmente y como persona.
viii
CONTENIDO
AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL ............................................................................. ii
APROBACIÓN DEL TUTOR. ............................................................................................................ iii
APROBACIÓN DEL TRIBUNAL ........................................................................................................iv
DEDICATORIA. ...............................................................................................................................vi
AGRADECIMIENTO. ...................................................................................................................... vii
RESUMEN .................................................................................................................................... xiii
ABSTRACT .................................................................................................................................... xiv
INTRODUCCIÓN ............................................................................................................................. 1
PLANTEAMIENTO DEL PROBLEMA. ........................................................................................... 2
FORMULACIÓN DEL PROBLEMA................................................................................................ 3
INTERROGANTES DE LA INVESTIGACIÓN. ................................................................................. 3
OBJETIVOS. ................................................................................................................................ 3
OBJETIVO GENERAL. .............................................................................................................. 3
OBJETIVOS ESPECÍFICOS. ....................................................................................................... 4
JUSTIFICACIÓN. ......................................................................................................................... 4
ALCANCE .................................................................................................................................... 5
1 MARCO TEÓRICO. .................................................................................................................. 1
1.1 Antecedentes. ............................................................................................................... 1
1.2 Business Intelligence (Inteligencia de Negocios) .......................................................... 2
1.3 Conceptos generales de Business Intelligence. ............................................................. 2
1.4 Componentes de Business Intelligence. ........................................................................ 3
1.5 Comparativa de herramientas BI. ............................................................................... 10
1.6 Herramientas de BI ...................................................................................................... 12
1.7 Query y Reporting. ...................................................................................................... 17
2 METODOLOGÍA DE DESARROLLO. ....................................................................................... 20
2.1 Metodología HEFESTO. ............................................................................................... 20
2.2 Pasos y aplicación metodológica. ................................................................................ 21
2.2.1 P. 1. Análisis de requerimientos. ........................................................................ 21
2.2.2 P.2. Análisis de los OLTP. ..................................................................................... 23
2.2.3 P.3. Modelo lógico del DW. ................................................................................. 24
2.2.4 P.4. Procesos ETL. ................................................................................................ 27
3 CALCULOS Y RESULTADOS. .................................................................................................. 28
ix
3.1 Empresa analizada....................................................................................................... 28
3.2 Análisis de requerimientos. ......................................................................................... 28
3.2.1 Identificar preguntas. .......................................................................................... 28
3.2.2 Indicadores y perspectivas de análisis. ............................................................... 29
3.3 Análisis de los OLTP. .................................................................................................... 31
3.3.1 Determinación de indicadores. ........................................................................... 31
3.3.2 Correspondencias. ............................................................................................... 33
3.3.3 Nivel de granularidad. ......................................................................................... 35
3.3.4 Modelo conceptual ampliado. ............................................................................ 37
3.4 Modelo lógico del datawarehouse. ............................................................................. 38
3.5 Procesos ETL. ............................................................................................................... 40
3.6 Procesos ETL para carga del área de stagin o de paso. ............................................... 41
3.7 Procesos ETL para carga del datawarehouse. ............................................................. 44
4 DISCUSIONES ....................................................................................................................... 59
5 CONCLUSIONES. .................................................................................................................. 63
6 RECOMENDACIONES. .......................................................................................................... 64
GLOSARIO. ................................................................................................................................... 65
BIBLIOGRAFÍA. ............................................................................................................................. 66
ANEXO A. ..................................................................................................................................... 68
ANEXO B ...................................................................................................................................... 73
ANEXO C. ..................................................................................................................................... 76
ANEXO D. ..................................................................................................................................... 98
x
LISTA DE FIGURAS.
Figura 1. Etapas de BI (SINNEXUS, 2015) .................................................................................. 2
Figura 2. Modelo Integral de una solución BI ((ESPIÑEIRA, SHELDON Y ASOCIADOS,
2008). ............................................................................................................................................ 4
Figura 3. modelo estrella. ............................................................................................................. 8
Figura 4. Modelo copo de nieve. ................................................................................................... 9
Figura 5. Modelo multi estrella ..................................................................................................... 9
Figura 6. Cuadrante Mágico de Gartner para BI y Plataformas Analíticas (GARTNER, 2016) 12
Figura 7. Representación gráfica de OLAP. (CANO, 2007, P127). ........................................... 14
Figura 8. Slicing de dimensiones (CANO, 2007, P128). ............................................................ 14
Figura 9. Agregación y Jerarquías por dimensión. (CANO, 2007, P129). .................................. 15
Figura 10. Arquitectura estructurada Pentaho (Fugu Software Factory, 2015) .......................... 19
Figura 11. Metodología HEFESTO. (CANO, 2007) ................................................................... 20
Figura 12. Indicadores y perspectivas. (CANO, 2007). .............................................................. 22
Figura 13. Ejemplo modelo conceptual. (CANO, 2007). ............................................................ 22
Figura 14. Ejemplo de modelo. (CANO, 2007). ......................................................................... 23
Figura 15. Ejemplo modelo conceptual ampliado. (CANO, 2007). ............................................ 24
Figura 16. Dimensión. (CANO, 2007). ....................................................................................... 25
Figura 17. Dimensiones en esquema copo de nieve. (CANO, 2007). ......................................... 25
Figura 18. Ejemplo Tabla de hechos. (CANO, 2007). ................................................................ 26
Figura 19. Caso 1. (CANO, 2007) .............................................................................................. 26
Figura 20. Caso 2. (CANO, 2007). ............................................................................................. 26
Figura 21. Caso 3 ........................................................................................................................ 27
Figura 22. Modelo conceptual. .................................................................................................... 30
Figura 23. Modelo conceptual observaciones. ............................................................................ 31
Figura 24. Modelo E/R parvularia. .............................................................................................. 33
Figura 25. Archivo de respuestas. ............................................................................................... 34
Figura 26. Modelo conceptual porcentaje cumplimiento. ........................................................... 37
Figura 27. Modelo Datawarehouse Parvularia. ........................................................................... 40
Figura 28. Modelo desembarco Parvularia.................................................................................. 41
Figura 29. Job_crg_des_cat_sem ................................................................................................ 42
Figura 30. trf_crg_des_cat_sem. ................................................................................................. 42
Figura 31. job_crg_des. ............................................................................................................... 42
Figura 32. trf_crg_des. ................................................................................................................ 42
xi
Figura 33. job_crg_cat_pre. ........................................................................................................ 43
Figura 34. trf_crg_cat_pre. .......................................................................................................... 43
Figura 35. job_crg_des_res_ind .................................................................................................. 44
Figura 36. trf_crg_des_res_ind. .................................................................................................. 44
Figura 37. job_crg_dim_tmp. ...................................................................................................... 45
Figura 38. trf_dim_tiempo. ......................................................................................................... 45
Figura 39. Dimensión tiempo. ..................................................................................................... 45
Figura 40. job_crg_dim_materia. ................................................................................................ 46
Figura 41. trf_crg_dim_materia. ................................................................................................. 46
Figura 42. Dimensión materia. .................................................................................................... 46
Figura 43. job_crg_dim_per. ....................................................................................................... 47
Figura 44. trf_crg_dim_per. ........................................................................................................ 47
Figura 45. Dimensión periodo. .................................................................................................... 47
Figura 46. job_crg_dim_sem. ...................................................................................................... 48
Figura 47. trf_crg_dim_sem. ....................................................................................................... 48
Figura 48. Dimensión semestre. .................................................................................................. 48
Figura 49. job_crg_dim_pre. ....................................................................................................... 49
Figura 50. trf_crg_dim_pre ......................................................................................................... 49
Figura 51. Dimensión pregunta. .................................................................................................. 49
Figura 52. job_crg_hec_resp. ...................................................................................................... 50
Figura 53. trf_crg_hec_resp. ....................................................................................................... 51
Figura 54. Tabla hec_aprendizaje. .............................................................................................. 52
Figura 55. Reporte porcentaje de cumplimiento. ........................................................................ 53
Figura 56. Detalle reporte porcentaje de cumplimiento. ............................................................. 54
Figura 57. Reporte detalle porcentaje de cumplimiento observaciones. ..................................... 55
Figura 58. Reporte total de porcentaje de cumplimiento. ........................................................... 55
Figura 59. Indicador respuestas resultados de aprendizaje. ........................................................ 56
Figura 60. Indicador respuestas resultados de aprendizaje. ........................................................ 57
Figura 61. Reporte indicadores de observaciones. ...................................................................... 58
Figura 62. Cálculo aplicativo cumplimiento. .............................................................................. 60
Figura 63. Cálculo aplicativo detalles resultados aprendizaje..................................................... 61
Figura 64. Cálculo global de resultado de aprendizaje ............................................................... 62
xii
LISTA DE TABLAS.
Tabla 1. Comparación Pentaho – ClickView. (BUYTO, 2009) ..................................... 11
Tabla 2. Requerimientos funcionales. ............................................................................ 29
Tabla 3. Indicador número de sí. .................................................................................... 31
Tabla 4. Indicador número de no. ................................................................................... 31
Tabla 5. Indicador número de parcial. ............................................................................ 32
Tabla 6. Total de participantes. ...................................................................................... 32
Tabla 7. Porcentaje de cumplimiento. ............................................................................ 32
Tabla 8. Número de contenidos actualizados. ................................................................ 32
Tabla 9. Número de estrategias de evaluación. .............................................................. 33
Tabla 10. Número de metodología pertinente. ............................................................... 33
Tabla 11. Mapeo de columnas. ....................................................................................... 34
Tabla 12. Mapeo archivo de respuestas. ......................................................................... 35
Tabla 13. Perspectiva Materia. ....................................................................................... 36
Tabla 14. Perspectiva Pregunta ...................................................................................... 36
Tabla 15. Perspectiva Tiempo. ....................................................................................... 36
Tabla 16. Perspectiva Semestre. ..................................................................................... 37
Tabla 17. Perspectiva Periodo. ....................................................................................... 37
Tabla 18. Dimensión materia ......................................................................................... 38
Tabla 19. Dimensión Pregunta. ...................................................................................... 38
Tabla 20. Dimensión Tiempo. ........................................................................................ 38
Tabla 21. Dimensión Semestre. ...................................................................................... 39
Tabla 22. Hechos aprendizaje. ........................................................................................ 40
Tabla 23. Calculo de indicadores. .................................................................................. 59
Tabla 24. Cálculo observaciones resultados de aprendizaje. .......................................... 61
xiii
RESUMEN
IMPLEMENTACIÓN DE ARQUITECTURA BI UTILIZANDO HERRAMIENTAS
OPEN SOURCE, PARA CONTRASTE DE DATOS RESULTANTES DE LA
EVALUACIÓN DE APRENDIZAJE CURRICULAR EN LA CARRERA DE
EDUCACIÓN PARVULARIA.
AUTOR: Emerson Estuardo Guatemal Guatemal.
TUTOR: Ing. René Alfonso Carrillo Flores.
Analizar la data almacenada de una institución es un reto y más aún si se quiere hacerlo
de manera automatizada, por ello se hace uso de business Intelligence (BI) apoyándose
conjuntamente con PENTAHO y sus herramientas de análisis y reportes. Esta
plataforma toma data proveniente de encuestas semanales realizadas a estudiantes donde
se evalúan objetivos de aprendizaje de la Carrera de Educación Parvularia de la
Universidad Central del Ecuador para analizarla, almacenar la data y posteriormente
generar reportes que ayuden a la toma de decisiones, la implementación se realizó en los
laboratorios de la carrera de Educación Parvularia. El resultado: reportes dinámicos con
información de resultados de aprendizaje, detalle de encuestas y gráficas que muestran
el desempeño obtenido en cada una de las evaluaciones.
PALABRAS CLAVE: INTELIGENCIA DE NEGOCIOS/ RESULTADOS DE
APRENDIZAJE/ HERRAMIENTA PENTAHO/ ALMACÉN DE DATOS / TOMA
DE DESICIONES/ ESTRATEGIA PARA LA EMPRESA.
xiv
ABSTRACT
BI ARCHITECTURE IMPLEMENTATION USING OPEN SOURCE TOOLS FOR
CONTRAST OF DATA RESULTING FROM CURRICULAR LEARNING
ASSESSMENT IN THE SCHOOL OF EARLY CHILDHOOD EDUCATION.
AUTHOR: Emerson Estuardo Guatemal Guatemal
TUTOR: Ing. René Alfonso Carrillo Flores
Analyze the stored data of an institution is a challenge and even more if it will do it in
an automated manner, for that it is made use of Business Intelligence (BI) supporting on
conjunction with PENTAHO and its tools of analysis and reports. This platform takes
data from weekly surveys to students where are evaluated learning objectives of the
School of Early Childhood Education at the Central University of Ecuador for analysis,
store the data and then generate reports to aid decision-making, the implementation was
performed in laboratories of the School of Early Childhood Education. The result:
dynamic reports with information on learning outcomes, detail of surveys and graphs
showing the performance obtained in each of the assessments.
KEYWORDS: BUSINESS INTELLIGENCE/ LEARNING OUTCOMES/ PENTAHO
TOOL/ DATA STORE/ DECISION MAKING/ STRATEGY FOR THE COMPANY.
1
INTRODUCCIÓN
Las modalidades de investigación y toma de decisiones se han hecho cada vez más
importantes para determinar el éxito o fracaso de una institución, y la importancia de
tomar decisiones acertadas han marcado este éxito, teniendo en cuenta esto la
presente propuesta de trabajo está enfocada en el sector educativo y su necesidad de
utilizar la data que ha generado a través del tiempo. Un problema claro de las
instituciones educativas es que esta información es almacenada ya sea en un
computador, bases de datos institucionales etc.
Pero tener esta data guardada como historia de funcionalidad de una determinada
carrera no basta, pero ¿Cómo ir más allá de solamente tener almacenada una gran
cantidad de datos?, ¿Cómo obtener información de esta data generada? y si se lograra
mostrar indicadores de rendimiento, realizar un análisis que indiquen si es factible
seguir utilizando las mismas metodologías de educación de siempre, Cómo saber la
satisfacción de los alumnos hacia la carrera?, son interrogantes que se hacen
presentes y que son de suma importancia responder para mejorar la calidad de
enseñanza, hacer que personas que no tienen un conocimiento extenso en informática
logren tener a su alcance la data y a más de ello poder sacar información importante
del cruce de estos datos mediante la utilización de la tecnología, marcan la evolución
en la toma de decisiones a nivel de educación. Business Intelligence (BI) hace
posible este análisis mediante la implementación de una arquitectura BI y para
construirla se propone la utilización de software libre como PENTAHO, más
adelante en el documento se indicará porque se optó utilizar esta herramienta además
la propuesta está básicamente enfocada en la utilización de software libre,
PENTAHO posee una variedad de herramientas para realizar esta arquitectura, las
cuales se describirán más adelante en el documento. BI permite utilizar la data
generada, procesarla, integrarla, cargarla a un repositorio llamado Datawarehouse y a
partir de este repositorio generar datamart y cubos de información para
posteriormente presentarla en forma de reportes y dashboard en los cuales el usuario
2
final logra obtener información importante y generar conocimiento que le ayuda a la
toma decisiones.
PLANTEAMIENTO DEL PROBLEMA.
En la Facultad de Filosofía perteneciente a la UNIVERSIDAD CENTRAL DEL
ECUADOR, específicamente en la carrera de Educación Parvularia nace la necesidad
de conocer y monitorear el porcentaje de satisfacción de sus estudiantes en las
distintas materias impartidas a lo largo de su formación profesional, y lo que se
pretende es hacer un contraste con los resultados de aprendizaje planteados en cada
syllabus mediante la aplicación de encuestas semanales las cuales reflejan si se
cumplió o no con lo establecido como objetivo de aprendizaje para dicha semana de
estudio, teniendo en cuenta que cada materia tiene entre 4 y 5 unidades que cubre en
el semestre y en cada una de estas semana presenta un resultado de aprendizaje a
cumplir. Lo que se desea conocer es:
Resultados de aprendizaje los cuales son mencionados en cada syllabus de
cada materia en los respectivos semestres.
Nivel de cumplimiento en cada uno de los semestres.
Porcentajes de satisfacción de las estudiantes con respecto a las materias
impartidas en su carrera.
Las observaciones que marcan cada una de las respuestas.
La carrera actualmente realiza este proceso de manera manual en donde la
información se almacenada en grandes libros de registros y archivos manuales
(documentos de Excel), y el análisis es realizado de forma manual por lo cual los
docentes se apoyan de sus estudiantes para depurar información clasificar por
semestres, hacer la contabilidad de cada una de las respuestas y observaciones que se
señalan en cada una de las encuestas.
Una vez que son obtenidos los resultados de los indicadores estos se almacenan
como cualquier otro documento, sea de manera virtual, en el disco duro del
computador a cargo de quien realiza este cálculo o en folders que son almacenados
en anaqueles pertenecientes a la carrera, pero que con el paso del tiempo esto se
3
convierte en grandes cantidades de documentos impresos que ocupan mucho espacio
físico que a la final terminan deteriorándose o se pueden perder y en muchos de los
casos sucede que cuando se necesita un documento específico no se lo puede ubicar,
lo que se pretende es cambiar la forma en que se realiza este proceso de cálculo y
almacenamiento de la información.
FORMULACIÓN DEL PROBLEMA.
¿Cómo lograr que la data que se tiene actualmente pueda ser útiles en toma de
decisiones y como mantener una historia de ella para generar futuros reportes que
ayuden a los docentes a tomar decisiones acertadas apoyándose en herramientas
informáticas?
INTERROGANTES DE LA INVESTIGACIÓN.
¿A quién va dirigida exactamente la solución?
¿La implementación es en verdad necesaria frente a la problemática?
¿Las herramientas que se van a utilizar para la implementación de la arquitectura BI
son las indicadas, cumplen con la capacidad necesaria en funcionalidad y
rendimiento?
¿Una vez implementada la solución los usuarios serán capaces de operar las
herramientas implementadas y generar lo que deseen?
¿Los indicadores elegidos para mostrar la funcionalidad de la arquitectura BI son los
indicados?
OBJETIVOS.
OBJETIVO GENERAL.
Implementar una arquitectura BI en la Carrera de Educación Parvularia de la
Universidad Central del Ecuador para análisis de data proveniente de encuestas
realizadas a estudiantes de primero a noveno semestre para posteriormente generar
4
reportes y dashboard con indicadores del resultado de aprendizaje, se considerará dos
casos en específico.
• Seguimiento del sílabo
• Seguimiento de la malla.
OBJETIVOS ESPECÍFICOS.
Automatizar el cálculo de indicadores importantes para procesos de
acreditación recibiendo como fuente de información archivos planos
(Excel y .txt).
Implementar un repositorio (base de datos), el cual almacene
información histórica de los cálculos de indicadores e información
importante para la institución.
Crear ETL que tome la fuente de datos y lo cargue a la base de datos
de desembarco creada para la solución BI.
Crear ETL que transforme la data almacenada en desembarco para
cargarla en el Datawarehouse institucional y de esta manera sea
utilizada en el análisis.
Desarrollar dashboard que muestren indicadores actualizados de
rendimiento del resultado de aprendizaje, los cuales puedan ser
manipulados por usuarios que no sean expertos en informática.
JUSTIFICACIÓN.
Para que tener data histórica almacenada dentro de folders y puestos en anaqueles,
miles de documentos almacenados en una pc que solo ocupan el espacio en mi
computador, las empresas entendieron que el éxito está marcado por las buenas
decisiones que toman sus líderes en el momento preciso y la capacidad de poder
apoyarse de alguna manera en el momento de la toma de estas decisiones.
Business Intelligence agrupa varias tecnologías y metodologías que ayudan en el
análisis de data que posee la empresa realizando varias transformaciones y cruces
entre la data almacenada por la empresa durante su operatividad dando como
5
resultado conocimiento y apoyo en la toma de decisiones para lograr ventaja
competitiva. Lo que se desea realizar es la implementación de una infraestructura BI
que faciliten la obtención de indicadores de resultados de aprendizaje y seguimiento
a la malla curricular de tal manera que del resultado de esta implementación se
obtengan reportes útiles para docentes y personal involucrado en el proceso de
acreditación de la carrera.
Dichos reportes cambiaran la manera de llevar la información ya que la data que
alimente estos reportes estarán alojados en un DataWareHouse, el mismo que
también será implementado como parte de la arquitectura BI y que permitirá
almacenar la historia de cálculos de estos indicadores para cada uno de los semestres
en los periodos que hayan sido calculados y de esta forma se apoya a la carrera de
educación Parvularia con dos requisitos indispensables que recaen en el criterio de
Ambiente Institucional como parte del proceso de evaluación de la carrera
ALCANCE
La aplicación estará disponible para Docentes que intervienen de manera directa
con la Comisión de evaluación de la carrera y en exclusiva para los docentes que
manejan el tema de seguimiento al syllabus, estos usuarios no podrán modificar la
programación de la aplicación pero si hacer uso de la funcionalidad.
La aplicación entregará reportes de acuerdo al tiempo de estimación de los
usuarios es decir la periodicidad con que genere estos reportes y dashboard de
rendimientos serán controlados por los docentes de acuerdo a su necesidad.
Se manejará información histórica de hasta 3 periodos atrás contando desde el
actual periodo que cruce la carrera, este límite de tiempo es el considerado para
procesos de acreditación de las carreas.
El acceso a la información será manejada dentro de la red interna de la facultad y
será de carácter confidencial a menos que sea decidido de otra forma por las
autoridades de la institución.
La implementación de la arquitectura BI se la hará en la sala en la cual funciona la
comisión de evaluación interna de la carrera actualmente.
1
1 MARCO TEÓRICO.
1.1 Antecedentes.
Para tener una visión más clara del porqué del boom de BI en la actualidad, es
necesario comprender que esta manera de agrupar metodologías, técnicas y
herramientas informáticas no son para nada nuevas sino que aparecen ante la
necesidad que tiene la alta gerencia de una empresa por conocer como están ante el
resto de sus competidores, sus ventas se mantienen o están decreciendo, en cuanto
está creciendo o decreciendo su empresa con respecto al resto, son algunas de las
interrogantes que se dan por lo general en las personas que están a cargo de tomar
decisiones para que mejoren las cosas que actualmente tienen dentro de su empresa,
pero BI ayuda a cualquier institución a mejorar el proceso de toma de decisiones y
por ende genera satisfacción y crecimiento de la misma.
Business Intelligence toma todos los datos que ha generado la empresa a través del
tiempo y por una serie de procesos los transforma en información vital para la
misma, logrando con ello generar conocimiento y experiencia para apoyar la toma
de decisiones, las bases de datos transaccionales tradicionales que almacenan
registros no brindan la capacidad de analizar la data que tienen almacenada, estas
bases de datos solo nos ayudan al almacenamiento más no fueron creadas para
realizar análisis por el contrario BI alimenta un datawarehouse donde se almacena
información preparada para el análisis, por ejemplo si se estuviera realizando el
análisis de una tienda se podría averiguar el porcentaje de ventas de la tienda, cuál de
sus sucursales vende más, que día se vende más, cual es el producto más vendido por
agencia y en que día es más común, son algunas de las cosas que hace posible BI.
De manera similar en el sector educativo se puede realizar análisis semejantes y
obtener información de forma que ayude de manera sólida a la toma de decisiones, el
reto está en lograr obtener esta información importante y poderla consolidar y así
ayudar a mejorar la situación actual de la institución este es el reto que se asume al
implementar BI lograr satisfacer las necesidades del negocio mostrando resultados
2
que aporten de manera significativa a la institución en donde se lo está
implementando
1.2 Business Intelligence (Inteligencia de Negocios)
Business Intelligence (BI) es la habilidad para transformar los datos en información,
y la información en conocimiento, de forma que se pueda optimizar el proceso de
toma de decisiones en los negocios.
Figura 1. Etapas de BI (SINNEXUS, 2015)
Desde un punto de vista más pragmático, y asociándolo directamente con las
tecnologías de la información, podemos definir Business Intelligence como el
conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y
transformar datos de los sistemas transaccionales e información desestructurada
(interna y externa a la compañía) en información estructurada, para su explotación
directa (reporting, análisis OLTP / OLAP, alertas) o para su análisis y conversión en
conocimiento, dando así soporte a la toma de decisiones sobre el negocio. (CANO,
2007)
1.3 Conceptos generales de Business Intelligence.
Se ha mencionado anteriormente datos, información y conocimiento en la definición
de BI, para entender de mejor manera cada uno de ellos y por ende BI es necesario
definir cada uno de ellos y tener claro el papel que desempeñan en BI.
3
Datos: “Elementos primarios de información que por sí solos son irrelevantes
como apoyo a la toma de decisiones. El nombre o número telefónico, por
ejemplo, sin un propósito, una utilidad o un contexto no sirven como base
para apoyar la toma de una decisión.” (SINNEXUS, 2015).
Información: Conjunto de datos procesados y que tienen un significado
(relevancia, propósito y contexto), y que por lo tanto son de utilidad para
quién toma decisiones, al disminuir su incertidumbre. Los datos se
transforman en información añadiéndoles valor:
Contextualizando: se sabe en qué contexto y para qué propósito se
generaron.
Categorizando: se conocen las unidades de medida que ayudan a
interpretarlos.
Calculando: los datos pueden haber sido procesados matemática o
estadísticamente.
Corrigiendo: se han eliminado errores e inconsistencias de los datos.
Condensando: los datos se han podido resumir de forma más concisa
(agregación). (SINNEXUS, 2015)
Conocimiento: Mezcla de experiencia, valores, información y know-how
que sirve como marco para la incorporación de nuevas experiencias e
información, y es útil para la acción. Para que la información se convierta en
conocimiento es necesario realizar acciones como:
• Comparación con otros elementos.
• Predicción de consecuencias.
• Búsqueda de conexiones.
• Conversación con otros portadores de conocimiento
El conocimiento se deriva de la información, así como la información se deriva de
los datos. (SINNEXUS, 2015)
1.4 Componentes de Business Intelligence.
La figura 2 indica cómo está compuesto una solución BI, los componentes que
conforman esta solución son:
• Sistemas Fuentes.
4
Figura 2. Modelo Integral de una solución BI ((ESPIÑEIRA,
SHELDON Y ASOCIADOS, 2008).
• Integración.
• Almacén de datos (Datawarehouse).
• Data Mart.
• Herramientas de BI
• Query y Reporting.
Sistemas Fuentes: También llamados Fuente de datos, Son los sistemas transaccionales
que han sido diseñados fundamentalmente para el soporte de las operaciones del
negocio como, estos sistemas fuente son utilizados para alimentar al datawarehouse.
Las fuentes de información a las que podemos acceder son:
Sistemas operacionales o transaccionales, que incluyen aplicaciones
desarrolladas a medida, ERP, CRM, SCM, etc.
Sistemas de información departamentales: previsiones, presupuestos, hojas de
cálculo, etc.
Fuentes de información externa, en algunos casos comprada a terceros, como
por ejemplo estudios de mercado, IMS de la industria farmacéutica). Las
5
fuentes de información externas son fundamentales para enriquecer la
información que tenemos de nuestros clientes. (CANO, 2007).
Integración: En este tema se consideraremos la calidad de datos y los procesos ETL
(extracción, transformación y carga).
Calidad de datos: La calidad de los datos en un datawarehouse es
fundamental, Consecuentemente, es necesario asegurar que la calidad de los
datos es máxima. Si en el datawarehouse hay errores, éstos se propagarán a lo
largo de toda la organización y son muy difíciles de localizar. Además,
pueden ocasionar que se tomen decisiones erróneas que afecten a los
resultados de la organización. Los costes derivados de que la calidad de los
datos no sea la correcta pueden llegar a ser muy elevados. (CANO, 2007,
p98)
“La responsabilidad de la calidad de los datos no pertenece sólo a los
departamentos de tecnología: Debe asumirse la parte correspondiente en cada
uno de los propietarios de los procesos y de las aplicaciones que los
soportan.” (CANO, 2007, p100).
No hay demasiadas organizaciones que tengan un plan de calidad de datos; en
una encuesta de The datawarehouse Institute realizada en el año 2001, los
resultados obtenidos fueron contundentes: El 48% de las organizaciones
encuestadas no tenían un plan para gestionar o mejorar la calidad de los
datos. Por ello los datos para cumplir con una buena calidad deben cumplir:
• Precisión
• Integridad
• Coherencia
• Totalidad
• Validez
• Disponibilidad
• Accesibilidad
ETL (extracción, transformación y carga): Procesos que son parte de la integración
de datos. Es el componente que transporta los datos a lo largo de la arquitectura de
Inteligencia de negocio. Posee lógica de manejo de errores, transformaciones complejas
y métodos de carga optimizados, El proceso de ETL consume entre el 60% y el 80% del
tiempo de un proyecto de Business Intelligence, por lo que es un proceso clave en la
vida de todo proyecto, El proceso ETL se divide en 5 subprocesos:
6
• Extracción: Este proceso recupera los datos físicamente de las
distintas fuentes de información. como estén en la fuente.
• Limpieza: Este proceso recupera los datos en bruto y comprueba su
calidad, elimina los duplicados y, cuando es posible, corrige los
valores erróneos y completa los valores vacíos, es decir se
transforman los datos siempre que sea posible para reducir los errores
de carga. (CANO, 2007).
• Transformación: Este proceso recupera los datos limpios y de alta
calidad y los estructura y sumariza en los distintos modelos de
análisis. El resultado de este proceso es la obtención de datos limpios,
consistentes, sumarizados y útiles. (CANO, 2007).
• Integración: Este proceso verifica que los datos que cargamos en el
datawarehouse son consistentes con las definiciones y formatos del
datawarehouse. (CANO, 2007).
• Actualización: Este proceso es el que nos permite añadir los nuevos
datos al datawarehouse. (CANO, 2007).
Datawarehouse o almacén de datos: Se lo puede definir como una base de datos
corporativa que se caracteriza por integrar y depurar información de una o más
fuentes distintas, para luego procesarla permitiendo su análisis y con grandes
velocidades de respuesta.
La aparición de los datawarehouse o Almacenes de datos son la respuesta a las
necesidades de los usuarios que necesitan información consistente, integrada,
histórica y preparada para ser analizada para poder tomar decisiones. (CANO, 2007).
Se caracteriza por ser:
Orientado a un área: significa que cada parte del datawarehouse está construida
para resolver un problema de negocio, que ha sido definido por los tomadores de
decisiones.
Por ejemplo: Entender los hábitos de compra de nuestros clientes, analizar la
calidad de nuestros productos, analizar la productividad de una línea de
fabricación, etc. Para poder analizar un problema de negocio necesitamos
información que proviene de distintos sistemas y la organizamos entorno a áreas:
ventas, clientes, elementos de transporte, etc. Provee a los tomadores de
decisiones de una visión completa y concisa sobre una problemática de negocio,
7
obviando toda aquella información que no necesitan para la toma de decisiones.
(CANO, 2007, p114).
Integrado: “La información debe ser transformada en medidas comunes, códigos
comunes y formatos comunes para que pueda ser útil. La integración permite a
las organizaciones implementar la estandarización de sus definiciones, por
ejemplo: La moneda en la que están expresados los importes es común.” (CANO,
2007, p114).
Indexado en el tiempo: “significa que se mantiene la información histórica y se
almacena referida a determinadas unidades de tiempo, tales como horas, días,
semanas, meses, trimestres o años. Ello nos permitirá analizar, por ejemplo, la
evolución de las ventas en los periodos que queramos.” (CANO, 2007, p114).
No volátil: “significa que los usuarios no la mantienen, como lo harían en los
entornos transaccionales. La información se almacena para la toma de decisiones.
No se va actualizando continuamente, sino periódicamente, de forma
preestablecida.” (CANO, 2007, p115).
Frente a los sistemas transaccionales tiene la ventaja para apoyar a la toma de
decisiones, puesto que los sistemas transaccionales no suelen tener la data preparada
para objetivos de análisis.
Según Ralp Kimbal, (2015), define a los siguientes como objetivos que debería
cumplir un DW:
El DW da acceso a la información de la corporación o del área funcional. El
alcance del DW puede ser bien un departamento o bien corporativo.
La información del DW es consistente.
La información en el DW puede ser separada y combinada para analizar cada una
de las posibles medidas del negocio.
El DW no es sólo información sino también las herramientas de consulta, análisis
y presentación de la información.
Es el lugar donde se publica la información.
La calidad de la información en el DW es el motor del business reengineering.
Datamart: Los datawarehouses se representan habitualmente como una gran base de
datos, pero puede estar distribuidos en distintas bases de datos, habitualmente
construir estas bases de datos puede generar inflexibilidades, o ser costoso y requerir
8
plazos de tiempo que las organizaciones no está dispuestos a aceptar. En parte, estas
razones originaron la aparición de los Datamart.
Los Datamart se los puede definir como base de datos departamentales por ello están
dirigidos a una comunidad de usuarios dentro de la organización, que puede estar
formada por los miembros de un departamento, o por los usuarios de un determinado
nivel organizativo, o por un grupo de trabajo multidisciplinar con objetivos comunes.
(CANO, 2007).
Existen tres tipos de diseño:
Estrella
Copo de Nieve
Modelo multi-estrella (multi-star mmodel)
Modelo tipo estrella (star model).
Se compone típicamente de una tabla de gran tamaño, conocida como tabla de
hechos y un conjunto de tablas que la rodea que contienen datos descriptivos,
llamadas dimensiones. (CANO, 2007).
Modelo tipo copo de nieve (snowflake model).
Se dice que una dimensión es de copo de nieve cuando las columnas de baja
cardinalidad en la dimensión se han quitado para soparlas en tablas normalizadas,
generalmente se usa cuando se quiere tener más ordenada la data. (CANO, 2007).
Figura 3. modelo estrella.
9
Figura 4. Modelo copo de nieve.
Modelo multi-estrella (multi-star mmodel).
El modelo multi- estrella consiste en varias tablas de hechos, unidas a través de
las dimensiones. La figura 5 muestra un esquema de un modelo multi-estrella.
(CANO, 2007).
Simplificando para construir un Datawarehouse podemos usar dos modelos:
estrella, copo de nieve o una combinación.
Figura 5. Modelo multi estrella
10
El modelo estrella es el más sencillo y el más utilizado ya que su estructura es
simple y hace que la extracción de datos sea más rápida, sin embargo para su uso
mucha información debe estar contenida en cada una de las tablas de dimensión.
El modelo copo de nieve se puede utilizar si se desea más orden en el
almacenamiento de datos sin embargo al existir más relaciones en el modelo este
se volvería poco eficiente para buscar la información además de volverse
complejo de mantener.
1.5 Comparativa de herramientas BI.
A continuación se muestra la comparativa de la herramienta BI OPEN SOURCE que se
consideró para la solución del problema planteado en el presente trabajo y se aclarará
porque no se utilizó herramientas de licencia pagada para la solución.
El siguiente cuadro muestra que Pentaho es tan competente como QlikView a la hora de
implementar una arquitectura BI.
PENTAHO QLIK VIEW
Replica el modelo de Suite
BI completa ofrecida
tradicionalmente por
Business Objects, Cognos,
Microstrategy, etc.
Basado en el Open Source.
Utiliza la "lógica asociativa" (AQL), técnica que
realiza los análisis y cálculos en memoria
obteniendo con ello un tiempo de respuesta
excelente.
Es muy útil para la elaboración de prototipos
rápidos, con un Modelo de Datos sencillo y
enfoque de Cuadro de Mando pero pierde
eficiencia cuando se desea pasar a un sistema BI
más completo con Informes, análisis OLAP, Data
Mining, etc.
Su versión Community, la
más extendida y utilizada,
no tiene coste.
Su precio es sensiblemente inferior respecto a
Business Objects, Cognos, Microstrategy, etc.
Utiliza una aproximación de
metadatos y un modelo
multidimensional
centralizado
Sus Cuadros de Mando son elegantes y sencillos
de usar, sin embargo, carece de la variedad y
cantidad de módulos que posee Pentaho. Carece
de metadatos centralizados.
Carece de sistema Molap,
pero si existe la solución
PALO Open Source, con
conectores ETL con
Pentaho de forma que
pueden usarse
conjuntamente.
Necesita que todos los datos a consultar sean
cargados en memoria. Carece de sistema Molap
que permita establecer presupuestación,
forecasts, simulación, reglas de negocio, etc.
11
Dispone de cubos OLAP,
que permiten manejar
fácilmente grandes
volúmenes de información.
No dispone de cubos OLAP y ofrece a cambio su
tecnología asociativa que permite integrar nuevas
fuentes de datos fácil y rápidamente.
Por el contrario, esta
tecnología presenta algunos
problemas a la hora de
ampliar las aplicaciones
debido a las limitaciones de
las tecnologías de cubos
que acotan el número de
dimensiones
Por el contrario, dicha tecnología es poco
efectiva cuando se trabaja con grandes
volúmenes de información o muchas
dimensiones.
Dispone de una completa
suite ETL, llamada Pentaho
Data Integration
Al usar lógica asociativa, no dispone de una suite
ETL.
El tiempo de
implementación es bastante
superior a 3 meses, por lo
tanto, el costo de
consultoría es mayor.
El tiempo de implementación suele ser inferior a
3 meses, por lo tanto, el costo de consultoría es
menor.
Curva de aprendizaje de 1 a
2 semanas.
Curva de aprendizaje inferior a 1 semana.
Ambos son accesibles y disponen de visualización desde iPad, Android, etc.
Ambas herramientas han tenido un crecimiento espectacular en los últimos años
En el caso de Qlikview el crecimiento más fuerte se produjo hace unos pocos
años y el de Pentaho es más reciente.
Ambas herramientas tienen wizards e interfaces gráficos muy intuitivos.
Tabla 1. Comparación Pentaho – ClickView. (BUYTO, 2009)
Pentaho ha despuntado en los últimos tiempos en el cuadrante mágico de GARTNER,
posicionándose cada vez más como una herramienta de BI útil y versátil y Qlikview se
muestra como una herramienta líder, sin embargo el punto a favor y que marca que se
optara por PENTAHO es el bajo coste y que se puede implementar en equipos no tan
complejos a nivel de hardware, es decir puede desplegarse sobre una máquina común la
cual puede ser accedida fácilmente por la Carrera de Educación Parvularia.
Pentaho es intuitivo y fácil de entender no es necesario que el usuario sea un experto en
programación para utilizarlo, la inversión en su implementación cumplen con las
expectativas de la institución
12
1.6 Herramientas de BI
En este componente se debe analizar las tecnologías que permitirán tratar y visualizar
la información que reside en un DW.
Para la solución implementada se ha utilizado la herramienta PENTAHO con sus
variados componentes, la figura 6 vemos que para el año 2016 pentaho se está
consolidando como una herramienta muy versátil y completa que según GARTNER
lo cataloga visionario, pero ¿Qué es Pentaho?, según (FUGU SOFTWARE
FACTORY, 2015)” Pentaho es una herramienta de Business Intelligence
desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones
empresariales. Es una plataforma compuesta de diferentes programas que satisfacen
los requisitos de BI. Ofreciendo soluciones para la gestión y análisis de la
Figura 6. Cuadrante Mágico de Gartner para BI y Plataformas
Analíticas (GARTNER, 2016)
13
información, incluyendo el análisis multidimensional OLAP, presentación de
informes, minería de datos y creación de cuadros de mando para el usuario”.
La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un
ambiente de implementación también basado en Java, haciendo así que Pentaho sea
una solución muy flexible al cubrir una alta gama de necesidades empresariales.
Existen distintas tecnologías que nos permiten analizar la información que reside en
un datawarehouse, pero la más extendida es el OLAP.
Los usuarios necesitan analizar información a distintos niveles de agregación y sobre
múltiples dimensiones.
Por ej., ventas de productos por zona de ventas, por tiempo, por clientes o tipo de
cliente y por región geográfica.
Los usuarios pueden hacer este análisis al máximo nivel de agregación o al máximo
nivel de detalle.
OLAP provee de estas funcionalidades y algunas más, a estos tipos de análisis se les
llama multidimensionales, porque facilitan el análisis de un hecho desde distintas
perspectivas o dimensiones.
OLAP (On-line Analytical Processing): Son bases de datos orientadas al
procesamiento analítico que se basan en el análisis multidimensional de los datos y
que permiten al usuario tener una visión más rápida e interactiva de los mismos.
El OLAP Council sumarizó las 12 reglas de Codd en lo que ellos llamaban el
concepto FASMI que los productos OLAP deben cumplir.
El concepto FASMI proviene de las siglas de las iniciales en inglés:
FAST (Rápido): Debe ser rápido, necesitamos lanzar consultas y ver los
resultados inmediatamente.
ANALYSIS (Análisis): Debe soportar la lógica de negocio y análisis estadísticos
que sean necesarios para los usuarios.
SHARED (Compartido): Tiene que manejar múltiples actualizaciones de forma
segura y rápida.
MULTIDIMENSIONAL (Multidimensional): Tiene que proveer de una visión
conceptual de la información a través de distintas dimensiones.
14
INFORMATION (Información): Debe poder manejar toda la información
relevante y la información derivada.
La representación gráfica de OLAP son los cubos.
Figura 7. Representación gráfica de OLAP. (CANO, 2007, P127).
Las herramientas OLAP nos permiten “rotar” (en inglés “slicing”) los cubos, es
decir, cambiar el orden de las distintas dimensiones.
Figura 8. Slicing de dimensiones (CANO, 2007, P128).
15
También permiten hacer “roll-up and drill-down” es decir agregaciones y jerarquías
Tipos de herramientas OLAP: Existen distintos tipos de herramientas OLAP. La
diferencia entra ellas, básicamente, depende de cómo acceden a los datos:
ROLAP: Relational OLAP o Las capacidades OLAP acceden directamente a la
base de datos relacional. Se accede por tanto a una base de datos relacional
(RDBMS). Accede habitualmente sobre un modelo “estrella”. La principal ventaja
es que no tiene limitaciones en cuanto al tamaño, pero es más lento que el MOLAP.
MOLAP: Multimensional OLAP o La implementación OLAP accede directamente
sobre una base de datos multidimensional (MDDB). La ventaja principal de esta
alternativa es que es muy rápida en los tiempos de respuesta y la principal
desventaja es que, si queremos cambiar las dimensiones, debemos cargar de nuevo
el cubo.
HOLAP: Hybrid OLAP o Accede a los datos de alto nivel en una base de datos
multidimensional y a los atómicos directamente sobre la base de datos relacional. En
esencia utiliza las ventajas del ROLAP y del MOLAP.
Las formas de acceso de las herramientas OLAP pueden ser:
• Cliente/Servidor: lo que significa tener las instalaciones locales en los
ordenadores de los usuarios.
Figura 9. Agregación y Jerarquías por dimensión. (CANO, 2007, P129).
16
• Acceso web: cliente, cliente ligero, o sólo con el navegador.
En este tipo de acceso el navegador comunica con un servidor web, el cual
habla con la aplicación del servidor, que es la que conecta con el
datawarehouse. (CANO, 2007).
MySQL: es un sistema de gestión de bases de datos relacionales, multihilo y
multiusuario con más de seis millones de instalaciones, se ofrece bajo la licencia GNU-
GPL de manera libre y también de forma pagada para las instituciones que deseen
incorporarla a su arquitectura.
MySQL es muy utilizado en aplicaciones web, como Drupal o phpBB, en plataformas
(Linux/Windows-Apache-MySQL-PHP/Perl/Python), y por herramientas de
seguimiento de errores como Bugzilla.
Las ventajas de uso son:
Velocidad al realizar las operaciones, lo que le hace uno de los gestores con
mejor rendimiento.
Bajo costo en requerimientos para la elaboración de bases de datos, ya que
debido a su bajo consumo puede ser ejecutado en una máquina con escasos
recursos sin ningún problema.
Facilidad de configuración e instalación. Soporta gran variedad de Sistemas
Operativos
Baja probabilidad de corromper datos, incluso si los errores no se producen en
el propio gestor, sino en el sistema en el que está.
Su conectividad, velocidad, y seguridad hacen de MySQL Server altamente
apropiado para acceder bases de datos en Internet
El software MySQL usa la licencia GPL
JDK: es un software que provee herramientas de desarrollo para la creación de
programas en java.
Los programas más importantes que se incluyen son:
Javac: es el compilador de JAVA.
java: es el intérprete de JAVA.
javadoc: genera la documentación de las clases java de un programa.
Appletviewer: es un visor de applet para generar sus vistas previas, ya que un
applet carece de método main y no se puede ejecutar con el programa java.
17
jar: para manipular ficheros .jar
javah: que es un fichero de cabecera para escribir metodos nativos.
javap: para descompilar ficheros compilados.
extcheck : para detectar conflictos jar.
1.7 Query y Reporting.
Son herramientas para la elaboración de informes y listados, tanto en detalle como
sobre información agregada, a partir de la información del Data Warehouse y/o Data
Marts.
Estas herramientas a nivel general, es decir, independientemente de la organización
que las patrocine o licencie, tienen las siguientes características:
Niveles de información según perfiles de usuario: es decir, se puede definir
qué usuario puede ver ciertos datos y que usuario no los puede ver.
Informes dinámicos: a nivel de contenido: drill-down, agregación, entre
otros; a nivel de forma: columnas, tipos de letra, entre otros formatos de
salida de los informes: HTML, Excel, PDF, texto plano, entre otros.
Canales de salida: web, dispositivos móviles.
Pentaho cuenta con Pentaho Report Designer el cual es un editor basado en
eclipse con prestaciones profesionales y de calidad y con capacidad de
personalización de informes a las necesidades de negocio destinado a
desarrolladores. Incluye un editor de consultas para facilitar la confección de los
datos que serán utilizados en un informe.
La visualización de los informes por parte de los usuarios está gestionado por la
herramienta Pentaho BI Plataform La plataforma de Pentaho BI provee de
servicios críticos incluyendo programación, seguridad, integración automatización y
flujo de trabajo. Proporcionando habilidades a los usuarios finales de Pentaho y
provenido un lugar central para administrar y mantener el despliegue de la empresa
BI.
Integración con procesos de negocio.
Administra y programa reportes.
18
Administra seguridad de usuarios.
La figura 10 nos muestra la arquitectura estructurada de las diferentes componentes
que forman parte de Pentaho las cuales brindan una completitud en cuanto a
funcionalidad y rendimiento:
La solución Business Intelligence Open Source Pentaho pretende ser una alternativa
a las soluciones propietarias tradicionales más completas: Business Objects, Cognos,
Microstrategy, Microsoft, etc. Por lo que incluye todos aquellos componentes que
nos podemos encontrar en las soluciones BI propietarias más avanzadas:
Reporting.
Analysis.
Dashboards.
Workflow.
Data Mining.
ETL.
Single Sign-On.
Ldap.
Auditoría de uso y rendimiento.
Planificador.
Notificador.
Seguridad.
Perfiles.
19
Figura 10. Arquitectura estructurada Pentaho (Fugu
Software Factory, 2015)
20
2 METODOLOGÍA DE DESARROLLO.
Antes de comenzar el proyecto BI, se tiene que determinar el tipo de metodología se
va a utilizar. Existen diferentes métodos, todos relacionados con el ámbito del
despliegue de sistemas de información, con alguna concreción referente a los
sistemas de BI y DW.
2.1 Metodología HEFESTO.
HEFESTO es una metodología propia, cuya propuesta está fundamentada en una
muy amplia investigación, comparación de metodologías existentes y experiencias
propias en procesos de confección de almacenes de datos.
La idea principal, es comprender cada paso que se realizará, para no caer en el tedio
de tener que seguir un método al pie de la letra sin saber exactamente qué se está
haciendo, ni por qué.
La figura 11 muestra en un resumen breve como se lleva a cabo esta metodología, en
la sección 2.2.3 ya se habló de los componentes
Figura 11. Metodología HEFESTO. (CANO, 2007)
21
de BI por lo que ya se tiene claro cada uno de los requerimientos importantes para
comenzar a definir una arquitectura de BI.
Para la implementación se va a utilizar la metodología HEFESTO por lo siguiente:
Los objetivos y resultados esperados en cada fase se distinguen fácilmente y
son sencillos de comprender.
Se basa en los requerimientos del usuario, por lo cual su estructura es capaz
de adaptarse con facilidad y rapidez ante los cambios en el negocio.
Reduce la resistencia al cambio, ya que involucra al usuario final en cada
etapa para que tome decisiones respecto al comportamiento y funciones del
DW.
Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar
y analizar.
Es independiente del tipo de ciclo de vida que se emplee para contener la
metodología.
Es independiente de las herramientas que se utilicen para su implementación.
Es independiente de las estructuras físicas que contengan el DW y de su
respectiva distribución.
Cuando se culmina con una fase, los resultados obtenidos se convierten en el
punto de partida para llevar a cabo el paso siguiente.
Se aplica tanto para Data Warehouse como para Data Mart. (CANO, 2007).
2.2 Pasos y aplicación metodológica.
2.2.1 P. 1. Análisis de requerimientos.
Lo primero es identificar los requerimientos del usuario a través de preguntas que
expliciten los objetivos de su organización, para posteriormente analizarlas, estas
preguntas dirán cuáles son los indicadores y perspectivas que se deberá tomar en
cuenta para la construcción del DW. Finalmente se confeccionará un modelo
conceptual en donde se podrá visualizar el resultado obtenido en este primer paso.
Lo que se debe considerar será lo siguiente:
Identificar preguntas: Para esto se hará el análisis de los requerimientos de los
diferentes usuarios, es el punto de partida de esta metodología, ya que ellos son los
que deben, en cierto modo, guiar la investigación hacia un desarrollo que refleje
claramente lo que se espera del depósito de datos, en relación a sus funciones y
cualidades.
22
El objetivo principal de esta fase, es la de obtener e identificar las necesidades de
información clave de alto nivel, que es esencial para llevar a cabo las metas y
estrategias de la empresa, y que facilitará una eficaz y eficiente toma de decisiones.
Identificar indicadores y perspectivas de análisis: Se debe tener en cuenta que los
indicadores para que sean efectivos son, en general, valores numéricos y representan
lo que se desea analizar concretamente, por ejemplo: saldos, promedios, cantidades,
sumatorias, fórmulas, etc.
En cambio, las perspectivas se refieren a los objetos mediante los cuales se quiere
examinar los indicadores, con el fin de responder a las preguntas planteadas, por
ejemplo: clientes, proveedores, sucursales, países, productos, rubros, etc. Cabe
destacar, que el Tiempo es muy comúnmente una perspectiva.
Modelo Conceptual: Este modelo se construye a partir de los indicadores y
perspectivas mediante lo cual se podrá definir el alcance del proyecto.
Figura 13. Ejemplo modelo conceptual. (CANO, 2007).
Figura 12. Indicadores y perspectivas. (CANO, 2007).
23
En la figura 13 se muestra el modelo conceptual en base a los indicadores y
perspectivas y para clarificar el panorama de solución en la figura 14 especifica un
ejemplo de este modelo.
2.2.2 P.2. Análisis de los OLTP.
Analizar las fuentes OLTP para determinar cómo serán calculados los indicadores y
para establecer las respectivas correspondencias entre el modelo conceptual creado
en el paso anterior y las fuentes de datos. Luego, se definirán qué campos se
incluirán en cada perspectiva. Finalmente, se ampliará el modelo conceptual con la
información obtenida en este paso, Lo que se debe cumplir en este paso es:
Determinación de Indicadores: En este paso se explicará cómo se calcularán
los indicadores, definiendo los siguientes conceptos para cada uno de ellos:
Hecho/s que lo componen, con su respectiva fórmula de cálculo.
Por ejemplo: Hecho1+ Hecho2.
Función de sumarización que se utilizará para su agregación.
Por ejemplo: SUM, AVG, COUNT, etc.
Establecer correspondencias: Se examinara OLTP para determinar si contiene
toda la información necesaria para el análisis.
Figura 14. Ejemplo de modelo. (CANO, 2007).
24
Nivel de granularidad: Aquí se definirá a que nivel queremos llevar el análisis y
para ello se hará uso de las perspectivas que se han definido, en este caso el
tiempo juega un papel importante para definir el nivel de granularidad.
Un ejemplo es el análisis de ventas, lo podríamos hacer en base al tiempo
tomando como referencias.
o Diario
o Semanal
o Mensual
o Anual, etc.
Modelo Conceptual ampliado: De acuerdo a lo anterior ya se puede generar un
modelo conceptual más ampliado la figura siguiente detalla cómo hacerlo.
2.2.3 P.3. Modelo lógico del DW.
En este paso se realiza el modelo lógico de la estructura del DW, teniendo como
base el modelo conceptual. Para ello, primero se definirá el tipo de modelo que se
utilizará y luego diseñar las tablas de dimensiones y de hechos. Finalmente, se
realizarán las uniones pertinentes entre estas tablas. (CANO, 2007).
Tablas de dimensiones: En este paso se debe diseñar las tablas de dimensiones que
formaran parte del DW.
Figura 15. Ejemplo modelo conceptual ampliado. (CANO, 2007).
25
Dependerá del tipo de esquema elegido para el diseño, cada perspectiva definida en
el modelo conceptual constituirá una tabla de dimensión. Para ello deberá tomarse
cada perspectiva con sus campos relacionados y realizarse el siguiente proceso:
• Se elegirá un nombre que identifique la tabla de dimensión.
• Se añadirá un campo que represente su clave principal.
• Se redefinirán los nombres de los campos si es que no son lo
suficientemente intuitivos.
Para las tabas dimensiones del modelo copo de nieve estas dimensiones deberán ser
normalizadas como muestra la figura 16. (CANO, 2007).
Tablas de hechos: Se definirá las tablas de hechos, que son las que contendrán los
hechos a través de los cuales se construirán los indicadores de estudio.
Para los esquemas en estrella y copo de nieve, se realizará lo siguiente:
Se le deberá asignar un nombre a la tabla de hechos.
Se definirá su clave primaria, que se compone de la combinación de las
claves primarias de cada tabla de dimensión relacionada.
Figura 16. Dimensión. (CANO, 2007).
Figura 17. Dimensiones en esquema copo de nieve.
(CANO, 2007).
26
Se crearán tantos campos de hechos como indicadores se hayan definido en el
modelo conceptual y se les asignará los mismos nombres que estos.
Para los esquemas constelación se realizará lo siguiente:
Caso 1: Si en dos o más preguntas figuran los mismos indicadores pero con
diferentes perspectivas de análisis, existirán tantas tablas de hechos como
preguntas cumplan esta condición. Por ejemplo:
Caso 2: Si en dos o más preguntas figuran diferentes indicadores con diferentes
perspectivas de análisis, existirán tantas tablas de hechos como preguntas
cumplan esta condición, la figura 19 muestra el ejemplo.
Figura 18. Ejemplo Tabla de hechos. (CANO, 2007).
Figura 19. Caso 1. (CANO, 2007)
Figura 20. Caso 2. (CANO, 2007).
27
Caso 3: Si el conjunto de preguntas cumplen con las condiciones de los dos
puntos anteriores se deberán unificar aquellos interrogantes que posean diferentes
indicadores pero iguales perspectivas de análisis, para luego reanudar el estudio
de las preguntas. (CANO, 2007). Por ejemplo:
Uniones: Son las formas de relacionar las dimensiones con las tablas de hechos.
2.2.4 P.4. Procesos ETL.
Finalmente en este paso se realizan los procesos de ETL, los cuales están
completamente detallados en la sección 2.2.3.2.
P.5. Perfomance y mantenimiento del DW.
Consiste en la mejora y mantenimiento del Datawarehouse.
Figura 21. Caso 3
28
3 CALCULOS Y RESULTADOS.
Para la implementación de la arquitectura BI se va a usar la metodología de
HEFESTO la cual se especificó en la sección 2.2.4.1.
3.1 Empresa analizada.
La organización en la que se procederá a implementar el presente trabajo es la
FACULTAD DE FILOSOFÍA carrera de EDUCACIÓN PARVULARIA DE LA
UNIVERSIDAD CENTRAL DEL ECUADOR, institución no lucrativa dedicada a la
educación superior.
En el portal electrónico de la UNIVERSIDAD CENTRAL DEL ECUADOR La
Carrera de Educación Parvularia se describe de la siguiente manera. La Carrera de
Educación Parvularia tiene un firme compromiso de ofertar una educación eficiente,
caracterizada por innovaciones científicas y tecnológicas de punta. Quienes hacemos
la Carrera de Educación Parvularia asumimos este reto con un valor agregado: el
formar integralmente a nuestros profesionales con una concepción humanista para
brindar atención con calidad y calidez.
Como respuesta a las características y necesidades del contexto histórico, en la
Facultad de Filosofía, Letras y Ciencias de la Educación, y en la Escuela de
Pedagogía (en ese entonces) se crea la Especialidad de Educación Parvularia, cuyo
registro en la SENESCYT, consta como: “Carrera: Ciencias de la Educación
Mención Educación Parvularia, código 00421.Universidad Central del Ecuador,
lugar Quito, modalidad presencial, tercer nivel”.
3.2 Análisis de requerimientos.
3.2.1 Identificar preguntas.
Para el siguiente proyecto se solicitó los siguientes requerimientos funcionales, los
cuales fueron determinados por los usuarios expertos.
29
REQUERIMIENTO DETALLE
RF1. Total de participantes que realizan en la encuesta en cada una de las semanas de evaluación en el periodo de evaluación.
RF2. Total de respuestas “NO” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.
RF3. Total de respuestas “SI” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.
RF4. Total de respuestas “PARCIAL” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.
RF5. Porcentaje de cumplimiento del resultado de aprendizaje, por resultado de aprendizaje, materia, semana de evaluación en cada uno de los semestres en el periodo actual de evaluación.
RF6. Total de observaciones “Contenidos actualizados” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.
RF7. Total de observaciones “Metodología pertinente” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.
RF8. Total de observaciones “Estrategias de evaluación” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.
RF9. Construcción de tabla histórica de hechos que almacene la información de resultados de aprendizaje
RF10. Reporte general con información de los resultados de aprendizaje por materia, resultado de aprendizaje y semana de evaluación en el periodo actual de evaluación implementado en pentaho report designer.
RF11. Reporte que muestre el total de cumplimiento de cada materia en el periodo actual en base a los resultados positivos alcanzados en cada una de las evaluaciones realizadas en el período.
Tabla 2. Requerimientos funcionales.
3.2.2 Indicadores y perspectivas de análisis.
Indicadores.
Total de respuestas NO
Total de respuestas SI
Total de respuestas PARCIAL
Porcentaje cumplimiento del resultado de aprendizaje.
Total de respuestas observación Contenidos actualizados
Total de respuestas observación Metodología pertinente
Total de respuestas observación Estrategias de evaluación
Total de participantes.
30
Perspectivas de análisis.
Materia.
Semestre.
Período.
Pregunta (Resultado de aprendizaje).
Tiempo.
Modelo conceptual: En esta parte se decidió desarrollar por separado lo que es
netamente las respuestas a los indicadores y por otro lado detallar las observaciones que
se dieron a estas respuestas es por ello que se detallan dos figuras que al final siempre
están atadas al porcentaje de cumplimiento del resultado de aprendizaje.
Figura 22. Modelo conceptual.
31
3.3 Análisis de los OLTP.
3.3.1 Determinación de indicadores.
INDICADOR: Número de si
HECHOS: Número de si
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
EL indicador “número de si” es el total de si que se obtuvieron después
de realizar la encuesta, en una semana de evaluación en específico para
cada resultado de aprendizaje.
Tabla 3. Indicador número de sí.
INDICADOR: Número de No
HECHOS: Número de No
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
EL indicador “número de no” es el total de no que se obtuvieron después
de realizar la encuesta, en una semana de evaluación en específico para
cada resultado de aprendizaje.
Tabla 4. Indicador número de no.
Figura 23. Modelo conceptual observaciones.
32
INDICADOR: Número de Parcial.
HECHOS: Número de Parcial.
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
EL indicador “número de parcial” es el total de parcial que se obtuvieron
después de realizar la encuesta, en una semana de evaluación en
específico para cada resultado de aprendizaje.
Tabla 5. Indicador número de parcial.
INDICADOR Total de participantes.
HECHOS: Total de participantes.
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
El indicador “total de participantes”, es el número total de participantes
que realizaron la encuesta en la semana de evaluación y por cada resultado
de aprendizaje.
Tabla 6. Total de participantes.
INDICADOR: Porcentaje de cumplimiento.
HECHOS: (Número de si)*100%)/(Total de participantes)
FUNCIÓN SUMARIZACIÓN:
GROUP
ACLARACIÓN:
El indicador “Porcentaje de cumplimiento”, es el resultado de
cumplimiento de los resultados de aprendizaje convirtiéndolo en el
indicador más importante para la organización.
Tabla 7. Porcentaje de cumplimiento.
INDICADOR: Número de contenidos actualizados.
HECHOS: Número de contenidos actualizados.
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
El indicador “Número de contenidos actualizados”, es el número total de
observaciones correspondientes a la opción contenidos actualizados que
se presentaron como opción o sugerencia del cumplimiento o
incumplimiento del indicador resultado de aprendizaje.
Tabla 8. Número de contenidos actualizados.
33
INDICADOR: Número de estrategias de evaluación.
HECHOS: Número de estrategias de evaluación.
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
El indicador “Número de estrategias de evaluación”, es el número total de
observaciones correspondientes a la opción estrategias de evaluación que
se presentaron como opción o sugerencia del cumplimiento o
incumplimiento del indicador resultado de aprendizaje.
Tabla 9. Número de estrategias de evaluación.
INDICADOR: Número de metodología pertinente.
HECHOS: Número de metodología pertinente.
FUNCIÓN SUMARIZACIÓN:
COUNT, GROUP
ACLARACIÓN:
El indicador “Número de metodología pertinente”, es el número total de
observaciones correspondientes a la opción metodología pertinente que se
presentaron como opción o sugerencia del cumplimiento o
incumplimiento del indicador resultado de aprendizaje.
Tabla 10. Número de metodología pertinente.
3.3.2 Correspondencias.
La figura muestra la base de datos institucional en la cual se tiene almacenado
descripciones de indicadores pasados, con su correspondiente información, es decir
periodo en que se elabora el resultado de aprendizaje como pregunta para la
encuesta, el período por el cual se estaba cruzando en ese momento, materia a la que
pertenece dicha pregunta.
Figura 24. Modelo E/R parvularia.
34
La siguiente tabla muestra cómo se están mapeando los campos desde la base de
datos institucional hacia cada una de las perspectivas determinadas anteriormente.
TABLA E/R CAMPO PERSPECTIVA
PRV_PREGUNTA cod_pre RESULTADO DE APRENDIZAJE cod_mat
cod_per
dsc_pre
sem_pre
sem_hem
PRV_MATERIA cod_mat MATERIA
dsc_mat
sem_mat
PRV_PERIODO cod_per PERIODO
dsc_per
Tabla 11. Mapeo de columnas.
Para los indicadores la data será cargada desde archivos manuales en formato XLS,
los cuales son el resultado de las encuestas que se realizan en cada una de las
semanas de evaluación el mapeado se realiza de la siguiente manera.
CAMPO PESPECTIVA INDICADOR DESCRIPCIÓN
FECHA TIEMPO NA Asocia el campo fecha con la perspectiva tiempo
RES_PRE NA NUMERO DE SI
El campo res_pre agrupado por las respuestas SI y contabilizado en cada una del fechas de evaluación
RES_PRE NA NUMERO DE NO
El campo res_pre agrupado por las respuestas NO y contabilizado en cada una del fechas de evaluación
RES_PRE NA NUMERO DE PARCIAL
El campo res_pre agrupado por las respuestas PARCIAL y contabilizado en cada una del fechas de evaluación
RES_PRE NA NUMERO DE CONTENIDO ACTUALIZADO
El campo res_pre agrupado por las respuestas CONTENIDO ACTUALIZADO y contabilizado en cada una del fechas de evaluación
Figura 25. Archivo de respuestas.
35
RES_PRE NA NUMERO DE ESTRATEGIAS DE EVALUACIÓN
El campo res_pre agrupado por las respuestas ESTRATEGIAS DE EVALUACIÓN y contabilizado en cada una del fechas de evaluación
RES_PRE NA NUMERO DE METODOLOGIA PERTINENTE
El campo res_pre agrupado por las respuestas METODOLOGÍA PERTINENTE y contabilizado en cada una del fechas de evaluación
RES_PRE NA PORCENTAJE DE CUMPLIMIENTO DE RESULTADO DE APRENDIZAJE
Relacionado con el indicador total de participantes y el indicador número de si se evalúa en cada una de las fechas especificadas
RES_PRE NA TOTAL DE PARTICIPANTES
Relacionado con el campo res_pre, donde se contabiliza el número de participantes que realizan la encuesta
Tabla 12. Mapeo archivo de respuestas.
3.3.3 Nivel de granularidad.
A continuación se detalla los campos que serán considerados para cada perspectiva
definida anteriormente, y por lo que se analizara los indicadores:
Total de respuestas NO
Total de respuestas SI
Total de respuestas PARCIAL
Porcentaje cumplimiento del resultado de aprendizaje.
Total de respuestas observación Contenidos actualizados
Total de respuestas observación Metodología pertinente
Total de respuestas observación Estrategias de evaluación
Total de participantes.
Para la perspectiva materia se detalla en la tabla 12 los campos involucrados así
como también su descripción y tipo de dato que se manejara, de manera similar se
especifica para cada perspectiva detallada anteriormente.
36
TABLA: Materia
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_mat 11 integer Identificador de unicidad de la tabla
dsc_mat 50 varchar Descripción de la perspectiva materia
Relaciones: Campos clave: cod_mat
Tabla 13. Perspectiva Materia.
Para la perspectiva pregunta se detalla a continuación los campos que se utilizarán, la
tabla 13 especifica los campos.
TABLA: Pregunta
CAMPO TAMAÑO TIPO DE DATO
DESCRIPCIÓN
cod_pre 11 integer Identificador de unicidad de la tabla
dsc_pre 50 varchar Descripción de la perspectiva materia
sem_hem 11 integer hemisemestre correspondiente a la pregunta
sem_pre 11 integer semestre al cual corresponde la pregunta
Relaciones: Campos clave: cod_pre
Tabla 14. Perspectiva Pregunta
La perspectiva tiempo es una de las definiciones más importantes para la lógica de la
arquitectura para ello se define de la siguiente manera.
TABLA: Tiempo
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_fec 11 integer Identificador de unicidad de la tabla
fecha 3 date fecha en la que se realiza la encuesta
dia_mes 11 integer campo que indica el día de un mes
dia_ano 11 integer campo que especifica el día del año
smna 11 integer campo que identifica la semana de un año
mes 11 integer campo que identifica el mes de un año
ano 11 integer campo que identifica el año
ano_ant 11 integer campo que identifica el año anterior al actual
Relaciones: Campos clave: cod_fec
Tabla 15. Perspectiva Tiempo.
En las tablas 15 y 16 se detalla los campos que se tomaran en cuenta para las
perspectivas semestre y periodo.
37
TABLA: Semestre
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_sem 11 integer Identificador de unicidad de la tabla
dsc_sem 50 varchar Descripción de la perspectiva semestre
Relaciones: Campos clave: cod_sem
Tabla 16. Perspectiva Semestre.
TABLA: Periodo
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_per 11 integer Identificador de unicidad de la tabla
dsc_per 50 varchar Descripción de la perspectiva periodo
Relaciones: Campos clave: cod_per
Tabla 17. Perspectiva Periodo.
3.3.4 Modelo conceptual ampliado.
Figura 26. Modelo conceptual porcentaje cumplimiento.
38
3.4 Modelo lógico del datawarehouse.
De acuerdo a las necesidades planteadas en la sección 3.2 y como se presenta la
información de la institución donde se va a implementar la solución BI, se ha
decidido adoptar un modelo estrella para el datawarehouse, la razón es simple se
necesita rapidez en las consultas y por facilidad de almacenamiento.
Tablas dimensiones: Para la definición de las tablas dimensiones se usará las
perspectivas que se plantearon en la sección 3.3.3.
TABLA: dim_materia
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_mat 11 integer Identificador de unicidad de la tabla
dsc_mat 50 varchar Descripción de la perspectiva materia
Relaciones: Campos clave: cod_mat
Tabla 18. Dimensión materia
TABLA: dim_pregunta
CAMPO TAMAÑO TIPO DE DATO
DESCRIPCIÓN
cod_pre 11 integer Identificador de unicidad de la tabla
dsc_pre 50 varchar Descripción de la perspectiva materia
sem_hem 11 integer hemisemestre correspondiente a la pregunta
sem_pre 11 integer semestre al cual corresponde la pregunta
Relaciones: Campos clave: cod_pre
Tabla 19. Dimensión Pregunta.
TABLA: dim_tiempo
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_fec 11 integer Identificador de unicidad de la tabla
fecha 3 date fecha en la que se realiza la encuesta
dia_mes 11 integer campo que indica el día de un mes
dia_ano 11 integer campo que especifica el día del año
smna 11 integer campo que identifica la semana de un año
mes 11 integer campo que identifica el mes de un año
ano 11 integer campo que identifica el año
ano_ant 11 integer campo que identifica el año anterior al actual
Relaciones: Campos clave: cod_fec
Tabla 20. Dimensión Tiempo.
39
TABLA: dim_semestre
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_sem 11 integer Identificador de unicidad de la tabla
dsc_sem 50 varchar Descripción de la perspectiva semestre
Relaciones: Campos clave: cod_sem
Tabla 21. Dimensión Semestre.
TABLA: dim_periodo
CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN
cod_per 11 integer Identificador de unicidad de la tabla
dsc_per 50 varchar Descripción de la perspectiva periodo
Relaciones: Campos clave: cod_per
Tabla 12. Perspectiva Periodo.
Tablas hechos: La tabla de hechos se construirá en base a los indicadores
determinados en la sección 3.2.2, la siguiente figura detalla el contenido de la tabla
de hechos diseñada para la solución.
TABLA: hec_aprendizaje
CAMPO TAMAÑO
TIPO DE DATO DESCRIPCIÓN
cod_mat 11 integer código que relaciona la tabla de hechos con la dimensión materia
cod_sem 11 integer código que relaciona la tabla de hechos con la dimensión semestre
cod_pre 11 integer código que relaciona la tabla de hechos con la dimensión pregunta
cod_fec 11 integer código que relaciona la tabla de hechos con la dimensión fecha
cod_per 11 integer código que relaciona la tabla de hechos con la dimensión periodo
num_si 11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje
num_no 11 integer indicador que representa el total de respuestas NO para cada resultado de aprendizaje
num_par 11 integer indicador que representa el total de respuestas PARCIAL para cada resultado de aprendizaje
niv_cump
numeric(4,2) campo que almacena el porcentaje de cumplimiento para cada resultado de aprendizaje
tot_part 11 integer número de asistentes a realizar las encuestas
num_met_prt
11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje
40
num_cnt_act
11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje
num_est_eva
11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje
Relaciones: cod_mat, cod_sem, cod_per, cod_pre, cod_fec
Campos clave: cod_sem, cod_mat, cod_pre, cod_fec, cod_per
Tabla 22. Hechos aprendizaje.
Datawarehouse: La figura muestra el diseño final de la solución que se ha
implementado en la carrera de Educación parvularia.
3.5 Procesos ETL.
Para el desarrollo de los procesos ETL se ha utilizado PENTAHO DATA
INTEGRATION en su versión 5.0.1 y distribución libre.
Los procesos ETL en pentaho se componen de dos elementos.
Trabajo
Transformación.
Los cuales se organizan y construyen para realizar varias transformaciones a la data
que se maneja en cada uno de los pasos que componen estos procesos.
Figura 27. Modelo Datawarehouse Parvularia.
41
Transformación: La transformación es el elemento básico de diseño de los procesos
ETL en PDI. Una transformación se compone de pasos o steps, que están enlazados
entre sí a través de los saltos o hops.
Trabajo: Un proceso es un conjunto sencillo o complejo de tareas con el objetivo de
realizar una acción determinada estos hacen el llamado a las transformaciones.
3.6 Procesos ETL para carga del área de stagin o de paso.
Antes de realizar el paso al datawarehouse se hace un desembarco de la data hacia un
repositorio temporal al cual se desembarca tal y como viene de la fuente, luego esta
data es consumida por los procesos ETL y finalmente se almacene en el
datawarehouse, es de gran ayuda este paso previo ya que se puede almacenar
información necesaria desde la base de datos, de catálogos que se han realizado de
manera manual los cuales se utilizan para complementar la información que se
necesita almacenar en el datawarehouse.
Proceso ETL para el desembarco de la tabla semestre, este proceso realiza como su
nombre lo indica un desembarco de la información tal y cual como viene de la fuente
hacia el área de desembarco a la tabla semestre de la solución BI, la siguiente figura
muestra la solución realizada para esta tabla.
Figura 28. Modelo desembarco Parvularia.
42
Para el paso de información de la base de datos de parvularia hacia el área de
desembarco se realizó el proceso siguiente.
La figura 32 muestra el trabajo que realiza el paso de información al área de
desembarco de las tablas de periodo y materia tomando como fuente la base de datos
de la institución la transformación asociada al proceso anterior es la siguiente.
Figura 29. Job_crg_des_cat_sem
Figura 30. trf_crg_des_cat_sem.
Figura 31. job_crg_des.
Figura 32. trf_crg_des.
43
Para la tabla pregunta del área de desembarco la fuente es un archivo manual
generado por las personas expertas del negocio, el usuario tiene las especificaciones
de elaboración del archivo como la ruta en donde debe colocarlo, para realizar la
carga de esta información al área de desembarco se utiliza el siguiente proceso ETL.
La figura 33 que detalla al trabajo de carga de pregunta en desembarco llama a la
transformación trf_crg_cat_pre la cual recibe un archivo manual en formato Excel y
lo carga hacia la tabla respuesta en desembarco, la siguiente figura muestra la
solución de este proceso.
A continuación se muestra el proceso crítico del negocio, este proceso se encarga de
desembarcar la información recogida del resultado de las encuestas realizadas
semana a semana en la carrera de educación parvularia a continuación se muestra el
proceso ETL que realiza este proceso, hay que mencionar que el archivo manual que
recibe como fuente el proceso ETL es elaborado por las personas delegadas por los
docentes y que tienen la capacitación necesaria para elaborar este documento en
formato Excel el nombre del documento es resp.xls.
Figura 33. job_crg_cat_pre.
Figura 34. trf_crg_cat_pre.
44
El trabajo mostrado en la figura llama a la transformación trg_crg_des_res_ind, esta
transformación hace todo el trabajo de carga de la tabla en desembarco llamada
des_pre, a continuación se muestra la imagen de la composición de este proceso.
Figura 36. trf_crg_des_res_ind.
3.7 Procesos ETL para carga del datawarehouse.
Proceso ETL que se encarga de crear y generar la dimensión TIEMPO, para ello se
realiza un Trabajo (JOB), el cual se encarga de llamar a una transformación en la
cual se establecen los procesos necesarios para que llene la tabla final de
dim_tiempo.
Figura 35. job_crg_des_res_ind
45
Transformación (TRF) encargada de realizar la carga de la tabla dim_tiempo en el
datawarehouse y que es llamada y ejecutada en el job job_crg_dim_tmp.
El resultado de la ejecución del trabajo job_crg_dim_tmp da como resultado la tabla
dim_tiempo, la figura siguiente muestra los datos que almacena esta dimensión.
Proceso ETL que se encarga de crear y generar la dimensión MATERIA, para ello se
realiza el Trabajo llamado job_crg_dim_mat, el cual se encarga de llamar a la
transformación en la cual se realizan los procesos necesarios para que llene la tabla
final de dim_materia.
Figura 37. job_crg_dim_tmp.
Figura 38. trf_dim_tiempo.
Figura 39. Dimensión tiempo.
46
Figura 41. trf_crg_dim_materia.
Figura 40. job_crg_dim_materia.
La transformación trf_crg_dim_materia es llamada para ejecutarse en el
trabajo job_crg_dim_mat, la figura siguiente muestra la solución.
El resultado del trabajo es la tabla dim_materia como se muestra en la
siguiente imagen.
Figura 42. Dimensión materia.
47
Para cargar la dimensión de período se desarrolló el trabajo job_crg_dim_per que
llama a la transformación trf_crg_dim_per, la cual hace el llenado de la tabla
dim_periodo.
Figura 43. job_crg_dim_per.
La transformación que realiza el proceso ETL para el llenado de la tabla dimensión
período se llama trf_crg_dim_per el cual está especificado en la siguiente figura.
Como resultado de este proceso tenemos la tabla dimensión periodo llena, la imagen
del resultado se muestra a continuación.
Figura 44. trf_crg_dim_per.
Figura 45. Dimensión periodo.
48
El proceso ETL que carga la dimensión de semestre se compone por el trabajo
llamado job_crg_dim_sem la cual consume o llama a la transformación que tiene por
nombre trf_crg_dim_sem las siguientes figuras muestran la solución.
El resultado de estos procesos es la dimensión semestre, los datos almacenados en
esta tabla se muestran en la figura siguiente.
Para el llenado de la tabla dimensión pregunta se utilizó el trabajo llamado
job_crg_dim_pre el cual llama a la transformación que tiene por nombre
trf_crg_dim_pre la composición de este proceso se detalla en la siguiente figura.
Figura 46. job_crg_dim_sem.
Figura 47. trf_crg_dim_sem.
Figura 48. Dimensión semestre.
49
La transformación trf_crg_dim_pre realiza la carga desde el área de desembarco
hacia la tabla de dimensión pregunta en el datawarehouse a esta información se la
maneja como un catálogo, la transformación se detalla en la siguiente figura.
El resultado de la ejecución de estos dos procesos encargados de llenar la tabla de
dimensiones materia es la siguiente.
De esta manera las tablas de dimensiones del modelo solución se han llenado
satisfactoriamente.
Continuando con la implementación tenemos la solución para la tabla más
importante del modelo nuestra tabla de hechos, a la cual se la nombro como
hec_aprendizaje, esta tabla almacenara toda la información que se vaya generando a
Figura 49. job_crg_dim_pre.
Figura 50. trf_crg_dim_pre
Figura 51. Dimensión pregunta.
50
través del tiempo de los distintos cálculos que se realicen en los distintos periodos de
evaluación, convirtiéndose en una tabla histórica y por ende en el pilar fundamental
del modelo, para ello se muestra los dos procesos asociados al llenado de esta tabla.
Trabajo job_crg_hec_resp realizado para llamar a la transformación trf_crg_hec_resp
la cual se encarga de cargar la tabla de hechos, a continuación se muestra la
implementación realizada.
El trabajo descrito en la figura 52 llama a la transformación trf_crg_hec_resp, la cual
toma toda la información cargada en el área de desembarco la procesa y limpia para
finalmente obtener los campos necesarios para almacenarlos en la tabla de hechos
hec_aprendizaje en el datawarehouse de la institución, la transformación que realiza
este trabajo se detalla en la figura siguiente.
Figura 52. job_crg_hec_resp.
51
El resultado de este último proceso es la tabla de hechos la cual nos ayudará como
base para la construcción de los reportes solicitados para la solución se muestra en la
figura 54.
Figura 53. trf_crg_hec_resp.
52
Una vez que se ha mostrado los procesos ETL desarrollados para la carga de las
distintas tablas de hechos y dimensiones, se ha desarrollado e implementado los
siguientes reportes solicitados por el usuario experto.
Cada uno de los reportes que se van a mostrar a continuación han sido validados por
el usuario, las imágenes siguientes solo mostrarán la captura de una materia ya que
son muy extensos los registros y se hace imposible mostrar muchos registros en la
captura.
La siguiente imagen muestra el reporte de porcentajes de cumplimiento de la carrera
en cada una de las materias por semestre, período en el que fue evaluado y fecha tope
de la semana de la evaluación.
Figura 54. Tabla hec_aprendizaje.
53
El detalle del reporte mostrado en la figura 55 se muestra en el siguiente reporte el
cual indica en forma clara los detalles de las respuestas que se registraron para esta
evaluación, aunque son reportes construidos de manera individual son a la vez muy
útiles si se los revisa conjuntamente, el detalle que contiene el reporte que se muestra
a continuación es a nivel informativo y sumariza los resultados que se obtienen en
cada semana que se aplicó la evaluación.
Figura 55. Reporte porcentaje de cumplimiento.
54
Al igual que los detalles de respuestas del tipo de satisfacción de los resultados de
aprendizaje se tiene el reporte de observaciones, el cual muestra la cantidad de
personas que se ha inclinado por una determinada circunstancia por la cual se
cumplió o no los objetivos, de manera análoga este reporte esta seccionado por
período, materia, resultado de aprendizaje (pregunta) en cada una de las semanas de
evaluación.
Figura 56. Detalle reporte porcentaje de cumplimiento.
55
El siguiente reporte muestra el porcentaje de cumplimiento global que se consiguió
en el semestre para cada materia indistintamente del resultado de evaluación
evaluado en cada una de las semanas sino que se tomó el resultado total de
satisfacción alcanzada en el semestre para cada materia en cada uno de los semestres
y periodo en el cual se realizó la evaluación.
Figura 57. Reporte detalle porcentaje de cumplimiento observaciones.
Figura 58. Reporte total de porcentaje de cumplimiento.
56
La figura 58 mostrará un solo registro para cada una de las materias, de esta manera
se ha realizado los reportes solicitados por el usuario.
Los reportes siguientes son gráficas que muestran como se ha comportado los
resultados obtenidos en cada una de las semanas de evaluación a manera de
indicadores.
Figura 59. Indicador respuestas resultados de aprendizaje.
57
El siguiente reporte contiene el indicador de cumplimiento de global de los
resultados de aprendizaje por cada materia, se establece un límite de cumplimiento
del 100% y sobre ello se grafica lo obtenido en el semestre y periodo actual.
Por último se tiene el reporte con el indicador de observaciones que muestra la
gráfica de comportamiento de respuestas para cada uno de los resultados de
aprendizaje en las semanas de evaluación respectiva, semestre y materia respectiva
en el período actual de evaluación.
Figura 60. Indicador respuestas resultados de aprendizaje.
58
Figura 61. Reporte indicadores de observaciones.
59
4 DISCUSIONES
De acuerdo a los requerimientos, los reportes presentados en el capítulo anterior
muestran la información solicitada por los usuarios, como aún no se tiene data
histórica el análisis a través del tiempo se hará a partir de la implementación de la
solución, para validar la información se ha realizado el cálculo manual de los
indicadores conjuntamente con los usuarios expertos, se realiza una validación con la
data proveniente de un meses con la cual se pretende validar la calidad de la
información que se está presentado en los reportes a continuación se muestra el
cálculo manual que se realizó para una materia en específico refiriéndonos solamente
a una pregunta o resultado de aprendizaje.
FILOSOFIA
NUN SI 4 25/04/2016
2 02/05/2016
3 16/05/2016
3 23/05/2016 NUM NO 1 4 0 0
NUM PARCIAL 1 0 3 4
TOT PARTICIPANTES 6 6 6 7
PORCENTAJE CUMPLIMIENTO
66,667
33,3333
50
42,857
Tabla 23. Cálculo de indicadores.
A continuación se muestra el reporte que se presenta mediante el aplicativo de a
acuerdo a la tabla 14 los resultados mostrado coinciden perfectamente para la materia
filosofía correspondiente al primer semestre de la carrera para la fecha 25 de abril del
2016 se tuvo un total de seis participantes de los cuales cuatro personas escogieron la
opción SI, una persona de inclino por NO y la otra restante eligió PARCIAL, de esta
pequeña muestra tomada para esta fecha se obtiene un 66% de cumplimiento esto
refiriéndose a la tabla 14, por otro lado podemos observar el reporte de indicadores el
cual muestra un 66% de cumplimiento para la fecha 25 de abril del 2016 con un total
de 6 participantes y especifica la descripción del indicador o pregunta evaluada, hay
que aclarar que se toma solamente una muestra pequeña para realizar la validación
del aplicativo y que este cumpla con los requerimientos a continuación se muestra la
figura que valida la explicación descrita.
60
Los detalles de las respuestas obtenidas para las fechas mostradas en la tabla 22 se
muestran a continuación en el reporte detalle de respuestas.
Figura 62. Cálculo aplicativo cumplimiento.
61
Figura 63. Cálculo aplicativo detalles resultados aprendizaje.
En el caso de las observaciones por las cuales se cumple o no el objetivo se detalla
las observaciones en la siguiente tabla.
FILOSOFIA OBSERVACIONES
CONTENIDOS ACTUALIZADOS
3 25/04/2016
3 02/05/2016
3 16/05/2016
4 23/05/2016
METODOLOGIA PERTINENTE
0 2 3 2
ESTRATEGIAS DE EVALUACIÓN
3 1 0 1
Tabla 24. Cálculo observaciones resultados de aprendizaje.
El cual hace ver que en la fecha de evaluación del 25 de abril del 2016 se tuvo un
porcentaje de cumplimiento del 66% vemos que las estudiantes creen que lo que hizo
que se obtuviera ese nivel de satisfacción fueron los contenidos actualizados que
mostró el maestro así como también la estrategia de evaluación que usa, sin embargo
la metodología de enseñanza no influyo lo necesario.
62
De acuerdo al análisis que se va mostrando en cada uno de los reporte existe el
reporte que muestra cómo está la materia a nivel general en cumplimiento de acuerdo
al reporte de totales este nos dice que la materia de “FILOSOFÍA” cumple en un 41.2
% las expectativas de los estudiantes, la figura siguiente respalda lo mencionado.
De esta manera se validó la utilidad del aplicativo BI, con lo cual se cumple la
expectativa del usuario quedando satisfecho del resultado obtenido con la
funcionalidad de la arquitectura BI.
Figura 64. Cálculo global de resultado de aprendizaje
63
5 CONCLUSIONES.
Se logra satisfactoriamente la automatización de cálculos de indicadores mediante el
aplicativo, en el capítulo cuatro se validó el cumplimiento en cuanto a funcionalidad del
aplicativo cumpliendo satisfactoriamente en objetivo principal propuesto al inicio del
presente trabajo.
La información que da como resultado el aplicativo ha sido validada por la Comisión de
evaluación interna de la carrera de educación parvularia, dando como resultado gran
satisfacción a la unidad que se encarga de realizar este proceso, ya que los reportes
resultantes del aplicativo sirven como prueba ante el requisito de evaluación de la
carrera.
Además de mostrar el detalle de los resultados de las evaluaciones realizadas en la
carrera el aplicativo muestra un porcentaje de cumplimiento global por cada materia en
cada uno de los semestres en el periodo actual de evaluación permitiendo dar un criterio
por parte de las autoridades de la carrera acerca del cumplimiento de objetivos de la
materia, permitiéndoles de esta manera tomar decisiones que mejoren los niveles de
cumplimiento en cada una de las materias y con ello comprometer al docente para que
se alcance los objetivos planteados.
Gracias al aplicativo se ha mejorado notablemente los procesos para la obtención de
información, la diferencia fue tan grande ya que por experiencia el proceso demoraba
cerca de cuatro días solo depurar la información y una semana más realizar los cálculos
respectivos, se ganó cerca de 6 días hábiles por lo que las personas que trabajaban
realizando este trabajo ocupan este tiempo que el aplicativo les ahorra en nuevas tareas
de gestión que ayudan a encaminar a la carrera a un mejor desempeño.
La información ahora esta almacenada en un datawarehouse propio de la carrera, el cual
dará origen a futuros contrastes de información.
64
6 RECOMENDACIONES.
La calidad de la información obtenida por el aplicativo depende de la calidad del
archivo elaborado por los usuarios expertos el cual contiene información de la
evaluación que realizan semana a semana durante el periodo actual, es por ello que
los responsables de elaborar este archivo deben estar conscientes de la
responsabilidad que implica elaborar este archivo es aconsejable que las personas
que elaboren estos archivos sean los propios docentes o una persona previamente
capacitada con asesoría directa de la persona experta del tema.
La disponibilidad de los reportes son de uso exclusivo de las personas dispuestas por
la comisión de evaluación por ello es recomendable que cada responsable que use los
reportes utilicen sus respectivas credenciales y que por ningún motivo compartan sus
credenciales.
La solicitud de nuevos requerimientos por parte del negocio deben ser definidas y
discutidas con el responsable técnico del aplicativo de tal manera que este pueda
disponibilizar la información que los usuarios soliciten, esto en el caso de que existan
requerimientos.
El mantenimiento y gestión de usuarios será manejado por el administrador del
aplicativo, el cual será una persona capacitada para que pueda dar solución a
cualquier inconveniente que se pueda suscitar a nivel técnico, en problemas de
conexiones configuraciones, disponibilidad, es indispensable que los usuarios
expertos del negocio tengan en cuenta esta recomendación..
65
GLOSARIO.
BI: siglas que abrevian en inglés Business Intelligence o inteligencia de negocios.
RESULTADO APRENDIZAJE: son preguntas u objetivos que cada asignatura de la
carrera de educación parvularia plantea, las cuales son evaluadas en cada una de las
semanas de clases durante todo el periodo.
ETL: proceso que tiene por propósito extraer, transformar y almacenar información
de distintas fuentes hacia un repositorio llamado datawarehouse.
OLAP: herramienta que agilita de forma rápida y eficiente consultas a grandes bases
de datos.
DASHBOARD: interfaz donde el usuario puede hacer uso de reportes de forma
dinámica.
USUARIO EXPERTO: persona capacitada de la institución que tiene un amplio
conocimiento del negocio que puede aportar y gestionar ideas a los requerimientos
de la institución.
USUARIO: persona capacitada para dar uso al aplicativo BI, pueden ser cualquier
tipo de persona que sea capacitado por la persona técnica del negocio.
TECNICO DEL NEGOCIO: Persona que desarrollo la solución BI que puede
gestionar y dar solución a cualquier inconveniente relacionado a la arquitectura BI
HOPS: son componentes de una transformación o un trabajo en pentaho los cuales
crean la secuencia de ejecución de estos procesos, también se los llama pasos.
JAR: un fichero .jar es una colección de clases Java y otros ficheros empaquetados
en uno solo.
66
BIBLIOGRAFÍA.
1. FUGU http://www.fugu.ec [En Línea]. - 2015. –
http://www.fugu.ec/pentaho-ecuador-business-intelligence-data-mining-
ecuador/.
2. SINNEXUS http://www.sinnexus.com [En línea]. - 2015.-
http://www.sinnexus.com/business_intelligence/.
3. GARTNER https://www.gartner.com [En línea]. - 2016. -
https://www.gartner.com/doc/reprints?id=1-2XYY9ZR&ct=160204&st=sb.
4. CANO, Josep Business Intelligence: Competir con información [Libro].-
España: ESADE, 2007.
5. WORDPRESS https://churriwifi.wordpress.com [En línea]. 2010. -
https://churriwifi.wordpress.com/2010/06/20/17-1-instalacion-y-
configuracion-de-la-plataforma-bi-de-pentaho/.
6. DÍAZ, Josep Introducción al Business Intelligence [Libro]. - Barcelona: UOC,
2010.
7. SCRIBD https://es.scribd.com [En Línea]. 2015. -
https://es.scribd.com/document/54202254/Manual-Pentaho-Report-Designer.
8. WIKI http://wiki.pentaho.com [En línea]. 2016. -
http://wiki.pentaho.com/display/EAIes/Inicio.
9. BUYTO http://www.buyto.es [En Línea]. 2009. -
http://www.buyto.es/general-business-intelligence/comparativa-y-diferencias-
entre-pentaho-y-qlikview.
67
ANEXOS
68
ANEXO A.
Manual de Usuario
Iniciar sesión.
Ilustración A1 Pantalla inicio logueo (Autor, 2016).
Una vez en el aplicativo seleccione en la en el panel Browse la carpeta Reportes
Parvularia UCE y en el panel inferior llamado Files aparecerán todos los reportes
elaborados.
Ilustración A2 Pantalla mando de usuario (Autor, 2016).
69
Seleccione el archivo que desee dando doble clic sobre el archivo en este caso
seleccionaremos el archivo Reporte rendimiento parvularia nos aparecerá lo
siguiente.
Ilustración A3 Pantalla de mando reporte rendimiento (Autor, 2016).
En el panel derecho nos aparecerá las opciones de filtrado para obtener información
en el reporte por ejemplo.
Periodo: 2015-2016
Materia: Lenguaje y comunicación
Output type: se lo puede dejar en PDF, no es necesario cambiarlo pero se puede
elegir HTML, Excel, TXT.
Ilustración A4 Pantalla Reporte rendimiento (Autor, 2016).
70
Si elige el formato de salida Excel aparecerá lo siguiente:
Ilustración A5 Pantalla de exportación de documento.
Elige guardar y el archivo tendrá la estructura siguiente.
Ilustración A6 Formato Excel de reporte (Autor, 2016).
71
Si desea ver el detalle de respuestas del reporte anterior se debe abrir el archivo
Reporte detalle indicadores respuestas de manera similar colocamos.
Periodo: 2015-2016
Materia: Lenguaje y comunicación
Ilustración A7 Pantalla reporte detalle (Autor, 2016).
Ahora abriremos el archivo Indicador cumplimiento resultado aprendizaje
colocamos lo siguiente.
Periodo: 2015-2016
Materia: Lenguaje y comunicación
Fecha de evaluación: 2016-04-25
Ilustración A8 Pantalla indicador rendimiento aprendizaje (Autor, 2016).
72
Dando clic en icono report paremeters podemos maximixar la vista.
Ilustración A9 Pantalla ampliada indicador (Autor, 2016).
La forma de utilizar la aplicación es tan simple como se ha mostrado los 7 reportes que
contiene el aplicativo funcionan de manera similar.
Finalmente para salir de la aplicación realizar ubicarse sobre file y luego log out.
Ilustración A10 Salir de la aplicación (Autor, 2016).
73
ANEXO B
Manual de Ejecución
1. Copiar la carpeta biserver-ce-4.8.0-stable hacia el disco local C del computador
Ilustración B1. Ruta de archivos (Autor, 2016).
2. Abrir la carpeta biserver-ce-4.8.0-stable
Ilustración B2. Localización ejecutable (Autor, 2016).
74
3. Dirigirse hacia la carpeta biserver-ce y abrirla con doble clic.
Ilustración B3. Localización archivo start pentaho (Autor, 2016).
4. Dentro ubicar el archivo start-pentaho y darle doble clic.
Ilustración B4. Inicialización de servicios (Autor, 2016).
75
5. Esperar hasta que la pantalla negra diga Server startup, en el navegador colocar
http://localhost:9999/pentaho/Login
Ilustración B5. Pantalla de logueo (Autor, 2016).
76
ANEXO C.
Instalación de herramientas.
Requisitos de Hardware.
Sistema Operativo: Windows 7 (64 bits), con 4GB de RAM mínimo y procesador
CORE i5
1. Instalación de MySQL Workbench.
En la carpeta instaladores\Mysql_Workbench contiene los instaladores para esta
herramienta vamos a ejecutar de la siguiente manera.
Ejecutar el archivo vcredist_x86 que es el programa Microsoft Visual C++ 2005
Redistributable que es un complemento para la instalacion hay que ejecutar y si ya tiene
instalado cancelar la instalación por lo general es un complemento para varios
programas.
De igual manera ejecutar doNetFx40_Client_x86_x64 que es Net Framework 4.0, otro
programa complementario para instalar MySQL, si ya lo tiene cancelar la instalación.
77
Seleccionar el archivo mysql-5.5.19-win32 y ejecutarlo.
Aparece la siguiente ventana aquí eleccionar Next.
78
En la siguiente pantalla aceptamos las condiciones.
Seleccionar Typical.
79
Seleccionar Install
Esperar que cargue la instalación
80
Seleccionar Next.
Pulsar sobre finish
81
Aparecerá la siguiente pantalla presionar sobre Next.
Seleccionar Detailed Configuration y Next.
82
Seleccionar Developer Machine y next.
Seleccionar Multifuncional Database y next.
83
Selecionar el lugar donde se va a instalar en el computador y next.
Seleccionar la primera opción y next
84
Seleccionar el puerto en que se va a instalar y next.
Elegir Standard Character Set, presionar next.
85
En la siguiente imagen poner next, dejar la configuración por defencto.
Colocar un usuario y contraseña y next.
86
En la siguiente ventana presionar Execute.
Finalmente seleccionar finish.
87
Ahora en la misma carpeta de instalación de MySQL ejecutamos mysql-gui-tools-5.0-
r17
En la siguiente pantalla dar en siguiente.
88
Aparecerá la siguiente pantalla, aceptar las condiciones y next.
En la siguiente ventana dar clic en next.
89
Seleccionar Complete y next.
En la siguiente ventana dar clic en Install.
90
Finalmente dar en Finish.
Para completar la instalacion vamos a instalar el gestor, ejecutamos el archivo mysql-
workbench-gpl-5.2.37-win32.
91
Dar clic en next.
Elegir la ubicación en donde se va a instalar y next.
92
Elegir la instalación completa y next.
Dar clic en Install y comenzara la instalación.
93
Dar clic en finish para terminar la instalación.
Finalmente buscar entre los programas instalados y ejecutar.
94
2. Instalación de JDK7.
Ejecutar el archivo jdk-7u79-windows-x64
Aparecera la siguiente pantalla dar clic en next.
95
Dar clic en next.
Aparecerá la pantalla de estado de instalación.
96
Dar clic en next.
Para terminar la instalación dar clic en close.
97
3. Instalación de pentaho.
Para instalar Pentaho es simple, lo que se va hacer es copiar las carpetas de los archivos
hacia el disco local C del computador.
Las carpetas involucradas son:
biserver-ce-4.8.0-stable.
data-integration.
report-designer.
98
ANEXO D.
Manual de Configuración.
1. Requisitos previos: máquina virtual Java JDK y la base de datos MySQL.
Tener instalado JDK7, para verificar si tenemos instalado podemos ejecutar en
cmd el comando java –version.
Configuramos variables de entorno JAVA_HOME y PATH de la siguiente
manera
Dirigirse a equipo-> clic derecho ->propiedades-> configuraciones avanzadas de
sistema -> variables de entorno
JAVA_HOME: C:\Program Files\Java\jdk1.7.0_79\
PATH: C:\Program Files\Java\jdk1.7.0_79\
Si existe algún valor en las variables colocar un “;” y luego copiar la línea
correspondiente.
Tener instalado MySQL si no estan instalados los programas realizar el ANEXO
C.
2. Ficheros que componen la arquitectura PENTAHO.
Para esto se tomará los archivos con los cuales se ha desarrollado la configuración de la
arquitectura, los archivos necesarios estarn en la carpeta INSTALADORES del CD son:
biserver-ce-4.8.0-stable.
pdi-ce-5.0.1.A-stable.
prd-ce-3.9.1-GA.
Estos archivos deberan ser descomprimidos en caso de que estuvieran comprimidos,
una vez hecho este paso previo copiarlos hacia el disco local C:
99
3. Crear usuario en MySQL para administrar las diferentes configuraciones.
Antes de realizar cualquier configuracion y teniendo instalado ya MySQL Workbench,
se creará un usuario para la arquitectura BI, que será el que gestione todas las
conexcines y configuraciones necesarias.
Para ello hacemos lo siguiente:
Ingresar a MySQL Workbench.
Dar doble clic en Server Administration, ingresar las credenciales de administrador.
100
Dentro del aplicativo hacer lo siguiente
Dar clic en Users and Privileges aparecera un nuevo panel en la parte derecha de la
pantalla.
Dirigirse a la parte inferior de la pantalla y dar clic en Add Account, aparece lo
siguiente en la pestaña login rellenar los datos solicitados colocando.
Login Name: username (el que desee)
Limit Conectivity to hosts Matching: localhost
Password: xxxxxxxxxx (el que desee)
Confirm password: xxxxxxxxxx
101
Una vez llenado los campos solicitados dirigirise a la pestaña Administrative Roles,
en este caso vamos a seleccionar todos los permisos ya que necesitamos que el usuario
tenga la capacidad de gestionar sin limites cualquier configuración.
Finalmente para concluir la creación del usuario dar clic en Apply.
4. Creación de catalogos en base de datos necesarios para la plataforma.
La plataforma Pentaho necesita dos bases de datos para su funcionamiento (además de
la base de datos de test para poder trabajar con el set de ejemplos). Las bases de datos y
su cometido son las siguientes:
hibernate: esta base de datos almacena la autentificación de usuarios y los datos de
autorizaciones, el contenido BI (solution repository) y los origenes de datos disponibles
en la plataforma.
quartz: es el repositorio para el scheduler Quartz, que es uno de los componentes que
forma la plataforma, que nos permite la planificación de procesos dentro del servidor
BI.
sampledate: contiene las tablas para ilustrar y hacer posible la ejecución de todos los
ejemplos por defecto que proporciona la plataforma.
102
Por defecto, los catálogos de estas bases de datos estarán creados en la base de datos
HSQLDB que se puede arrancar en la configuración del servidor por defecto. Para
crearlos en MySQL, se ejecutará los scripts que se encuentran en la carpeta
Pentaho_3.6.0_MySQL_SQL_Pack dentro de la carpeta BASE DE DATOS en el CD,
el orden de ejecución será el siguiente:
Ojo estos escript hay que ejecutarlos dentro de la consola de MySQL u autentificado
con el usuario que se creó anteriormente, es importante que se respete el orden de
ejecución cada script esta numerado por el orden de ejecución a continuación se muestra
el script 1_create_repository_mysql en la consola de MySQL y las bases creadas
103
5. Configuracion JDBC, Hibernate and Quartz.
Todas las aplicaciones de Pentaho, incluyendo el Pentaho Server, utilizan la
conectividad Java Database Connectivity (JDBC) para la comunicación con las bases de
datos. Por tanto, será necesario disponer de los correspondientes conectores. En nuestro
caso, vamos a utilizar el conector para MySQL tomar los conectores del CD carpeta
INSTALADORES\JDBC. Las carpetas donde se va a copiar serán las siguientes:
C:\biserver-ce\tomcat\common\lib: ubicación de los drivers JDBC para poder utilizar
en el servidor Pentaho la base de datos para la que el conector proporciona
conectividad.
C:\biserver-ce-4.8.0-stable\administration-console\jdbc: es necesario ponerlos aquí
también para poder definir correctamente las conexiones a base de datos en la consola
de administración.
104
A continuación, se configura los ficheros de parametrización del sistema para que
Hibernate y Quartz lean de los catalogos de base de datos en Mysql que se ha creado en
el punto 3, en lugar de la base de datos HSQLDB proporcionada por defecto.
Configuracion de Hibernate (I): en el fichero applicationContext-spring-security-
jdbc.xml ubicado en la carpeta C:\biserver-ce\pentaho-solutions\system, se
modificara la parte subrayada, con los valores referidos para utilizar MySQL.
<!-- This is only for Hypersonic. Please update this section
for any other database you are using -->
<bean id="dataSource"
class="org.springframework.jdbc.datasource.DriverManage
rDataSource">
<property name="driverClassName"
value="com.mysql.jdbc.Driver" />
<property name="url"
value="jdbc:mysql://localhost:3306/hibernate" />
<property name="username" value="hibuser" />
<property name="password" value="password" />
</bean>
Configuracion de Hibernate (II): en el fichero applicationContext-spring-security-
hibernate.properties.xml, ubicado en la carpeta C:\biserver-ce\pentaho-
solutions\system, se modifica, con los valores referidos para utilizar MySQL.
jdbc.driver=com.mysql.jdbc.Driver
jdbc.url=jdbc:mysql://localhost:3306/hibernate
105
jdbc.username=hibuser
jdbc.password=password
hibernate.dialect=org.hibernate.dialect.MySQLDialect
Configuración de Hibernate (III): en el fichero hibernate-settings.xml, ubicado en la
carpeta C:\biserver-ce\pentaho-solutions\system\hibernate, se modificara la parte
subrayada.
<config-file>system/hibernate/mysql5.hibernate.cfg.xml</config-
file>
Con la configuración anterior, se ha configurado la seguridad JDBC de la plataforma.
Ahora se tiene que indicar en los contextos del servidor de aplicación, la ubicación de
las bases de datos, para decirle al servidor que lea de las bases de datos en Mysql,
utilizando los drivers y la configuración de seguridad realizada anteriormente. Para ello,
modificamos el fichero contexts.xml, ubicado en C:\biserver-
ce\tomcat\webapps\pentaho\META-INF de la siguiente manera:
<?xml version="1.0" encoding="UTF-8"?>
<Context path="/pentaho" docbase="webapps/pentaho/">
<Resource name="jdbc/Hibernate" auth="Container"
type="javax.sql.DataSource"
factory="org.apache.commons.dbcp.BasicDataSourceFactory
" maxActive="20" maxIdle="5"
maxWait="10000" username="hibuser"
password="password"
driverClassName="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/hibernate"
validationQuery="select 1" />
<Resource name="jdbc/Quartz" auth="Container"
type="javax.sql.DataSource"
factory="org.apache.commons.dbcp.BasicDataSourceFactory
" maxActive="20" maxIdle="5"
maxWait="10000" username="pentaho_user"
password="password"
driverClassName="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/quartz"
validationQuery="select 1"/>
</Context>
Con esta configuración ya tendriamos lista la parte de conectividad con la base de datos.
106
La plataforma Pentaho utiliza Apache-Tomcat como servidor de aplicaciones para
desplegar los servicios que la componen. El servidor lleva una configuración por
defecto la cual modificaremos
6. Configuración Servidor Apache-Tomcat.
Esto se hace porque puede ser que haya algun cruce de puertos con otras aplicaciones,
para ello, se modificó el fichero web.xml que se encuentra en la carpeta C:\biserver-
ce\tomcat\webapps\pentaho\WEB-INF.
solution-path
Cambiar el valor para que apunte a la carpeta donde hemos instalado:
<context-param>
<param-name>solution-path</param-name>
<param-value>C:\biserver-ce-4.8.0-stable\biserver-
ce\pentaho-solutions</param-value>
</context-param>
base-url
Al instalar, la ruta URL por defecto para acceder a la plataforma será la siguiente:
http://localhost:8080/pentaho
Modificamos el parámetro base_url dentro del mismo fichero. En nuestro caso, como
vamos a cambiar el puerto por defecto, modificamos su valor indicando lo siguiente:
<context-param>
<param-name>base-url</param-name>
<param-value>http://localhost:9999/pentaho/</param-
value>
</context-param>
Esto nos obligará a cambiar tambien la configuración del fichero server.xml.
107
Port
En la ruta C:\biserver-ce\tomcat\conf, tenemos el fichero server.xml, donde podemos
modificar el puerto por defecto de nuestro servidor BI (que es el 8080).
<!-- A "Connector" represents an endpoint by which requests are
received
and responses are returned. Documentation at :
Java HTTP Connector: /docs/config/http.html (blocking &
non-blocking)
Java AJP Connector: /docs/config/ajp.html
APR (HTTP/AJP) Connector: /docs/apr.html
Define a non-SSL HTTP/1.1 Connector on port 8080
-->
<Connector URIEncoding="UTF-8" port="9999"
protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" />
7. Configuración de la publicación de contenidos.
Por defecto, la publicación de contenido en el servidor BI esta desactivada, por lo que
para publicar los informes o análisis que vayamos realizando, para habilitar la
publicación, modificaremos el fichero publisher_config.xml, que se encuentra en la
carpeta C:\biserver-ce\pentaho-solutions\system. Ahí indicaremos la contraseña de
publicación. Por defecto, no tiene ninguna.
<publisher-config>
<publisher-password>mipassword</publisher-password>
</publisher-config>
8. Personalizando la plataforma de usuario.
Como queremos personalizar el portal, vamos a realizar algunos cambios en la consola
de usuario. Para ello, se utilizara nuestra plataforma. Esta personalización va a consistir
en lo siguiente:
Aparecen los usuarios de ejemplo, y al seleccionarlos podemos entrar directamente en la
plataforma (sin necesidad de recordad su nombre de usuario o contraseña), ya que el
sistema nos lo recuerda. Esto no es operativo para un sistema productivo, y por tanto,
vamos a modificarlo. Para ello, modificaremos el
fichero loginsettings.properties ubicando en la carpeta
108
C:biserver-ce\tomcat\webapps\pentaho\mantle. La configuración por defecto del fichero
es la siguiente:
# this file contains settings to configure the login dialog
# flag to turn on/off show users list (overrides pentaho.xml)
#showUsersList=false
# launch PUC in new window (default setting)
openInNewWindow=false
# sample users (be sure that each group has the same # of items
as the rest)
userIds=joe, suzy, pat, tiffany
userDisplayNames=Joe (admin), Suzy, Pat, Tiffany
userPasswords=password, password, password, password
9. Crear usuario en Administration Console.
Dirigirse a la siguiente ruta C:\biserver-ce-4.8.0-stable\administration-console y
ejecutar el archivo start-pac.
Colocar en el navegador: http://192.168.47.128:8099/ y loguearse con las credenciales
admin / password
La consola de administracion es la siguiente.
109
Una vez dentro nos vamos Administración, en el panel derecho se verá las opciones de
Roles y Users, seleccionamos Users en el icono de más y rellenamos los campos del
cajoncillo.
Username: userprv (cualquier nombre).
Password: xxxxx (cualquier valor).
Confirm password: xxxx (cualquier valor).
No olvidarse de estas credenciales que se las usarán más adelante.
Una vez completado lo anterior seleccionamos Roles aquí unimos el usuario que se creó
al rol de Admin y CEO, para ello se da clic sobre el icono de más del panel derecho
110
Aparece la siguiente ventana y añadimos al rol Admin, se hace lo mismo para añadir al
usuario al rol CEO y finalmente dar OK.
Para completar la configuración es necesario copiar y pegar el conector JDBC a las
rutas especificadas a continuación en cada una de las herramientas.
data-integration
Dirigirse a la siguiente ruta C:\data-integration\lib copiar el archivo de la carpeta de
instaladores\JDBC y pegarla aquí.
111
Report Designer.
Dirigirse a la siguiente ruta C:\prd-ce-3.9.1-GA\report-designer\lib\jdbc copiar el
archivo de la carpeta de instaladores\JDBC y pegarla aquí.
10. Restaurar base de datos.
Para restaurar las bases de datos, lo primero será ingresar a MySQL con las credenciales
del usuario que se creó anteriormente, posteriormente ejecutar los siguientes scripts que
estarán en el CD en la ruta BASE DE DATOS\Modelo.
dwh_parvularia_uce.sql
db_des_prv_uce.sql
Una vez dentro de la consola dar clic en file luego en Open SQL script seleccionamos la
ruta donde se encuentra ubicado el archivo y abrir
112
Al momento de abrir el archivo tendremos lo siguiente luego dar clic en el icono
Execute.
Hacer este procedimiento con los dos scripts, de esta manera estaría completa la
configuración del ambiente de desarrollo de la arquitectura BI.
11. Crear conexión hacia las bases de datos en Pentaho Data Integration y Report
Designer.
Para crear la conexión en Pentaho Data Integration se hace lo siguiente (Realizar esto
solo si es necesario).
1. Iniciamos MySQL con el usuario que creo anteriormente.
2. Iniciamos Pentaho Data Integration.
Ruta: C:\data-integration
Archivo: Spoon
113
Una vez en el programa hacemos lo siguiente.
1. Fichero
2. Nuevo
3. Trabajo
114
Damos clic en la pestaña View.
En la parte de Conexiones a base de datos se hace lo siguiente.
Clic derecho en Conexión a base de datos
Nuevo
Aparece la siguiente pantalla donde escogeremos
En el panel izquierdo seleccionar general
Conection name: Colocar MYSQL_DWH
Conexión Type: Seleccionar MySQL
Access: Native(JDBC)
En Settings:
Hostname: localhost
Database Name: dwh_parvularia_uce
Port number: 3306
User name: Nombre del usuario con el que se levantó MYSQL
Passwor: Colocar la contraseña del usuario con el que se levantó MYSQL
115
Para crear la conexión en Pentaho Report Designer se hace lo siguiente (Realizar esto
solo si es necesario).
3. Iniciamos MySQL con el usuario que creo anteriormente.
4. Iniciamos Pentaho Report Desiger.
Ruta: C:\prd-ce-3.9.1-GA\report-designer
Archivo: report-designer
116
Una vez en el programa hacemos lo siguiente.
4. File
5. New
6. En el panel derecho ubicamos Data -> Data Sets-> Clic derecho->JDBC->
117
Presionamos sobre el icono con un signo más.
Aparece la siguiente pantalla donde escogeremos
En el panel izquierdo seleccionar general
Conection name: Colocar MYSQL_DWH
Conexión Type: Seleccionar MySQL
Access: Native(JDBC)
En Settings:
Hostname: localhost
Database Name: dwh_parvularia_uce
Port number: 3306
User name: Nombre del usuario con el que se levantó MYSQL
Passwor: Colocar la contraseña del usuario con el que se levantó MYSQL
Llenados los datos dar en test verificar que no de error y finalmente OK
118
12. Publicación de reportes en Pentaho
Primero tener en ejecución Pentaho BISERVER-CE
Ruta: C:\biserver-ce-4.8.0-stable\biserver-ce
Archivo: start-pentaho
Dentro del aplicativo de Pentaho Report Designer hacer lo siguiente.
Abrir el reporte que se desee publicar en el aplicativo
En el CD ubicar la carpeta APLICATIVO\REPORTES.
File
Open
Seleccionar uno de ellos y dar en abrir.
Dar clic en file ->Publish y aparece lo siguiente
119
Verificar que el puerto de destino sea el 9999, colocar el usuario y contraseña de un
usuario administrador dar OK.
Aparece la siguiente pantalla aquí poner un nombre al reporte, título y una descripción
120
Se crea un repositorio nuevo dando clic en el icono de crear carpeta, colocar como
nombre Reportes-Parvularia.
Seleccionar esta nueva carpeta como destino.
Colocar el password de publicación y finalmente OK, realizar el mismo procedimiento
para todos los reportes.
121
13. Apariencia de la pantalla del inicio de sesión.
Copiar del CD de la carpeta LOGIN\IMAGENES, los archivos lock.png y logo.png
hacia la ruta C:\biserver-ce-4.8.0-stable\biserver-ce\tomcat\webapps\pentaho-
style\images\login
Del CD copiar el archivo PUCLogin.jsp ubicado en la carpeta LOGIN y copiarlo en la
siguiente ruta C:\biserver-ce-4.8.0-stable\biserver-ce\tomcat\webapps\pentaho\jsp,
si existe reemplazarlo
Una vez culminado todo lo expuesto en este manual hacer uso del ANEXO A que
corresponde al manual de usuario, usar internet Explorer para desplegar la aplicación.