UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD · PDF file1.4 Componentes de Business Intelligence ... (BI) supporting on conjunction with PENTAHO and its tools of ... y el análisis es

UNIVERSIDAD CENTRAL DEL ECUADOR

FACULTAD DE INGENIERÍA CIENCIAS FÍSICAS Y MATEMÁTICA

CARRERA DE INGENIERÍA INFORMÁTICA

IMPLEMENTACIÓN DE ARQUITECTURA BI UTILIZANDO

HERRAMIENTAS OPEN SOURCE, PARA CONTRASTE DE DATOS

RESULTANTES DE LA EVALUACIÓN DE APRENDIZAJE

CURRICULAR EN LA CARRERA DE EDUCACIÓN PARVULARIA.

TRABAJO DE GRADUACIÓN PREVIO LA OBTENCIÓN DEL TÍTULO

DE INGENIERO INFORMÁTICO

AUTOR: EMERSON ESTUARDO GUATEMAL GUATEMAL

TUTOR: CARRILLO FLORES RENÉ ALFONSO.

QUITO, 12 DE OCTUBRE

2016

ii

AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL

iii

APROBACIÓN DEL TUTOR.

iv

APROBACIÓN DEL TRIBUNAL

v

vi

DEDICATORIA.

A mis padres,

por su esfuerzo y apoyo incondicional,

a mi hermano

que siempre me apoyo en todo.

vii

AGRADECIMIENTO.

Ing. René Alfonso Carrillo, por su gran labor y enseñanza académica al presente

proyecto integrador.

A los docentes que conforman la Facultad de Ingeniería Ciencias Físicas y Matemáticas,

por compartir sus conocimientos y sabiduría logrando que cada día crezca

profesionalmente y como persona.

viii

CONTENIDO

AUTORIZACIÓN DE LA AUTORÍA INTELECTUAL ............................................................................. ii

APROBACIÓN DEL TUTOR. ............................................................................................................ iii

APROBACIÓN DEL TRIBUNAL ........................................................................................................iv

DEDICATORIA. ...............................................................................................................................vi

AGRADECIMIENTO. ...................................................................................................................... vii

RESUMEN .................................................................................................................................... xiii

ABSTRACT .................................................................................................................................... xiv

INTRODUCCIÓN ............................................................................................................................. 1

PLANTEAMIENTO DEL PROBLEMA. ........................................................................................... 2

FORMULACIÓN DEL PROBLEMA................................................................................................ 3

INTERROGANTES DE LA INVESTIGACIÓN. ................................................................................. 3

OBJETIVOS. ................................................................................................................................ 3

OBJETIVO GENERAL. .............................................................................................................. 3

OBJETIVOS ESPECÍFICOS. ....................................................................................................... 4

JUSTIFICACIÓN. ......................................................................................................................... 4

ALCANCE .................................................................................................................................... 5

1 MARCO TEÓRICO. .................................................................................................................. 1

1.1 Antecedentes. ............................................................................................................... 1

1.2 Business Intelligence (Inteligencia de Negocios) .......................................................... 2

1.3 Conceptos generales de Business Intelligence. ............................................................. 2

1.4 Componentes de Business Intelligence. ........................................................................ 3

1.5 Comparativa de herramientas BI. ............................................................................... 10

1.6 Herramientas de BI ...................................................................................................... 12

1.7 Query y Reporting. ...................................................................................................... 17

2 METODOLOGÍA DE DESARROLLO. ....................................................................................... 20

2.1 Metodología HEFESTO. ............................................................................................... 20

2.2 Pasos y aplicación metodológica. ................................................................................ 21

2.2.1 P. 1. Análisis de requerimientos. ........................................................................ 21

2.2.2 P.2. Análisis de los OLTP. ..................................................................................... 23

2.2.3 P.3. Modelo lógico del DW. ................................................................................. 24

2.2.4 P.4. Procesos ETL. ................................................................................................ 27

3 CALCULOS Y RESULTADOS. .................................................................................................. 28

ix

3.1 Empresa analizada....................................................................................................... 28

3.2 Análisis de requerimientos. ......................................................................................... 28

3.2.1 Identificar preguntas. .......................................................................................... 28

3.2.2 Indicadores y perspectivas de análisis. ............................................................... 29

3.3 Análisis de los OLTP. .................................................................................................... 31

3.3.1 Determinación de indicadores. ........................................................................... 31

3.3.2 Correspondencias. ............................................................................................... 33

3.3.3 Nivel de granularidad. ......................................................................................... 35

3.3.4 Modelo conceptual ampliado. ............................................................................ 37

3.4 Modelo lógico del datawarehouse. ............................................................................. 38

3.5 Procesos ETL. ............................................................................................................... 40

3.6 Procesos ETL para carga del área de stagin o de paso. ............................................... 41

3.7 Procesos ETL para carga del datawarehouse. ............................................................. 44

4 DISCUSIONES ....................................................................................................................... 59

5 CONCLUSIONES. .................................................................................................................. 63

6 RECOMENDACIONES. .......................................................................................................... 64

GLOSARIO. ................................................................................................................................... 65

BIBLIOGRAFÍA. ............................................................................................................................. 66

ANEXO A. ..................................................................................................................................... 68

ANEXO B ...................................................................................................................................... 73

ANEXO C. ..................................................................................................................................... 76

ANEXO D. ..................................................................................................................................... 98

x

LISTA DE FIGURAS.

Figura 1. Etapas de BI (SINNEXUS, 2015) .................................................................................. 2

Figura 2. Modelo Integral de una solución BI ((ESPIÑEIRA, SHELDON Y ASOCIADOS,

2008). ............................................................................................................................................ 4

Figura 3. modelo estrella. ............................................................................................................. 8

Figura 4. Modelo copo de nieve. ................................................................................................... 9

Figura 5. Modelo multi estrella ..................................................................................................... 9

Figura 6. Cuadrante Mágico de Gartner para BI y Plataformas Analíticas (GARTNER, 2016) 12

Figura 7. Representación gráfica de OLAP. (CANO, 2007, P127). ........................................... 14

Figura 8. Slicing de dimensiones (CANO, 2007, P128). ............................................................ 14

Figura 9. Agregación y Jerarquías por dimensión. (CANO, 2007, P129). .................................. 15

Figura 10. Arquitectura estructurada Pentaho (Fugu Software Factory, 2015) .......................... 19

Figura 11. Metodología HEFESTO. (CANO, 2007) ................................................................... 20

Figura 12. Indicadores y perspectivas. (CANO, 2007). .............................................................. 22

Figura 13. Ejemplo modelo conceptual. (CANO, 2007). ............................................................ 22

Figura 14. Ejemplo de modelo. (CANO, 2007). ......................................................................... 23

Figura 15. Ejemplo modelo conceptual ampliado. (CANO, 2007). ............................................ 24

Figura 16. Dimensión. (CANO, 2007). ....................................................................................... 25

Figura 17. Dimensiones en esquema copo de nieve. (CANO, 2007). ......................................... 25

Figura 18. Ejemplo Tabla de hechos. (CANO, 2007). ................................................................ 26

Figura 19. Caso 1. (CANO, 2007) .............................................................................................. 26

Figura 20. Caso 2. (CANO, 2007). ............................................................................................. 26

Figura 21. Caso 3 ........................................................................................................................ 27

Figura 22. Modelo conceptual. .................................................................................................... 30

Figura 23. Modelo conceptual observaciones. ............................................................................ 31

Figura 24. Modelo E/R parvularia. .............................................................................................. 33

Figura 25. Archivo de respuestas. ............................................................................................... 34

Figura 26. Modelo conceptual porcentaje cumplimiento. ........................................................... 37

Figura 27. Modelo Datawarehouse Parvularia. ........................................................................... 40

Figura 28. Modelo desembarco Parvularia.................................................................................. 41

Figura 29. Job_crg_des_cat_sem ................................................................................................ 42

Figura 30. trf_crg_des_cat_sem. ................................................................................................. 42

Figura 31. job_crg_des. ............................................................................................................... 42

Figura 32. trf_crg_des. ................................................................................................................ 42

xi

Figura 33. job_crg_cat_pre. ........................................................................................................ 43

Figura 34. trf_crg_cat_pre. .......................................................................................................... 43

Figura 35. job_crg_des_res_ind .................................................................................................. 44

Figura 36. trf_crg_des_res_ind. .................................................................................................. 44

Figura 37. job_crg_dim_tmp. ...................................................................................................... 45

Figura 38. trf_dim_tiempo. ......................................................................................................... 45

Figura 39. Dimensión tiempo. ..................................................................................................... 45

Figura 40. job_crg_dim_materia. ................................................................................................ 46

Figura 41. trf_crg_dim_materia. ................................................................................................. 46

Figura 42. Dimensión materia. .................................................................................................... 46

Figura 43. job_crg_dim_per. ....................................................................................................... 47

Figura 44. trf_crg_dim_per. ........................................................................................................ 47

Figura 45. Dimensión periodo. .................................................................................................... 47

Figura 46. job_crg_dim_sem. ...................................................................................................... 48

Figura 47. trf_crg_dim_sem. ....................................................................................................... 48

Figura 48. Dimensión semestre. .................................................................................................. 48

Figura 49. job_crg_dim_pre. ....................................................................................................... 49

Figura 50. trf_crg_dim_pre ......................................................................................................... 49

Figura 51. Dimensión pregunta. .................................................................................................. 49

Figura 52. job_crg_hec_resp. ...................................................................................................... 50

Figura 53. trf_crg_hec_resp. ....................................................................................................... 51

Figura 54. Tabla hec_aprendizaje. .............................................................................................. 52

Figura 55. Reporte porcentaje de cumplimiento. ........................................................................ 53

Figura 56. Detalle reporte porcentaje de cumplimiento. ............................................................. 54

Figura 57. Reporte detalle porcentaje de cumplimiento observaciones. ..................................... 55

Figura 58. Reporte total de porcentaje de cumplimiento. ........................................................... 55

Figura 59. Indicador respuestas resultados de aprendizaje. ........................................................ 56

Figura 60. Indicador respuestas resultados de aprendizaje. ........................................................ 57

Figura 61. Reporte indicadores de observaciones. ...................................................................... 58

Figura 62. Cálculo aplicativo cumplimiento. .............................................................................. 60

Figura 63. Cálculo aplicativo detalles resultados aprendizaje..................................................... 61

Figura 64. Cálculo global de resultado de aprendizaje ............................................................... 62

xii

LISTA DE TABLAS.

Tabla 1. Comparación Pentaho – ClickView. (BUYTO, 2009) ..................................... 11

Tabla 2. Requerimientos funcionales. ............................................................................ 29

Tabla 3. Indicador número de sí. .................................................................................... 31

Tabla 4. Indicador número de no. ................................................................................... 31

Tabla 5. Indicador número de parcial. ............................................................................ 32

Tabla 6. Total de participantes. ...................................................................................... 32

Tabla 7. Porcentaje de cumplimiento. ............................................................................ 32

Tabla 8. Número de contenidos actualizados. ................................................................ 32

Tabla 9. Número de estrategias de evaluación. .............................................................. 33

Tabla 10. Número de metodología pertinente. ............................................................... 33

Tabla 11. Mapeo de columnas. ....................................................................................... 34

Tabla 12. Mapeo archivo de respuestas. ......................................................................... 35

Tabla 13. Perspectiva Materia. ....................................................................................... 36

Tabla 14. Perspectiva Pregunta ...................................................................................... 36

Tabla 15. Perspectiva Tiempo. ....................................................................................... 36

Tabla 16. Perspectiva Semestre. ..................................................................................... 37

Tabla 17. Perspectiva Periodo. ....................................................................................... 37

Tabla 18. Dimensión materia ......................................................................................... 38

Tabla 19. Dimensión Pregunta. ...................................................................................... 38

Tabla 20. Dimensión Tiempo. ........................................................................................ 38

Tabla 21. Dimensión Semestre. ...................................................................................... 39

Tabla 22. Hechos aprendizaje. ........................................................................................ 40

Tabla 23. Calculo de indicadores. .................................................................................. 59

Tabla 24. Cálculo observaciones resultados de aprendizaje. .......................................... 61

xiii

RESUMEN

IMPLEMENTACIÓN DE ARQUITECTURA BI UTILIZANDO HERRAMIENTAS

OPEN SOURCE, PARA CONTRASTE DE DATOS RESULTANTES DE LA

EVALUACIÓN DE APRENDIZAJE CURRICULAR EN LA CARRERA DE

EDUCACIÓN PARVULARIA.

AUTOR: Emerson Estuardo Guatemal Guatemal.

TUTOR: Ing. René Alfonso Carrillo Flores.

Analizar la data almacenada de una institución es un reto y más aún si se quiere hacerlo

de manera automatizada, por ello se hace uso de business Intelligence (BI) apoyándose

conjuntamente con PENTAHO y sus herramientas de análisis y reportes. Esta

plataforma toma data proveniente de encuestas semanales realizadas a estudiantes donde

se evalúan objetivos de aprendizaje de la Carrera de Educación Parvularia de la

Universidad Central del Ecuador para analizarla, almacenar la data y posteriormente

generar reportes que ayuden a la toma de decisiones, la implementación se realizó en los

laboratorios de la carrera de Educación Parvularia. El resultado: reportes dinámicos con

información de resultados de aprendizaje, detalle de encuestas y gráficas que muestran

el desempeño obtenido en cada una de las evaluaciones.

PALABRAS CLAVE: INTELIGENCIA DE NEGOCIOS/ RESULTADOS DE

APRENDIZAJE/ HERRAMIENTA PENTAHO/ ALMACÉN DE DATOS / TOMA

DE DESICIONES/ ESTRATEGIA PARA LA EMPRESA.

xiv

ABSTRACT

BI ARCHITECTURE IMPLEMENTATION USING OPEN SOURCE TOOLS FOR

CONTRAST OF DATA RESULTING FROM CURRICULAR LEARNING

ASSESSMENT IN THE SCHOOL OF EARLY CHILDHOOD EDUCATION.

AUTHOR: Emerson Estuardo Guatemal Guatemal

TUTOR: Ing. René Alfonso Carrillo Flores

Analyze the stored data of an institution is a challenge and even more if it will do it in

an automated manner, for that it is made use of Business Intelligence (BI) supporting on

conjunction with PENTAHO and its tools of analysis and reports. This platform takes

data from weekly surveys to students where are evaluated learning objectives of the

School of Early Childhood Education at the Central University of Ecuador for analysis,

store the data and then generate reports to aid decision-making, the implementation was

performed in laboratories of the School of Early Childhood Education. The result:

dynamic reports with information on learning outcomes, detail of surveys and graphs

showing the performance obtained in each of the assessments.

KEYWORDS: BUSINESS INTELLIGENCE/ LEARNING OUTCOMES/ PENTAHO

TOOL/ DATA STORE/ DECISION MAKING/ STRATEGY FOR THE COMPANY.

1

INTRODUCCIÓN

Las modalidades de investigación y toma de decisiones se han hecho cada vez más

importantes para determinar el éxito o fracaso de una institución, y la importancia de

tomar decisiones acertadas han marcado este éxito, teniendo en cuenta esto la

presente propuesta de trabajo está enfocada en el sector educativo y su necesidad de

utilizar la data que ha generado a través del tiempo. Un problema claro de las

instituciones educativas es que esta información es almacenada ya sea en un

computador, bases de datos institucionales etc.

Pero tener esta data guardada como historia de funcionalidad de una determinada

carrera no basta, pero ¿Cómo ir más allá de solamente tener almacenada una gran

cantidad de datos?, ¿Cómo obtener información de esta data generada? y si se lograra

mostrar indicadores de rendimiento, realizar un análisis que indiquen si es factible

seguir utilizando las mismas metodologías de educación de siempre, Cómo saber la

satisfacción de los alumnos hacia la carrera?, son interrogantes que se hacen

presentes y que son de suma importancia responder para mejorar la calidad de

enseñanza, hacer que personas que no tienen un conocimiento extenso en informática

logren tener a su alcance la data y a más de ello poder sacar información importante

del cruce de estos datos mediante la utilización de la tecnología, marcan la evolución

en la toma de decisiones a nivel de educación. Business Intelligence (BI) hace

posible este análisis mediante la implementación de una arquitectura BI y para

construirla se propone la utilización de software libre como PENTAHO, más

adelante en el documento se indicará porque se optó utilizar esta herramienta además

la propuesta está básicamente enfocada en la utilización de software libre,

PENTAHO posee una variedad de herramientas para realizar esta arquitectura, las

cuales se describirán más adelante en el documento. BI permite utilizar la data

generada, procesarla, integrarla, cargarla a un repositorio llamado Datawarehouse y a

partir de este repositorio generar datamart y cubos de información para

posteriormente presentarla en forma de reportes y dashboard en los cuales el usuario

2

final logra obtener información importante y generar conocimiento que le ayuda a la

toma decisiones.

PLANTEAMIENTO DEL PROBLEMA.

En la Facultad de Filosofía perteneciente a la UNIVERSIDAD CENTRAL DEL

ECUADOR, específicamente en la carrera de Educación Parvularia nace la necesidad

de conocer y monitorear el porcentaje de satisfacción de sus estudiantes en las

distintas materias impartidas a lo largo de su formación profesional, y lo que se

pretende es hacer un contraste con los resultados de aprendizaje planteados en cada

syllabus mediante la aplicación de encuestas semanales las cuales reflejan si se

cumplió o no con lo establecido como objetivo de aprendizaje para dicha semana de

estudio, teniendo en cuenta que cada materia tiene entre 4 y 5 unidades que cubre en

el semestre y en cada una de estas semana presenta un resultado de aprendizaje a

cumplir. Lo que se desea conocer es:

Resultados de aprendizaje los cuales son mencionados en cada syllabus de

cada materia en los respectivos semestres.

Nivel de cumplimiento en cada uno de los semestres.

Porcentajes de satisfacción de las estudiantes con respecto a las materias

impartidas en su carrera.

Las observaciones que marcan cada una de las respuestas.

La carrera actualmente realiza este proceso de manera manual en donde la

información se almacenada en grandes libros de registros y archivos manuales

(documentos de Excel), y el análisis es realizado de forma manual por lo cual los

docentes se apoyan de sus estudiantes para depurar información clasificar por

semestres, hacer la contabilidad de cada una de las respuestas y observaciones que se

señalan en cada una de las encuestas.

Una vez que son obtenidos los resultados de los indicadores estos se almacenan

como cualquier otro documento, sea de manera virtual, en el disco duro del

computador a cargo de quien realiza este cálculo o en folders que son almacenados

en anaqueles pertenecientes a la carrera, pero que con el paso del tiempo esto se

3

convierte en grandes cantidades de documentos impresos que ocupan mucho espacio

físico que a la final terminan deteriorándose o se pueden perder y en muchos de los

casos sucede que cuando se necesita un documento específico no se lo puede ubicar,

lo que se pretende es cambiar la forma en que se realiza este proceso de cálculo y

almacenamiento de la información.

FORMULACIÓN DEL PROBLEMA.

¿Cómo lograr que la data que se tiene actualmente pueda ser útiles en toma de

decisiones y como mantener una historia de ella para generar futuros reportes que

ayuden a los docentes a tomar decisiones acertadas apoyándose en herramientas

informáticas?

INTERROGANTES DE LA INVESTIGACIÓN.

¿A quién va dirigida exactamente la solución?

¿La implementación es en verdad necesaria frente a la problemática?

¿Las herramientas que se van a utilizar para la implementación de la arquitectura BI

son las indicadas, cumplen con la capacidad necesaria en funcionalidad y

rendimiento?

¿Una vez implementada la solución los usuarios serán capaces de operar las

herramientas implementadas y generar lo que deseen?

¿Los indicadores elegidos para mostrar la funcionalidad de la arquitectura BI son los

indicados?

OBJETIVOS.

OBJETIVO GENERAL.

Implementar una arquitectura BI en la Carrera de Educación Parvularia de la

Universidad Central del Ecuador para análisis de data proveniente de encuestas

realizadas a estudiantes de primero a noveno semestre para posteriormente generar

4

reportes y dashboard con indicadores del resultado de aprendizaje, se considerará dos

casos en específico.

• Seguimiento del sílabo

• Seguimiento de la malla.

OBJETIVOS ESPECÍFICOS.

Automatizar el cálculo de indicadores importantes para procesos de

acreditación recibiendo como fuente de información archivos planos

(Excel y .txt).

Implementar un repositorio (base de datos), el cual almacene

información histórica de los cálculos de indicadores e información

importante para la institución.

Crear ETL que tome la fuente de datos y lo cargue a la base de datos

de desembarco creada para la solución BI.

Crear ETL que transforme la data almacenada en desembarco para

cargarla en el Datawarehouse institucional y de esta manera sea

utilizada en el análisis.

Desarrollar dashboard que muestren indicadores actualizados de

rendimiento del resultado de aprendizaje, los cuales puedan ser

manipulados por usuarios que no sean expertos en informática.

JUSTIFICACIÓN.

Para que tener data histórica almacenada dentro de folders y puestos en anaqueles,

miles de documentos almacenados en una pc que solo ocupan el espacio en mi

computador, las empresas entendieron que el éxito está marcado por las buenas

decisiones que toman sus líderes en el momento preciso y la capacidad de poder

apoyarse de alguna manera en el momento de la toma de estas decisiones.

Business Intelligence agrupa varias tecnologías y metodologías que ayudan en el

análisis de data que posee la empresa realizando varias transformaciones y cruces

entre la data almacenada por la empresa durante su operatividad dando como

5

resultado conocimiento y apoyo en la toma de decisiones para lograr ventaja

competitiva. Lo que se desea realizar es la implementación de una infraestructura BI

que faciliten la obtención de indicadores de resultados de aprendizaje y seguimiento

a la malla curricular de tal manera que del resultado de esta implementación se

obtengan reportes útiles para docentes y personal involucrado en el proceso de

acreditación de la carrera.

Dichos reportes cambiaran la manera de llevar la información ya que la data que

alimente estos reportes estarán alojados en un DataWareHouse, el mismo que

también será implementado como parte de la arquitectura BI y que permitirá

almacenar la historia de cálculos de estos indicadores para cada uno de los semestres

en los periodos que hayan sido calculados y de esta forma se apoya a la carrera de

educación Parvularia con dos requisitos indispensables que recaen en el criterio de

Ambiente Institucional como parte del proceso de evaluación de la carrera

ALCANCE

La aplicación estará disponible para Docentes que intervienen de manera directa

con la Comisión de evaluación de la carrera y en exclusiva para los docentes que

manejan el tema de seguimiento al syllabus, estos usuarios no podrán modificar la

programación de la aplicación pero si hacer uso de la funcionalidad.

La aplicación entregará reportes de acuerdo al tiempo de estimación de los

usuarios es decir la periodicidad con que genere estos reportes y dashboard de

rendimientos serán controlados por los docentes de acuerdo a su necesidad.

Se manejará información histórica de hasta 3 periodos atrás contando desde el

actual periodo que cruce la carrera, este límite de tiempo es el considerado para

procesos de acreditación de las carreas.

El acceso a la información será manejada dentro de la red interna de la facultad y

será de carácter confidencial a menos que sea decidido de otra forma por las

autoridades de la institución.

La implementación de la arquitectura BI se la hará en la sala en la cual funciona la

comisión de evaluación interna de la carrera actualmente.

1

1 MARCO TEÓRICO.

1.1 Antecedentes.

Para tener una visión más clara del porqué del boom de BI en la actualidad, es

necesario comprender que esta manera de agrupar metodologías, técnicas y

herramientas informáticas no son para nada nuevas sino que aparecen ante la

necesidad que tiene la alta gerencia de una empresa por conocer como están ante el

resto de sus competidores, sus ventas se mantienen o están decreciendo, en cuanto

está creciendo o decreciendo su empresa con respecto al resto, son algunas de las

interrogantes que se dan por lo general en las personas que están a cargo de tomar

decisiones para que mejoren las cosas que actualmente tienen dentro de su empresa,

pero BI ayuda a cualquier institución a mejorar el proceso de toma de decisiones y

por ende genera satisfacción y crecimiento de la misma.

Business Intelligence toma todos los datos que ha generado la empresa a través del

tiempo y por una serie de procesos los transforma en información vital para la

misma, logrando con ello generar conocimiento y experiencia para apoyar la toma

de decisiones, las bases de datos transaccionales tradicionales que almacenan

registros no brindan la capacidad de analizar la data que tienen almacenada, estas

bases de datos solo nos ayudan al almacenamiento más no fueron creadas para

realizar análisis por el contrario BI alimenta un datawarehouse donde se almacena

información preparada para el análisis, por ejemplo si se estuviera realizando el

análisis de una tienda se podría averiguar el porcentaje de ventas de la tienda, cuál de

sus sucursales vende más, que día se vende más, cual es el producto más vendido por

agencia y en que día es más común, son algunas de las cosas que hace posible BI.

De manera similar en el sector educativo se puede realizar análisis semejantes y

obtener información de forma que ayude de manera sólida a la toma de decisiones, el

reto está en lograr obtener esta información importante y poderla consolidar y así

ayudar a mejorar la situación actual de la institución este es el reto que se asume al

implementar BI lograr satisfacer las necesidades del negocio mostrando resultados

2

que aporten de manera significativa a la institución en donde se lo está

implementando

1.2 Business Intelligence (Inteligencia de Negocios)

Business Intelligence (BI) es la habilidad para transformar los datos en información,

y la información en conocimiento, de forma que se pueda optimizar el proceso de

toma de decisiones en los negocios.

Figura 1. Etapas de BI (SINNEXUS, 2015)

Desde un punto de vista más pragmático, y asociándolo directamente con las

tecnologías de la información, podemos definir Business Intelligence como el

conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y

transformar datos de los sistemas transaccionales e información desestructurada

(interna y externa a la compañía) en información estructurada, para su explotación

directa (reporting, análisis OLTP / OLAP, alertas) o para su análisis y conversión en

conocimiento, dando así soporte a la toma de decisiones sobre el negocio. (CANO,

2007)

1.3 Conceptos generales de Business Intelligence.

Se ha mencionado anteriormente datos, información y conocimiento en la definición

de BI, para entender de mejor manera cada uno de ellos y por ende BI es necesario

definir cada uno de ellos y tener claro el papel que desempeñan en BI.

3

Datos: “Elementos primarios de información que por sí solos son irrelevantes

como apoyo a la toma de decisiones. El nombre o número telefónico, por

ejemplo, sin un propósito, una utilidad o un contexto no sirven como base

para apoyar la toma de una decisión.” (SINNEXUS, 2015).

Información: Conjunto de datos procesados y que tienen un significado

(relevancia, propósito y contexto), y que por lo tanto son de utilidad para

quién toma decisiones, al disminuir su incertidumbre. Los datos se

transforman en información añadiéndoles valor:

Contextualizando: se sabe en qué contexto y para qué propósito se

generaron.

Categorizando: se conocen las unidades de medida que ayudan a

interpretarlos.

Calculando: los datos pueden haber sido procesados matemática o

estadísticamente.

Corrigiendo: se han eliminado errores e inconsistencias de los datos.

Condensando: los datos se han podido resumir de forma más concisa

(agregación). (SINNEXUS, 2015)

Conocimiento: Mezcla de experiencia, valores, información y know-how

que sirve como marco para la incorporación de nuevas experiencias e

información, y es útil para la acción. Para que la información se convierta en

conocimiento es necesario realizar acciones como:

• Comparación con otros elementos.

• Predicción de consecuencias.

• Búsqueda de conexiones.

• Conversación con otros portadores de conocimiento

El conocimiento se deriva de la información, así como la información se deriva de

los datos. (SINNEXUS, 2015)

1.4 Componentes de Business Intelligence.

La figura 2 indica cómo está compuesto una solución BI, los componentes que

conforman esta solución son:

• Sistemas Fuentes.

4

Figura 2. Modelo Integral de una solución BI ((ESPIÑEIRA,

SHELDON Y ASOCIADOS, 2008).

• Integración.

• Almacén de datos (Datawarehouse).

• Data Mart.

• Herramientas de BI

• Query y Reporting.

Sistemas Fuentes: También llamados Fuente de datos, Son los sistemas transaccionales

que han sido diseñados fundamentalmente para el soporte de las operaciones del

negocio como, estos sistemas fuente son utilizados para alimentar al datawarehouse.

Las fuentes de información a las que podemos acceder son:

Sistemas operacionales o transaccionales, que incluyen aplicaciones

desarrolladas a medida, ERP, CRM, SCM, etc.

Sistemas de información departamentales: previsiones, presupuestos, hojas de

cálculo, etc.

Fuentes de información externa, en algunos casos comprada a terceros, como

por ejemplo estudios de mercado, IMS de la industria farmacéutica). Las

5

fuentes de información externas son fundamentales para enriquecer la

información que tenemos de nuestros clientes. (CANO, 2007).

Integración: En este tema se consideraremos la calidad de datos y los procesos ETL

(extracción, transformación y carga).

Calidad de datos: La calidad de los datos en un datawarehouse es

fundamental, Consecuentemente, es necesario asegurar que la calidad de los

datos es máxima. Si en el datawarehouse hay errores, éstos se propagarán a lo

largo de toda la organización y son muy difíciles de localizar. Además,

pueden ocasionar que se tomen decisiones erróneas que afecten a los

resultados de la organización. Los costes derivados de que la calidad de los

datos no sea la correcta pueden llegar a ser muy elevados. (CANO, 2007,

p98)

“La responsabilidad de la calidad de los datos no pertenece sólo a los

departamentos de tecnología: Debe asumirse la parte correspondiente en cada

uno de los propietarios de los procesos y de las aplicaciones que los

soportan.” (CANO, 2007, p100).

No hay demasiadas organizaciones que tengan un plan de calidad de datos; en

una encuesta de The datawarehouse Institute realizada en el año 2001, los

resultados obtenidos fueron contundentes: El 48% de las organizaciones

encuestadas no tenían un plan para gestionar o mejorar la calidad de los

datos. Por ello los datos para cumplir con una buena calidad deben cumplir:

• Precisión

• Integridad

• Coherencia

• Totalidad

• Validez

• Disponibilidad

• Accesibilidad

ETL (extracción, transformación y carga): Procesos que son parte de la integración

de datos. Es el componente que transporta los datos a lo largo de la arquitectura de

Inteligencia de negocio. Posee lógica de manejo de errores, transformaciones complejas

y métodos de carga optimizados, El proceso de ETL consume entre el 60% y el 80% del

tiempo de un proyecto de Business Intelligence, por lo que es un proceso clave en la

vida de todo proyecto, El proceso ETL se divide en 5 subprocesos:

6

• Extracción: Este proceso recupera los datos físicamente de las

distintas fuentes de información. como estén en la fuente.

• Limpieza: Este proceso recupera los datos en bruto y comprueba su

calidad, elimina los duplicados y, cuando es posible, corrige los

valores erróneos y completa los valores vacíos, es decir se

transforman los datos siempre que sea posible para reducir los errores

de carga. (CANO, 2007).

• Transformación: Este proceso recupera los datos limpios y de alta

calidad y los estructura y sumariza en los distintos modelos de

análisis. El resultado de este proceso es la obtención de datos limpios,

consistentes, sumarizados y útiles. (CANO, 2007).

• Integración: Este proceso verifica que los datos que cargamos en el

datawarehouse son consistentes con las definiciones y formatos del

datawarehouse. (CANO, 2007).

• Actualización: Este proceso es el que nos permite añadir los nuevos

datos al datawarehouse. (CANO, 2007).

Datawarehouse o almacén de datos: Se lo puede definir como una base de datos

corporativa que se caracteriza por integrar y depurar información de una o más

fuentes distintas, para luego procesarla permitiendo su análisis y con grandes

velocidades de respuesta.

La aparición de los datawarehouse o Almacenes de datos son la respuesta a las

necesidades de los usuarios que necesitan información consistente, integrada,

histórica y preparada para ser analizada para poder tomar decisiones. (CANO, 2007).

Se caracteriza por ser:

Orientado a un área: significa que cada parte del datawarehouse está construida

para resolver un problema de negocio, que ha sido definido por los tomadores de

decisiones.

Por ejemplo: Entender los hábitos de compra de nuestros clientes, analizar la

calidad de nuestros productos, analizar la productividad de una línea de

fabricación, etc. Para poder analizar un problema de negocio necesitamos

información que proviene de distintos sistemas y la organizamos entorno a áreas:

ventas, clientes, elementos de transporte, etc. Provee a los tomadores de

decisiones de una visión completa y concisa sobre una problemática de negocio,

7

obviando toda aquella información que no necesitan para la toma de decisiones.

(CANO, 2007, p114).

Integrado: “La información debe ser transformada en medidas comunes, códigos

comunes y formatos comunes para que pueda ser útil. La integración permite a

las organizaciones implementar la estandarización de sus definiciones, por

ejemplo: La moneda en la que están expresados los importes es común.” (CANO,

2007, p114).

Indexado en el tiempo: “significa que se mantiene la información histórica y se

almacena referida a determinadas unidades de tiempo, tales como horas, días,

semanas, meses, trimestres o años. Ello nos permitirá analizar, por ejemplo, la

evolución de las ventas en los periodos que queramos.” (CANO, 2007, p114).

No volátil: “significa que los usuarios no la mantienen, como lo harían en los

entornos transaccionales. La información se almacena para la toma de decisiones.

No se va actualizando continuamente, sino periódicamente, de forma

preestablecida.” (CANO, 2007, p115).

Frente a los sistemas transaccionales tiene la ventaja para apoyar a la toma de

decisiones, puesto que los sistemas transaccionales no suelen tener la data preparada

para objetivos de análisis.

Según Ralp Kimbal, (2015), define a los siguientes como objetivos que debería

cumplir un DW:

El DW da acceso a la información de la corporación o del área funcional. El

alcance del DW puede ser bien un departamento o bien corporativo.

La información del DW es consistente.

La información en el DW puede ser separada y combinada para analizar cada una

de las posibles medidas del negocio.

El DW no es sólo información sino también las herramientas de consulta, análisis

y presentación de la información.

Es el lugar donde se publica la información.

La calidad de la información en el DW es el motor del business reengineering.

Datamart: Los datawarehouses se representan habitualmente como una gran base de

datos, pero puede estar distribuidos en distintas bases de datos, habitualmente

construir estas bases de datos puede generar inflexibilidades, o ser costoso y requerir

8

plazos de tiempo que las organizaciones no está dispuestos a aceptar. En parte, estas

razones originaron la aparición de los Datamart.

Los Datamart se los puede definir como base de datos departamentales por ello están

dirigidos a una comunidad de usuarios dentro de la organización, que puede estar

formada por los miembros de un departamento, o por los usuarios de un determinado

nivel organizativo, o por un grupo de trabajo multidisciplinar con objetivos comunes.

(CANO, 2007).

Existen tres tipos de diseño:

Estrella

Copo de Nieve

Modelo multi-estrella (multi-star mmodel)

Modelo tipo estrella (star model).

Se compone típicamente de una tabla de gran tamaño, conocida como tabla de

hechos y un conjunto de tablas que la rodea que contienen datos descriptivos,

llamadas dimensiones. (CANO, 2007).

Modelo tipo copo de nieve (snowflake model).

Se dice que una dimensión es de copo de nieve cuando las columnas de baja

cardinalidad en la dimensión se han quitado para soparlas en tablas normalizadas,

generalmente se usa cuando se quiere tener más ordenada la data. (CANO, 2007).

Figura 3. modelo estrella.

9

Figura 4. Modelo copo de nieve.

Modelo multi-estrella (multi-star mmodel).

El modelo multi- estrella consiste en varias tablas de hechos, unidas a través de

las dimensiones. La figura 5 muestra un esquema de un modelo multi-estrella.

(CANO, 2007).

Simplificando para construir un Datawarehouse podemos usar dos modelos:

estrella, copo de nieve o una combinación.

Figura 5. Modelo multi estrella

10

El modelo estrella es el más sencillo y el más utilizado ya que su estructura es

simple y hace que la extracción de datos sea más rápida, sin embargo para su uso

mucha información debe estar contenida en cada una de las tablas de dimensión.

El modelo copo de nieve se puede utilizar si se desea más orden en el

almacenamiento de datos sin embargo al existir más relaciones en el modelo este

se volvería poco eficiente para buscar la información además de volverse

complejo de mantener.

1.5 Comparativa de herramientas BI.

A continuación se muestra la comparativa de la herramienta BI OPEN SOURCE que se

consideró para la solución del problema planteado en el presente trabajo y se aclarará

porque no se utilizó herramientas de licencia pagada para la solución.

El siguiente cuadro muestra que Pentaho es tan competente como QlikView a la hora de

implementar una arquitectura BI.

PENTAHO QLIK VIEW

Replica el modelo de Suite

BI completa ofrecida

tradicionalmente por

Business Objects, Cognos,

Microstrategy, etc.

Basado en el Open Source.

Utiliza la "lógica asociativa" (AQL), técnica que

realiza los análisis y cálculos en memoria

obteniendo con ello un tiempo de respuesta

excelente.

Es muy útil para la elaboración de prototipos

rápidos, con un Modelo de Datos sencillo y

enfoque de Cuadro de Mando pero pierde

eficiencia cuando se desea pasar a un sistema BI

más completo con Informes, análisis OLAP, Data

Mining, etc.

Su versión Community, la

más extendida y utilizada,

no tiene coste.

Su precio es sensiblemente inferior respecto a

Business Objects, Cognos, Microstrategy, etc.

Utiliza una aproximación de

metadatos y un modelo

multidimensional

centralizado

Sus Cuadros de Mando son elegantes y sencillos

de usar, sin embargo, carece de la variedad y

cantidad de módulos que posee Pentaho. Carece

de metadatos centralizados.

Carece de sistema Molap,

pero si existe la solución

PALO Open Source, con

conectores ETL con

Pentaho de forma que

pueden usarse

conjuntamente.

Necesita que todos los datos a consultar sean

cargados en memoria. Carece de sistema Molap

que permita establecer presupuestación,

forecasts, simulación, reglas de negocio, etc.

11

Dispone de cubos OLAP,

que permiten manejar

fácilmente grandes

volúmenes de información.

No dispone de cubos OLAP y ofrece a cambio su

tecnología asociativa que permite integrar nuevas

fuentes de datos fácil y rápidamente.

Por el contrario, esta

tecnología presenta algunos

problemas a la hora de

ampliar las aplicaciones

debido a las limitaciones de

las tecnologías de cubos

que acotan el número de

dimensiones

Por el contrario, dicha tecnología es poco

efectiva cuando se trabaja con grandes

volúmenes de información o muchas

dimensiones.

Dispone de una completa

suite ETL, llamada Pentaho

Data Integration

Al usar lógica asociativa, no dispone de una suite

ETL.

El tiempo de

implementación es bastante

superior a 3 meses, por lo

tanto, el costo de

consultoría es mayor.

El tiempo de implementación suele ser inferior a

3 meses, por lo tanto, el costo de consultoría es

menor.

Curva de aprendizaje de 1 a

2 semanas.

Curva de aprendizaje inferior a 1 semana.

Ambos son accesibles y disponen de visualización desde iPad, Android, etc.

Ambas herramientas han tenido un crecimiento espectacular en los últimos años

En el caso de Qlikview el crecimiento más fuerte se produjo hace unos pocos

años y el de Pentaho es más reciente.

Ambas herramientas tienen wizards e interfaces gráficos muy intuitivos.

Tabla 1. Comparación Pentaho – ClickView. (BUYTO, 2009)

Pentaho ha despuntado en los últimos tiempos en el cuadrante mágico de GARTNER,

posicionándose cada vez más como una herramienta de BI útil y versátil y Qlikview se

muestra como una herramienta líder, sin embargo el punto a favor y que marca que se

optara por PENTAHO es el bajo coste y que se puede implementar en equipos no tan

complejos a nivel de hardware, es decir puede desplegarse sobre una máquina común la

cual puede ser accedida fácilmente por la Carrera de Educación Parvularia.

Pentaho es intuitivo y fácil de entender no es necesario que el usuario sea un experto en

programación para utilizarlo, la inversión en su implementación cumplen con las

expectativas de la institución

12

1.6 Herramientas de BI

En este componente se debe analizar las tecnologías que permitirán tratar y visualizar

la información que reside en un DW.

Para la solución implementada se ha utilizado la herramienta PENTAHO con sus

variados componentes, la figura 6 vemos que para el año 2016 pentaho se está

consolidando como una herramienta muy versátil y completa que según GARTNER

lo cataloga visionario, pero ¿Qué es Pentaho?, según (FUGU SOFTWARE

FACTORY, 2015)” Pentaho es una herramienta de Business Intelligence

desarrollada bajo la filosofía del software libre para la gestión y toma de decisiones

empresariales. Es una plataforma compuesta de diferentes programas que satisfacen

los requisitos de BI. Ofreciendo soluciones para la gestión y análisis de la

Figura 6. Cuadrante Mágico de Gartner para BI y Plataformas

Analíticas (GARTNER, 2016)

13

información, incluyendo el análisis multidimensional OLAP, presentación de

informes, minería de datos y creación de cuadros de mando para el usuario”.

La plataforma ha sido desarrollada bajo el lenguaje de programación Java y tiene un

ambiente de implementación también basado en Java, haciendo así que Pentaho sea

una solución muy flexible al cubrir una alta gama de necesidades empresariales.

Existen distintas tecnologías que nos permiten analizar la información que reside en

un datawarehouse, pero la más extendida es el OLAP.

Los usuarios necesitan analizar información a distintos niveles de agregación y sobre

múltiples dimensiones.

Por ej., ventas de productos por zona de ventas, por tiempo, por clientes o tipo de

cliente y por región geográfica.

Los usuarios pueden hacer este análisis al máximo nivel de agregación o al máximo

nivel de detalle.

OLAP provee de estas funcionalidades y algunas más, a estos tipos de análisis se les

llama multidimensionales, porque facilitan el análisis de un hecho desde distintas

perspectivas o dimensiones.

OLAP (On-line Analytical Processing): Son bases de datos orientadas al

procesamiento analítico que se basan en el análisis multidimensional de los datos y

que permiten al usuario tener una visión más rápida e interactiva de los mismos.

El OLAP Council sumarizó las 12 reglas de Codd en lo que ellos llamaban el

concepto FASMI que los productos OLAP deben cumplir.

El concepto FASMI proviene de las siglas de las iniciales en inglés:

FAST (Rápido): Debe ser rápido, necesitamos lanzar consultas y ver los

resultados inmediatamente.

ANALYSIS (Análisis): Debe soportar la lógica de negocio y análisis estadísticos

que sean necesarios para los usuarios.

SHARED (Compartido): Tiene que manejar múltiples actualizaciones de forma

segura y rápida.

MULTIDIMENSIONAL (Multidimensional): Tiene que proveer de una visión

conceptual de la información a través de distintas dimensiones.

14

INFORMATION (Información): Debe poder manejar toda la información

relevante y la información derivada.

La representación gráfica de OLAP son los cubos.

Figura 7. Representación gráfica de OLAP. (CANO, 2007, P127).

Las herramientas OLAP nos permiten “rotar” (en inglés “slicing”) los cubos, es

decir, cambiar el orden de las distintas dimensiones.

Figura 8. Slicing de dimensiones (CANO, 2007, P128).

15

También permiten hacer “roll-up and drill-down” es decir agregaciones y jerarquías

Tipos de herramientas OLAP: Existen distintos tipos de herramientas OLAP. La

diferencia entra ellas, básicamente, depende de cómo acceden a los datos:

ROLAP: Relational OLAP o Las capacidades OLAP acceden directamente a la

base de datos relacional. Se accede por tanto a una base de datos relacional

(RDBMS). Accede habitualmente sobre un modelo “estrella”. La principal ventaja

es que no tiene limitaciones en cuanto al tamaño, pero es más lento que el MOLAP.

MOLAP: Multimensional OLAP o La implementación OLAP accede directamente

sobre una base de datos multidimensional (MDDB). La ventaja principal de esta

alternativa es que es muy rápida en los tiempos de respuesta y la principal

desventaja es que, si queremos cambiar las dimensiones, debemos cargar de nuevo

el cubo.

HOLAP: Hybrid OLAP o Accede a los datos de alto nivel en una base de datos

multidimensional y a los atómicos directamente sobre la base de datos relacional. En

esencia utiliza las ventajas del ROLAP y del MOLAP.

Las formas de acceso de las herramientas OLAP pueden ser:

• Cliente/Servidor: lo que significa tener las instalaciones locales en los

ordenadores de los usuarios.

Figura 9. Agregación y Jerarquías por dimensión. (CANO, 2007, P129).

16

• Acceso web: cliente, cliente ligero, o sólo con el navegador.

En este tipo de acceso el navegador comunica con un servidor web, el cual

habla con la aplicación del servidor, que es la que conecta con el

datawarehouse. (CANO, 2007).

MySQL: es un sistema de gestión de bases de datos relacionales, multihilo y

multiusuario con más de seis millones de instalaciones, se ofrece bajo la licencia GNU-

GPL de manera libre y también de forma pagada para las instituciones que deseen

incorporarla a su arquitectura.

MySQL es muy utilizado en aplicaciones web, como Drupal o phpBB, en plataformas

(Linux/Windows-Apache-MySQL-PHP/Perl/Python), y por herramientas de

seguimiento de errores como Bugzilla.

Las ventajas de uso son:

Velocidad al realizar las operaciones, lo que le hace uno de los gestores con

mejor rendimiento.

Bajo costo en requerimientos para la elaboración de bases de datos, ya que

debido a su bajo consumo puede ser ejecutado en una máquina con escasos

recursos sin ningún problema.

Facilidad de configuración e instalación. Soporta gran variedad de Sistemas

Operativos

Baja probabilidad de corromper datos, incluso si los errores no se producen en

el propio gestor, sino en el sistema en el que está.

Su conectividad, velocidad, y seguridad hacen de MySQL Server altamente

apropiado para acceder bases de datos en Internet

El software MySQL usa la licencia GPL

JDK: es un software que provee herramientas de desarrollo para la creación de

programas en java.

Los programas más importantes que se incluyen son:

Javac: es el compilador de JAVA.

java: es el intérprete de JAVA.

javadoc: genera la documentación de las clases java de un programa.

Appletviewer: es un visor de applet para generar sus vistas previas, ya que un

applet carece de método main y no se puede ejecutar con el programa java.

17

jar: para manipular ficheros .jar

javah: que es un fichero de cabecera para escribir metodos nativos.

javap: para descompilar ficheros compilados.

extcheck : para detectar conflictos jar.

1.7 Query y Reporting.

Son herramientas para la elaboración de informes y listados, tanto en detalle como

sobre información agregada, a partir de la información del Data Warehouse y/o Data

Marts.

Estas herramientas a nivel general, es decir, independientemente de la organización

que las patrocine o licencie, tienen las siguientes características:

Niveles de información según perfiles de usuario: es decir, se puede definir

qué usuario puede ver ciertos datos y que usuario no los puede ver.

Informes dinámicos: a nivel de contenido: drill-down, agregación, entre

otros; a nivel de forma: columnas, tipos de letra, entre otros formatos de

salida de los informes: HTML, Excel, PDF, texto plano, entre otros.

Canales de salida: web, dispositivos móviles.

Pentaho cuenta con Pentaho Report Designer el cual es un editor basado en

eclipse con prestaciones profesionales y de calidad y con capacidad de

personalización de informes a las necesidades de negocio destinado a

desarrolladores. Incluye un editor de consultas para facilitar la confección de los

datos que serán utilizados en un informe.

La visualización de los informes por parte de los usuarios está gestionado por la

herramienta Pentaho BI Plataform La plataforma de Pentaho BI provee de

servicios críticos incluyendo programación, seguridad, integración automatización y

flujo de trabajo. Proporcionando habilidades a los usuarios finales de Pentaho y

provenido un lugar central para administrar y mantener el despliegue de la empresa

BI.

Integración con procesos de negocio.

Administra y programa reportes.

18

Administra seguridad de usuarios.

La figura 10 nos muestra la arquitectura estructurada de las diferentes componentes

que forman parte de Pentaho las cuales brindan una completitud en cuanto a

funcionalidad y rendimiento:

La solución Business Intelligence Open Source Pentaho pretende ser una alternativa

a las soluciones propietarias tradicionales más completas: Business Objects, Cognos,

Microstrategy, Microsoft, etc. Por lo que incluye todos aquellos componentes que

nos podemos encontrar en las soluciones BI propietarias más avanzadas:

Reporting.

Analysis.

Dashboards.

Workflow.

Data Mining.

ETL.

Single Sign-On.

Ldap.

Auditoría de uso y rendimiento.

Planificador.

Notificador.

Seguridad.

Perfiles.

19

Figura 10. Arquitectura estructurada Pentaho (Fugu

Software Factory, 2015)

20

2 METODOLOGÍA DE DESARROLLO.

Antes de comenzar el proyecto BI, se tiene que determinar el tipo de metodología se

va a utilizar. Existen diferentes métodos, todos relacionados con el ámbito del

despliegue de sistemas de información, con alguna concreción referente a los

sistemas de BI y DW.

2.1 Metodología HEFESTO.

HEFESTO es una metodología propia, cuya propuesta está fundamentada en una

muy amplia investigación, comparación de metodologías existentes y experiencias

propias en procesos de confección de almacenes de datos.

La idea principal, es comprender cada paso que se realizará, para no caer en el tedio

de tener que seguir un método al pie de la letra sin saber exactamente qué se está

haciendo, ni por qué.

La figura 11 muestra en un resumen breve como se lleva a cabo esta metodología, en

la sección 2.2.3 ya se habló de los componentes

Figura 11. Metodología HEFESTO. (CANO, 2007)

21

de BI por lo que ya se tiene claro cada uno de los requerimientos importantes para

comenzar a definir una arquitectura de BI.

Para la implementación se va a utilizar la metodología HEFESTO por lo siguiente:

Los objetivos y resultados esperados en cada fase se distinguen fácilmente y

son sencillos de comprender.

Se basa en los requerimientos del usuario, por lo cual su estructura es capaz

de adaptarse con facilidad y rapidez ante los cambios en el negocio.

Reduce la resistencia al cambio, ya que involucra al usuario final en cada

etapa para que tome decisiones respecto al comportamiento y funciones del

DW.

Utiliza modelos conceptuales y lógicos, los cuales son sencillos de interpretar

y analizar.

Es independiente del tipo de ciclo de vida que se emplee para contener la

metodología.

Es independiente de las herramientas que se utilicen para su implementación.

Es independiente de las estructuras físicas que contengan el DW y de su

respectiva distribución.

Cuando se culmina con una fase, los resultados obtenidos se convierten en el

punto de partida para llevar a cabo el paso siguiente.

Se aplica tanto para Data Warehouse como para Data Mart. (CANO, 2007).

2.2 Pasos y aplicación metodológica.

2.2.1 P. 1. Análisis de requerimientos.

Lo primero es identificar los requerimientos del usuario a través de preguntas que

expliciten los objetivos de su organización, para posteriormente analizarlas, estas

preguntas dirán cuáles son los indicadores y perspectivas que se deberá tomar en

cuenta para la construcción del DW. Finalmente se confeccionará un modelo

conceptual en donde se podrá visualizar el resultado obtenido en este primer paso.

Lo que se debe considerar será lo siguiente:

Identificar preguntas: Para esto se hará el análisis de los requerimientos de los

diferentes usuarios, es el punto de partida de esta metodología, ya que ellos son los

que deben, en cierto modo, guiar la investigación hacia un desarrollo que refleje

claramente lo que se espera del depósito de datos, en relación a sus funciones y

cualidades.

22

El objetivo principal de esta fase, es la de obtener e identificar las necesidades de

información clave de alto nivel, que es esencial para llevar a cabo las metas y

estrategias de la empresa, y que facilitará una eficaz y eficiente toma de decisiones.

Identificar indicadores y perspectivas de análisis: Se debe tener en cuenta que los

indicadores para que sean efectivos son, en general, valores numéricos y representan

lo que se desea analizar concretamente, por ejemplo: saldos, promedios, cantidades,

sumatorias, fórmulas, etc.

En cambio, las perspectivas se refieren a los objetos mediante los cuales se quiere

examinar los indicadores, con el fin de responder a las preguntas planteadas, por

ejemplo: clientes, proveedores, sucursales, países, productos, rubros, etc. Cabe

destacar, que el Tiempo es muy comúnmente una perspectiva.

Modelo Conceptual: Este modelo se construye a partir de los indicadores y

perspectivas mediante lo cual se podrá definir el alcance del proyecto.

Figura 13. Ejemplo modelo conceptual. (CANO, 2007).

Figura 12. Indicadores y perspectivas. (CANO, 2007).

23

En la figura 13 se muestra el modelo conceptual en base a los indicadores y

perspectivas y para clarificar el panorama de solución en la figura 14 especifica un

ejemplo de este modelo.

2.2.2 P.2. Análisis de los OLTP.

Analizar las fuentes OLTP para determinar cómo serán calculados los indicadores y

para establecer las respectivas correspondencias entre el modelo conceptual creado

en el paso anterior y las fuentes de datos. Luego, se definirán qué campos se

incluirán en cada perspectiva. Finalmente, se ampliará el modelo conceptual con la

información obtenida en este paso, Lo que se debe cumplir en este paso es:

Determinación de Indicadores: En este paso se explicará cómo se calcularán

los indicadores, definiendo los siguientes conceptos para cada uno de ellos:

Hecho/s que lo componen, con su respectiva fórmula de cálculo.

Por ejemplo: Hecho1+ Hecho2.

Función de sumarización que se utilizará para su agregación.

Por ejemplo: SUM, AVG, COUNT, etc.

Establecer correspondencias: Se examinara OLTP para determinar si contiene

toda la información necesaria para el análisis.

Figura 14. Ejemplo de modelo. (CANO, 2007).

24

Nivel de granularidad: Aquí se definirá a que nivel queremos llevar el análisis y

para ello se hará uso de las perspectivas que se han definido, en este caso el

tiempo juega un papel importante para definir el nivel de granularidad.

Un ejemplo es el análisis de ventas, lo podríamos hacer en base al tiempo

tomando como referencias.

o Diario

o Semanal

o Mensual

o Anual, etc.

Modelo Conceptual ampliado: De acuerdo a lo anterior ya se puede generar un

modelo conceptual más ampliado la figura siguiente detalla cómo hacerlo.

2.2.3 P.3. Modelo lógico del DW.

En este paso se realiza el modelo lógico de la estructura del DW, teniendo como

base el modelo conceptual. Para ello, primero se definirá el tipo de modelo que se

utilizará y luego diseñar las tablas de dimensiones y de hechos. Finalmente, se

realizarán las uniones pertinentes entre estas tablas. (CANO, 2007).

Tablas de dimensiones: En este paso se debe diseñar las tablas de dimensiones que

formaran parte del DW.

Figura 15. Ejemplo modelo conceptual ampliado. (CANO, 2007).

25

Dependerá del tipo de esquema elegido para el diseño, cada perspectiva definida en

el modelo conceptual constituirá una tabla de dimensión. Para ello deberá tomarse

cada perspectiva con sus campos relacionados y realizarse el siguiente proceso:

• Se elegirá un nombre que identifique la tabla de dimensión.

• Se añadirá un campo que represente su clave principal.

• Se redefinirán los nombres de los campos si es que no son lo

suficientemente intuitivos.

Para las tabas dimensiones del modelo copo de nieve estas dimensiones deberán ser

normalizadas como muestra la figura 16. (CANO, 2007).

Tablas de hechos: Se definirá las tablas de hechos, que son las que contendrán los

hechos a través de los cuales se construirán los indicadores de estudio.

Para los esquemas en estrella y copo de nieve, se realizará lo siguiente:

Se le deberá asignar un nombre a la tabla de hechos.

Se definirá su clave primaria, que se compone de la combinación de las

claves primarias de cada tabla de dimensión relacionada.

Figura 16. Dimensión. (CANO, 2007).

Figura 17. Dimensiones en esquema copo de nieve.

(CANO, 2007).

26

Se crearán tantos campos de hechos como indicadores se hayan definido en el

modelo conceptual y se les asignará los mismos nombres que estos.

Para los esquemas constelación se realizará lo siguiente:

Caso 1: Si en dos o más preguntas figuran los mismos indicadores pero con

diferentes perspectivas de análisis, existirán tantas tablas de hechos como

preguntas cumplan esta condición. Por ejemplo:

Caso 2: Si en dos o más preguntas figuran diferentes indicadores con diferentes

perspectivas de análisis, existirán tantas tablas de hechos como preguntas

cumplan esta condición, la figura 19 muestra el ejemplo.

Figura 18. Ejemplo Tabla de hechos. (CANO, 2007).

Figura 19. Caso 1. (CANO, 2007)

Figura 20. Caso 2. (CANO, 2007).

27

Caso 3: Si el conjunto de preguntas cumplen con las condiciones de los dos

puntos anteriores se deberán unificar aquellos interrogantes que posean diferentes

indicadores pero iguales perspectivas de análisis, para luego reanudar el estudio

de las preguntas. (CANO, 2007). Por ejemplo:

Uniones: Son las formas de relacionar las dimensiones con las tablas de hechos.

2.2.4 P.4. Procesos ETL.

Finalmente en este paso se realizan los procesos de ETL, los cuales están

completamente detallados en la sección 2.2.3.2.

P.5. Perfomance y mantenimiento del DW.

Consiste en la mejora y mantenimiento del Datawarehouse.

Figura 21. Caso 3

28

3 CALCULOS Y RESULTADOS.

Para la implementación de la arquitectura BI se va a usar la metodología de

HEFESTO la cual se especificó en la sección 2.2.4.1.

3.1 Empresa analizada.

La organización en la que se procederá a implementar el presente trabajo es la

FACULTAD DE FILOSOFÍA carrera de EDUCACIÓN PARVULARIA DE LA

UNIVERSIDAD CENTRAL DEL ECUADOR, institución no lucrativa dedicada a la

educación superior.

En el portal electrónico de la UNIVERSIDAD CENTRAL DEL ECUADOR La

Carrera de Educación Parvularia se describe de la siguiente manera. La Carrera de

Educación Parvularia tiene un firme compromiso de ofertar una educación eficiente,

caracterizada por innovaciones científicas y tecnológicas de punta. Quienes hacemos

la Carrera de Educación Parvularia asumimos este reto con un valor agregado: el

formar integralmente a nuestros profesionales con una concepción humanista para

brindar atención con calidad y calidez.

Como respuesta a las características y necesidades del contexto histórico, en la

Facultad de Filosofía, Letras y Ciencias de la Educación, y en la Escuela de

Pedagogía (en ese entonces) se crea la Especialidad de Educación Parvularia, cuyo

registro en la SENESCYT, consta como: “Carrera: Ciencias de la Educación

Mención Educación Parvularia, código 00421.Universidad Central del Ecuador,

lugar Quito, modalidad presencial, tercer nivel”.

3.2 Análisis de requerimientos.

3.2.1 Identificar preguntas.

Para el siguiente proyecto se solicitó los siguientes requerimientos funcionales, los

cuales fueron determinados por los usuarios expertos.

29

REQUERIMIENTO DETALLE

RF1. Total de participantes que realizan en la encuesta en cada una de las semanas de evaluación en el periodo de evaluación.

RF2. Total de respuestas “NO” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.

RF3. Total de respuestas “SI” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.

RF4. Total de respuestas “PARCIAL” en cada una de las materias, resultado de aprendizaje y semana de evaluación en el periodo actual.

RF5. Porcentaje de cumplimiento del resultado de aprendizaje, por resultado de aprendizaje, materia, semana de evaluación en cada uno de los semestres en el periodo actual de evaluación.

RF6. Total de observaciones “Contenidos actualizados” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.

RF7. Total de observaciones “Metodología pertinente” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.

RF8. Total de observaciones “Estrategias de evaluación” por resultado de aprendizaje, materia, semana en cada una de las materias en el periodo actual de evaluación.

RF9. Construcción de tabla histórica de hechos que almacene la información de resultados de aprendizaje

RF10. Reporte general con información de los resultados de aprendizaje por materia, resultado de aprendizaje y semana de evaluación en el periodo actual de evaluación implementado en pentaho report designer.

RF11. Reporte que muestre el total de cumplimiento de cada materia en el periodo actual en base a los resultados positivos alcanzados en cada una de las evaluaciones realizadas en el período.

Tabla 2. Requerimientos funcionales.

3.2.2 Indicadores y perspectivas de análisis.

Indicadores.

Total de respuestas NO

Total de respuestas SI

Total de respuestas PARCIAL

Porcentaje cumplimiento del resultado de aprendizaje.

Total de respuestas observación Contenidos actualizados

Total de respuestas observación Metodología pertinente

Total de respuestas observación Estrategias de evaluación

Total de participantes.

30

Perspectivas de análisis.

Materia.

Semestre.

Período.

Pregunta (Resultado de aprendizaje).

Tiempo.

Modelo conceptual: En esta parte se decidió desarrollar por separado lo que es

netamente las respuestas a los indicadores y por otro lado detallar las observaciones que

se dieron a estas respuestas es por ello que se detallan dos figuras que al final siempre

están atadas al porcentaje de cumplimiento del resultado de aprendizaje.

Figura 22. Modelo conceptual.

31

3.3 Análisis de los OLTP.

3.3.1 Determinación de indicadores.

INDICADOR: Número de si

HECHOS: Número de si

FUNCIÓN SUMARIZACIÓN:

COUNT, GROUP

ACLARACIÓN:

EL indicador “número de si” es el total de si que se obtuvieron después

de realizar la encuesta, en una semana de evaluación en específico para

cada resultado de aprendizaje.

Tabla 3. Indicador número de sí.

INDICADOR: Número de No

HECHOS: Número de No


COUNT, GROUP

ACLARACIÓN:

EL indicador “número de no” es el total de no que se obtuvieron después

de realizar la encuesta, en una semana de evaluación en específico para

cada resultado de aprendizaje.

Tabla 4. Indicador número de no.

Figura 23. Modelo conceptual observaciones.

32

INDICADOR: Número de Parcial.

HECHOS: Número de Parcial.


COUNT, GROUP

ACLARACIÓN:

EL indicador “número de parcial” es el total de parcial que se obtuvieron

después de realizar la encuesta, en una semana de evaluación en

específico para cada resultado de aprendizaje.

Tabla 5. Indicador número de parcial.

INDICADOR Total de participantes.

HECHOS: Total de participantes.


COUNT, GROUP

ACLARACIÓN:

El indicador “total de participantes”, es el número total de participantes

que realizaron la encuesta en la semana de evaluación y por cada resultado

de aprendizaje.

Tabla 6. Total de participantes.

INDICADOR: Porcentaje de cumplimiento.

HECHOS: (Número de si)*100%)/(Total de participantes)


GROUP

ACLARACIÓN:

El indicador “Porcentaje de cumplimiento”, es el resultado de

cumplimiento de los resultados de aprendizaje convirtiéndolo en el

indicador más importante para la organización.

Tabla 7. Porcentaje de cumplimiento.

INDICADOR: Número de contenidos actualizados.

HECHOS: Número de contenidos actualizados.


COUNT, GROUP

ACLARACIÓN:

El indicador “Número de contenidos actualizados”, es el número total de

observaciones correspondientes a la opción contenidos actualizados que

se presentaron como opción o sugerencia del cumplimiento o

incumplimiento del indicador resultado de aprendizaje.

Tabla 8. Número de contenidos actualizados.

33

INDICADOR: Número de estrategias de evaluación.

HECHOS: Número de estrategias de evaluación.


COUNT, GROUP

ACLARACIÓN:

El indicador “Número de estrategias de evaluación”, es el número total de

observaciones correspondientes a la opción estrategias de evaluación que

se presentaron como opción o sugerencia del cumplimiento o


Tabla 9. Número de estrategias de evaluación.

INDICADOR: Número de metodología pertinente.

HECHOS: Número de metodología pertinente.


COUNT, GROUP

ACLARACIÓN:

El indicador “Número de metodología pertinente”, es el número total de

observaciones correspondientes a la opción metodología pertinente que se

presentaron como opción o sugerencia del cumplimiento o


Tabla 10. Número de metodología pertinente.

3.3.2 Correspondencias.

La figura muestra la base de datos institucional en la cual se tiene almacenado

descripciones de indicadores pasados, con su correspondiente información, es decir

periodo en que se elabora el resultado de aprendizaje como pregunta para la

encuesta, el período por el cual se estaba cruzando en ese momento, materia a la que

pertenece dicha pregunta.

Figura 24. Modelo E/R parvularia.

34

La siguiente tabla muestra cómo se están mapeando los campos desde la base de

datos institucional hacia cada una de las perspectivas determinadas anteriormente.

TABLA E/R CAMPO PERSPECTIVA

PRV_PREGUNTA cod_pre RESULTADO DE APRENDIZAJE cod_mat

cod_per

dsc_pre

sem_pre

sem_hem

PRV_MATERIA cod_mat MATERIA

dsc_mat

sem_mat

PRV_PERIODO cod_per PERIODO

dsc_per

Tabla 11. Mapeo de columnas.

Para los indicadores la data será cargada desde archivos manuales en formato XLS,

los cuales son el resultado de las encuestas que se realizan en cada una de las

semanas de evaluación el mapeado se realiza de la siguiente manera.

CAMPO PESPECTIVA INDICADOR DESCRIPCIÓN

FECHA TIEMPO NA Asocia el campo fecha con la perspectiva tiempo

RES_PRE NA NUMERO DE SI

El campo res_pre agrupado por las respuestas SI y contabilizado en cada una del fechas de evaluación

RES_PRE NA NUMERO DE NO

El campo res_pre agrupado por las respuestas NO y contabilizado en cada una del fechas de evaluación

RES_PRE NA NUMERO DE PARCIAL

El campo res_pre agrupado por las respuestas PARCIAL y contabilizado en cada una del fechas de evaluación

RES_PRE NA NUMERO DE CONTENIDO ACTUALIZADO

El campo res_pre agrupado por las respuestas CONTENIDO ACTUALIZADO y contabilizado en cada una del fechas de evaluación

Figura 25. Archivo de respuestas.

35

RES_PRE NA NUMERO DE ESTRATEGIAS DE EVALUACIÓN

El campo res_pre agrupado por las respuestas ESTRATEGIAS DE EVALUACIÓN y contabilizado en cada una del fechas de evaluación

RES_PRE NA NUMERO DE METODOLOGIA PERTINENTE

El campo res_pre agrupado por las respuestas METODOLOGÍA PERTINENTE y contabilizado en cada una del fechas de evaluación

RES_PRE NA PORCENTAJE DE CUMPLIMIENTO DE RESULTADO DE APRENDIZAJE

Relacionado con el indicador total de participantes y el indicador número de si se evalúa en cada una de las fechas especificadas

RES_PRE NA TOTAL DE PARTICIPANTES

Relacionado con el campo res_pre, donde se contabiliza el número de participantes que realizan la encuesta

Tabla 12. Mapeo archivo de respuestas.

3.3.3 Nivel de granularidad.

A continuación se detalla los campos que serán considerados para cada perspectiva

definida anteriormente, y por lo que se analizara los indicadores:

Total de respuestas NO

Total de respuestas SI

Total de respuestas PARCIAL

Porcentaje cumplimiento del resultado de aprendizaje.

Total de respuestas observación Contenidos actualizados

Total de respuestas observación Metodología pertinente

Total de respuestas observación Estrategias de evaluación

Total de participantes.

Para la perspectiva materia se detalla en la tabla 12 los campos involucrados así

como también su descripción y tipo de dato que se manejara, de manera similar se

especifica para cada perspectiva detallada anteriormente.

36

TABLA: Materia

CAMPO TAMAÑO TIPO DE DATO DESCRIPCIÓN

cod_mat 11 integer Identificador de unicidad de la tabla

dsc_mat 50 varchar Descripción de la perspectiva materia

Relaciones: Campos clave: cod_mat

Tabla 13. Perspectiva Materia.

Para la perspectiva pregunta se detalla a continuación los campos que se utilizarán, la

tabla 13 especifica los campos.

TABLA: Pregunta

CAMPO TAMAÑO TIPO DE DATO

DESCRIPCIÓN

cod_pre 11 integer Identificador de unicidad de la tabla

dsc_pre 50 varchar Descripción de la perspectiva materia

sem_hem 11 integer hemisemestre correspondiente a la pregunta

sem_pre 11 integer semestre al cual corresponde la pregunta

Relaciones: Campos clave: cod_pre

Tabla 14. Perspectiva Pregunta

La perspectiva tiempo es una de las definiciones más importantes para la lógica de la

arquitectura para ello se define de la siguiente manera.

TABLA: Tiempo


cod_fec 11 integer Identificador de unicidad de la tabla

fecha 3 date fecha en la que se realiza la encuesta

dia_mes 11 integer campo que indica el día de un mes

dia_ano 11 integer campo que especifica el día del año

smna 11 integer campo que identifica la semana de un año

mes 11 integer campo que identifica el mes de un año

ano 11 integer campo que identifica el año

ano_ant 11 integer campo que identifica el año anterior al actual

Relaciones: Campos clave: cod_fec

Tabla 15. Perspectiva Tiempo.

En las tablas 15 y 16 se detalla los campos que se tomaran en cuenta para las

perspectivas semestre y periodo.

37

TABLA: Semestre


cod_sem 11 integer Identificador de unicidad de la tabla

dsc_sem 50 varchar Descripción de la perspectiva semestre

Relaciones: Campos clave: cod_sem

Tabla 16. Perspectiva Semestre.

TABLA: Periodo


cod_per 11 integer Identificador de unicidad de la tabla

dsc_per 50 varchar Descripción de la perspectiva periodo

Relaciones: Campos clave: cod_per

Tabla 17. Perspectiva Periodo.

3.3.4 Modelo conceptual ampliado.

Figura 26. Modelo conceptual porcentaje cumplimiento.

38

3.4 Modelo lógico del datawarehouse.

De acuerdo a las necesidades planteadas en la sección 3.2 y como se presenta la

información de la institución donde se va a implementar la solución BI, se ha

decidido adoptar un modelo estrella para el datawarehouse, la razón es simple se

necesita rapidez en las consultas y por facilidad de almacenamiento.

Tablas dimensiones: Para la definición de las tablas dimensiones se usará las

perspectivas que se plantearon en la sección 3.3.3.

TABLA: dim_materia


cod_mat 11 integer Identificador de unicidad de la tabla

dsc_mat 50 varchar Descripción de la perspectiva materia

Relaciones: Campos clave: cod_mat

Tabla 18. Dimensión materia

TABLA: dim_pregunta

CAMPO TAMAÑO TIPO DE DATO

DESCRIPCIÓN

cod_pre 11 integer Identificador de unicidad de la tabla

dsc_pre 50 varchar Descripción de la perspectiva materia

sem_hem 11 integer hemisemestre correspondiente a la pregunta

sem_pre 11 integer semestre al cual corresponde la pregunta

Relaciones: Campos clave: cod_pre

Tabla 19. Dimensión Pregunta.

TABLA: dim_tiempo


cod_fec 11 integer Identificador de unicidad de la tabla

fecha 3 date fecha en la que se realiza la encuesta

dia_mes 11 integer campo que indica el día de un mes

dia_ano 11 integer campo que especifica el día del año

smna 11 integer campo que identifica la semana de un año

mes 11 integer campo que identifica el mes de un año

ano 11 integer campo que identifica el año

ano_ant 11 integer campo que identifica el año anterior al actual

Relaciones: Campos clave: cod_fec

Tabla 20. Dimensión Tiempo.

39

TABLA: dim_semestre


cod_sem 11 integer Identificador de unicidad de la tabla

dsc_sem 50 varchar Descripción de la perspectiva semestre

Relaciones: Campos clave: cod_sem

Tabla 21. Dimensión Semestre.

TABLA: dim_periodo


cod_per 11 integer Identificador de unicidad de la tabla

dsc_per 50 varchar Descripción de la perspectiva periodo

Relaciones: Campos clave: cod_per

Tabla 12. Perspectiva Periodo.

Tablas hechos: La tabla de hechos se construirá en base a los indicadores

determinados en la sección 3.2.2, la siguiente figura detalla el contenido de la tabla

de hechos diseñada para la solución.

TABLA: hec_aprendizaje

CAMPO TAMAÑO

TIPO DE DATO DESCRIPCIÓN

cod_mat 11 integer código que relaciona la tabla de hechos con la dimensión materia

cod_sem 11 integer código que relaciona la tabla de hechos con la dimensión semestre

cod_pre 11 integer código que relaciona la tabla de hechos con la dimensión pregunta

cod_fec 11 integer código que relaciona la tabla de hechos con la dimensión fecha

cod_per 11 integer código que relaciona la tabla de hechos con la dimensión periodo

num_si 11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje

num_no 11 integer indicador que representa el total de respuestas NO para cada resultado de aprendizaje

num_par 11 integer indicador que representa el total de respuestas PARCIAL para cada resultado de aprendizaje

niv_cump

numeric(4,2) campo que almacena el porcentaje de cumplimiento para cada resultado de aprendizaje

tot_part 11 integer número de asistentes a realizar las encuestas

num_met_prt

11 integer indicador que representa el total de respuestas SI para cada resultado de aprendizaje

40

num_cnt_act


num_est_eva


Relaciones: cod_mat, cod_sem, cod_per, cod_pre, cod_fec

Campos clave: cod_sem, cod_mat, cod_pre, cod_fec, cod_per

Tabla 22. Hechos aprendizaje.

Datawarehouse: La figura muestra el diseño final de la solución que se ha

implementado en la carrera de Educación parvularia.

3.5 Procesos ETL.

Para el desarrollo de los procesos ETL se ha utilizado PENTAHO DATA

INTEGRATION en su versión 5.0.1 y distribución libre.

Los procesos ETL en pentaho se componen de dos elementos.

Trabajo

Transformación.

Los cuales se organizan y construyen para realizar varias transformaciones a la data

que se maneja en cada uno de los pasos que componen estos procesos.

Figura 27. Modelo Datawarehouse Parvularia.

41

Transformación: La transformación es el elemento básico de diseño de los procesos

ETL en PDI. Una transformación se compone de pasos o steps, que están enlazados

entre sí a través de los saltos o hops.

Trabajo: Un proceso es un conjunto sencillo o complejo de tareas con el objetivo de

realizar una acción determinada estos hacen el llamado a las transformaciones.

3.6 Procesos ETL para carga del área de stagin o de paso.

Antes de realizar el paso al datawarehouse se hace un desembarco de la data hacia un

repositorio temporal al cual se desembarca tal y como viene de la fuente, luego esta

data es consumida por los procesos ETL y finalmente se almacene en el

datawarehouse, es de gran ayuda este paso previo ya que se puede almacenar

información necesaria desde la base de datos, de catálogos que se han realizado de

manera manual los cuales se utilizan para complementar la información que se

necesita almacenar en el datawarehouse.

Proceso ETL para el desembarco de la tabla semestre, este proceso realiza como su

nombre lo indica un desembarco de la información tal y cual como viene de la fuente

hacia el área de desembarco a la tabla semestre de la solución BI, la siguiente figura

muestra la solución realizada para esta tabla.

Figura 28. Modelo desembarco Parvularia.

42

Para el paso de información de la base de datos de parvularia hacia el área de

desembarco se realizó el proceso siguiente.

La figura 32 muestra el trabajo que realiza el paso de información al área de

desembarco de las tablas de periodo y materia tomando como fuente la base de datos

de la institución la transformación asociada al proceso anterior es la siguiente.

Figura 29. Job_crg_des_cat_sem

Figura 30. trf_crg_des_cat_sem.

Figura 31. job_crg_des.

Figura 32. trf_crg_des.

43

Para la tabla pregunta del área de desembarco la fuente es un archivo manual

generado por las personas expertas del negocio, el usuario tiene las especificaciones

de elaboración del archivo como la ruta en donde debe colocarlo, para realizar la

carga de esta información al área de desembarco se utiliza el siguiente proceso ETL.

La figura 33 que detalla al trabajo de carga de pregunta en desembarco llama a la

transformación trf_crg_cat_pre la cual recibe un archivo manual en formato Excel y

lo carga hacia la tabla respuesta en desembarco, la siguiente figura muestra la

solución de este proceso.

A continuación se muestra el proceso crítico del negocio, este proceso se encarga de

desembarcar la información recogida del resultado de las encuestas realizadas

semana a semana en la carrera de educación parvularia a continuación se muestra el

proceso ETL que realiza este proceso, hay que mencionar que el archivo manual que

recibe como fuente el proceso ETL es elaborado por las personas delegadas por los

docentes y que tienen la capacitación necesaria para elaborar este documento en

formato Excel el nombre del documento es resp.xls.

Figura 33. job_crg_cat_pre.

Figura 34. trf_crg_cat_pre.

44

El trabajo mostrado en la figura llama a la transformación trg_crg_des_res_ind, esta

transformación hace todo el trabajo de carga de la tabla en desembarco llamada

des_pre, a continuación se muestra la imagen de la composición de este proceso.

Figura 36. trf_crg_des_res_ind.

3.7 Procesos ETL para carga del datawarehouse.

Proceso ETL que se encarga de crear y generar la dimensión TIEMPO, para ello se

realiza un Trabajo (JOB), el cual se encarga de llamar a una transformación en la

cual se establecen los procesos necesarios para que llene la tabla final de

dim_tiempo.

Figura 35. job_crg_des_res_ind

45

Transformación (TRF) encargada de realizar la carga de la tabla dim_tiempo en el

datawarehouse y que es llamada y ejecutada en el job job_crg_dim_tmp.

El resultado de la ejecución del trabajo job_crg_dim_tmp da como resultado la tabla

dim_tiempo, la figura siguiente muestra los datos que almacena esta dimensión.

Proceso ETL que se encarga de crear y generar la dimensión MATERIA, para ello se

realiza el Trabajo llamado job_crg_dim_mat, el cual se encarga de llamar a la

transformación en la cual se realizan los procesos necesarios para que llene la tabla

final de dim_materia.

Figura 37. job_crg_dim_tmp.

Figura 38. trf_dim_tiempo.

Figura 39. Dimensión tiempo.

46

Figura 41. trf_crg_dim_materia.

Figura 40. job_crg_dim_materia.

La transformación trf_crg_dim_materia es llamada para ejecutarse en el

trabajo job_crg_dim_mat, la figura siguiente muestra la solución.

El resultado del trabajo es la tabla dim_materia como se muestra en la

siguiente imagen.

Figura 42. Dimensión materia.

47

Para cargar la dimensión de período se desarrolló el trabajo job_crg_dim_per que

llama a la transformación trf_crg_dim_per, la cual hace el llenado de la tabla

dim_periodo.

Figura 43. job_crg_dim_per.

La transformación que realiza el proceso ETL para el llenado de la tabla dimensión

período se llama trf_crg_dim_per el cual está especificado en la siguiente figura.

Como resultado de este proceso tenemos la tabla dimensión periodo llena, la imagen

del resultado se muestra a continuación.

Figura 44. trf_crg_dim_per.

Figura 45. Dimensión periodo.

48

El proceso ETL que carga la dimensión de semestre se compone por el trabajo

llamado job_crg_dim_sem la cual consume o llama a la transformación que tiene por

nombre trf_crg_dim_sem las siguientes figuras muestran la solución.

El resultado de estos procesos es la dimensión semestre, los datos almacenados en

esta tabla se muestran en la figura siguiente.

Para el llenado de la tabla dimensión pregunta se utilizó el trabajo llamado

job_crg_dim_pre el cual llama a la transformación que tiene por nombre

trf_crg_dim_pre la composición de este proceso se detalla en la siguiente figura.

Figura 46. job_crg_dim_sem.

Figura 47. trf_crg_dim_sem.

Figura 48. Dimensión semestre.

49

La transformación trf_crg_dim_pre realiza la carga desde el área de desembarco

hacia la tabla de dimensión pregunta en el datawarehouse a esta información se la

maneja como un catálogo, la transformación se detalla en la siguiente figura.

El resultado de la ejecución de estos dos procesos encargados de llenar la tabla de

dimensiones materia es la siguiente.

De esta manera las tablas de dimensiones del modelo solución se han llenado

satisfactoriamente.

Continuando con la implementación tenemos la solución para la tabla más

importante del modelo nuestra tabla de hechos, a la cual se la nombro como

hec_aprendizaje, esta tabla almacenara toda la información que se vaya generando a

Figura 49. job_crg_dim_pre.

Figura 50. trf_crg_dim_pre

Figura 51. Dimensión pregunta.

50

través del tiempo de los distintos cálculos que se realicen en los distintos periodos de

evaluación, convirtiéndose en una tabla histórica y por ende en el pilar fundamental

del modelo, para ello se muestra los dos procesos asociados al llenado de esta tabla.

Trabajo job_crg_hec_resp realizado para llamar a la transformación trf_crg_hec_resp

la cual se encarga de cargar la tabla de hechos, a continuación se muestra la

implementación realizada.

El trabajo descrito en la figura 52 llama a la transformación trf_crg_hec_resp, la cual

toma toda la información cargada en el área de desembarco la procesa y limpia para

finalmente obtener los campos necesarios para almacenarlos en la tabla de hechos

hec_aprendizaje en el datawarehouse de la institución, la transformación que realiza

este trabajo se detalla en la figura siguiente.

Figura 52. job_crg_hec_resp.

51

El resultado de este último proceso es la tabla de hechos la cual nos ayudará como

base para la construcción de los reportes solicitados para la solución se muestra en la

figura 54.

Figura 53. trf_crg_hec_resp.

52

Una vez que se ha mostrado los procesos ETL desarrollados para la carga de las

distintas tablas de hechos y dimensiones, se ha desarrollado e implementado los

siguientes reportes solicitados por el usuario experto.

Cada uno de los reportes que se van a mostrar a continuación han sido validados por

el usuario, las imágenes siguientes solo mostrarán la captura de una materia ya que

son muy extensos los registros y se hace imposible mostrar muchos registros en la

captura.

La siguiente imagen muestra el reporte de porcentajes de cumplimiento de la carrera

en cada una de las materias por semestre, período en el que fue evaluado y fecha tope

de la semana de la evaluación.

Figura 54. Tabla hec_aprendizaje.

53

El detalle del reporte mostrado en la figura 55 se muestra en el siguiente reporte el

cual indica en forma clara los detalles de las respuestas que se registraron para esta

evaluación, aunque son reportes construidos de manera individual son a la vez muy

útiles si se los revisa conjuntamente, el detalle que contiene el reporte que se muestra

a continuación es a nivel informativo y sumariza los resultados que se obtienen en

cada semana que se aplicó la evaluación.

Figura 55. Reporte porcentaje de cumplimiento.

54

Al igual que los detalles de respuestas del tipo de satisfacción de los resultados de

aprendizaje se tiene el reporte de observaciones, el cual muestra la cantidad de

personas que se ha inclinado por una determinada circunstancia por la cual se

cumplió o no los objetivos, de manera análoga este reporte esta seccionado por

período, materia, resultado de aprendizaje (pregunta) en cada una de las semanas de

evaluación.

Figura 56. Detalle reporte porcentaje de cumplimiento.

55

El siguiente reporte muestra el porcentaje de cumplimiento global que se consiguió

en el semestre para cada materia indistintamente del resultado de evaluación

evaluado en cada una de las semanas sino que se tomó el resultado total de

satisfacción alcanzada en el semestre para cada materia en cada uno de los semestres

y periodo en el cual se realizó la evaluación.

Figura 57. Reporte detalle porcentaje de cumplimiento observaciones.

Figura 58. Reporte total de porcentaje de cumplimiento.

56

La figura 58 mostrará un solo registro para cada una de las materias, de esta manera

se ha realizado los reportes solicitados por el usuario.

Los reportes siguientes son gráficas que muestran como se ha comportado los

resultados obtenidos en cada una de las semanas de evaluación a manera de

indicadores.

Figura 59. Indicador respuestas resultados de aprendizaje.

57

El siguiente reporte contiene el indicador de cumplimiento de global de los

resultados de aprendizaje por cada materia, se establece un límite de cumplimiento

del 100% y sobre ello se grafica lo obtenido en el semestre y periodo actual.

Por último se tiene el reporte con el indicador de observaciones que muestra la

gráfica de comportamiento de respuestas para cada uno de los resultados de

aprendizaje en las semanas de evaluación respectiva, semestre y materia respectiva

en el período actual de evaluación.

Figura 60. Indicador respuestas resultados de aprendizaje.

58

Figura 61. Reporte indicadores de observaciones.

59

4 DISCUSIONES

De acuerdo a los requerimientos, los reportes presentados en el capítulo anterior

muestran la información solicitada por los usuarios, como aún no se tiene data

histórica el análisis a través del tiempo se hará a partir de la implementación de la

solución, para validar la información se ha realizado el cálculo manual de los

indicadores conjuntamente con los usuarios expertos, se realiza una validación con la

data proveniente de un meses con la cual se pretende validar la calidad de la

información que se está presentado en los reportes a continuación se muestra el

cálculo manual que se realizó para una materia en específico refiriéndonos solamente

a una pregunta o resultado de aprendizaje.

FILOSOFIA

NUN SI 4 25/04/2016

2 02/05/2016

3 16/05/2016

3 23/05/2016 NUM NO 1 4 0 0

NUM PARCIAL 1 0 3 4

TOT PARTICIPANTES 6 6 6 7

PORCENTAJE CUMPLIMIENTO

66,667

33,3333

50

42,857

Tabla 23. Cálculo de indicadores.

A continuación se muestra el reporte que se presenta mediante el aplicativo de a

acuerdo a la tabla 14 los resultados mostrado coinciden perfectamente para la materia

filosofía correspondiente al primer semestre de la carrera para la fecha 25 de abril del

2016 se tuvo un total de seis participantes de los cuales cuatro personas escogieron la

opción SI, una persona de inclino por NO y la otra restante eligió PARCIAL, de esta

pequeña muestra tomada para esta fecha se obtiene un 66% de cumplimiento esto

refiriéndose a la tabla 14, por otro lado podemos observar el reporte de indicadores el

cual muestra un 66% de cumplimiento para la fecha 25 de abril del 2016 con un total

de 6 participantes y especifica la descripción del indicador o pregunta evaluada, hay

que aclarar que se toma solamente una muestra pequeña para realizar la validación

del aplicativo y que este cumpla con los requerimientos a continuación se muestra la

figura que valida la explicación descrita.

60

Los detalles de las respuestas obtenidas para las fechas mostradas en la tabla 22 se

muestran a continuación en el reporte detalle de respuestas.

Figura 62. Cálculo aplicativo cumplimiento.

61

Figura 63. Cálculo aplicativo detalles resultados aprendizaje.

En el caso de las observaciones por las cuales se cumple o no el objetivo se detalla

las observaciones en la siguiente tabla.

FILOSOFIA OBSERVACIONES

CONTENIDOS ACTUALIZADOS

3 25/04/2016

3 02/05/2016

3 16/05/2016

4 23/05/2016

METODOLOGIA PERTINENTE

0 2 3 2

ESTRATEGIAS DE EVALUACIÓN

3 1 0 1

Tabla 24. Cálculo observaciones resultados de aprendizaje.

El cual hace ver que en la fecha de evaluación del 25 de abril del 2016 se tuvo un

porcentaje de cumplimiento del 66% vemos que las estudiantes creen que lo que hizo

que se obtuviera ese nivel de satisfacción fueron los contenidos actualizados que

mostró el maestro así como también la estrategia de evaluación que usa, sin embargo

la metodología de enseñanza no influyo lo necesario.

62

De acuerdo al análisis que se va mostrando en cada uno de los reporte existe el

reporte que muestra cómo está la materia a nivel general en cumplimiento de acuerdo

al reporte de totales este nos dice que la materia de “FILOSOFÍA” cumple en un 41.2

% las expectativas de los estudiantes, la figura siguiente respalda lo mencionado.

De esta manera se validó la utilidad del aplicativo BI, con lo cual se cumple la

expectativa del usuario quedando satisfecho del resultado obtenido con la

funcionalidad de la arquitectura BI.

Figura 64. Cálculo global de resultado de aprendizaje

63

5 CONCLUSIONES.

Se logra satisfactoriamente la automatización de cálculos de indicadores mediante el

aplicativo, en el capítulo cuatro se validó el cumplimiento en cuanto a funcionalidad del

aplicativo cumpliendo satisfactoriamente en objetivo principal propuesto al inicio del

presente trabajo.

La información que da como resultado el aplicativo ha sido validada por la Comisión de

evaluación interna de la carrera de educación parvularia, dando como resultado gran

satisfacción a la unidad que se encarga de realizar este proceso, ya que los reportes

resultantes del aplicativo sirven como prueba ante el requisito de evaluación de la

carrera.

Además de mostrar el detalle de los resultados de las evaluaciones realizadas en la

carrera el aplicativo muestra un porcentaje de cumplimiento global por cada materia en

cada uno de los semestres en el periodo actual de evaluación permitiendo dar un criterio

por parte de las autoridades de la carrera acerca del cumplimiento de objetivos de la

materia, permitiéndoles de esta manera tomar decisiones que mejoren los niveles de

cumplimiento en cada una de las materias y con ello comprometer al docente para que

se alcance los objetivos planteados.

Gracias al aplicativo se ha mejorado notablemente los procesos para la obtención de

información, la diferencia fue tan grande ya que por experiencia el proceso demoraba

cerca de cuatro días solo depurar la información y una semana más realizar los cálculos

respectivos, se ganó cerca de 6 días hábiles por lo que las personas que trabajaban

realizando este trabajo ocupan este tiempo que el aplicativo les ahorra en nuevas tareas

de gestión que ayudan a encaminar a la carrera a un mejor desempeño.

La información ahora esta almacenada en un datawarehouse propio de la carrera, el cual

dará origen a futuros contrastes de información.

64

6 RECOMENDACIONES.

La calidad de la información obtenida por el aplicativo depende de la calidad del

archivo elaborado por los usuarios expertos el cual contiene información de la

evaluación que realizan semana a semana durante el periodo actual, es por ello que

los responsables de elaborar este archivo deben estar conscientes de la

responsabilidad que implica elaborar este archivo es aconsejable que las personas

que elaboren estos archivos sean los propios docentes o una persona previamente

capacitada con asesoría directa de la persona experta del tema.

La disponibilidad de los reportes son de uso exclusivo de las personas dispuestas por

la comisión de evaluación por ello es recomendable que cada responsable que use los

reportes utilicen sus respectivas credenciales y que por ningún motivo compartan sus

credenciales.

La solicitud de nuevos requerimientos por parte del negocio deben ser definidas y

discutidas con el responsable técnico del aplicativo de tal manera que este pueda

disponibilizar la información que los usuarios soliciten, esto en el caso de que existan

requerimientos.

El mantenimiento y gestión de usuarios será manejado por el administrador del

aplicativo, el cual será una persona capacitada para que pueda dar solución a

cualquier inconveniente que se pueda suscitar a nivel técnico, en problemas de

conexiones configuraciones, disponibilidad, es indispensable que los usuarios

expertos del negocio tengan en cuenta esta recomendación..

65

GLOSARIO.

BI: siglas que abrevian en inglés Business Intelligence o inteligencia de negocios.

RESULTADO APRENDIZAJE: son preguntas u objetivos que cada asignatura de la

carrera de educación parvularia plantea, las cuales son evaluadas en cada una de las

semanas de clases durante todo el periodo.

ETL: proceso que tiene por propósito extraer, transformar y almacenar información

de distintas fuentes hacia un repositorio llamado datawarehouse.

OLAP: herramienta que agilita de forma rápida y eficiente consultas a grandes bases

de datos.

DASHBOARD: interfaz donde el usuario puede hacer uso de reportes de forma

dinámica.

USUARIO EXPERTO: persona capacitada de la institución que tiene un amplio

conocimiento del negocio que puede aportar y gestionar ideas a los requerimientos

de la institución.

USUARIO: persona capacitada para dar uso al aplicativo BI, pueden ser cualquier

tipo de persona que sea capacitado por la persona técnica del negocio.

TECNICO DEL NEGOCIO: Persona que desarrollo la solución BI que puede

gestionar y dar solución a cualquier inconveniente relacionado a la arquitectura BI

HOPS: son componentes de una transformación o un trabajo en pentaho los cuales

crean la secuencia de ejecución de estos procesos, también se los llama pasos.

JAR: un fichero .jar es una colección de clases Java y otros ficheros empaquetados

en uno solo.

66

BIBLIOGRAFÍA.

1. FUGU http://www.fugu.ec [En Línea]. - 2015. –

http://www.fugu.ec/pentaho-ecuador-business-intelligence-data-mining-

ecuador/.

2. SINNEXUS http://www.sinnexus.com [En línea]. - 2015.-

http://www.sinnexus.com/business_intelligence/.

3. GARTNER https://www.gartner.com [En línea]. - 2016. -

https://www.gartner.com/doc/reprints?id=1-2XYY9ZR&ct=160204&st=sb.

4. CANO, Josep Business Intelligence: Competir con información [Libro].-

España: ESADE, 2007.

5. WORDPRESS https://churriwifi.wordpress.com [En línea]. 2010. -

https://churriwifi.wordpress.com/2010/06/20/17-1-instalacion-y-

configuracion-de-la-plataforma-bi-de-pentaho/.

6. DÍAZ, Josep Introducción al Business Intelligence [Libro]. - Barcelona: UOC,

2010.

7. SCRIBD https://es.scribd.com [En Línea]. 2015. -

https://es.scribd.com/document/54202254/Manual-Pentaho-Report-Designer.

8. WIKI http://wiki.pentaho.com [En línea]. 2016. -

http://wiki.pentaho.com/display/EAIes/Inicio.

9. BUYTO http://www.buyto.es [En Línea]. 2009. -

http://www.buyto.es/general-business-intelligence/comparativa-y-diferencias-

entre-pentaho-y-qlikview.

http://www.fugu.ec/

http://www.fugu.ec/pentaho-ecuador-business-intelligence-data-mining-ecuador/

http://www.fugu.ec/pentaho-ecuador-business-intelligence-data-mining-ecuador/

http://www.sinnexus.com/

http://www.sinnexus.com/business_intelligence/

https://www.gartner.com/

https://www.gartner.com/doc/reprints?id=1-2XYY9ZR&ct=160204&st=sb

https://churriwifi.wordpress.com/

https://churriwifi.wordpress.com/2010/06/20/17-1-instalacion-y-configuracion-de-la-plataforma-bi-de-pentaho/

https://churriwifi.wordpress.com/2010/06/20/17-1-instalacion-y-configuracion-de-la-plataforma-bi-de-pentaho/

https://es.scribd.com/

https://es.scribd.com/document/54202254/Manual-Pentaho-Report-Designer

http://wiki.pentaho.com/

http://wiki.pentaho.com/display/EAIes/Inicio

http://www.buyto.es/

http://www.buyto.es/general-business-intelligence/comparativa-y-diferencias-entre-pentaho-y-qlikview

http://www.buyto.es/general-business-intelligence/comparativa-y-diferencias-entre-pentaho-y-qlikview

67

ANEXOS

68

ANEXO A.

Manual de Usuario

Iniciar sesión.

Ilustración A1 Pantalla inicio logueo (Autor, 2016).

Una vez en el aplicativo seleccione en la en el panel Browse la carpeta Reportes

Parvularia UCE y en el panel inferior llamado Files aparecerán todos los reportes

elaborados.

Ilustración A2 Pantalla mando de usuario (Autor, 2016).

69

Seleccione el archivo que desee dando doble clic sobre el archivo en este caso

seleccionaremos el archivo Reporte rendimiento parvularia nos aparecerá lo

siguiente.

Ilustración A3 Pantalla de mando reporte rendimiento (Autor, 2016).

En el panel derecho nos aparecerá las opciones de filtrado para obtener información

en el reporte por ejemplo.

Periodo: 2015-2016

Materia: Lenguaje y comunicación

Output type: se lo puede dejar en PDF, no es necesario cambiarlo pero se puede

elegir HTML, Excel, TXT.

Ilustración A4 Pantalla Reporte rendimiento (Autor, 2016).

70

Si elige el formato de salida Excel aparecerá lo siguiente:

Ilustración A5 Pantalla de exportación de documento.

Elige guardar y el archivo tendrá la estructura siguiente.

Ilustración A6 Formato Excel de reporte (Autor, 2016).

71

Si desea ver el detalle de respuestas del reporte anterior se debe abrir el archivo

Reporte detalle indicadores respuestas de manera similar colocamos.

Periodo: 2015-2016


Ilustración A7 Pantalla reporte detalle (Autor, 2016).

Ahora abriremos el archivo Indicador cumplimiento resultado aprendizaje

colocamos lo siguiente.

Periodo: 2015-2016


Fecha de evaluación: 2016-04-25

Ilustración A8 Pantalla indicador rendimiento aprendizaje (Autor, 2016).

72

Dando clic en icono report paremeters podemos maximixar la vista.

Ilustración A9 Pantalla ampliada indicador (Autor, 2016).

La forma de utilizar la aplicación es tan simple como se ha mostrado los 7 reportes que

contiene el aplicativo funcionan de manera similar.

Finalmente para salir de la aplicación realizar ubicarse sobre file y luego log out.

Ilustración A10 Salir de la aplicación (Autor, 2016).

73

ANEXO B

Manual de Ejecución

1. Copiar la carpeta biserver-ce-4.8.0-stable hacia el disco local C del computador

Ilustración B1. Ruta de archivos (Autor, 2016).

2. Abrir la carpeta biserver-ce-4.8.0-stable

Ilustración B2. Localización ejecutable (Autor, 2016).

74

3. Dirigirse hacia la carpeta biserver-ce y abrirla con doble clic.

Ilustración B3. Localización archivo start pentaho (Autor, 2016).

4. Dentro ubicar el archivo start-pentaho y darle doble clic.

Ilustración B4. Inicialización de servicios (Autor, 2016).

75

5. Esperar hasta que la pantalla negra diga Server startup, en el navegador colocar

http://localhost:9999/pentaho/Login

Ilustración B5. Pantalla de logueo (Autor, 2016).

76

ANEXO C.

Instalación de herramientas.

Requisitos de Hardware.

Sistema Operativo: Windows 7 (64 bits), con 4GB de RAM mínimo y procesador

CORE i5

1. Instalación de MySQL Workbench.

En la carpeta instaladores\Mysql_Workbench contiene los instaladores para esta

herramienta vamos a ejecutar de la siguiente manera.

Ejecutar el archivo vcredist_x86 que es el programa Microsoft Visual C++ 2005

Redistributable que es un complemento para la instalacion hay que ejecutar y si ya tiene

instalado cancelar la instalación por lo general es un complemento para varios

programas.

De igual manera ejecutar doNetFx40_Client_x86_x64 que es Net Framework 4.0, otro

programa complementario para instalar MySQL, si ya lo tiene cancelar la instalación.

77

Seleccionar el archivo mysql-5.5.19-win32 y ejecutarlo.

Aparece la siguiente ventana aquí eleccionar Next.

78

En la siguiente pantalla aceptamos las condiciones.

Seleccionar Typical.

79

Seleccionar Install

Esperar que cargue la instalación

80

Seleccionar Next.

Pulsar sobre finish

81

Aparecerá la siguiente pantalla presionar sobre Next.

Seleccionar Detailed Configuration y Next.

82

Seleccionar Developer Machine y next.

Seleccionar Multifuncional Database y next.

83

Selecionar el lugar donde se va a instalar en el computador y next.

Seleccionar la primera opción y next

84

Seleccionar el puerto en que se va a instalar y next.

Elegir Standard Character Set, presionar next.

85

En la siguiente imagen poner next, dejar la configuración por defencto.

Colocar un usuario y contraseña y next.

86

En la siguiente ventana presionar Execute.

Finalmente seleccionar finish.

87

Ahora en la misma carpeta de instalación de MySQL ejecutamos mysql-gui-tools-5.0-

r17

En la siguiente pantalla dar en siguiente.

88

Aparecerá la siguiente pantalla, aceptar las condiciones y next.

En la siguiente ventana dar clic en next.

89

Seleccionar Complete y next.

En la siguiente ventana dar clic en Install.

90

Finalmente dar en Finish.

Para completar la instalacion vamos a instalar el gestor, ejecutamos el archivo mysql-

workbench-gpl-5.2.37-win32.

91

Dar clic en next.

Elegir la ubicación en donde se va a instalar y next.

92

Elegir la instalación completa y next.

Dar clic en Install y comenzara la instalación.

93

Dar clic en finish para terminar la instalación.

Finalmente buscar entre los programas instalados y ejecutar.

94

2. Instalación de JDK7.

Ejecutar el archivo jdk-7u79-windows-x64

Aparecera la siguiente pantalla dar clic en next.

95

Dar clic en next.

Aparecerá la pantalla de estado de instalación.

96

Dar clic en next.

Para terminar la instalación dar clic en close.

97

3. Instalación de pentaho.

Para instalar Pentaho es simple, lo que se va hacer es copiar las carpetas de los archivos

hacia el disco local C del computador.

Las carpetas involucradas son:

biserver-ce-4.8.0-stable.

data-integration.

report-designer.

98

ANEXO D.

Manual de Configuración.

1. Requisitos previos: máquina virtual Java JDK y la base de datos MySQL.

Tener instalado JDK7, para verificar si tenemos instalado podemos ejecutar en

cmd el comando java –version.

Configuramos variables de entorno JAVA_HOME y PATH de la siguiente

manera

Dirigirse a equipo-> clic derecho ->propiedades-> configuraciones avanzadas de

sistema -> variables de entorno

JAVA_HOME: C:\Program Files\Java\jdk1.7.0_79\

PATH: C:\Program Files\Java\jdk1.7.0_79\

Si existe algún valor en las variables colocar un “;” y luego copiar la línea

correspondiente.

Tener instalado MySQL si no estan instalados los programas realizar el ANEXO

C.

2. Ficheros que componen la arquitectura PENTAHO.

Para esto se tomará los archivos con los cuales se ha desarrollado la configuración de la

arquitectura, los archivos necesarios estarn en la carpeta INSTALADORES del CD son:

biserver-ce-4.8.0-stable.

pdi-ce-5.0.1.A-stable.

prd-ce-3.9.1-GA.

Estos archivos deberan ser descomprimidos en caso de que estuvieran comprimidos,

una vez hecho este paso previo copiarlos hacia el disco local C:

99

3. Crear usuario en MySQL para administrar las diferentes configuraciones.

Antes de realizar cualquier configuracion y teniendo instalado ya MySQL Workbench,

se creará un usuario para la arquitectura BI, que será el que gestione todas las

conexcines y configuraciones necesarias.

Para ello hacemos lo siguiente:

Ingresar a MySQL Workbench.

Dar doble clic en Server Administration, ingresar las credenciales de administrador.

100

Dentro del aplicativo hacer lo siguiente

Dar clic en Users and Privileges aparecera un nuevo panel en la parte derecha de la

pantalla.

Dirigirse a la parte inferior de la pantalla y dar clic en Add Account, aparece lo

siguiente en la pestaña login rellenar los datos solicitados colocando.

Login Name: username (el que desee)

Limit Conectivity to hosts Matching: localhost

Password: xxxxxxxxxx (el que desee)

Confirm password: xxxxxxxxxx

101

Una vez llenado los campos solicitados dirigirise a la pestaña Administrative Roles,

en este caso vamos a seleccionar todos los permisos ya que necesitamos que el usuario

tenga la capacidad de gestionar sin limites cualquier configuración.

Finalmente para concluir la creación del usuario dar clic en Apply.

4. Creación de catalogos en base de datos necesarios para la plataforma.

La plataforma Pentaho necesita dos bases de datos para su funcionamiento (además de

la base de datos de test para poder trabajar con el set de ejemplos). Las bases de datos y

su cometido son las siguientes:

hibernate: esta base de datos almacena la autentificación de usuarios y los datos de

autorizaciones, el contenido BI (solution repository) y los origenes de datos disponibles

en la plataforma.

quartz: es el repositorio para el scheduler Quartz, que es uno de los componentes que

forma la plataforma, que nos permite la planificación de procesos dentro del servidor

BI.

sampledate: contiene las tablas para ilustrar y hacer posible la ejecución de todos los

ejemplos por defecto que proporciona la plataforma.

102

Por defecto, los catálogos de estas bases de datos estarán creados en la base de datos

HSQLDB que se puede arrancar en la configuración del servidor por defecto. Para

crearlos en MySQL, se ejecutará los scripts que se encuentran en la carpeta

Pentaho_3.6.0_MySQL_SQL_Pack dentro de la carpeta BASE DE DATOS en el CD,

el orden de ejecución será el siguiente:

Ojo estos escript hay que ejecutarlos dentro de la consola de MySQL u autentificado

con el usuario que se creó anteriormente, es importante que se respete el orden de

ejecución cada script esta numerado por el orden de ejecución a continuación se muestra

el script 1_create_repository_mysql en la consola de MySQL y las bases creadas

103

5. Configuracion JDBC, Hibernate and Quartz.

Todas las aplicaciones de Pentaho, incluyendo el Pentaho Server, utilizan la

conectividad Java Database Connectivity (JDBC) para la comunicación con las bases de

datos. Por tanto, será necesario disponer de los correspondientes conectores. En nuestro

caso, vamos a utilizar el conector para MySQL tomar los conectores del CD carpeta

INSTALADORES\JDBC. Las carpetas donde se va a copiar serán las siguientes:

C:\biserver-ce\tomcat\common\lib: ubicación de los drivers JDBC para poder utilizar

en el servidor Pentaho la base de datos para la que el conector proporciona

conectividad.

C:\biserver-ce-4.8.0-stable\administration-console\jdbc: es necesario ponerlos aquí

también para poder definir correctamente las conexiones a base de datos en la consola

de administración.

104

A continuación, se configura los ficheros de parametrización del sistema para que

Hibernate y Quartz lean de los catalogos de base de datos en Mysql que se ha creado en

el punto 3, en lugar de la base de datos HSQLDB proporcionada por defecto.

Configuracion de Hibernate (I): en el fichero applicationContext-spring-security-

jdbc.xml ubicado en la carpeta C:\biserver-ce\pentaho-solutions\system, se

modificara la parte subrayada, con los valores referidos para utilizar MySQL.



<bean id="dataSource"

class="org.springframework.jdbc.datasource.DriverManage

rDataSource">

<property name="driverClassName"

value="com.mysql.jdbc.Driver" />

<property name="url"

value="jdbc:mysql://localhost:3306/hibernate" />

<property name="username" value="hibuser" />

<property name="password" value="password" />

</bean>

Configuracion de Hibernate (II): en el fichero applicationContext-spring-security-

hibernate.properties.xml, ubicado en la carpeta C:\biserver-ce\pentaho-

solutions\system, se modifica, con los valores referidos para utilizar MySQL.

jdbc.driver=com.mysql.jdbc.Driver

jdbc.url=jdbc:mysql://localhost:3306/hibernate

105

jdbc.username=hibuser

jdbc.password=password

hibernate.dialect=org.hibernate.dialect.MySQLDialect

Configuración de Hibernate (III): en el fichero hibernate-settings.xml, ubicado en la

carpeta C:\biserver-ce\pentaho-solutions\system\hibernate, se modificara la parte

subrayada.

<config-file>system/hibernate/mysql5.hibernate.cfg.xml</config-

file>

Con la configuración anterior, se ha configurado la seguridad JDBC de la plataforma.

Ahora se tiene que indicar en los contextos del servidor de aplicación, la ubicación de

las bases de datos, para decirle al servidor que lea de las bases de datos en Mysql,

utilizando los drivers y la configuración de seguridad realizada anteriormente. Para ello,

modificamos el fichero contexts.xml, ubicado en C:\biserver-

ce\tomcat\webapps\pentaho\META-INF de la siguiente manera:

<?xml version="1.0" encoding="UTF-8"?>

<Context path="/pentaho" docbase="webapps/pentaho/">

<Resource name="jdbc/Hibernate" auth="Container"

type="javax.sql.DataSource"

factory="org.apache.commons.dbcp.BasicDataSourceFactory

" maxActive="20" maxIdle="5"

maxWait="10000" username="hibuser"

password="password"

driverClassName="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/hibernate"

validationQuery="select 1" />

<Resource name="jdbc/Quartz" auth="Container"

type="javax.sql.DataSource"

factory="org.apache.commons.dbcp.BasicDataSourceFactory

" maxActive="20" maxIdle="5"

maxWait="10000" username="pentaho_user"

password="password"

driverClassName="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/quartz"

validationQuery="select 1"/>

</Context>

Con esta configuración ya tendriamos lista la parte de conectividad con la base de datos.

106

La plataforma Pentaho utiliza Apache-Tomcat como servidor de aplicaciones para

desplegar los servicios que la componen. El servidor lleva una configuración por

defecto la cual modificaremos

6. Configuración Servidor Apache-Tomcat.

Esto se hace porque puede ser que haya algun cruce de puertos con otras aplicaciones,

para ello, se modificó el fichero web.xml que se encuentra en la carpeta C:\biserver-

ce\tomcat\webapps\pentaho\WEB-INF.

solution-path

Cambiar el valor para que apunte a la carpeta donde hemos instalado:

<context-param>

<param-name>solution-path</param-name>

<param-value>C:\biserver-ce-4.8.0-stable\biserver-

ce\pentaho-solutions</param-value>

</context-param>

base-url

Al instalar, la ruta URL por defecto para acceder a la plataforma será la siguiente:

http://localhost:8080/pentaho

Modificamos el parámetro base_url dentro del mismo fichero. En nuestro caso, como

vamos a cambiar el puerto por defecto, modificamos su valor indicando lo siguiente:

<context-param>

<param-name>base-url</param-name>

<param-value>http://localhost:9999/pentaho/</param-

value>

</context-param>

Esto nos obligará a cambiar tambien la configuración del fichero server.xml.

107

Port

En la ruta C:\biserver-ce\tomcat\conf, tenemos el fichero server.xml, donde podemos

modificar el puerto por defecto de nuestro servidor BI (que es el 8080).



<Connector URIEncoding="UTF-8" port="9999"

protocol="HTTP/1.1"

connectionTimeout="20000"

redirectPort="8443" />

7. Configuración de la publicación de contenidos.

Por defecto, la publicación de contenido en el servidor BI esta desactivada, por lo que

para publicar los informes o análisis que vayamos realizando, para habilitar la

publicación, modificaremos el fichero publisher_config.xml, que se encuentra en la

carpeta C:\biserver-ce\pentaho-solutions\system. Ahí indicaremos la contraseña de

publicación. Por defecto, no tiene ninguna.

<publisher-config>

<publisher-password>mipassword</publisher-password>

</publisher-config>

8. Personalizando la plataforma de usuario.

Como queremos personalizar el portal, vamos a realizar algunos cambios en la consola

de usuario. Para ello, se utilizara nuestra plataforma. Esta personalización va a consistir

en lo siguiente:

Aparecen los usuarios de ejemplo, y al seleccionarlos podemos entrar directamente en la

plataforma (sin necesidad de recordad su nombre de usuario o contraseña), ya que el

sistema nos lo recuerda. Esto no es operativo para un sistema productivo, y por tanto,

vamos a modificarlo. Para ello, modificaremos el

fichero loginsettings.properties ubicando en la carpeta

108

C:biserver-ce\tomcat\webapps\pentaho\mantle. La configuración por defecto del fichero

es la siguiente:

# this file contains settings to configure the login dialog

# flag to turn on/off show users list (overrides pentaho.xml)

#showUsersList=false

# launch PUC in new window (default setting)

openInNewWindow=false

# sample users (be sure that each group has the same # of items

as the rest)

userIds=joe, suzy, pat, tiffany

userDisplayNames=Joe (admin), Suzy, Pat, Tiffany

userPasswords=password, password, password, password

9. Crear usuario en Administration Console.

Dirigirse a la siguiente ruta C:\biserver-ce-4.8.0-stable\administration-console y

ejecutar el archivo start-pac.

Colocar en el navegador: http://192.168.47.128:8099/ y loguearse con las credenciales

admin / password

La consola de administracion es la siguiente.

109

Una vez dentro nos vamos Administración, en el panel derecho se verá las opciones de

Roles y Users, seleccionamos Users en el icono de más y rellenamos los campos del

cajoncillo.

Username: userprv (cualquier nombre).

Password: xxxxx (cualquier valor).

Confirm password: xxxx (cualquier valor).

No olvidarse de estas credenciales que se las usarán más adelante.

Una vez completado lo anterior seleccionamos Roles aquí unimos el usuario que se creó

al rol de Admin y CEO, para ello se da clic sobre el icono de más del panel derecho

110

Aparece la siguiente ventana y añadimos al rol Admin, se hace lo mismo para añadir al

usuario al rol CEO y finalmente dar OK.

Para completar la configuración es necesario copiar y pegar el conector JDBC a las

rutas especificadas a continuación en cada una de las herramientas.

data-integration

Dirigirse a la siguiente ruta C:\data-integration\lib copiar el archivo de la carpeta de

instaladores\JDBC y pegarla aquí.

111

Report Designer.

Dirigirse a la siguiente ruta C:\prd-ce-3.9.1-GA\report-designer\lib\jdbc copiar el

archivo de la carpeta de instaladores\JDBC y pegarla aquí.

10. Restaurar base de datos.

Para restaurar las bases de datos, lo primero será ingresar a MySQL con las credenciales

del usuario que se creó anteriormente, posteriormente ejecutar los siguientes scripts que

estarán en el CD en la ruta BASE DE DATOS\Modelo.

dwh_parvularia_uce.sql

db_des_prv_uce.sql

Una vez dentro de la consola dar clic en file luego en Open SQL script seleccionamos la

ruta donde se encuentra ubicado el archivo y abrir

112

Al momento de abrir el archivo tendremos lo siguiente luego dar clic en el icono

Execute.

Hacer este procedimiento con los dos scripts, de esta manera estaría completa la

configuración del ambiente de desarrollo de la arquitectura BI.

11. Crear conexión hacia las bases de datos en Pentaho Data Integration y Report

Designer.

Para crear la conexión en Pentaho Data Integration se hace lo siguiente (Realizar esto

solo si es necesario).

1. Iniciamos MySQL con el usuario que creo anteriormente.

2. Iniciamos Pentaho Data Integration.

Ruta: C:\data-integration

Archivo: Spoon

113

Una vez en el programa hacemos lo siguiente.

1. Fichero

2. Nuevo

3. Trabajo

114

Damos clic en la pestaña View.

En la parte de Conexiones a base de datos se hace lo siguiente.

Clic derecho en Conexión a base de datos

Nuevo

Aparece la siguiente pantalla donde escogeremos

En el panel izquierdo seleccionar general

Conection name: Colocar MYSQL_DWH

Conexión Type: Seleccionar MySQL

Access: Native(JDBC)

En Settings:

Hostname: localhost

Database Name: dwh_parvularia_uce

Port number: 3306

User name: Nombre del usuario con el que se levantó MYSQL

Passwor: Colocar la contraseña del usuario con el que se levantó MYSQL

115

Para crear la conexión en Pentaho Report Designer se hace lo siguiente (Realizar esto

solo si es necesario).

3. Iniciamos MySQL con el usuario que creo anteriormente.

4. Iniciamos Pentaho Report Desiger.

Ruta: C:\prd-ce-3.9.1-GA\report-designer

Archivo: report-designer

116

Una vez en el programa hacemos lo siguiente.

4. File

5. New

6. En el panel derecho ubicamos Data -> Data Sets-> Clic derecho->JDBC->

117

Presionamos sobre el icono con un signo más.

Aparece la siguiente pantalla donde escogeremos

En el panel izquierdo seleccionar general

Conection name: Colocar MYSQL_DWH

Conexión Type: Seleccionar MySQL

Access: Native(JDBC)

En Settings:

Hostname: localhost

Database Name: dwh_parvularia_uce

Port number: 3306

User name: Nombre del usuario con el que se levantó MYSQL

Passwor: Colocar la contraseña del usuario con el que se levantó MYSQL

Llenados los datos dar en test verificar que no de error y finalmente OK

118

12. Publicación de reportes en Pentaho

Primero tener en ejecución Pentaho BISERVER-CE

Ruta: C:\biserver-ce-4.8.0-stable\biserver-ce

Archivo: start-pentaho

Dentro del aplicativo de Pentaho Report Designer hacer lo siguiente.

Abrir el reporte que se desee publicar en el aplicativo

En el CD ubicar la carpeta APLICATIVO\REPORTES.

File

Open

Seleccionar uno de ellos y dar en abrir.

Dar clic en file ->Publish y aparece lo siguiente

119

Verificar que el puerto de destino sea el 9999, colocar el usuario y contraseña de un

usuario administrador dar OK.

Aparece la siguiente pantalla aquí poner un nombre al reporte, título y una descripción

120

Se crea un repositorio nuevo dando clic en el icono de crear carpeta, colocar como

nombre Reportes-Parvularia.

Seleccionar esta nueva carpeta como destino.

Colocar el password de publicación y finalmente OK, realizar el mismo procedimiento

para todos los reportes.

121

13. Apariencia de la pantalla del inicio de sesión.

Copiar del CD de la carpeta LOGIN\IMAGENES, los archivos lock.png y logo.png

hacia la ruta C:\biserver-ce-4.8.0-stable\biserver-ce\tomcat\webapps\pentaho-

style\images\login

Del CD copiar el archivo PUCLogin.jsp ubicado en la carpeta LOGIN y copiarlo en la

siguiente ruta C:\biserver-ce-4.8.0-stable\biserver-ce\tomcat\webapps\pentaho\jsp,

si existe reemplazarlo

Una vez culminado todo lo expuesto en este manual hacer uso del ANEXO A que

corresponde al manual de usuario, usar internet Explorer para desplegar la aplicación.

Documents

UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD · PDF file1.4 Componentes de Business Intelligence ... (BI) supporting on conjunction with PENTAHO and its tools of ... y el análisis es