MODELO PARA LA OBTENCION DE CONOCIMIENTO …

MODELO PARA LA OBTENCION DE CONOCIMIENTO ESTRUCTURADO

DESDE BASES DE DATOS EN UNA EMPRESA DE TRANSPORTE COLECTIVO

JHON ALEXANDER VERGARA LOAIZA

CRISTIAN ARBEY JARAMILLO POSADA

UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN

FACULTAD DE INGENIERÍAS

ESPECIALIZACIÓN EN GESTIÓN DE INFORMACIÓN Y BASES DE DATOS

MEDELLIN

2014

MODELO PARA LA OBTENCION DE CONOCIMIENTO ESTRUCTURADO

DESDE BASES DE DATOS EN UNA EMPRESA DE TRANSPORTE COLECTIVO

JHON ALEXANDER VERGARA LOAIZA

CRISTIAN ARBEY JARAMILLO POSADA

Proyecto presentado para optar al título de Especialista en Gestión de Información

y Bases de Datos

Asesor

Fray León Osorio Rivera, Ph.D. en Ingeniería de Software

UNIVERSIDAD DE SAN BUENAVENTURA SECCIONAL MEDELLÍN

FACULTAD DE INGENIERÍAS

ESPECIALIZACIÓN EN GESTIÓN DE INFORMACIÓN Y BASES DE DATOS

MEDELLIN

2014

CONTENIDO

1. JUSTIFICACIÓN .................................................................................................................................5

2. PLANTEAMIENTO DEL PROBLEMA ...................................................................................................7

3. OBJETIVO GENERAL ..........................................................................................................................9

4. OBJETIVOS ESPECÍFICOS ...................................................................................................................9

5. MARCO REFERENCIAL ................................................................................................................... 10

5.1 de los datos a la información y de la información al conocimiento ....................................... 11

5.2 Avances tecnológicos en la gestión comercial ........................................................................ 12

5.3 Calidad en la atención al cliente ............................................................................................. 14

5.4 DATA WAREHOUSE: una plataforma para la gestión de la información ................................ 15

5.5 Justificación del data warehouse en la gestión comercial ...................................................... 16

5.6 Logros del data warehose en la gestión comercial ................................................................. 19

5.7 Técnicas más usadas en la minería de datos .......................................................................... 22

5.7.2 Árboles de decisión .......................................................................................................... 24

5.7.3 Algoritmos genéticos ....................................................................................................... 24

5.7.4 Sistemas basados en conocimiento y sistemas expertos ................................................ 25

5.7.5 Modelos de regresión lineal............................................................................................. 25

5.7.6 Agrupamiento o clustering .............................................................................................. 25

5.7.7 Aprendizaje automático ................................................................................................... 26

5.7.8 CRISP-DM (Cross Industry Standard Process For Data Mining) ....................................... 27

5.8 ALGORITMOS EN MINERÍA DE DATOS .................................................................................... 27

5.8.1 El algoritmo K-means ....................................................................................................... 27

5.8.2 El algoritmo A priori ......................................................................................................... 27

5.8.3 El algoritmo EM ................................................................................................................ 28

5.8.4 Algoritmo PageRank ......................................................................................................... 28

5.8.5 Algoritmo AdaBoost ......................................................................................................... 28

5.8.6 Naive Baye ........................................................................................................................ 28

5.8.7 Algoritmo CART ................................................................................................................ 29

5.8.8 Algoritmo del vecino k más cercano ................................................................................ 29

5.8.9 Máquinas de vectores de soporte ................................................................................... 29

5.9 MODELOS DE OPTIMIZACIÓN DE TRANSPORTE EXISTENTES ................................................. 29

5.9.1 Modelo de Ceder y Wilson ............................................................................................... 30

5.9.2 Modelo de Baaj y Mahmassani ........................................................................................ 30

5.9.3 Modelo de Israeli y ceder ................................................................................................. 31

5.9.4 Modelo de Krishna Rao Et Al ............................................................................................ 31

5.9.5 Modelo de Gruttner Et Al ................................................................................................. 31

5.9.6 Modelo de Ngamchai y Lovell .......................................................................................... 32

5.9.7 Modelo de Tom y Mohan ................................................................................................. 32

5.9.8 Modelo de Fan y Machemehl .......................................................................................... 32

5.10 PRÁCTICAS UTILIZADAS EN LA CIUDAD DE MEDELLÍN .......................................................... 32

5.11 NORMATIVIDAD DEL TRANSITO DE MEDELLIN ..................................................................... 34

5.12 IMPORTANCIA DE LA MEDICIÓN ........................................................................................... 41

5.13 Qué es un indicador .............................................................................................................. 42

5.14 Características de los indicadores ......................................................................................... 43

6. METODOLOGIA ............................................................................................................................. 45

6.1 Enfoque para la extracción de conocimiento como: la calidad en la gestión empresarial, la

orientación hacia el cliente y optimización de los servicios en empresas de transporte público

colectivo en la ciudad de Medellín. .............................................................................................. 47

6.2 Componentes del modelo para la extracción de conocimiento para empresas de transporte

público colectivo ........................................................................................................................... 47

6.2.1 Análisis de desarrollo para extracción ................................................................................. 47

6.2.2 FASES .................................................................................................................................... 49

6.2.3 Propuesta de modelo de extracción según metodología CRIPS-DM ................................... 50

7. CONCLUSIONES ............................................................................................................................. 70

8. REFERENCIAS BIBLIOGRAFICAS ..................................................................................................... 71

Pág. 5

1. JUSTIFICACIÓN

La forma de entender y de incorporar los modelos de extracción de conocimiento

de la información que se genera en la gestión empresarial; va evolucionando con

el tiempo. Las experiencias, conocimientos y necesidades actuales han permitido

desarrollar nuevos modelos. Los modelos son esquemas teóricos que nos facilitan

la comprensión y el estudio del comportamiento de la realidad.

El trabajo comprende el estudio de las características, componentes, restricciones

y modo de operación actual del funcionamiento de las empresas de transporte

colectivo, para lograr su caracterización.

La investigación tecnológica, busca establecer una idea clara del estado y de las

opciones tecnológicas que se encuentran en este mercado específico y que

pueden dar solución satisfactoria al problema en estudio. Seguidamente, se

formula el modelo que describe la esencia del sistema y caracteriza sus variables.

Teniendo el modelo inicial que describe el problema es necesario entonces

escoger la técnica de solución que nos permite encontrar los valores de las

diferentes variables controlables del sistema para dar solución al problema

planteado. Existen dos alternativas básicas para enfrentar la solución de

problemas de optimización: herramientas basadas en los principios de la

programación matemática y herramientas fundamentadas en la lógica, la imitación

de sistemas y el buen racionamiento. Luego se implementa la solución

computacional (prototipo) y se aplica al caso concreto y obtener un modelo final

que arroje resultados confiables.

Al realizar un sondeo al sector accesible a nuestra propuesta de trabajo de grado,

hay muy poca información sobre el proceso de aprovechamiento de información y

extracción de conocimiento, ya que todo se hace en forma empírica y aunque se

Pág. 6

han desarrollado modelos de optimización para transporte público colectivo en

otros sectores mas productivos, se hace difícil adaptarlos a las condiciones de

operación del Transporte Público en la ciudad.

En el Transporte Público intervienen procesos de planeación, diseño, operación,

administración y control, pero unos de los más descuidados, son los procesos de

planeación, de los cuales, la programación de rutas o itinerarios, la capacidad y la

regulación de los vehículos, los tiempos de los viajes, la comodidad y la calidad de

la prestación de los servicios de transporte entre otros, forman parte importante.

La realización eficiente de estos estos procesos, aunque no es la solución a todos

los problemas del transporte, puede contribuir en gran manera a que se tenga un

servicio eficiente, moderno y organizado. Por lo tanto, la problemática que se

aborda en esta propuesta, es el desarrollo de un modelo que permita la extracción

de conocimiento que a su vez apunte a la optimización de los diversos entornos de

la información que se genera en las empresas de Transporte Público Colectivo.

Para dicha optimización se hace necesario explorar diversas técnicas, que sean

capaces de realizar procesos de optimización, sobre problemas con varios

objetivos conflictivos entre sí.

Por esto es importante; ya que los resultados de la elaboración de esta propuesta

y su aportación seguramente enriquecerá y promoverá un cambio en la forma que

se opera el transporte colectivo.

Pág. 7

2. PLANTEAMIENTO DEL PROBLEMA

Es manifiesto que el transporte público colectivo en una ciudad de un país en vía

de desarrollo, es muy diferente del transporte en los países desarrollados, tanto en

su infraestructura, operación, políticas, estructura interna, como en su filosofía. En

la ciudad de Medellín (Colombia) también se observa, que el transporte público

colectivo urbano, es un servicio público en manos de particulares con fuertes

intereses económicos.

Los dueños de los vehículos los afilian a empresas de transporte y los conductores

son contratados directamente por los dueños para trabajar en muchos casos, por

porcentaje. Así que es un sistema complejo en el cual intervienen muchos actores

con intereses que pueden ser conflictivos entre sí.

La mayoría de las empresas de Transporte Público Colectivo no son en realidad

empresas transportadoras, ya que no son propietarias de los vehículos, sino más

bien son afiliadoras o cooperativas que agrupan a una gran multitud de

propietarios de vehículos que se afilian a una empresa en particular, para poder

operar sus vehículos en las rutas de dicha empresa.

La empresa afiliadora simplemente cobra al dueño del vehículo una cuota única de

afiliación denominada “cupo” y una cuota mensual de administración. Con esos

dineros proporciona la infraestructura para el despacho y control de la operación

en cada una de sus rutas. Sin embargo, dado que la empresa tiene garantizados

sus ingresos por concepto de afiliación y administración, no se interesa mucho

porque la operación sea eficiente y sus mecanismos de control son demasiado

ineficaces. De tal forma que para la empresa es mucho más importante aumentar

la cantidad de vehículos afiliados que la calidad del servicio, el cumplimiento de

los itinerarios, la optimización de los recursos y la gestión del recurso humano

disponible para la operación.

Pág. 8

Conocida la situación descrita anteriormente, se evidencian los problemas que se

intentan atender con la propuesta de investigación; estos problemas se

categorizan en los siguientes grupos:

Causas estructurales: capacidad institucional deficiente, regulación

inadecuada.

Problemas de la oferta en los servicios: sobreoferta, rutas y operación

inadecuadas, vehículos y equipos obsoletos.

Problemas de la oferta en la infraestructura: subutilizada, deficiencia en la

calidad, insostenible, inequitativa.

Impactos negativos sobre el usuario: tiempo del viaje, seguridad, comodidad,

confiabilidad, tarifa.

Externalidades negativas: accidentalidad, medio ambiente, consumo

energético, congestión, desarrollo humano.

La pregunta de la investigación es la siguiente: ¿Cual es la mejor manera que se

puede atender la demanda de la prestación del servicio de transporte colectivo,

mediante procesos de análisis y evaluación de información?

La falta de aprovechamiento de la información que se genera en la gestión

empresarial y de la prestación del servicio a los clientes, no permite la

optimización de los recursos físicos y el talento humano con el que cuenta la

empresa. Aunque la solución de este problema no acaba con toda la problemática

del transporte, si puede representar muchas mejoras para todos los actores

involucrados e incluso hacer más rentable y eficiente el servicio de transporte

público colectivo, convirtiéndolo en una alternativa más atractiva para la

comunidad. Hay otros problemas relacionados con el Transporte Público, cuya

solución implica inversiones muy altas y cambios estructurales, que tal vez sean

mucho más difíciles de implementar.

Pág. 9

3. OBJETIVO GENERAL

Diseñar un modelo de optimización para el aprovechamiento de la información

desde una base de datos, para una empresa de transporte público colectivo en la

ciudad de Medellín.

4. OBJETIVOS ESPECÍFICOS

Estudiar distintos enfoques para la extracción de conocimiento como: la calidad

en la gestión empresarial, la orientación hacia el cliente y optimización de los

servicios en empresas de transporte público colectivo en la ciudad de Medellín.

Definir los componentes del modelo para la extracción de conocimiento para

empresas de transporte público colectivo

Diseñar un modelo conceptual para la extracción de conocimiento para

empresas de transporte público colectivo

Pág. 10

5. MARCO REFERENCIAL

El ambiente en el cual se desenvolverá el modelo de extracción de conocimiento

que se propone, está directamente vinculado a temas como la minería de datos,

la extracción del conocimiento y la creación de herramientas para extraer

conocimiento.

A continuación se relaciona la información que enmarca el entorno de la

propuesta.

En el ámbito de las organizaciones, tecnologías de la información tales como las

bases de datos y los almacenes de datos o Data Warehouse (DW) han soportado,

en primera instancia, el almacenamiento de ítems de información proveniente de

la automatización de los procesos de carácter típicamente repetitivo o

administrativo.

Pero en la actualidad se ha de señalar que también se puede contar con dichas

tecnologías para dar apoyo en aquellas actividades donde la aplicación del

conocimiento, la experiencia y la propia coordinación juegan un papel fundamental

en la eficiencia y productividad. Especialmente en los procesos para mejorar la

calidad en la atención y satisfacción de los clientes, hecho que sin duda redunda

en la eficacia comercial de las empresas.

En este trabajo, en primer lugar se incide en la importancia que tiene para la

empresa el proceso de transformación de los datos operacionales en información

y conocimiento.

Posteriormente, se indican cuales han sido los esfuerzos de las empresas por

incorporar soluciones que mejoren sus procesos comerciales, a través de un

tratamiento adecuado de la información. Pasando a comentar más en detalle una

de las soluciones, el Data Warehouse, que permite la captura, recolección, filtrado,

Pág. 11

consolidación, y establecimiento de relaciones de la información organizacional.

Posteriormente, se exponen varias razones que justifican la creación del DW para

obtener la información necesaria en los procesos de gestión comercial, en lugar de

obtener esa información directamente de las bases de datos de las aplicaciones

operacionales. Finalmente, se ilustra cómo el DW puede dar respuesta al reto

actual de las corporaciones de reenfocar su atención a la relación con el cliente.

5.1 de los datos a la información y de la información al conocimiento

El nivel competitivo alcanzado en las empresas, les exige desarrollar nuevas

estrategias de gestión de uno de sus recursos más valiosos, el de la información.

En la actualidad las organizaciones, en sus bases de datos, almacenan

electrónicamente datos tanto internos como externos de clientes, productos,

servicios, estructura organizativa, canales de distribución, operaciones, personal,

proveedores, competencia, mercado, coyuntura socioeconómica, encuestas, etc.

Sin embargo, esta enorme y creciente cantidad de datos no se suele corresponder

con una mayor accesibilidad a la información de utilidad en la gestión comercial.

Para entender esta aparente contradicción es necesario aclarar qué es dato, qué

es información y qué es conocimiento.

Los datos hacen referencia a los hechos que son capturados y guardados en el

entorno empresarial, pero que no necesariamente tienen que ser útiles, ya que a

priori carecen del contexto en el que aplicarlos. Tradicionalmente los datos se

encuentran dispersos a través de la organización e infrautilizados en muchas

ocasiones.

La información, en cambio, relaciona datos en un contexto conocido y por tanto es

de utilidad para que el analista extraiga conclusiones.

Pág. 12

Subiendo un peldaño más es este proceso se encuentra el conocimiento, que

implica que las tendencias observadas en la información se conocen y pueden ser

institucionalizadas y embebidas en algún proceso de negocio de la empresa. Por

tanto, con los datos, la empresa almacena eventos que tienen lugar en la misma,

con la información responde a los eventos y con el conocimiento puede anticiparse

a los mismos.

En este sentido, el esfuerzo de las organizaciones debe estar en convertir la

enorme cantidad de datos, que posee en sus bases de datos corporativas, en

información útil, para finalmente extraer el mayor conocimiento posible.

Manifestándose así el verdadero poder de la información en la gestión de los

recursos disponibles, en general, y el poder estratégico de ésta en la gestión

comercial. Ya que, el proceso de gestión comercial es una actividad que implica el

procesamiento de grandes cantidades de datos para extraer relativamente pocas

cantidades de información y/o conocimiento.

La información y el conocimiento obtenido facilitarán una estrategia de negocio

centrada en anticipar, conocer y satisfacer las necesidades y los deseos presentes

y previsibles de los clientes.

5.2 Avances tecnológicos en la gestión comercial

En un principio en la mayor parte de las empresas, esta necesaria capitalización

de la información comercial ha venido de la mano de la incorporación de bases de

datos relacionales. El modelo relacional tiene entre sus objetivos guardar la

integridad de los datos obtenidos en los procesos transaccionales automatizados

(OLTP: Procesamiento Transaccional en Línea). Sin embargo, este modelo no se

corresponde con la forma en la que el usuario percibe la gestión del conocimiento

de un negocio, en general, y la gestión del conocimiento comercial, en particular.

De hecho, aunque los sistemas de gestión de bases de datos relacionales, han

Pág. 13

sido muy beneficiosos para los usuarios, nunca han sido diseñados para

proporcionar funciones potentes de síntesis, análisis y consolidación de los datos.

Teniendo presente ese hecho y el hecho de que la economía actual está centrada

en el cliente, las corporaciones deben impulsar diversos esfuerzos técnicos y

metodológicos para intentar acometer el objetivo de reenfocar su atención a la

relación con el cliente.

Como parte de dichos esfuerzos se deben crear una serie de indicadores nuevos

que permitan conocer aspectos tales como la satisfacción del cliente, fidelidad,

ciclo de vida del cliente, etc., así como indicadores sobre el desempeño del equipo

comercial y de los departamentos de servicio al cliente cuando existen. Sin

embargo, esta es una información que en muchas ocasiones no procede, o no con

tanto detalle, las bases de datos de los sistemas transaccionales que las

empresas utilizan para la operación diaria. Por ello, muchas empresas deciden

introducir o desarrollar soluciones CRM (Customer Relationship Management) que

les permiten automatizar la actividad comercial, dar soporte a campañas

orientadas a segmentos de clientes y una serie de funcionalidades más que les

brindan la información necesaria para construir indicadores sobre la actividad

comercial y características de la relación del cliente con la corporación, además de

poder detectar necesidades de sus clientes.

Este esfuerzo puede constituir un primer paso para comenzar a obtener

información o mejorar la calidad de ésta y dar seguimiento a una parte

importantísima de la operativa de la empresa, que es la gestión comercial.

Un segundo paso, no necesariamente posterior al primero, consiste en la creación

de un repositorio histórico de información cuyas unidades principales son el

cliente, el producto y la organización.

Se introduce así el término Data Warehouse, para referirse al repositorio, y

datawarehousing para referirse a la captura, recolección, filtrado, reconciliación,

limpieza, depuración, carga, consolidación y establecimiento de relaciones entre la

Pág. 14

información proveniente de distintas fuentes, sobre la base de un modelo de

información al servicio del negocio.

El objetivo de conformar este repositorio es el de tener acceso a una visión

histórica y sobre distintos aspectos de los clientes con el objetivo de crear

indicadores de gestión y suministrar información para mejorar los procesos de

marketing y de rentabilidad y control de riesgos. Por ello, a continuación veremos

con un poco más de detalle las claves de este proceso.

5.3 Calidad en la atención al cliente

J. Harrington define a los clientes como:

Las personas más importantes para cualquier empresa.

No son una interrupción en nuestro trabajo, son un fundamento.

Son personas que llegan a nosotros con sus necesidades y deseos y

nuestro trabajo consiste en satisfacerlos.

Merecen que le demos el trato más atento y cortés que podamos.

Representan el fluido para este negocio o cualquier otro, sin ellos nos

veríamos forzados a cerrar.

Los clientes de las empresas de transporte público colectivo se sienten

defraudados y desalentados, no por sus precios, sino por la apatía, la indiferencia

y la falta de atención de sus empleados.

Los clientes conforman un universo sumamente heterogéneo, y por eso es que la

investigación del mercado es una de las herramientas fundamentales para

conocer en forma directa la opinión y características de los clientes. La utilización

de esta herramienta permite llevar a cabo una variedad de acciones, como las

siguientes:

Pág. 15

Mejorar la calidad de servicio al cliente.

Analizar problemáticas específicas, técnicas y comerciales.

5.4 DATA WAREHOUSE: una plataforma para la gestión de la información

A partir de mediados de los ochenta, en el entorno empresarial, ha cobrado

importancia el concepto Data Warehouse o almacén-factoría de datos, entendido

como la plataforma que concentra toda la información de interés para la

organización, sus fuentes de información son tanto las bases de datos

corporativas, como otras fuentes externas (por ejemplo, actualmente Internet se

ha convertido en la fuente más importante de suministro de datos).

Con el Data Warehouse se integra y se facilita el acceso a la información,

eliminando aquellos datos que obstaculizan la labor de análisis de información y

entregando la información que se requiere en la forma más apropiada.

La estructura básica de la arquitectura DW incluye:

Datos operacionales: fuente de datos para el componente de

almacenamiento físico.

Extracción de Datos: selección sistemática de datos operacionales usados

para poblar el componente de almacenamiento físico.

Transformación de datos: Procesos para sumarizar y realizar otros cambios

en los datos operacionales y para reunir los objetivos de orientación a temas e

integración.

Carga de Datos: inserción sistemática de datos en el componente de

almacenamiento físico.

Data Warehouse: almacenamiento físico de datos de la arquitectura DW.

Herramientas de Acceso al componente de almacenamiento físico DW:

herramientas que proveen acceso a los datos.

Pág. 16

Hay que señalar que el diseño del Data Warehouse no es un proceso trivial, se

debe elegir, en base a la información que se desea explotar, los datos que se

guardarán, la unidad mínima de éstos, la estructura de las entidades de

información, las dimensiones que se estudiarán, estadísticos intermedios que se

deben conservar y muchos aspectos más para que el diseño responda a las

necesidades de información de distintos departamentos o áreas y niveles

jerárquicos de la empresa, así como la eficiencia en la provisión operacional de

dicha información.

En este sentido, las bases de datos que conforman el componente de

almacenamiento físico del DW se caracterizan por los siguientes aspectos:

Integradas: deben constituir un conjunto de datos y metadatos perfectamente

integrados con respecto al nombre de las variables, formatos de los distintos

campos, medida de los atributos, codificación, etc.

Temáticas: las bases de datos deben conformarse hacia materias o temas,

como clientes, productos, campañas, etc., a diferencia de las bases de datos

de los sistemas operacionales, más orientadas a procesos administrativos.

Históricas: éste es un factor clave en la toma de decisiones, contar con

información histórica para comparar datos en distintos períodos e identificar

tendencias. El tiempo debe estar en todos y cada uno de los registros del DW,

de manera que, cuando un dato entra en el DW se sepa en qué momento tenía

ese valor.

No Volátiles: la información una vez incorporada al DW debe mantenerse, en

general, invariable, cargándose una vez en el tiempo y no permitiendo

actualizaciones de los datos.

5.5 Justificación del data warehouse en la gestión comercial

Existen varias razones que justifican la creación del Data Warehouse para obtener

la información necesaria en los procesos de gestión comercial, en lugar de obtener

Pág. 17

esa información directamente de las bases de datos de las aplicaciones

operacionales:

Rendimiento: se tarda mucho menos en acceder a los datos del repositorio del

Data Warehouse que en hacer una consulta a varias bases de datos distintas.

Además hacer consultas complicadas a las bases de datos de los sistemas

operacionales puede empeorar el tiempo de respuesta de estos sistemas para

otros usuarios. Múltiples orígenes de datos: combinar los datos de distintas

fuentes suele ser una tarea bastante complicada para las personas encargadas de

tomar decisiones con esa información. Normalmente hay que homogenizar los

datos de una forma u otra. Por ejemplo, es probable que no se utilicen los mismos

criterios de almacenamiento (nombres de las entidades, atributos considerados,

tipos etc.) en las bases de datos de distintos departamentos. Sin embargo, en el

DW los datos se homogenizan durante el proceso de carga.

Limpieza de los datos: las empresas no siempre cuentan con aplicaciones

únicas para cada parte de la operativa del negocio, sino que pueden poseer

replicaciones y distintos sistemas para atender un mismo conjunto de

operaciones, y en esos caso es probable que las bases de datos de los

sistemas operacionales contengan datos duplicados, a veces erróneos,

superfluos o incompletos. Estos datos se corrigen durante el proceso de carga

al Data Warehouse.

Ajustes: en ocasiones se hace necesario un ajuste de los datos para posibles

comparaciones. Por ejemplo si se está combinando información financiera de

distintos países habrá que ajustar toda esta información conforme a una única

norma contable para hacerla comparable. Esos ajustes ya se realizan en el DW

durante el proceso de carga mencionado.

Periodicidad: La periodicidad de los datos en las distintas bases de datos

puede ser distinta diaria, semanal, mensual etc..Como en los casos anteriores

Pág. 18

para posibles comparaciones es necesaria la homogeneización ya realizada en

el DW.

Datos históricos: Los datos históricos no se suelen guardar en los sistemas

operacionales, pero son un elemento esencial de cualquier análisis. El Data

Warehouse es el lugar adecuado para estos datos.

Agregados: Muchas veces para tomar decisiones, no es necesario entrar en la

línea de mas detalle durante el análisis, en este sentido, en el Data Warehouse

se suelen guardar sólo los agregados necesarios (por ejemplo el importe total

de ventas trimestralmente en cada punto de venta, el tipo de publicidad más

efectivo en función de la edad del público objetivo etc.).

Por tanto, la plataforma Data Warehouse lejos de ser un punto final en la cadena

de automatización de la actividad y gestión del conocimiento de la organización,

se ha convertido en la puerta hacia una nueva dimensión en la concepción de las

corporaciones.

El Data Warehouse junto con una nueva serie de herramientas, enmarcadas bajo

la denominación de Data Mining- (minería de datos) permiten, no sólo, el análisis

de la información, sino también, y esto es lo realmente importante y diferencial, el

planteamiento y descubrimiento automático de hechos e hipótesis (patrones,

reglas, grupos, funciones, modelos, secuencias, relaciones, correlaciones...) que

pueden desembocar:

En importantes descubrimientos para la gestión comercial de información y/o

conocimiento no visibles a partir de los grandes volúmenes de datos

almacenados en las bases de datos de los sistemas operacionales de las

corporaciones.

Pág. 19

En un aumento de la eficacia y productividad para las empresas en el terreno

comercial.

5.6 Logros del data warehose en la gestión comercial

El proceso de remodelación de las empresas, para adaptarse a los nuevos

escenarios comerciales y a las necesidades del cliente, tiene entre sus principales

retos:

El enfoque al cliente: el centro de la economía actual ya no es el producto

sino el cliente.

Inteligencia de clientes: Se necesita tener conocimiento sobre el cliente para

poder desarrollar productos/servicios enfocados a sus expectativas.

Interactividad: El proceso de comunicación debe pasar de un monólogo (de la

empresa al cliente) a un diálogo (entre la empresa y el cliente).

Fidelización de clientes: Es mucho mejor y más rentable (del orden de seis

veces menor) fidelizar a los clientes que adquirir clientes nuevos.

El eje de la comunicación es el marketing directo enfocado a clientes

individuales en lugar de en medios "masivos" (TV, prensa, radio etc.).

Personalización: Cada cliente quiere comunicaciones y ofertas

personalizadas

Por tanto, el reto actual de las corporaciones es conseguir conocer a los clientes y

actuar en consonancia, cuando en lugar de tener unos pocos cientos clientes,

como se tenía antes de la globalización de mercados, se pueden llegar a tener

millones.

En ese sentido, el reto es tecnológicamente posible con soluciones basadas en el

uso de DW y bases de datos combinadas con otras tecnologías de la información

y la comunicación, tales como técnicas estadísticas y de minería de datos,

sistemas de información geográfica, uso de intranet, extranet e Internet, etc. A

Pág. 20

través de dichas soluciones se puede dar respuesta a los retos indicados

anteriormente:

Enfoque al cliente: las bases de datos ahora son temáticas y entre sus temas o

materias de interés se encuentran los clientes, además de otros como productos,

campañas, ventas, competencia, etc.

Inteligencia de clientes: se pueden crear y tener acceso a una serie de

indicadores que permitan conocer aspectos tales como:

Quiénes son para la corporación los clientes fieles, ocasionales, potenciales o

cuáles reportan la mayor parte de los ingresos, por ejemplo a través de la

segmentación por modelos estadísticos de la base de datos.

Cuál es la tipología de disposición al consumo, los hábitos de consumo, la

rentabilidad, por ejemplo mediante técnicas de análisis de los datos.

Cuáles son áreas dónde se concentran los clientes actuales y los potenciales,

cuáles son las áreas de cobertura, en definitiva, el geomarketing es posible con

la combinación de los datos almacenados y los GIS (Sistemas de Información

Geográfica).

Interactividad: la combinación DW con Internet/Intranet está dando lugar a un

nuevo concepto los cyberwarehose que posibilitan una nueva comunicación on-

line entre la empresa y el cliente que dilata el tiempo (24h al día) y agiliza y

aumenta la disponibilidad de comunicación.

Fidelización de clientes: un mejor conocimiento del cliente permite que se

mejoren constantemente las características de las ofertas, el enfoque de las

mismas y los servicios consiguiendo “atrapar al cliente”. Además, con nuevos

datos provenientes de proveedores externos se puede ampliar la base de datos

con la incorporación selectiva de potenciales y la selección de áreas con mayor

presencia de potenciales.

Pág. 21

Marketing directo: se pasa a desarrollar campañas basadas en perfiles con

productos, ofertas y mensajes dirigidos específicamente a ciertos tipos de clientes,

en lugar de emplear medios masivos con mensajes no diferenciados.

Con el análisis de los clientes se puede conocer cómo dirigirse a ellos

posibilitando una comunicación diferenciada, basada en el conocimiento de

éste (sexo, nivel de estudios, tamaño del hogar, etc.).

Con la incorporación de datos de las campañas, con el seguimiento de la

consecución de objetivos, etc. se dispone de un soporte para valorar la

efectividad de las acciones de marketing, permitiendo además la optimización

de campañas futuras.

Personalización: a través de segmentación de clientes y de los patrones de

comportamiento que se pueden anticipar con técnicas de Data Mining sobre el

repositorio, se puede llegar a la personalización del mensaje, en fondo y en forma,

hecho que le permite a la empresa aumentar drásticamente la eficacia de sus

acciones de comunicación. Con el marketing one to one en última instancia, se

están consiguiendo eficacias comerciales del 87% al 92%.

En la actualidad son ya numerosas las organizaciones, de diferentes sectores de

la economía, que han implantado soluciones basadas en DW, por ejemplo:

Bacardí Martini (distribución de bebidas) utiliza la información de ventas existente

en el DW para optimizar la utilización de recursos con el fin de lograr el máximo de

ventas con un coste preestablecido de antemano.

Pierre Fabré Ibérica (laboratorio multinacional cosmético y farmacéutico) utiliza un

DW comercial para el seguimiento de ventas por zona geográfica, organización

comercial, por producto, cliente, cadena y campaña etc., integrado en la aplicación

de red de ventas, produce también un extenso informe mensual requerido por la

casa matriz francesa.

Pastas La Familia (producción y distribución de alimentos) cuenta con un DW

comercial que se destaca por la integración de la información presupuestaria en el

Pág. 22

ámbito de familia de producto y cadena, genera hojas electrónicas con información

real del año en curso, sobre las cuales el departamento correspondiente calcula

los presupuestos del próximo año.

SEUR (empresa de mensajería y transporte de paquetes) posee un DW de más

de 80 millones de registros para seguimiento estadístico de los movimientos

operativos, que permite realizar unos análisis mucho más detallados y precisos de

envíos por ejemplo por origen y destino, por volumen, peso o precios de envío.

El diario El Mundo cuenta con un DW cuyo objetivo es obtener información

completa sobre la contratación de publicidad en sus medios.

Las organizaciones comentadas a título de ejemplo están utilizando

estratégicamente la información y el conocimiento obtenido del DW en diversos

procesos de su gestión comercial.

5.7 Técnicas más usadas en la minería de datos

Las técnicas que más disponen de información y que se describirán a

continuación son:

Redes neuronales

Árboles de decisión

Algoritmos genéticos

Modelos Lineales

Sistemas basados en conocimiento y sistemas expertos

Clustering

Pág. 23

Aprendizaje automático

CRISP-DM (Cross Industry Standard Process for Data Mining)

5.7.1 Redes neuronales

Inspirados en la anatomía y fisiología del cerebro humano, las Redes Neuronales

Artificiales (RNA) son modelos matemáticos que permiten hacer computación

inteligente y llevar a cabo tareas que las computadoras seriales no pueden

realizar: reconocimiento de patrones, memorias y aprendizaje asociativo, control

adaptivo, predicción de series de tiempo, clasificación de señales y clustering,

entre otras.

En una computadora neuronal el procesamiento es distribuido a toda una red de

procesadores denominados “neuronas” que realizan el cómputo en paralelo. La

propiedad de distribución y la capacidad de paralelizar los procesos determinan

las nuevas capacidades implicadas en el paradigma neuronal. Desde el punto de

vista de la minería de datos, el procesamiento paralelo y distribuido es muy

importante porque permite que las redes neuronales sean capaces de llevar a

cabo el procesamiento de datos a una escala masiva.

Una de las principales características de las redes neuronales, es que son

capaces de trabajar con datos incompletos e incluso paradójicos, que

dependiendo del problema puede resultar una ventaja o un inconveniente.

Además esta técnica posee dos formas de aprendizaje: supervisado y no

supervisado.

Esta técnica de inteligencia artificial, en los últimos años se ha convertido en uno

de los instrumentos de uso frecuente para detectar categorías comunes en los

datos, debido a que son capaces de detectar y aprender complejos patrones, y

características de los datos.

Pág. 24

5.7.2 Árboles de decisión

Está técnica se encuentra dentro de una metodología de aprendizaje supervisado.

Su representación es en forma de árbol en donde cada nodo es una decisión, los

cuales a su vez generan reglas para la clasificación de un conjunto de datos.

Los árboles de decisión son fáciles de usar, admiten atributos discretos y

continuos, tratan bien los atributos no significativos y los valores faltantes. Su

principal ventaja es la facilidad de interpretación.

Los algoritmos de árbol de decisión consisten en organizar los datos en elecciones

que compiten formando ramas de influencia después de una decisión inicial. El

tronco del árbol representa la decisión inicial, y empieza con una pregunta de sí o

no, como tomar o no desayuno. Tomar desayuno y no tomar desayuno serían las

dos ramas divergentes del árbol, y cada elección posterior tendría sus propias

ramas divergentes que llevan a un punto final.

5.7.3 Algoritmos genéticos

Los algoritmos genéticos, herramienta utilizada en esta investigación, son una

técnica matemática de búsqueda y optimización que encuentra soluciones a un

problema basándose en los principios que rigen la evolución de las especies a

nivel genético molecular. Estos algoritmos requieren de un conjunto de datos para

realizar su proceso de aprendizaje.

Los algoritmos genéticos imitan la evolución de las especies mediante la mutación,

reproducción y selección, como también proporcionan programas y optimizaciones

que pueden ser usadas en la construcción y entrenamiento de otras estructuras

Pág. 25

como es el caso de las redes neuronales. Además los algoritmos genéticos son

inspirados en el principio de la supervivencia de los más aptos.

Esta herramienta se usa en las primeras fases de la minería y después se aplica

redes neuronales o regresión logística.

5.7.4 Sistemas basados en conocimiento y sistemas expertos

Permiten la formalización de árboles y reglas de decisión, extraídas del

conocimiento de expertos. Poseen motores de inferencia, que gestionan las

preguntas. De esta forma el proceso de decisión es eficiente y rápido.

5.7.5 Modelos de regresión lineal

Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero

insuficiente en espacios multidimensionales donde puedan relacionarse más de 2

variables.

5.7.6 Agrupamiento o clustering

Es un procedimiento de agrupación de una serie de vectores según criterios

habitualmente de distancia; se tratará de disponer los vectores de entrada de

forma que estén más cercanos aquellos que tengan características comunes.

Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de

criterios de distancia o similitud, de manera que las clases sean similares entre sí

y distintas con las otras clases. Su utilización ha proporcionado significativos

resultados en lo que respecta a los clasificadores o reconocedores de patrones,

Pág. 26

como en el modelado de sistemas. Este método debido a su naturaleza flexible se

puede combinar fácilmente con otro tipo de técnica de minería de datos, dando

como resultado un sistema híbrido.

Un problema relacionado con el análisis de cluster es la selección de factores en

tareas de clasificación, debido a que no todas las variables tienen la misma

importancia a la hora de agrupar los objetos. Otro problema de gran importancia y

que actualmente despierta un gran interés es la fusión de conocimiento, ya que

existen múltiples fuentes de información sobre un mismo tema, los cuales no

utilizan una categorización homogénea de los objetos. Para poder solucionar estos

inconvenientes es necesario fusionar la información a la hora de recopilar,

comparar o resumir los datos.

5.7.7 Aprendizaje automático

Esta técnica de inteligencia artificial es utilizada para inferir conocimiento del

resultado de la aplicación de alguna de las otras técnicas antes mencionadas.

Las técnicas de aprendizaje automático son una alternativa para clasificar y

predecir acciones futuras en el sistema. En algunos enfoques de sistemas

recomendadores, durante el proceso de recomendación se opta por modelar las

referencias de los usuarios mediante técnicas de aprendizaje automático, tales

como: redes neuronales, árboles de decisión, redes bayesianas, etc.

Estos algoritmos de clasificación supervisada se utilizan comúnmente como parte

de las técnicas de minería de datos justamente cuando se cuenta con una enorme

cantidad de datos que necesitan ser clasificados y analizados.

Pág. 27

5.7.8 CRISP-DM (Cross Industry Standard Process For Data Mining)

Incluye descripciones de las fases normales de un proyecto, las tareas necesarias

en cada fase y una explicación de las relaciones entre las tareas.

Como modelo de proceso, ofrece un resumen del ciclo vital de minería de datos

La metodología esta descrita en términos de un modelo jerárquico, que consiste

en conjunto de tareas dividida en cuatro niveles de abstracción, de lo general a lo

específico, los niveles son: fases, tareas genéricas, tareas especializadas y las

instancias de proceso.

5.8 ALGORITMOS EN MINERÍA DE DATOS

La funcionalidad de los algoritmos es encontrar patrones de datos y relaciones en

grandes conjuntos de información; estos son conjuntos de reglas para resolver un

problema mediante una serie de pasos concretos. A continuación se presentan

algunos de los más utilizados:

5.8.1 El algoritmo K-means

El algoritmo K-means se basa en el análisis de grupos. Trata de dividir los datos

recogidos en "bloques" (clusters) separados agrupados por características

comunes.

5.8.2 El algoritmo A priori

El algoritmo Apriori normalmente controla los datos de transacciones. Por ejemplo,

en una tienda de ropa, el algoritmo podría controlar qué camisas suelen comprar

juntas los clientes.

Pág. 28

5.8.3 El algoritmo EM

Este algoritmo define parámetro analizando los datos y predice la posibilidad de

una salida futura o evento aleatorio dentro de los parámetros de datos. Por

ejemplo, el algoritmo EM podría intentar predecir el momento de una siguiente

erupción de un géiser según los datos de tiempo de erupciones pasadas.

5.8.4 Algoritmo PageRank

El algoritmo PageRank es un algoritmo base para los motores de búsqueda.

Puntúa y estima la relevancia de un trozo determinado de datos dentro de un gran

conjunto, como un único sitio web dentro de un conjunto mayor de todos los sitios

web de Internet.

5.8.5 Algoritmo AdaBoost

El algoritmo AdaBoost funciona dentro de otros algoritmos de aprendizaje que

anticipan un comportamiento según los datos observados para que sean sensibles

a extremos estadísticos. Aunque el algoritmo EM puede sesgarse debido a un

géiser que tiene dos erupciones en menos de un minuto cuando normalmente

tiene una erupción una vez al día, el algoritmo AdaBoost modificaría la salida del

algoritmo EM analizando la relevancia del extremo.

5.8.6 Naive Baye

El algoritmo Naive Baye predice la salida de una identidad basándose en los datos

de observaciones conocidas. Por ejemplo, si una persona tiene una altura de 6

pies y 6 pulgadas (1,97 m) y lleva una talla 14 de zapatos, el algoritmo Naive Baye

podría predecir con una determinada probabilidad que la persona es un hombre.

Pág. 29

5.8.7 Algoritmo CART

"CART" significa análisis de clasificación y árbol regresivo "Classification and

Regressive Tree". Al igual que los análisis de árboles de decisión, organiza los

datos según opciones que compiten, como si una persona ha sobrevivido a un

terremoto. Al contrario que los algoritmos de árboles de decisión, que sólo pueden

clasificar una salida o una salida numérica basada en regresión, el algoritmo

CART puede usar los dos para predecir la probabilidad de un evento.

5.8.8 Algoritmo del vecino k más cercano

Este algoritmo reconoce patrones en la ubicación de los datos y los asocia a los

datos con un identificador mayor. Por ejemplo, si quieres asignar una oficina postal

a cada ubicación geográfica del hogar y tienes un conjunto de datos para cada

ubicación geográfica del hogar, el algoritmo del vecino k más cercano asignará las

casas a la oficina postal más cercana según su proximidad.

5.8.9 Máquinas de vectores de soporte

Los algoritmos de máquinas de vectores de soporte toman datos de entrada y

predicen cuál de las dos posibles categorías incluye los datos de entrada. Un

ejemplo sería recoger los códigos postales de un grupo de votantes e intentar

predecir si un votante es demócrata o republicano.

5.9 MODELOS DE OPTIMIZACIÓN DE TRANSPORTE EXISTENTES

Se consideraran aquellos más actuales (últimos 20 años), dado que son los más

utilizados en el gremio del transporte desde que el tema se viene tratando.

Estos modelos presentan las siguientes características:

Pág. 30

Tienen como variables de decisión, los trazados de los recorridos y las

frecuencias.

Modelan los intereses de los usuarios y los operadores.

Toman en cuenta los datos de la demanda, la estructura y los costos de la red.

5.9.1 Modelo de Ceder y Wilson

Los autores presentan en un modelo de dos fases, cuya formulación está ligada

estrechamente con su estrategia de resolución. En la primera fase se determinan

los recorridos y en la segunda las frecuencias.

En la primera fase, se reflejan únicamente los objetivos de los usuarios,

minimizando las diferencias entre tiempos de viaje en vehículos efectivos y

óptimos, y los tiempos de transbordo si este existiera. En la segunda fase se

introducen las frecuencias de los recorridos como variables de decisión, lo que

permite calcular: los tiempos de espera y el tamaño de la flota necesaria para

cubrir los servicios.

5.9.2 Modelo de Baaj y Mahmassani

Este modelo propone minimizar una combinación de objetivos de usuarios y

operadores. El objetivo de los usuarios se representa como la minimización de los

tiempos de viaje (espera, en vehículo y trasbordo), los tiempos están ponderados

por las demandas en la función objetivo de los usuarios, así estos tendrán más

chance de ser transportados, utilizando caminos más cortos y mayores

frecuencias en la solución óptima. Los objetivos de los operadores están

representados por la cantidad de vehículos necesarios para cubrir todos los

recorridos con sus respectivas frecuencias.

Este modelo maneja una restricción que establece un máximo valor de ocupación

de los vehículos por sobre su capacidad de pasajeros sentados; esta restricción

Pág. 31

modela un determinado aspecto del nivel de confort de los pasajeros. El modelo

de asignación considera diferentes líneas para pasajeros que comparten el mismo

par origen-destino, utilizando como criterio principal, la minimización de los

trasbordos y el tiempo de viaje en los vehículos.

5.9.3 Modelo de Israeli y ceder

En este modelo, se incluye la utilización de los vehículos de interés tanto para

usuarios (si el vehículo viaja excedido en su capacidad se reduce el confort) como

para operadores (si el vehículo viaja con muchos asientos vacíos durante mucho

tiempo, la rentabilidad del recorrido disminuye). En este modelo se considera la

importancia de los costos de viaje, la espera y la importancia de la desocupación

de los vehículos.

5.9.4 Modelo de Krishna Rao Et Al

Se utilizan dos modelos de asignación diferentes. Para la fase uno, se considera

que los pasajeros viajando de un lugar a otro, seleccionan el recorrido más corto

en la red (quien los transporta con un menor tiempo de viaje), en caso de tener

más de una opción. Para la fase dos, se utiliza el modelo de asignación de Baaj y

Mahmassani.

5.9.5 Modelo de Gruttner Et Al

El modelo presentado difiere de los anteriores en la formulación de la función

objetivo, la que resume intereses de usuarios y operadores, expresando estos

últimos en términos de su rentabilidad. El modelo de asignación utiliza un modelo

logit para hallar las proporciones de demanda que utilizan cada línea.

Este modelo considera la demanda elástica, y modela la sensibilidad de esta

frente a una determinada solución utilizando el modelo logit.

Pág. 32

5.9.6 Modelo de Ngamchai y Lovell

Los autores proponen un modelo mediante el cual asumiendo simplificaciones en

el modelo de asignación, se puede derivar de forma analítica las frecuencias

óptimas para una determinada configuración de recorridos.

5.9.7 Modelo de Tom y Mohan

El modelo de estos autores es prácticamente el mismo que el de Baaj y

Mahmassani. En su formulación se incluye un término en la función objetivo, que

penaliza la demanda no satisfecha.

5.9.8 Modelo de Fan y Machemehl

El modelo de estos autores se basa en el de Baaj y Mahmassani, y agrega el

término de demanda no satisfecha a la función objetivo. Además se agregan

algunas restricciones adicionales: frecuencia máxima, mínima y máxima duración

de recorridos, y máxima cantidad de recorridos.

5.10 PRÁCTICAS UTILIZADAS EN LA CIUDAD DE MEDELLÍN

Las prácticas utilizadas en la ciudad de Medellín para la planeación, asignación y

administración de las rutas de las empresas de transporte colectivo, tienen una

estructura similar a los modelos presentados, con las siguientes características:

Tienen como variables de decisión los trazados de los recorridos y las frecuencias

de operación en su formulación.

En la función objetivo se representan los intereses de los usuarios y operadores.

Para los usuarios, generalmente se considera la minimización de los tiempos de

viaje entre todos los nodos de la red que componen un recorrido; estos tiempos

Pág. 33

generalmente incluyen tiempos de viaje en vehículo, de espera en la parada, y

penalización por trasbordo. Para la expresión de los objetivos de los operadores,

generalmente se considera el tamaño de la flota requerida (que representa los

costos de operación de los servicios). En el caso de la ciudad de Medellín los

modelos mencionados, no son detallados en la inclusión de la recaudación como

parte de la función objetivo de los operadores; esto se debe a que la cuantificación

de los ingresos no solo depende de la afluencia, sino de la política impuesta por

las autoridades que las regulan en otros países.

Las restricciones más comunes son las que acortan las frecuencias, el tamaño de

flota, las duraciones de los recorridos y el factor de ocupación de los vehículos.

Las diferencias estructurales más importantes entre los modelos, se presentan en

los siguientes niveles:

Una o dos fases: la mayoría de los modelos presentan la totalidad de su

formulación en una sola fase. Sin embargo algunos, principalmente a efectos de

su resolución, presentan formulaciones en dos fases, separando el tratamiento de

las variables de decisión (trazados de recorridos y frecuencias).

Objetivo único y multiobjetivo: la gran mayoría de los modelos presentados

resumen en su formulación los intereses de los usuarios y operadores en una sola

expresión, para lo cual se deben introducir coeficientes, que cumplen dos

funciones: realizar la conversión entre diferentes unidades y reflejar la importancia

relativa de los objetivos contrapuestos. El único modelo de optimización

multiobjetivo en sentido estricto, es el de Israelí y Ceder donde además se

presenta una metodología para seleccionar una solución no dominada particular.

Modelo de asignación: la solución óptima de un modelo depende fuertemente del

modelo de asignación. La complejidad de expresar el modelo de asignación en

términos de las variables de decisión del problema en el contexto del modelo de

optimización, hace que generalmente se exprese en forma implícita. De esta

Pág. 34

forma, valores como los tiempos de viaje en vehículo y tiempos de espera para

una determinada solución serán conocidos una vez aplicado el modelo de

asignación.

5.11 NORMATIVIDAD DEL TRANSITO DE MEDELLIN

Para el desarrollo de la investigación, se indagó sobre la normatividad que rige el

sector de transporte público colectivo en la ciudad de Medellín y que a

continuación se mencionan:

LEYES:

Ley 1310 del 26 de junio de 2009, mediante el cual se unifican normas sobre

agentes de transito y transporte y grupos de control vial de las entidades

territoriales y se dictan otras disposiciones.

Ley 769 del 6 de julio de 2002, Por la cual se expide el Código Nacional de

tránsito Terrestre y se dictan otras disposiciones.

Ley 105 del 30 de diciembre de 1993, Por la cual se dictan disposiciones básicas

sobre el transporte, se redistribuyen competencias y recursos entre la Nación y las

Entidades Territoriales, se reglamenta la planeación en el sector transporte y se

dictan otras disposiciones.

Ley 906 del 31 de agosto de 2004, por la cual se expide el Código de

Procedimiento Penal.

Ley 1005 del 19 de enero de 2006, por la cual se adiciona y modifica el Código

Nacional de Tránsito Terrestre, Ley 769 de 2002.

Pág. 35

Ley 1083 31/07/2006: por medio de la cual se establecen algunas normas sobre

planeación urbana sostenible y se dictan otras disposiciones.

Capítulo I: movilidad sostenible en distritos y municipios con planes de

ordenamiento territorial.

Artículo 2°: c) Reorganizar las rutas de transporte público y tráfico sobre

ejes viales que permitan incrementar la movilidad y bajar los niveles de

contaminación.

Ley 105 de 1993: por la cual se dictan disposiciones básicas sobre el transporte,

se redistribuyen competencias y recursos entre la Nación y las entidades

territoriales, se reglamenta la planeación en el sector transporte y se dictan otras

disposiciones.

Capítulo II: principios rectores del transporte.

Artículo 3°, principios del transporte público: el transporte publico es

una industria encaminada a garantizar la movilización de personas o cosas

por medio de vehículos apropiados a cada una de las infraestructuras del

sector, en condiciones de libertad de acceso, calidad y seguridad de los

usuarios sujeto a una contraprestación económica y se regirá por los

siguientes principios: acceso al transporte, el carácter del servicio público

del transporte, la colaboración entre entidades, la participación ciudadana,

las rutas para el servicio público de transporte de pasajeros, la libertad de

empresa, los permisos o contratos de concesión, transporte intermodal y los

subsidios a determinados usuarios.

Capítulo III: regulación del transporte y el tránsito.

Artículo 6°, reposición del parque automotor del servicio de pasajeros

y/o mixto: la vida útil máxima de los vehículos terrestres de servicio público

colectivo de pasajeros y/o mixto será de veinte (20) años. Se excluyen de

esta reposición el parque automotor de servicio público colectivo de

Pág. 36

pasajeros y/o mixto (camperos, chivas) de servicio público colectivo de

pasajeros y/o mixto del sector rural, siempre y cuando reúnan los requisitos

técnicos de seguridad exigidos por las normas y con la certificación

establecida por ellas.

La vida útil máxima de los vehículos terrestres de servicio público colectivo

de pasajeros y/o mixto será de veinte (20) años. El ministerio de transporte

exigirá la reposición del parque automotor, garantizando que se sustituyan

por nuevos los vehículos que hayan cumplido su ciclo de vida util.

Artículo 7°, programa de reposición del parque automotor: las

empresas de carácter colectivo de pasajeros y/o mixto, y las organizaciones

de carácter cooperativo y solidario de la industria del transporte. Están

obligadas a ofrecerle a los propietarios de vehículos, programas periódicos

de reposición y a establecer y reglamentar fondos que garanticen la

reposición gradual del parque automotor, establecida en el artículo anterior

(6).

Ley 336 20 de diciembre 1996: estatuto general de transporte.

Capítulo I: disposiciones generales para los modos de transporte.

Artículo 3°: para los efectos pertinentes, en la regulación del transporte

público las autoridades competentes exigirán y verificaran las condiciones

de seguridad, comodidad y accesibilidad requerida para garantizarle a los

habitantes la eficiente prestación del servicio básico y de los demás niveles

que se establezcan el interior de cada Modo, dándole prioridad a la

utilización de medios de transporte masivo. En todo caso, el estado

regulara y vigilara la industria del transporte en los términos previstos en los

artículos 333 y 334 de la constitución política.

Pág. 37

Capitulo III: creación y funcionamiento de las empresas de transporte

público.

Artículo 11°: las empresas interesadas en prestar el servicio público de

transporte o constituidas para tal fin, deberá solicitar y obtener habilitación

para operar.

La habilitación, para efectos de esta ley, es la autorización expedida por la

autoridad competente en cada modo de transporte para la prestación del

servicio público de transporte.

El gobierno nacional fijara las condiciones para el otorgamiento de la

habilitación, en materia de organización y capacidad económica y étnica,

igualmente, señalara los requisitos que deberán acreditar los operadores,

tales como estados financieros debidamente certificados, demostración de

la existencia del capital suscrito y pagado, y patrimonio bruto, comprobación

del origen del capital, aportado por los socios, propietarios o accionistas,

propiedad, posesión o vinculación de equipos de transporte, factores de

seguridad, ámbito de operación y necesidades del servicio.

Capitulo IV: de la prestación del servicio.

Artículo 17°: el permiso para la prestación del servicio en áreas de

operación, rutas y horarios o frecuencias de despacho, estará sometido a

las condiciones de regulación o de libertad que para su prestación se

establezcan en los reglamentos correspondientes. En el transporte de

pasajeros existente o potencial, según el caso para adoptar las medidas

conducentes a satisfacer las necesidades de movilización.

Artículo 18°: el permiso para la prestación del servicio publico de

transporte es revocable e intransferible, y obliga a su beneficiario a cumplir

lo autorizado bajo las condiciones en él establecidas.

Artículo 19°: el permiso para la prestación del servicio publico de

transporte se otorgara mediante concurso en el que garanticen la libre

concurrencia y la iniciativa privada sobre creación de nuevas empresas,

Pág. 38

según lo determina la reglamentación que expida el gobierno nacional.

Cuando el servicio a prestar no esté sujeto a rutas y horarios

predeterminados el permiso se podrá otorgar directamente junto con la

habilitación para operar como empresa de transporte.

DECRETOS:

Decreto 007 de 2010, por el cual se adopta el plan estratégico de movilidad para

Medellín, y se dictan otras disposiciones.

Decreto 3422 de 2009, por el cual se reglamentan los sistemas de transporte

públicos (SETP) de conformidad con la ley 1151de 2007.

Decreto 0099 de 2010, por el cual se autoriza la implementación de subsistemas

de transporte para el mejoramiento en la prestación del servicio publico colectivo

de pasajeros en la ciudad de Medellín.

Decreto 170 de 2001, Por el cual se reglamenta el Servicio Público de Transporte

Terrestre Automotor Colectivo Metropolitano, Distrital y Municipal de Pasajeros.

Decreto 1881 de 2010, Por el cual se establecen las condiciones de presentación

de planes de rodamiento por parte de las empresas de transporte publico colectivo

del radio de acción municipal

Decreto 1449 de 2011, Por el cual se adoptan medidas para aplicar la

reglamentación del transporte público colectivo urbano accesible, con radio de

acción municipal.

Decreto 0560 de 2002, Por medio del cual se toman medidas sobre las rutas de

transporte público colectivo de la ciudad.

Pág. 39

Decreto 1739 de 2004, Por medio del cual se implementa el sistema de caja única

para todas las rutas que operan en la ciudad de Medellín.

Decreto 0373 de 2008, Por medio del cual se fijan las tarifas para el servicio

público de transporte municipal colectivo de las rutas urbanas, corregimientos e

integradoras a las estaciones del metro de la ciudad de Medellín.

Decreto 0428 de 2004, Por medio del cual se fija la tarifa para el servicio de

transporte público colectivo de los estudiantes de estratos 1,2 y 3 que cumplan

con los requisitos que establezca el programa “tiquete estudiantil”.

Decreto 0624 de 1989, Por el cual se expide el Estatuto Tributario de los

impuestos administrados por la Dirección General de Impuesto Nacionales.

Decreto 1698 de 2011, Por medio del cual se dictan normas para el recaudo

tarifario en el servicio público de transporte colectivo de las rutas urbanas y

corregimientos de la ciudad de Medellín.

Decreto 0288 de 2011, Por el cual se establecen los parqueaderos autorizados

para vehículos de transporte público colectivo, y se dictan otras disposiciones.

Decreto 0311 de 2002, Por el cual se crea “La mesa de trabajo sobre transporte,

tránsito y medio ambiente saludable”.

Decreto 0473 de 2002, Por el cual se exige el uso de equipos de control de

contaminación a las fuentes móviles automotores de mas de tres ruedas,

matriculados o que circulen en Medellín.

Decreto 0019 de 2012, Por el cual se establecen los criterios para la aplicación

del decreto: Medidas de inmediata aplicación, medidas que requieren

reglamentación o implementación de herramientas administrativas.

Pág. 40

Decreto 1760 de 2009, Por el cual se establecen reglas generales para la

administración de los inmuebles propiedad del municipio de Medellín y se dictan

otras disposiciones.

RESOLUCIONES:

Resolución 3027 de 2010, se describen el valor de las infracciones.

Resolución número 297 de 2010, Por medio de la cual se extiende el horario de

servicio y se establecen frecuencias de despacho en las horas de la noche para

algunas rutas de transporte público colectivo.

Resolución 479 de 2010(febrero 22)

Por la cual se expide el reglamento técnico para vehículos de servicio público

colectivo y especial de pasajeros con capacidad entre 10 y 79 pasajeros, no

incluido el conductor, y dictan otras disposiciones.

Resolución número 849 de 2007(octubre 08)

Por medio de la cual se fija la capacidad transportadora y se determinan las

frecuencias de despacho a una empresa de transporte público colectivo.

Resolución número 1182 de 2010(agosto 23)

Por medio del cual se establece un procedimiento para seleccionar los vehículos

de transporte público colectivo del radio de acción municipal, cuyas tarjetas de

operación o trámites de transporte han de ser suspendidos temporalmente hasta

que las empresas ajusten su capacidad transportadora a la autorizada por esta

secretaria en virtud de la sobre-oferta establecida en estudios técnicos.

Resolución número 1500 de 2010(0ctubre 06)

Por medio de la cual se autoriza el ajuste de capacidad a una empresa de

transporte público colectivo.

Pág. 41

Resolución número 004775 de 2009(octubre 10)

Por la cual se establece el manual de trámites para el registro o matrícula de

vehículos automotores y no automotores en todo el territorio nacional y se dictan

otras disposiciones.

5.12 IMPORTANCIA DE LA MEDICIÓN

La medición permite comparar una magnitud con un patrón preestablecido, lo que

permite observar el grado en que se alcanzan las actividades propuestas dentro

de un proceso específico.

Los resultados obtenidos a través de la medición permiten mejorar la planificación,

dado que es posible observar hechos en tiempo real, logrando tomar decisiones

con mayor certeza y confiabilidad.

Una adecuada medición requiere ser PERTINENTE, esto significa que las

mediciones que se lleven a cabo deberán ser relevantes y útiles para facilitar las

decisiones que serán tomadas sobre la base de sus resultados; PRECISA, debe

reflejar fielmente el comportamiento de las variables de medición, en este punto

interviene la adecuada elección del instrumento de medición; OPORTUNA, que

los resultados de la medición estén disponibles en el tiempo en que la información

es importante y relevante para la toma de decisiones, tanto para corregir como

para prevenir y ECONÓMICA, debe existir una proporcionalidad y racionalidad

entre los costos incurridos en la medición y los beneficios o la relevancia de la

información suministrada.

Pág. 42

5.13 Qué es un indicador

Un indicador es una expresión cualitativa o cuantitativa observable, que permite

describir características, comportamientos o fenómenos de la realidad a través de

la evolución de una variable o el establecimiento de una relación entre variables, la

que comparada con periodos anteriores o bien frente a una meta o compromiso,

permite evaluar el desempeño y su evolución en el tiempo.

Los indicadores sirven para establecer el logro y el cumplimiento de la misión,

objetivos, metas, programas o políticas de un determinado proceso o estrategia,

por esto podemos decir que son ante todo, que es la información que agrega valor

y no simplemente un dato, ya que los datos corresponden a unidades de

información que pueden incluir números, observaciones o cifras, pero si no están

ligadas a contextos para su análisis carecen de sentido. Por su parte la

información es un conjunto organizado de datos, que al ser procesados, pueden

mostrar un fenómeno y dan sentido a una situación en particular.

Los Indicadores permiten evidenciar el nivel de cumplimiento acerca de lo que

está haciendo la organización y sobre los efectos de sus actividades, a través de

la medición de aspectos tales como:

Recursos: Como talento humano, presupuesto, planta y equipos.

Cargas de Trabajo: Como estadísticas y metas que se tengan para un período

de tiempo determinado y el tiempo y número de personas requeridas para

realizar una actividad.

Resultados: Como ciudadanos atendidos, oficios respondidos, ejecución del

cronograma, niños vacunados, kilómetros construidos, etc.

Impacto: De los productos y/o servicios, tales como enfermedades prevenidas,

impuestos recolectados, niveles de seguridad laboral alcanzados.

Pág. 43

Productividad: Como casos atendidos por profesionales, solicitudes

procesadas por persona, llamadas de emergencia atendidas.

Satisfacción del Usuario: Como el número de quejas recibidas, resultados de

las encuestas, utilización de procesos participativos, visitas a los clientes.

Calidad y Oportunidad del Producto y/o Servicio: Como tiempos de

respuesta al usuario, capacidad para acceder a una instancia, racionalización

de trámites.

5.14 Características de los indicadores

Los indicadores deben cumplir con unos requisitos y elementos para poder apoyar

la gestión en el cumplimiento de los objetivos institucionales. Las características

más relevantes son las siguientes:

Oportunidad: Deben permitir obtener información en tiempo real, de forma

adecuada y oportuna, medir con un grado aceptable de precisión los resultados

alcanzados y los desfases con respecto a los objetivos propuestos, que permitan

la toma de decisiones para corregir y reorientar la gestión antes de que las

consecuencias afecten significativamente los resultados o estos sean irreversibles.

Excluyentes: cada indicador evalúa un aspecto específico único de la realidad,

una dimensión particular de la gestión. Si bien la realidad en la que se actúa es

multidimensional, un indicador puede considerar alguna de tales dimensiones

(económica, social, cultural, política u otras), pero no puede abarcarlas todas.

Prácticos: Que se facilite su recolección y procesamiento.

Claros: Ser comprensible tanto para quienes lo desarrollen como para quienes lo

estudien o lo tomen como referencia.

Por tanto, un indicador complejo o de difícil interpretación que sólo lo entienden

quienes lo construyen debe ser replanteado.

Pág. 44

Explícitos: Definir de manera clara las variables con respecto a las cuales se

analizará para evitar interpretaciones ambiguas.

Sensibles: Reflejar el cambio de la variable en el tiempo.

Transparente/Verificable: Su cálculo debe estar adecuadamente soportado y ser

documentado para su seguimiento y trazabilidad.

Pág. 45

6. METODOLOGIA

La calidad del servicio es vital dentro de una organización, para que esta se

mantenga en el mercado, por consiguiente una empresa que tiene baja calidad de

servicio es muy probable que desaparezca.

En el marco actual de las empresas que prestan servicio público colectivo, la

confluencia de nuevas infraestructuras de comunicación con potentes y flexibles

herramientas de tratamiento de información (bases de datos, Dta Warehouse,

Data Mining) mejoran la calidad, cantidad y eficiencia de los datos, así como el

análisis, procesamiento y comunicación de los mismos. En otras palabras, pueden

aportar a estas empresas las bases necesarias para afrontar los nuevos retos de

la situación actual y las perspectivas de futuro de la gestión comercial. De ahí, que

en este trabajo, se resalte el hecho de que las bases de datos y el DW permiten

en primera instancia el almacenamiento adecuado de los datos obtenidos de las

actividades habituales de estas empresas, producción, control de gestión,

planificación estratégica, etc. Pero además se incide en otro hecho, que es el que

a través de dichas herramientas estas empresas pueden extraer de dichos datos,

la información y el conocimiento que necesitan para identificar y responder

estratégicamente a las necesidades de su actividad comercial. Permitiendo un

mejor conocimiento del cliente para poder desarrollar estrategias y/o servicios

enfocados a sus expectativas. Ayudando a desarrollar ofertas y mensajes dirigidos

específicamente a ciertos tipos de clientes teniendo en cuenta que todos los

clientes no utilizan el servicio público colectivo. Como resultado se mejora el

proceso de gestión de información entre la empresa, los clientes y los directivos de

la empresa, hecho que redunda en la fidelización de los clientes y en el aumento

drástico de la eficacia en la gestión del conocimiento.

Pág. 46

OBJETIVO ACTIVIDADES TECNICAS FUENTES

Estudiar distintos enfoques para la

extracción de conocimiento como: la

calidad en la gestión empresarial, la

orientación hacia el cliente y

optimización de los servicios en

empresas de transporte público

colectivo en la ciudad de Medellín.

Conocimiento sobre: calidad en la gestión empresarial, orientación hacia el cliente y optimización de los servicios en empresas de transporte público colectivo

Conocimientos en empresas de transporte público colectivo.

Adecuación de los servicios para la estabilidad y comodidad de los clientes.

Marketing.

Orientación hacia la toma de decisiones.

Revisión documental Libros

Revistas

Artículos

Publicaciones web

Encuestas

Buzón de sugerencias

Definir los componentes del modelo

para la extracción de conocimiento

para empresas de transporte

público colectivo

Integración y recopilación.

Selección, limpieza y transformación.

Minería de datos.

Evaluación e interpretación

Difusión y uso

Diseñar un modelo conceptual para

la extracción de conocimiento para

empresas de transporte público

colectivo

Creación de una base de datos.

Interpretación de un modelo entidad relación.

Conocimiento en Analisys Services.

Conocimiento en SQL server.

Funcionalidad de una minería de datos.

Pág. 47

6.1 Enfoque para la extracción de conocimiento como: la calidad en la gestión

empresarial, la orientación hacia el cliente y optimización de los servicios en

empresas de transporte público colectivo en la ciudad de Medellín.

6.2 Componentes del modelo para la extracción de conocimiento para empresas

de transporte público colectivo

Los pasos a seguir para la realización de un proyecto de extracción de datos son

siempre los mismos, independientemente de la técnica específica de extracción de

conocimiento usada.

6.2.1 Análisis de desarrollo para extracción

Para el planteamiento teórico de la extracción de conocimiento del trabajo propuesto,

se toma como referente la aplicación de la metodología CRISP-DM, la cual se define a

partir de experiencias consultadas y tomando lo mejor de los procedimientos más

exitosos o populares.

Esta metodología incluye un modelo y una guía, estructurados en seis fases:

A continuación veremos cada fase de CRISP-DM con sus tareas respectivas:

1. Comprensión del Negocio:

- Determinar objetivos del negocio.

- Valoración de la situación.

- Determinar los objetivos de DM.

Pág. 48

- Realizar el plan del proyecto.

2. Comprensión de los Datos:

- Recolectar los datos iniciales.

- Descripción de los datos.

- Exploración de los datos.

- Verificar la calidad de los datos.

3. Preparación de Datos:

- Seleccionar los datos.

- Limpiar los datos.

- Estructurar los datos.

- Integrar los datos.

- Formateo de los datos.

4. Modelado:

- Seleccionar técnica de modelado.

- Generar el plan de prueba.

- Construir el modelo.

- Evaluar el modelo.

5. Evaluación:

- Evaluar los resultados.

- Revisión del proceso.

- Determinar próximos pasos.

6. Implementación:

- Plan de implantación.

- Plan de monitoreo y mantención.

- Informe final.

- Revisión del proyecto

Pág. 49

6.2.2 FASES

Las fases de la metodología CRISP-DM son las siguientes:

Las flechas indican las relaciones más habituales entre las fases, aunque se pueden

establecer relaciones entre cualquier fase. El círculo exterior simboliza la naturaleza

cíclica del proceso de modelado.

Comprensión

del Negocio

Comprensión

de los Datos

Preparación de

Datos

Modelado

Evaluación

Implementación

Datos

Pág. 50

6.2.3 Propuesta de modelo de extracción según metodología CRIPS-DM

Para el desarrollo de la propuesta de extracción de conocimiento en una empresa de

transporte público colectivo en la ciudad de Medellín a partir de una base de datos se

tienen en consideración la implementación de las siguientes fases:

1. Comprensión del negocio: la empresa de transporte público colectivo, busca

mejorar los ejes temáticos de calidad de la gestión empresarial, calidad de

atención al cliente y optimización de los servicios, por medio de la generación

de indicadores para hacer un seguimiento de su frecuencia previamente

definida que a su vez apoyen a la toma de decisiones a las directivas de la

empresa. Estos indicadores no existen o complementan los manejados en esta.

Para la construcción se parte de una base de datos elaborada en SQL Server

2008 y para la implementación de los indicadores se utiliza la herramienta

Analysis Server de la misma.

2. Comprensión de los datos: los datos seleccionados para realizar la extracción

del conocimiento corresponden a la información del personal vinculado a la

empresa, los vehículos, los horarios, los insumos, las rutas, los recorridos y las

averias, con el fin de tener el mayor aprovechamiento de los datos relacionados

con los ejes temáticos de calidad de la gestión empresarial, atención al cliente y

optimización de los servicios.

3. Preparación de los datos: Toda la información necesaria para realizar el

desarrollo del proyecto propuesto se encuentra en una única base de datos y

no se hace necesario integrar otros orígenes. Los atributos seleccionados para

realizar la extracción de conocimiento en la base de datos de transporte público

colectivo corresponden a indicadores que buscan analizar resultados,

productividad, recursos, satisfacción del usuario, y cargas de trabajo. El objetivo

es asociar en una sola tabla las dimensiones necesarias (lugar, fecha y hecho)

para la elaboración de los cubos.

Pág. 51

4. Modelado: para la realización de este paso se utilizaron las técnicas de minería

de datos del SQL Server 2008, utilizando la herramienta SQL Server Business

Intelligence Development Studio, específicamente SQL Server Analysis

Services (SSAS). A continuación se relacionan los indicadores a obtener con

este modelado:

Calidad en la gestión empresarial

Tipo de

Indicador

Nombre de

indicador

Formula del

indicador

Escala de

medición

Periodicidad

del indicador

Resultados

Porcentaje rutas

cumplidas

correctamente

(Total de rutas

despachadas /

total de rutas

cumplidas) x 100

% mensual

Productividad

Porcentaje de

averías por ruta

(Total de averías

por ruta / total de

averías) x 100

% mensual

Productividad

Porcentaje de

averías por

vehículo

(Total averías por

vehículo / total de

averías) x 100

% mensual

Resultados

Porcentaje

facturado por ruta

(Total facturado

por ruta / total

facturado) x 100

% mensual

Resultados

Porcentaje

facturado por

vehículo

(Total facturado

por (vehículo /

total facturado) x

100

% mensual

Productividad Costo de

operación por

(costo real del

vehículo - costo

Total Mensual

Pág. 52

vehículo presupuestado)

Productividad Ganancia de

operación por ruta

(valor de las

ventas totales por

ruta - costo

logístico total por

ruta)

Total Mensual

Productividad

Costo de

operación por

conductor

(costo total de

transporte /

número de

conductores)

Total Mensual

Productividad

Costo de

operación por

usuario

transportado

(costo total de

operación /

número de

usuarios

transportados)

Total Mensual

Productividad

Total de usuarios

transportados por

vehículo

Sumatoria de

usuarios

transportados por

vehículo

Total Mensual

Productividad

Porcentaje de

usuarios

transportados por

vehículo

(Total de usuarios

transportados por

vehículo / Total

de usuarios

transportados) x

100

% Mensual

Productividad Total de usuarios

transportados por

Sumatoria de

usuarios

transportados por

Total Mensual

Pág. 53

ruta ruta

Recursos Valor total de los

activos de logística

Sumatoria de

Valores de los

activos de

logística

Total Mensual

Recursos

Porcentaje de

proveedores

Certificados

(proveedores

certificados / total

de proveedores)x

100

% Mensual

Recursos Volumen de

compra

Sumatoria de

valor de compras Total Mensual

Recursos Gastos de

servicios públicos

Sumatoria de

valor de compras Total Mensual

Recursos Porcentaje de

Vejez de vehículos

(unidades

obsoletas /

unidades

disponibles) x

100

% Mensual

Recursos

Costo

almacenamiento

logística

(costo

almacenamiento /

número de

unidades

almacenadas)

Total Mensual

Productividad

Porcentaje de

productividad por

ruta

(valor real de

producción / valor

de producción

esperado) x100

% Mensual

Pág. 54

Productividad

Porcentaje de

productividad por

vehículo

(valor real de

producción / valor

de producción

esperado) x 100

% Mensual

Recursos Área de parqueo

(parqueaderos

disponible -

parqueadero

utilizado)

Total Mensual

Recursos

Porcentaje de

mantenimiento de

vehículos

(vehículos en

mantenimiento /

total de vehículos

disponibles) x

100

% Mensual

Recursos Cantidad Rotación

de vehículos

(fecha actual -

año modelo

vehículo)

Total Mensual

Calidad en la atención al cliente

Tipo de

Indicador

Nombre de

indicador

Formula del

indicador

Escala de

medición

Periodicidad

del indicador

Satisfacción

del Usuario

Atención al cliente

(horas

dedicadas a

responder

reclamos / horas

disponibles)

Total Mensual

Satisfacción

del Usuario

Porcentaje de

atención de

reclamos

(Reclamos

atendidos / total

de los reclamos)

% Mensual

Pág. 55

Optimización de los servicios

Tipo de

Indicador

Nombre de

indicador

Formula del

indicador

Escala de

medición

Periodicidad

del indicador

Resultados

Porcentaje de tiempo

de ruta

(Rutas a tiempo /

total de las rutas

despachadas) x

100

% Mensual

Resultados

Promedio de tiempo

por ruta

Se obtiene

dividiendo la

suma de estas

cantidades entre

el número de

ellas

% Mensual

Resultados

Promedio de tiempo

por vehículo

Se obtiene

dividiendo la

suma de estas

cantidades entre

el número de

ellas

% Mensual

Resultados Rendimiento de

vehículo

(número de

usuarios

transportados /

capacidad max

del vehículo) x

100

% Mensual

Resultados Comparativo costo

de transporte

(costo de

transporte propio

x unidad / costo

contratar

transporte x

Total Mensual

Pág. 56

unidad)

Resultados Porcentaje de

rendimiento por ruta

(total usuarios

reales / total de

usuarios

esperados) x 100

% Mensual

Resultados

Porcentaje de

rendimiento por

vehículo

(total usuarios

reales / total de

usuarios

esperados) x 100

% Mensual

Cargas de

Trabajo

Porcentaje de horas

por vehículos

(Horas de

vehículo

utilizadas / horas

disponibles) x

100

% Mensual

Cargas de

Trabajo

Disponibilidad

servicio por vehículo

(Número de días

por mes en

servicio por

vehículo / días

disponible por

mes)

Total Mensual

Cargas de

Trabajo

Disponibilidad

servicio por

conductor

(Número de días

por mes en

servicio por

conductor / días

disponible por

mes)

Total Mensual

Resultados

Diferencia periódica

de recorrido en una

ruta

(distancia real

recorrida –

distancia

estándar

Total Mensual

Pág. 57

recorrida)


combustible por ruta

(uso real de

combustible –

uso estándar de

combustible)

Total Mensual


horas por ruta

(hora real por

ruta – horas

estándar por

ruta)

Total Mensual

Cargas de

Trabajo

Porcentaje de

actividad por

conductor

(horas

trabajadas /

horas

esperadas) x 100

% Mensual

Cargas de

Trabajo

Porcentaje de

inactividad por

conductor

(100 – (horas

trabajadas /

horas

esperadas))

% Mensual

Pág. 58

5. Evaluación: en esta fase se evalúa el modelo escogido, y si cumple o no

cumple con los objetivos propuestos para la extracción del conocimiento. Se

revisa el proceso teniendo en cuenta los resultados obtenidos para repetir

alguna fase en caso que se hayan cometido errores.

6. Despliegue: los modelos y reglas obtenidos podrán ser utilizados por una

empresa de transporte público colectivo como modelo de extracción de

conocimiento y así podrán trazar estrategias que le permitan elevar la calidad

en la gestión empresarial, la calidad en la atención al cliente y la optimización

de los servicios.

Pág. 59

6.3 Modelo conceptual para la extracción de conocimiento para empresas de

transporte público colectivo

ESTRUCTURACIÓN Y ADMISNITRACIÓN DE LOS DATOS

Tablas con sus respectivos campos

TABLA COLUMNA DESCRIPCIÓN TIPO TAMAÑO NULLEABLE PRIMARY/FOREIGN

KEY

Conductor

idConductor Identificador único del conductor bigint NO PRIMARY KEY

apellidos Apellidos del conductor varchar 50 SI

direccion Direccion de la vivienda del conductor varchar 50 SI

edad Edad del conductor int SI

idGenero Referencia tabla genero bigint SI FK: tabla Genero

nombres nombre del conductor varchar 50 SI

telefono Telefonos de contacto del conductor int SI

Genero

idGenero Identificador unico del genero bigint NO PRIMARY KEY

esActivo Informa si el genero esta activo (True) o inactivo (False) bit 1 NO

inicial La sigla o letra inicial del nombre del genero varchar 5 NO

tipoGenero

Indica el tipo de genero, los generos son: Masculino, Femenino e Indefinido varchar 50 NO

Horario

idHorario Identificador unico del horario bigint NO PRIMARY KEY

esActivo Informa si el horario esta activo (True) o inactivo (False) bit 1 NO

horaDesde Hora de inicio del horario varchar 10 SI

horaHasta Hora final del horario varchar 10 SI

idTipoHorario Referencia tabla TipoHorario bigint SI FK: tabla TipoHorario

nombreHorario Nombre del horario varchar 50 SI

Insumos

idInsumo Identificador unico de insumo bigint NO PRIMARY KEY

esActivo Informa si el insumo esta activo (True) o inactivo (False) bit 1 NO

nombreInsumo Nombre del insumo varchar 50 NO

valorUnitario Valor unitario del insumo int NO

Insumos_Recorrido

idInsumo_Recorrido Identificador unico de insumo recorrido bigint NO PRIMARY KEY

cantidadInsumo Cantidad de insumos en un recorrido int SI

idInsumo Referencia tabla Insumo bigint NO FK: tabla Insumo

idRecorrido Referencia tabla Recorrido bigint NO FK: tabla Recorrido

Marca idMarca Identificador unico de la marca bigint NO PRIMARY KEY

nombre Nombre de la marca varchar 50 SI

Recorrido idRecorrido Identificador unico del recorrido bigint NO PRIMARY KEY

Pág. 60

idTipoFrecuencia Referencia tabla TipoFrecuencia bigint SI FK: tabla TipoFrecuencia

kilometros Numero de kilómetros int NO

NombreRecorrido nombre del recorrido varchar 200 NO

Recorrido_Horario idRecorridoHorario

Identificador unico del recorrido horario bigint NO PRIMARY KEY

idHorario Referencia tabla Horario bigint NO FK: tabla Horario

idRecorrido Referencia tabla Recorrido bigint NO FK: tabla Recorrido

Ruta

idRuta Identificador unico de la ruta bigint NO PRIMARY KEY

idRecorridoHorario Referencia tabla Recorrido_Horario bigint NO FK: tabla Recorrido_Horario

idTipoAveria Referencia tabla TipoAveria bigint SI FK: tabla TipoAveria

idValorRuta Referencia tabla ValorRuta bigint NO FK: tabla ValorRuta

idVehiculo Referencia tabla Vehículo bigint NO FK: tabla Vehículo

idVelocidad Referencia tabla Velocidad bigint NO FK: tabla Velocidad

TipoAveria

idTipoAveria Identificador unico de las averias bigint NO PRIMARY KEY

esActivo Informa si el tipo de averia esta activo (True) o inactivo (False) bit 1 NO

nombreAveria

Indica los tipos de averias que pueden ser por: Chasis, Direccion, Motor, Carroceria Externa, Carroceria Interna, Sistema de frenos, Fallos electronicos, Barra estabilizadora, Bombillas Fundidas, Brazos de Suspensión, Fuga de Aceite, Radiador, Sistema de Rodamiento varchar 50 NO

TipoFrecuencia

idTipoFrecuencia Identificador unico de las frecuencias bigint NO PRIMARY KEY

esActivo Informa si el tipo de frecuencia esta activo (True) o inactivo (False) bit 1 NO

TipoFrecuencia

Indica los tipos de frecuencias que pueden ser: Nunca, Siempre, Medianamente, Semanal, Quincenal, Mensual, Trimestral, Semestral, Anual varchar 50 NO

TipoHorario

idTipoHorario Identificador unico del horario bigint NO PRIMARY KEY

esActivo Informa si el tipo de horario esta activo (True) o inactivo (False) bit 1 NO

tipoHorario Indica los tipos de horario que son: Nocturno, Diurno varchar 50 NO

TipoVehiculo

idTipoVehiculo Identificador unico del tipo de vehículo bigint NO PRIMARY KEY

esActivo Informa si el tipo de vehiculo esta activo (True) o inactivo (False) bit 1 NO

tipoVehiculo

Indica los tipo de vehículo que se tiene, son: Bus, Buseta, Micro Bus, Mini Bus, Minivan varchar 50 NO

ValorRuta

idValorRuta Identificador unico del valor de la ruta bigint NO PRIMARY KEY

esActivo Informa si el valor de la ruta esta activo (True) o inactivo (False) bit 1 NO

valor Valor monetario de la ruta int NO

Vehiculo idVehiculo Identificador unico del vehículo bigint NO PRIMARY KEY

idMarca Referencia tabla Marca bigint NO FK: tabla Marca

Pág. 61

idTipoVehiculo Referencia tabla TipoVehiculo bigint NO FK: tabla TipoVehiculo

Vehiculos_Conductor idVehiCond

Identificador unico del vehículo conductor bigint NO PRIMARY KEY

idConductor Referencia tabla Conductor bigint NO FK: tabla Conductor

idVehiculo Referencia tabla Vehículo bigint NO FK: tabla Vehículo

Velocidad

idVelocidad Identificador unico de la velocidad bigint NO PRIMARY KEY

inicial_km/h Valor inicial del rango de velocidad int SI

Final_km/h Valor final del rango de velocidad int SI

nombreVelocidad Nombre de la velocidad varchar 50 NO

Pág. 62

Reglas de transformación

Campo Antes Después

Genero Masculino M

Femenino F

EstadoCivil Soltero SO

Casado CA

Separado SE

Union Libre UL

Viudo VI

nombreVelocidad Alta A

Media M

Baja B

Fechas 19/01/2012 19-01-2012

Reglas de depuración

1. Reglas de integridad

Los Id en cada una de las dimensiones no se deben repetir, deben ser de

tipo identidad.

No deben haber conductores programados en dos rutas diferentes el

mismo día y a la misma hora.

Un conductor dolo puede tener una identificación.

Cada uno de los vehículos solo debe tener una placa.

2. Reglas de validación

Si el conductor tiene varias rutas asignadas, la identificación debe ser

igual.

La regla NOT NULL se debe cumplir en todas las dimensiones.

Se debe tener en cuenta el tipo de dato en el momento de la carga

Pág. 63

Reglas de carga

1. Método de carga

La carga de información se desarrolla de la siguiente manera:

Extracción de la información desde las fuentes.

Transformación de la información.

Transporte de la información

Validación de la información

Carga de la bodega de datos

Extracción Carga

OLTP ETL

(Transacción del proceso en línea) (Extracción, transformación y

carga)

BD

Temp

DM

Pág. 64

Técnicas de almacenamiento

Teniendo en cuenta la estructura de los datos se empleara la técnica de

almacenamiento denominada OLAP. A diferencia del OLTP, OLAP describe una clase

de tecnologías diseñadas para mantener específicamente el análisis y acceso a datos.

Mientras el procesamiento transaccional generalmente confía solamente en las bases

de datos relacionales, OLAP viene a ser un sinónimo con vistas multidimensionales de

los datos del negocio. Estas vistas multidimensionales se apoyan en la tecnología de

bases de datos multidimensionales. Estas vistas multidimensionales proporcionan la

base técnica para cálculos y análisis requeridos por las Aplicaciones del Negocio

Inteligente.

Las aplicaciones OLAP son usadas por analistas y gerentes que frecuentemente

quieren una vista de datos de nivel superior. Las bases de datos OLAP normalmente

se actualizan en lote, a menudo de múltiples fuentes, y proporcionan un back-end

analítico poderoso a las aplicaciones de múltiples usuarios. Por tanto, las bases de

datos OLAP se perfeccionan para el análisis.

Esta herramienta OLAP tiene tres principales características:

Un modelo multidimensional de la información para el análisis interactivo.

Un motor OLAP que procesa las consultas multidimensionales sobre los datos.

Un mecanismo de almacenamiento para guardar los datos.

Técnicas de presentación de los datos

Para la presentación de los datos lo podemos hacer en diferentes herramientas, en

este caso se escogió Excel.

Excel puede mostrar datos OLAP solo como informe de tabla dinámica o informe de

gráfico dinámico o en una función de hoja de cálculo convertida a partir de un informe

de tabla dinámica, pero no como intervalo de datos externo. Puede guardar los

informes de las tablas dinámicas y de los gráficos dinámicos OLAP en plantillas de

informes. Además, puede crear archivos de conexión de datos de Office (ODC, Office

Pág. 65

Data Connection) (.odc) para conectarse a bases de datos OLAP con el fin de efectuar

consultas OLAP. Al abrir un archivo ODC, Excel muestra un informe de tabla dinámica,

que ya está listo para que lo diseñe.

Recuperación de los datos

Un servidor OLAP devuelve nuevos datos a Microsoft Excel cada vez que se cambia el

diseño del informe. Con otros tipos de datos de origen externo, se consultan todos los

datos la vez, o se pueden establecer opciones para que la consulta se realice

solamente cuando se muestren elementos de campo de página (campo de página:

campo asignado a una orientación de página en un informe de tabla dinámica o de

gráfico dinámico. Puede mostrarse un resumen de todos los elementos de un campo

de página o bien un elemento cada vez que filtre los datos para los demás elementos.)

Diferentes. También están disponibles otras opciones para actualizar (actualizar:

renovar el contenido de un informe de tabla dinámica o gráfico dinámico para reflejar

los cambios realizados en el origen de datos subyacente. Si el informe está basado en

datos externos, la actualización ejecuta la consulta subyacente para recuperar los

datos nuevos o modificados.) El informe.

En informes basados en datos de origen OLAP, no está disponible la configuración del

campo de página (campo de página: campo asignado a una orientación de página en

un informe de tabla dinámica o de gráfico dinámico. Puede mostrarse un resumen de

todos los elementos de un campo de página o bien un elemento cada vez que filtre los

datos para los demás elementos.), la consulta en segundo plano ni la optimización de

la memoria.

Pág. 66

Diagrama del OLTP

Vehiculo

idVehiculo bigint

idTipoVehiculo bigint

idMarca bigint

Column Name Data Type Allow Nulls

TipoVehiculo

idTipoVehiculo bigint

tipoVehiculo varchar(50)

esActivo bit


Conductor

idConductor bigint

nombres varchar(50)

apellidos varchar(50)

telefono int

edad int

idGenero bigint

direccion varchar(50)


Ruta

idRuta bigint

idRecorridoHorario bigint

idVehiculo bigint

idTipoAveria bigint

idVelocidad bigint

idValorRuta bigint


Horario

idHorario bigint

nombreHorario varchar(50)

horaDesde varchar(10)

horaHasta varchar(10)

idTipoHorario bigint

esActivo bit


Recorrido

idRecorrido bigint

NombreRecorrido varchar(200)

kilometros int

idTipoFrecuencia bigint


TipoAveria

idTipoAveria bigint

nombreAveria varchar(50)

esActivo bit


FK_V ehiculo_TipoV ehiculo

FK_Ruta_V ehiculo

Vehiculos_Conductor

idVehiCond bigint

idVehiculo bigint

idConductor bigint


FK_V ehiculos_C onductor_C onductor

FK_V ehiculos_C onductor_V ehiculo

FK_Ruta_TipoA v eria

Recorrido_Horario

idRecorridoHorario bigint

idRecorrido bigint

idHorario bigint

Column Name Data Type Allow N...

FK_Recorrido_Horario_Horario

FK_Recorrido_Horario_Recorrido

FK_Ruta_Recorrido_Horario

Marca

idMarca bigint

nombre varchar(50)


FK_V ehiculo_Marca

Velocidad

idVelocidad bigint

nombreVelocidad varchar(50)

[inicial_km/h] int

[Final_km/h] int


FK_Ruta_V elocidad

Insumos

idInsumo bigint

nombreInsumo varchar(50)

valorUnitario int

esActivo bit


Insumos_Recorrido

idInsumo_Recorrido bigint

idInsumo bigint

idRecorrido bigint

cantidadInsumo int


FK_Insumos_Recorrido_Insumos

FK_Insumos_Recorrido_Recorrido

ValorRuta

idValorRuta bigint

valor int

esActivo bit


FK_Ruta_V alorRuta

TipoHorario

idTipoHorario bigint

tipoHorario varchar(50)

esActivo bit


FK_Horario_TipoHorario

TipoFrecuencia

idTipoFrecuencia bigint

TipoFrecuencia varchar(50)

esActivo bit


FK_Recorrido_TipoF recuencia

Genero

idGenero bigint

tipoGenero varchar(50)

inicial varchar(5)

esActivo bit


FK_C onductor_Genero

Pág. 67

Construcción del cubo (SQL server business intelligence Development Studio)

Pág. 68

Pág. 69

Pág. 70

7. CONCLUSIONES

El ejercicio investigativo permitió conocer las necesidades implícitas que se

convierten en falencias y una oportunidad para fortalecer las competencias en

las diversas áreas de la empresa que se basan en la consolidación de

información para la toma decisiones.

El modelo permite cualificar algunos procesos de la empresa para administrar

sus diferentes escalas jerárquicas, como un aporte del nivel operativo y del

comportamiento de la población que hace uso del servicio, al nivel

administrativo.

El ejercicio investigativo de campo, permitió confirmar el hermetismo que tiene

el sector de transporte público colectivo hacia la seguridad de la información

operativa del negocio y evidencia la falta de sistemas de captura, consolidación

y transformación de datos para el aprovechamiento en la misma. Estas

prácticas se observan claramente en el uso actual de planillas, talonarios y

registros manuales para el seguimiento de rutas, conductores y vehículos.

El modelo plantea estrategias de mejoramiento y calidad para comprender y

reconocer el aprovechamiento del recurso disponible relacionado con la

actividad del negocio, sus beneficios administrativos y económicos.

El modelo pone a consideración la inclusión de buenas prácticas en la empresa

para el seguimiento continuo de los procesos productivos de esta y la idea de

mejoramiento en el pensamiento de quienes trabajan en la organización.

Pág. 71

8. REFERENCIAS BIBLIOGRAFICAS

MOLINERO M., A. SANCHEZ A., I. (1998). Transporte Público: Planeación, Diseño,

Operación y Administración. 3ª Edición. México: Fundación ICA.

REVISTA CAMBIO (2004). Primera Estación. En: Revista Cambio, Agosto de 2004,

Colombia

MAUTTONE, A. et al. (2004). Diseño y Optimización de Rutas y Frecuencias en el

Transporte Colectivo Urbano, Modelos y Algoritmos. Universidad de la República

Uruguay. Tesis de Maestría.

MELO G., L. (2004). Los pecados del Transporte Público. En: Periódico El País,

Colombia, mayo 14 de 2001, p. 1B.

MOLLER, R. (2001) Una Propuesta de Mejoramiento del Transporte Público Colectivo

Urbano en Santiago de Cali. En: Ingeniería y Competitividad. Universidad del valle.

Volumen 3. No.1. Junio de 2001. Pags. 19-34.

http://gamoreno.wordpress.com/2007/10/03/tecnicas-mas-usadas-en-la-mineria-

de-datos/

http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-para-proyectos-

de-mineria-de-datos/

Documents

MODELO PARA LA OBTENCION DE CONOCIMIENTO …