Upload
gustavo-araque
View
33
Download
0
Embed Size (px)
Citation preview
Almacenes y Minería de Datos 2
Definición
• Datawarehouse (Almacen de datos) se define como una colección de datos que verifican las siguientes propiedades:– Está orientado (a un tema) a objetos– Datos integrados– No volátiles– Variante en el tiempo
que surgieron como una herramienta de soporte para la toma de decisiones a nivel gerencial
Almacenes y Minería de Datos 3
Explicación de la definición
• Orientado hacia temas: los datos se almacenan y agrupan por temas de interés.
Almacenes y Minería de Datos 4
Explicación de la definición• Datos integrados: el almacén de
datos integra datos que provienen de varias fuentes. Partimos de una base de datos (operacional) y mediante un proceso de carga de datos hacemos el Datawarehouse. El proceso de carga es lo más complicado por problemas de codificación, medidas de los atributos… de las bases de datos.BD
BD
BD
DW
CARGA
Almacenes y Minería de Datos 5
Explicación de la definición
• No volátiles: son estables, una vez almacenados los datos no se modifican.
BD DWDW
SELECT
INSERT
UPDATE
DELETE
REPORTS
SELECT
CARGA
Almacenes y Minería de Datos 6
Explicación de la definición• Variante en el tiempo: los datos
contienen información sobre la fecha de los mismos, porque se hacen cargas de datos continuamente. Cuando los datos van cambiando, se actualizan los históricos y se guardan en ficheros temporales. Siempre va haber una variable tiempo.
TIEMPO
# id_tiempo
* periodo
Almacenes y Minería de Datos 7
Características
• Podemos resumir las características de un Datawarehouse:– Trabaja con datos de negocio– Orientado a un sujeto– Almacena datos actuales orientado a
un histórico (actual + histórico)– Datos más bien resumidos (no
información detallada)
Almacenes y Minería de Datos 8
DIFERENCIAS
BD OPERACIONAL- Datos
operacionales- Orientado a
aplicaciones- Datos Actuales- Datos Detallados- Datos en
continuo cambio
DATAWAREHOUSE- Datos de negocio- Orientado al sujeto- Actuales +
Histórico- Datos Resumidos- Datos Estables
Almacenes y Minería de Datos 9
GESTORCARGA
ARQUITECTURA DW
GESTOR ALMACENAMIENT
O
GESTORCONSULTAS
BDoperacional
Partimos de una BD operacional y se basa en 3 módulos
Almacenes y Minería de Datos 10
GESTOR DE CARGA
• Permite hacer la carga. Como dificultades nos podemos encontrar:– La integración de los datos– Elección del momento de la carga– El tiempo de carga sea el mínimo posible– Buen diccionario de datos o METADATA
(para evitar cometer errores en la carga)– Diseño de procedimientos PL/SQL
Almacenes y Minería de Datos 11
GESTOR DE ALMACENAMIENTO
• Se encarga del almacenamiento, de la estructura,….
Existe una tabla llamada FACT (Hecho) y unas tablas llamadas dimensiones o tablas dimensionales.
Entre la tabla FACT y las tablas dimensionales suele haber relaciones 1:N
Este modelo tiene forma de estrella por eso se denomina MODELO STAR
Almacenes y Minería de Datos 12
MODELO STAR
FACT
DIM_1
DIM_2
DIM_TIEMPO
DIM_3
# PK4
# PK1
# PK2# PK3
# PK1# PK2# PK3# PK4*campoA*campoB
Almacenes y Minería de Datos 13
GESTOR DE CONSULTAS
• Las consultas se hacen sobre la tabla FACT. También se encarga de los perfiles, pues las consultas (reports) serán diferentes dependiendo del usuario y sus necesidades.
Almacenes y Minería de Datos 14
Ejemplo 1:CATEGORIAS_PROF
# c_categoria* descripción* salario_min* salario_max
USUARIOS
# c_usuario* nombre* apellido1* apellido2* c_categoria* direccion
USU_OFERTAS
# c_categoria# c_oferta* salario_deseado
OFERTAS
# c_oferta* descripción* salario_min* salario_max* fx_alta
1
n
11nn
Almacenes y Minería de Datos 15
Ejemplo 1:
# PK1CATEGORIAS_PROF# c_categoria* descripción* salario_min* salario_max
USUARIOS# c_usuario* nombre* apellido1* apellido2* c_categoria* direccion
OFERTAS# c_oferta* descripción* salario_min* salario_max* fx_alta
TIEMPO# c_tiempo* descripcion
USU_OFERTAS# c_usuario# c_categoria# c_oferta* salario_deseado
Almacenes y Minería de Datos 16
REPORTS
• ¿Cuántos usuarios se han apuntado a las ofertas de empleo del mes de enero?SELECT count(*)
FROM USUARIOS_OFERTAS U, OFERTAS OWHERE U.c_oferta=o.c_ofertaAND O.fx_alta BETWEEN (’01/01/07’,`31/01/07´)
17
Arquitectura de un Almacén de Datos
EJEMPLO
Organización: Cadena de supermercados.
Actividad objeto de análisis: ventas de productos.
Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 dolares.”
Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
18
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
Tie
mpo
Día
Mes
Semana
Año
Trimestre
19
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de análisis con los indicadores que interesa analizar
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Pro
duct
o
Tie
mpo
Alm
acén
Trimestre
20
Arquitectura de un Almacén de Datos
Modelo multidimensional: en un esquema multidimensional se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
la información relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
la información descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
21
Arquitectura de un Almacén de Datos
Venta
simporte
unidades
Alm
acén
Almacén
Ciudad
Región
Tipo
Pro
duct
o
Departamento
Nro_producto
Categoría
Marca
Tipo
Descripción
hecho
medidasdimensión
atributos
Tie
mpo
Día
Mes
Semana
AñoTrimestre
22
Arquitectura de un Almacén de Datos
Entre los atributos de una dimensión se definen jerarquías
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
23
Arquitectura de un Almacén de Datos
Este esquema multidimensional recibe varios nombres:
• estrella: si la jerarquía de dimensiones es lineal
• estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
PERSONAL
VENTAS
tiempo
tiempo
producto
lugar
proyecto
equipo
24
Herramientas OLAP
una consulta a un almacén de datos consiste generalmente en la obtención de medidas sobre los hechos parametrizadas
por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
¿ “Importe total de las ventas durante este año de los productos del departamento Bebidas, por trimestre y por categoría” ?.
Restricciones: productos del departamento Bebidas, ventas durante este año
medida hecho
Parámetros de la consulta: por categoría de producto y por trimestre
25
Herramientas OLAP
“2002”
“Bebidas”
Pro
duct
o
Tie
mpo
Alm
acén
Venta
s
importe
unidades
Departamento
Nro_producto
Categoría
Marca
TipoDía
Mes
Día de la semana
Almacén
Ciudad
Región
Tipo
Año
“Importe total de ventas en este año, del departamento
de “Bebidas”, por categoría y trimestre”
Trimestre
26
Diseño de un Almacén de Datos
id_dim1
id_dim2
id_dim3
...
id_dim n
....
(hechos)
Dim3
Dim2
Dim1
tabla de hechos
tabla Dimensión 3
tabla Dimensión 1
tabla Dimensión 2 tabla
Dimensión nDimn
27
Diseño de un Almacén de Datos
producto
día
almacén
ventas
tiempo
almacén
producto
id_producto
id_fecha
id_almacén
.....
.....
......
tabla de hechos
la clave primaria* está formada por los identificadores de las dimensiones básicas.
datos (medidas) sobre las ventas diarias de un producto en un almacén.
* pueden existir excepciones a esta regla general
28
Diseño de un Almacén de Datos
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
Establecimiento
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Producto
29
Diseño de un Almacén de Datos
id_fecha
id_producto
id_establec
...
...
...
Ventas
id_establec
nro_establec
nombre
dirección
distrito
ciudad
país
tlfno
fax
superficie
tipo_almacén
...
id_producto
nro_producto
descripción
marca
subcategoría
categoría
departamento
peso
unidades_peso
tipo_envase
dietético
...
Establecimiento
Producto
id_fecha
día
semana
mes
año
día_semana
día_mes
trimestre
festivo
....
Tiempo
30
Líneas de Investigación Abiertas
Diseño de Almacenes de Datos: modelos conceptuales, metodogías de diseño.
Carga y ETL: recuperación de fallos durante la carga. Planificación de cargas y refrescos.
Limpieza y Transformación
Mantenimiento de Almacenes de Datos: mantenimiento de vistas materializadas.
Implementación de Almacenes de Datos.
Diseño Físico, optimizaciones para ROLAP, estructuras para MOLAP.
Repartición de tareas OLAP entre el cliente y el servidor.