26
Santiago, octubre 2014 Felipe Vera L Director Ejecutivo Prodigio Consultores www.prodigioconsultores.com Charlas CORFO Big Data Aplicada a la Gestión de Información Big data y minería de datos en unidades de información y Bibliotecas

Charla big data y data mining para gestión de información y bibliotecas

Embed Size (px)

DESCRIPTION

Big data y minería de datos en unidades de información y Bibliotecas

Citation preview

Page 1: Charla big data y data mining para gestión de información y bibliotecas

Santiago, octubre 2014

Felipe Vera L Director Ejecutivo

Prodigio Consultores

www.prodigioconsultores.com

Charlas CORFO

Big Data Aplicada a la Gestión de Información

Big data y minería de datos

en unidades de información y Bibliotecas

Page 2: Charla big data y data mining para gestión de información y bibliotecas

Big Data

Big Data es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets). Las dificultades más habituales en estos casos se centran en la captura, almacenamiento, búsqueda, compartición, análisis y visualización.

www.americanis.net

Page 3: Charla big data y data mining para gestión de información y bibliotecas

Las “V” del Big Data (Gartner)

Volumen de los datos.

Velocidad en el tratamiento de los datos.

Variedad de los datos.

Valor de los datos que tiene que ver con la confiabilidad.

“Venue” o campo de trabajo, que habla de la complejidad de tener una alta

diversidad de fuentes de datos no estructurados.

Visualización, una herramienta útil para trasformar análisis

complejos en formatos procesables.

Page 4: Charla big data y data mining para gestión de información y bibliotecas

Evolución

Estructuración,

Digitalización y

almacenamiento

Análisis y toma

de decisiones

Servicios y uso

Page 5: Charla big data y data mining para gestión de información y bibliotecas

Big data, gestión de información y Bibliotecas

Page 6: Charla big data y data mining para gestión de información y bibliotecas

Big data, gestión de información y Bibliotecas

Page 7: Charla big data y data mining para gestión de información y bibliotecas

Big data, gestión de información y Bibliotecas

Page 8: Charla big data y data mining para gestión de información y bibliotecas

Big data, gestión de información y Bibliotecas

Page 9: Charla big data y data mining para gestión de información y bibliotecas

La Biblioteca como fuente de datos

Page 10: Charla big data y data mining para gestión de información y bibliotecas

El problema de lo tácito V/S Explícito

Page 11: Charla big data y data mining para gestión de información y bibliotecas

Patrones

Conexiones

Tendencias

Información

estructurada

¿Qué se busca?

Información no

estructurados

Las unidades de información y Bibliotecas

son una vasta y activa fuente de datos

Page 12: Charla big data y data mining para gestión de información y bibliotecas

Inteligencia de Negocios – cadena de valor

Datos • Datos Clientes

• Datos Tiendas

• Datos Demográficos

• Datos Geográficos

Información • X vive en Z

• S tiene Y anos

• X y S se cambiaron

• W tiene dinero en Z

Conocimiento • Una cantidad Y del producto A es

usada en la región Z

• Clientes de la clase P usan x% de

producto C en el periodo D

Decisión y servicios • Promocione el producto A en la región Z

• Mailing a familias del perfil P

• Venta cruzada del servicio B a clientes C

Page 13: Charla big data y data mining para gestión de información y bibliotecas

Minería de datos

“Es un proceso no trivial de identificación de patrones de

datos válidos, nuevos, potencialmente usables”

(Fayyad, Piatetsky-Shapiro y Smyth, 1996).

Minería de datos en Unidades de información

“Extracción y descubrimiento de patrones de comportamiento, datos e información no trivial proveniente de la totalidad de los sistemas de

información tradicionales (opac´s, circulación) y por sobre todo de la gran variedad de servicios de información basados en la web (sitio web, redes sociales, Repositorios), con el fin de apoyar a la toma de decisiones y a

los objetivos estratégicos de la organización a la cuál pertenezca.

“Integración a la cadena de valor”

Page 14: Charla big data y data mining para gestión de información y bibliotecas

Minería de datos – metodología KDD

2.Selección y

Preprocesamiento

4.Interpretación y

Evaluación

Knowledge

p(x)=0.02

Warehouse

Patrones y Modelos

Datos preparados

Datos Consolidados

3.Data Mining

1.Consolidación

de los Datos

Conocimiento

p(x)=0.02

DW

2.Selección y

Preprocesamiento

4.Interpretación y

Evaluación

Knowledge

p(x)=0.02

Warehouse

Patrones y Modelos

Datos preparados

Datos Consolidados

3.Data Mining

1.Consolidación

de los Datos

Conocimiento

p(x)=0.02

DW

6. Apoyo a la Toma

de Decisiones

5. Visualización

del conocimiento

6. Apoyo a la Toma

de Decisiones

5. Visualización

del conocimiento

Page 15: Charla big data y data mining para gestión de información y bibliotecas

Data Science - elementos

Page 16: Charla big data y data mining para gestión de información y bibliotecas

Data Science

Page 17: Charla big data y data mining para gestión de información y bibliotecas

3 focos para el entrenamiento en el manejo de datos

Christopher Erdmann, Head Librarian

Harvard-Smithsonian Center for Astrophysics

Técnicas

Aplicaciones

Cultura de datos y analítica

Page 18: Charla big data y data mining para gestión de información y bibliotecas

Alguna técnicas

Fuentes de datos Minería de datos

Web mining

- Web content mining

- Web structure mining

- Web usage mining

Text mining

Process mining

Concept based text mining

Procesamiento de lenguaje natural (PLN) *

Page 19: Charla big data y data mining para gestión de información y bibliotecas

Tipos de problemas a resolver con Data mining

Problemas

Clasificación

Regresión

Agrupamiento

Reglas de

asociación

Análisis

correlacional

Predictivos

(supervisados)

Descriptivos

(no Supervisados)

Page 20: Charla big data y data mining para gestión de información y bibliotecas

Aplicaciones de Data mining - Support Vector Mchines

20

- Base de datos inicial

- Hiperplano separador

- Función de decisión (decisión de corte)

Page 21: Charla big data y data mining para gestión de información y bibliotecas

Aplicaciones de Data mining – no supervisados

Page 22: Charla big data y data mining para gestión de información y bibliotecas

Aplicaciones de Data mining a Unidades de información

Se requiere conocer la demanda que tendrán ciertas bases de datos en un periodo determinado.

Problema supervisado de regresión.

Se requiere saber si x postulaciones a ciertas líneas de financiamiento CORFO tienen potencial de éxito.

Problema Predictivo de clasificación.

Se requiere segmentar los tipos de usuarios de un sistema de Bibliotecas para ofrecer recursos de información diferenciados.

Problema no supervisado de agrupamiento.

Page 23: Charla big data y data mining para gestión de información y bibliotecas

Tipos de problemas a resolver con Data mining

Se requiere saber que recursos de información se utilizan por cierto perfil de usuario o el director de la institución.

Problema descriptivo de reglas de asociación.

Se requiere saber que recursos de información (parte de la bibliografía base) se asocian (tipos y frecuencia) con los alumnos que obtienen mejor rendimiento.

Modelo no supervisado de análisis correlacional.

Page 24: Charla big data y data mining para gestión de información y bibliotecas

Tipos de problemas a resolver con Data mining

Principales métodos y algoritmos utilizados en Data Mining

K-medias – No supervisado de agrupamiento.

Árboles de decisión – Supervisado - regresión y clasificación.

Regresión Lineal y Logística - Supervisado clasificación y regresión.

Redes Neuronales - Supervisado y no supervisado.

Reglas de Asociación – No supervisados de reglas de asociación.

Vector Suport Machine – Supervisados de clasificación.

Page 25: Charla big data y data mining para gestión de información y bibliotecas

5 habilidades esenciales para abordar un proyecto

de minería de datos en unidades de información

Claridad en las fuentes de beneficios

y/o ingresos.

Capacidades analíticas.

Pensamiento estratégico del negocio.

Visión estratégica de la tecnología.

Visualización (sobre todo cuando es producto final).

Page 26: Charla big data y data mining para gestión de información y bibliotecas

[email protected]

[email protected]

www.prodigioconsultores.com

Muchas gracias