LA GEOGRAFÍA Y LA ESTADÍSTICA. DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIOMáster AADM 2013-2014
Objetivos
Específicos• Definir de manera concreta y concisa Big Data como fenómeno.• Justificar la Estadística Multivariante aplicada a Big Data. • Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.
GeneralLa definición del estado actual del Big Data a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis: la Geografía Cuantitativa y la Estadística Multivariante.
Es el producto de la última fase de desarrollo de las TIC y del Open Data. Consecuencia de las mejoras exponenciales que han sufrido el hardware y el software desde finales de los 60, complementada por un cambio de mentalidad en la tenencia de los datos.
Big Data
Internet
Desarrollo TIC Open Data
¿Pero qué es Big Data? (I)
¿Pero qué es Big Data? (y II)¿Un problema?Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo.
¿Una solución?Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de datos para mejorar los resultados.
Características de Big Data
Volumen
Velocidad
Variedad
VeracidadValor
Registros Transacciones Peta-Terabytes
Procesos Tiempo Real Streaming
Datos Estructurados Desestructurados
Origen Autenticidad Confiabilidad
Conocimiento Hipótesis Correlaciones
5 Vs
Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.• Velocidad: en tiempo real.
El primer día en la vida de un niño
Justificando la Estadística Multivariante en Big Data• Volumen y Velocidad Procesamiento de datos complejos en streaming.
• La ‘nube’.• ‘Machine Learning’.
• Veracidad y Variedad Desarrollo de métodos estadísticos más robustos. • Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)• Importancia de los ’outliers’.
• Valor Generando Conocimiento.• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.• Mejora en las técnicas de visualización.
Clasificando las técnicas multivariantes clásicas en Big Data• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes que presenten la información más relevante.• ‘Análisis de Componentes Principales ‘.*• ‘Análisis Factorial’.• ‘Análisis de Coordenadas Principales’.• ‘Multidimensional Scaling’. **• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros.• ‘Análisis de Cluster’. *• ‘Análisis Discriminante’. **• ‘Análisis de Correlación Canónica’.
Calificando las técnicas multivariantes clásicas en Big DataNECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.• Se requieren modelos complejos y heterogéneos.• Cómo reducir la dimensión eficazmente.• Cómo encontrar relaciones y patrones: clasificar.• ‘Statistical Learning’ clave para el futuro.• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:• Computación.• Genómica.• Marketing.• Y un Big Etcétera.
GISciencia‘IoT’ ‘IoE’La ‘nube’
• La ‘nube’ es un espacio antrópico.• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno. • Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet
• Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia
DATORecolección.Validación.
OBSERVACIÓN
Del dato al conocimiento en Big DataMUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN Análisis. Investigación.
CONOCIMIENTOComprensión.Decisión.
Volumen
Velocidad
Variedad3Vs
Veracidad4Vs
Valor
5Vs
Conclusiones (I)1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones:• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos.
Conclusiones (II)3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos para gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una profunda alianza entre el ámbito académico y el empresarial (incremento exponencial en I+D+i).
6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia). La explosión de datos es una realidad y para dar respuesta a los fenómenos que analizan están adoptando herramientas antes auxiliares (Informática y Estadística), que se han transformado en su principal factor de evolución hacia disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la localización como atributo para los registros en Big Data (IoT), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la GISciencia.
Conclusiones (III)
8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error. Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están ‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)
¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI y está ‘reservado’ a los Estadísticos!!!
Sin Big Data Con Big Data
PERO CUIDADO