Big data presentación

Embed Size (px)

DESCRIPTION

 

Text of Big data presentación

  • 1. Big Data Seminario BIG DATA Maestra en Ciencias de la Informacin y las Comunicaciones Universidad Distrital Francisco Jos de Caldas Bogot[, Colombia Por: Edgar Garrido and Julio Baracaldo
  • 2. Que es Big Data? Es el termino dado a una coleccin de datos tan grandes y complejos que es difcil procesarlos usando herramientas de gestin de bases de datos convencionales o utilizando aplicaciones tradicionales para procesamiento de datos. Los datos tienen tamaos muy grandes; se mueven muy rpido o no encajan dentro de las restricciones de las arquitecturas tradicionales de bases de datos. Para ganar valor con estos datos, se debe seleccionar una manera alternativa de procesarlos. (tratamiento y anlisis) El tratamiento de un mayor nmero de datos puede conducir a un ms adecuado anlisis, lo cual puede conducir a una toma de decisiones ms acertada. Mejores decisiones pueden significar mayor eficiencia operacional, reduccin de costos y de riesgos. Big Data puede llegar a ser tan importante para los negocios y para la sociedad como ha llegado a serlo la Internet.
  • 3. Por qu y para qu usar Big Data? Ha emergido como el principal ingrediente para el xito de muchos negocios Esta empezando a ser usado por cientficos, ingenieros, todo tipo de profesionales y por todos los entes gubernamentales. Se puede capturar y analizar cualquier tipo de dato, sin requerirse una estructura especifica. Es posible extraer de dentro de estos datos, patrones valiosos e informacin previamente escondida, que no ha sido usada debido a la gran cantidad de trabajo requerido para su extraccin. Permite anlisis oportunos y rentables de datos y creacin de nuevos productos.
  • 4. Caractersticas Big Data: Volumen, Velocidad y Variedad Volumen Muchos factores contribuyen a incrementar el volumen de los datos: Datos de transacciones han sido almacenados a travs de aos. Datos no estructurados son transmitidos a travs de medios sociales. se ha incrementado la cantidad de sensores que son almacenados por diferentes dispositivos Se pueden almacenar ms datos por que los dispositivos de almacenamiento son menos costosos. Permite la creacin de mejores modelos al tener mayor cantidad de datos y mejora en la toma de decisiones. Se almacena cualquier cosa: datos ambientales, financieros, mdicos, de vigilancia, y muchos ms.
  • 5. Caractersticas Big Data: Volumen, Velocidad y Variedad Velocidad Variedad Tasa de crecimiento a la cual fluyen los datos en la organizacin. Datos estructurados, semiestructurados y no estructurados La velocidad en que los datos son desaminados o los datos cambian o son refrescados. La naturaleza dinmica de los datos demanda mayor cantidad de potencia de computacin, diseos especficos y veloz interoperabilidad entre redes, que se puede ver reflejado en la toma de decisiones. Variedad de fuentes de datos sensores, dispositivos inteligentes, redes sociales, paginas web, logs, ndices de bsqueda, email, documentos, GPS, etc. Variedad representa todos los tipos de datos Mas del 80% de los datos alrededor del mundo son no estructurados o semiestructurados. Para capitalizar la oportunidad de Big Data, las empresas deben ser capaces de analizar todo tipo de dato, estructurado o no estructurado. Se pasa de procesamientos en bach a streaming data
  • 6. Tipos de Datos en Big Data
  • 7. Cuando considerar una Solucin de Big Data? Big Data es una solucin ideal no solamente datos estructurados, sino tambin semiestructurados y no estructurados desde una variedad de fuentes. Big Data es una solucin ideal cuando todos, o la mayora, de datos necesitan ser analizados versus un muestreo de datos; o un muestreo de datos no es casi tan efectivo como un conjunto de datos grande desde los cuales el anlisis se obtiene. Big Data es una solucin ideal para anlisis iterativo y exploratorio cuando mediciones del negocio en los datos no es predeterminado.
  • 8. Not Only SQL - NoSQL NoSQL se refiere a sistemas de gestin de datos no relacionales. Las bases de NoSQL no son construidas con tablas. Generalmente no utilizan SQL para la manipulacin de datos. Utilizadas cuando se trabaja con gran cantidad de datos, cuando la naturaleza de los datos no requiere un modelo relacional. Los sistemas NoSQL son distribuidos, diseados para bases de datos no relacionales, que altamente escalables y para procesamiento en paralelo a travs de muchos servidores. Soportan mltiples actividades como analtica predictiva y exploratoria. No utilizadas en sistemas de misin critica OLTP Almacenamiento de datos orientados a columna y arquitecturas distribuidas o a travs del empleo de tecnologas como procesamiento en memoria, multiprocesamiento simtrico (SMP) y procesamiento paralelo masivo (MPP).
  • 9. Quienes usan DB NoSQL Organizaciones que manejan grandes volumenes de datos no estructurados se estn moviendo hacia bases de datos no relacionales. Quienes se enfocan en procesamiento analtico. De grandes conjuntos de datos. Quienes requieren de aplicaciones tales como Big Data Analytics. Redes sociales, Cassandra, BigTable y Hbase son tipos de base de datos NoSQL.
  • 10. Caractersticas de las Bases de datos NoSQL Fuerte consistencia: Todos los clientes ves la misma versin de los datos, an es actualizaciones de conjunto de datos. Alta Disponibilidad: todos los clientes pueden siempre hallar al menos una copia de los datos requeridos. Tolerancia-Particin: El total del sistema mantiene sus caractersticas aun cuando estn desplegados en diferentes servidores, trasparente al cliente. El teorema de CAP postula que solamente dos de los tres diferentes aspectos de escalamiento pueden ser obtenidos completamente.
  • 11. Clasificacin de las Bases de Datos NoSQL Se clasifican en tres tipos: (Segn Leavitt) Almacenamiento Bases Key-value (ej. SimpleDB) de datos orientadas a la columna (ej. Cassandra, Hbase, Big Table) Almacenamiento basado en documentos (ej: CouchDB, MongoDB) Se clasifican en cuatro categoras: (segn otros autores) Almacenamiento Key Value Almacenamiento Documentos Wide-Column Bases (column Family) de Datos Grafo
  • 12. Base de datos Almacenamiento key-Value Estos tems usan identificadores alfanumricos (keys) y un valor asociado. Son tablas stadalone referidas como (hash tables). Los valores pueden ser simple string de text o listas y conjuntos. La bsqueda de datos usualmente es ejecutada contra las llaves (keys) esta bsqueda es muy rpida. Ejemplos de uso: Por Amazon en sus sistema K-V, Dynamo en su carrito de compras y por LinkedIn con Voldemort, Redis, BerkeleyDB.
  • 13. Bases de Datos Documentales Diseado por Lotus Notes para almacenar documentos Documentos codificados en formatos XML, JSON o BSON. En la columna valor (value) de esta base de datos Document contiene datos semiestructurados (pareja name/value), especialmente la pareja corresponde un documento, a diferencia del almacenamiento Key-Value. En una columna se pueden almacenar miles de atributos y el numero de atributos grabado puede variar de una fila a otra. Ejemplos de uso: almacenamiento documentos de texto, mensajes de corre electrnico, documentos XML, etc. CouchDB (JSON) y MongoDB (BSON) son proyectos de cdigo abierto que utilizan estos tipos de base de datos.
  • 14. Bases de datos Columnares (Wide-Column) Una estructura de datos orientada a la columna que acumula mltiples atributos por llave. Es una dase de datos para almacenamiento distribuido, altamente escalable, procesamiento de datos orientada a bach: clasificacin, el anlisis sintctico, conversin (entre Hexadecimal, binario y decimal) algoritmos crunching, etc. Usada para analtica predictiva y exploratoria. MapReduce es un mtodo de procesamiento en bach, por el cual Google redujo el rol de MapReduce moverse ms cerca ndices streaming/real-time in Caffeine, la ultima infraestructura de bsqueda. Ejemplo de uso: BigTable (Google), Hypertable, Cassandra (Fa