Upload
pwc-venezuela
View
215
Download
0
Embed Size (px)
Citation preview
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
1/15
Boletín deServiciosde Asesoría en Riesgos
No. 1 - 2015
www.pwc.com/ve
Lagos de Datos Empresariales:
Como lograr una mayor integración y un mejor análisis de nuestros datos
Inicio
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
2/15
ContenidoHaga click en los enlaces para navegar a través del documento
Boletín de Servicios de Asesoría en Riesgos - No. 1 - 2015
4 Lagos de Datos: Un enfoque emergente
4 ¿Por qué un lago de datos?
4 Factores de motivación detrás de la adopciónde lagos de datos
4 Flujo de datos en el Lago de Datos
4 ¿Cómo madura un lago de datos?
4 Madurez y Gobernabilidad
4 Lecciones iniciales aprendidas y obstáculos aevitar
4 Referencias
4 Créditos / Suscribirse
Páginasiguiente
PáginaanteriorCerrar ImprimirContenido
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
3/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Los lagos de datos son un enfoque emergente
y poderoso para abordar el desafío quepresenta la integración de datos, a medidaque las empresas aumentan su exposición alas aplicaciones móviles, a las aplicacionesbasadas en la nube, al Internet of things, y aotros aspectos de lo que PwC llama “La nuevaplataforma de TI”. 1
Un ejemplo de implementación de lagosde datos es el de un hospital en los EstadosUnidos que mantiene millones de registros, demás de un millón de pacientes, que incluyenimágenes de radiología y otros reportessemiestructurados, notas no estructuradas delos médicos, así como amplios volúmenes dedatos en hojas de cálculo. Para abordar el retoque representó el almacenamiento, integración y accesibilidad de estos datos, el hospital creóun lago de datos basado en la arquitecturaHadoop2, la cual permite el procesamientodistribuido de big data haciendo uso de
estándares de software abierto ampliamenteaceptados, así como procesamiento
masivamente paralelo, utilizando hardware
comercial genérico o estándar3. En la Figura 1 se
Lagos de Datos:Un enfoque emergente
presenta una visión gráfica de lo que es un lago
de datos.
¿Qué es un lago de datos?
Es un repositorio de grandes cantidades y variedades de datos, tanto estructurados como no estructurados
Los lagos de datos usan técnicas de cluster computing para el almacenamiento
masivamente escalable, de bajo costo de archivos de data de cualquier formato
Los generalistas y
programadores de datos
pueden acceder el flujode datos para realizar
análisis en tiempo real
El lago puede servir como un área
de montaje para el data warehouse,
la locación para datos tratados máscuidadosamente para reporte y
análisis por lote
El lago de datos acepta entradas
desde varias fuentes y puede
preservar tanto la fidelidad comola procedencia de las transfor-
maciones de datos. Los modelosde datos emergen con el uso a lo
largo del tiempo, en lugar de ser
impuestos desde el inicioCientíficos de datos utilizan ellago para el descubrimiento y la
generación de ideas
Figura 1: Visión gráfica de un lago de datos
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
4/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
En el caso citado, Hadoop permite que los
diversos registros del hospital sean almacenadosen sus formatos nativos para su posterioranálisis, en lugar de forzar una integración“todo o nada” desde un inicio, como sería elcaso al hacer uso de un data warehouse. Elpreservar el formato nativo también ayuda amantener la procedencia y la fidelidad de losdatos, de forma que puedan ser realizadosdiferentes análisis utilizando diferentescontextos.
El lago de datos ha hecho viable diferentes tiposde proyectos de análisis de datos, incluyendo laposibilidad de predecir la probabilidad de queocurran readmisiones de pacientes, permitiendoa su vez tomar acciones que permitanprevenirlas4.
Tal como el hospital, diversas empresas endiversos sectores están comenzando a extraer ycolocar datos para su análisis en un repositorio
único basado en Hadoop, sin necesidad detransformar los datos, como tendrían que
hacerlo en caso de utilizar un data warehouse
relacional5. En la figura 2 se presenta un
ejemplo de una arquitectura Hadoop básica para
una infraestructura de lago de datos escalable.
Figura 2: Ejemplo de arquitectura Hadoop. Fuente: Electronic Design, 2012, y Hortonworks, 2014
Lagos de Datos:Un enfoque emergente (cont.)
Arquitectura básica Hadoop para infraestructura escalable de lago de datos
Sistema de Archivo Distribuido (HDFS)
Archivo
de entrada
Tarea Mapa
Tarea reducida
Archivo
de salida
Entrada
Región 1
Región 2
Región 3
Split 1
Split 2
Split 3
Split 4
Split 5
Job tracker
Mapear( )
Particionar( )
Combinar( )
Entrada
Salida
Ordenar( )
Reducir( )
Haddood almacena
y preserva los datos
en cualquier
formato a lo largo
de un cluster de
servidores estándar
El sistema separa
los trabajos,
distribuye procesos
y los recombina a
través de un cluster
que puede escalar
a miles de nodos
de servidores
Con YARN6, ahora
Haadop soporta
varios modelos de
programación, así
como salidas por
lote casi en
tiempo real
http://prevpage/http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
5/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Lagos de Datos:Un enfoque emergente (cont.) ¿Por qué un lago de datos?
El concepto básico que soporta Hadoop
fue ideado por Google para cubrir susnecesidades de un modelo flexible y efectivo, en términos de costo, deprocesamiento de datos que pudiese escalara medida que los volúmenes de datoscrecían más rápido que nunca.
Yahoo, Facebook, Netflix, y otros cuyosmodelos de negocio también están basadosen gestionar enormes volúmenes de datos,rápidamente adoptaron métodos similares.
Un factor importante para su adopción fuelos ahorros en términos de costos, dadoque Hadoop puede ser entre 10 y 100 vecesmenos costoso que desplegar cualquiera delos data warehouses tradicionales.
Sin embargo, otro factor que impulsó su
adopción ha sido la oportunidad de aplazarlas actividades de depuración de datos y
el desarrollo de esquemas de datos (que
por lo general demandan un alto gradode esfuerzo) hasta que la organizaciónhaya identificado una clara necesidadde negocio. A su vez, los lagos de datosson más convenientes para los datosmenos estructurados que estas compañíasnecesitaban procesar.
Hoy en día, las empresas en todos lossectores se encuentran en un punto similarde necesidad; por ejemplo, las empresasque deben utilizar enormes volúmenes y múltiples variedades de datos pararesponder a las presiones regulatorias ycompetitivas están adoptando lagos dedatos.
Los lagos de datos pueden ayudar a resolver
el problema persistente de la accesibilidad y la integración de datos. Usandoinfraestructuras de big data, las empresasestán empezando a agrupar crecientes volúmenes de datos para su análisis osimplemente para almacenarlos para suuso futuro indeterminado. (Ver en páginasiguiente el recuadro “Definiendo a losLagos de datos”).
Enfoques previos para una ampliaintegración de datos han forzado a todoslos usuarios a un esquema predeterminadocomún, o modelo de datos. A diferenciade esta visión monolítica de un modelode datos único a lo largo de la empresa, ellago de datos flexibiliza la estandarización y aplaza el modelado, resultando enun potencial casi ilimitado para el
descubrimiento de datos y la comprensiónoperacional.
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
6/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
¿Por qué un lago de datos? (cont.)
• Fidelidad: Los lagos de datos basados en Hadooppreservan los datos en su formato original ycapturan los cambios que se hagan a los datos y a lasemántica contextual a lo largo del ciclo de vida delos datos. Este enfoque es especialmente útil paratemas de cumplimiento y de auditoría interna. Silos datos han sufrido transformaciones, adiciones y actualizaciones, la mayoría de las organizacionesgeneralmente sufrirán para organizar los datoscuando la necesidad surja y tendrán poca esperanza
de determinar claramente su origen.
• Facilidad de acceso: La accesibilidad es simpleen los lagos de datos, lo cual es uno de los beneficiosde preservar los datos en su formato original. Ya seaque se trate de datos estructurados, no estructuradoso semi estructurados, éstos son cargados yalmacenados tal como son, para ser transformadosposteriormente. Datos operativos, de cliente y/ode proveedores son consolidados por los dueñosde los datos sin mayor esfuerzo, lo cual eliminabarreras internas tecnológicas, e incluso políticas,
incrementando la capacidad de compartir los datos.
Definiendo a Lagos de datos
Muchas personas han escuchado nombrar los lagosde datos, pero al igual que el término big data, lasdiversas definiciones varían. Los cuatro criterios que semencionan a continuación son vitales para una buenadefinición:
• Tamaño y bajo costo: Los lagos de datosson grandes. Pero no son solo grandes, sinoeconómicos; pueden ser un orden de magnitudmenos caros de configurar y mantener que un
data warehouse, medidos terabyte a terabyte. ConHadoop, volúmenes de datos a escala de petabytesno son ni costosos ni complicados de construir y mantener. Algunos proveedores que aboganpor el uso de Hadoop afirman que el costo porterabyte para data warehouses puede llegar a serde 250.000 dólares americanos, versus entre 2500 y 1000 dólares americanos con un clúster Hadoop.Otros proveedores que abogan por el uso de datawarehouses e infraestructuras de almacenamientotradicionales, disputan estas afirmaciones y hacenuna distinción entre el costo de almacenar terabytes
de datos y el costo de escribir, o de terabytes escritos*
Pre-requisitos tradicionales, como el conocerlos requerimientos detallados del negocio odesarrollar un modelado de datos minuciosos noson pre-requeridos bajo este enfoque.
• Enlace tardío: Hadoop se presta a laestructuración flexible y orientada a la tarea y norequiere de modelos de datos por adelantado
* Para más información con relación a la accesibilidadde los datos, costo de lagos de datos y refinamiento
de metadatos, incluyendo tecnología de seguimientode la procedencia de los datos, ver la entrevista a MikeLang, “Haciendo Hadoop viable para la ciencia de datosempresarial” en www.pwc.com/technologyforecast/mike-
lang. Para más información con relación a la estimaciónde costos ver: Loraine Lawson, “¿Cuál es el costo de unTerabyte?” ITBusinessEdge, Mayo 17, 2013, en http:// www.itbusinessedge.com/blogs/integration/whats-the-
cost-of-a-terabyte.html.
http://prevpage/http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
7/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
¿Por qué un lago de datos? (cont.)
A medida que los volúmenes de datos,
variedad de datos y riqueza de losmetadatos crece, de la misma forma creceel beneficio que se puede obtener.
Actualmente, las compañías son capaces decrear colaborativamente modelos o vistasde los datos y luego gestionar mejorasincrementales a los metadatos. Estos datos, y sus metadatos, son colocados en HDFS, elcual almacena partes de archivos a lo largode un clúster distribuido de servidores en lanube, donde éstos son accesibles y puedenser refinados colaborativamente.
Los análisis extraídos de los lagos se vuelven cada vez más valiosos a medidaque los metadatos que describen diferentes vistas de los datos se acumulan.
Cada industria tiene un caso de usopotencial para los lagos de datos. Un
lago de dato puede ser una vía para
obtener mayor visibilidad o poner fin a losdenominados silos de datos (datos que semantienen aislados de otras áreas de laorganización). Numerosas compañías venlos lagos de datos como una oportunidadde capturar una vista de 360 grados de susclientes o de analizar tendencias de mediossociales.
En la industria de servicios financieros,donde la regulación Dodd-Frank 7 esrelevante, una institución ha empezadoa centralizar múltiples data warehousesen una repositorio comparable a un lagode datos, pero que está estandarizadoutilizando XML.
Esta institución está moviendoreconciliaciones, acuerdos y reportes
Dodd-Frank a esta nueva plataforma. Paraeste caso, este enfoque reduce los gastos
generales de integración debido a que los
datos son comunicados y almacenados enun formato estándar, pero a la vez flexible,adecuado para datos menos estructurados.
El sistema a su vez provee una vistaconsistente de los clientes a lo largo de lasfunciones operativas, funciones de negocio y productos. Algunas compañías hanconstruido entornos limitados o sandboxes de big data para su análisis por parte decientíficos de datos. Estos sandboxes son,de cierta forma, similares a lagos de datos,aunque más limitados en su alcance ypropósito.
PwC, por ejemplo, construyó un sandbox de medios sociales para ayudar a clientes amonitorear la salud de su marca mediantesu aplicación SocialMind8.
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
8/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Los data warehouses relacionales y sus
rangos de precio más alto, han dominadopor largo tiempo las actividades de análisiscomplejo, reporte y operaciones de datos.(El hospital descrito anteriormente, porejemplo, primero implementó un datawarehouse).
Sin embargo, sus modelos de datos pocoágiles y la rigidez de sus esquemas deintegración no son adecuados para soportaraltos volúmenes y variedad de big data. Lagran mayoría de estos sistemas tambiénhacen al usuario de negocio dependientede TI incluso para las más pequeñasmejoras que se puedan querer realizar,sobre todo por su diseño poco elástico, porla complejidad del sistema y por la bajatolerancia al error humano. El enfoque dellago de datos evita estos problemas.
Libertad de los “grilletes” que representa
tener un gran y único modelo de datos
La primera actividad a realizar en unproyecto de lago de datos es el de compilartodos los datos en un único repositorio, ala vez que se le brinda la mínima atencióna crear esquemas que definan puntos deintegración entre sets de datos dispares. Esteenfoque facilita el acceso, sin embargo, eltrabajo requerido para convertir esos datosen información procesable es un desafíosubstancial. Aun cuando la integración delos datos se realiza en la capa de Hadoop, lacontextualización de los metadatos se realizaal momento de crear los esquemas de datos.
El integrar los datos involucra menos pasosdado que los lagos de datos no promuevenun esquema de metadatos rígido, como si lo
requieren los data warehouses relacionales.
En su lugar, los lagos de datos soportan
un concepto conocido como enlace tardíoo esquema al leer, en el cual los usuariosconstruyen esquemas personalizados ensus consultas. Los datos están atados a unesquema dinámico creado al momento de laejecución de la consulta.
El principio de enlace tardío transforma elproceso de modelado de datos, pasando deequipos y administradores centralizados debases de datos y data warehouses, quienesgeneralmente se encuentran en una locacióndistinta a donde se encuentran las fuentesde los datos, a equipos locales de analistasde negocio y científicos de datos, quienespueden ayudar a crear contextos flexibles,específicos para cada dominio en particular.
Factores de motivación detrás de laadopción de lagos de datos
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
9/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Para aquellos acostumbrados a SQL, este
cambio abre todo un nuevo mundo deposibilidades. En este enfoque, mientrasmás se conozca sobre los metadatos, es mássencillo el realizar las consultas.
Los datos pre-etiquetados ofrecen unpunto de partida y son muy útiles enimplementaciones con poca variedadde datos. En la mayoría de los casos,sin embargo, los datos pre-etiquetadosrepresentan una pequeña porción de losformatos de datos entrantes.
Factores de motivación detrás de laadopción de lagos de datos (cont.)
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
10/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
El lago de datos carga los extractos de datos,
independientemente de su formato, enun gran almacén de datos. Los metadatosson desasociados de sus datos subyacentes y almacenados independientemente,ofreciendo flexibilidad para múltiplesperspectivas de usuarios finales y undesarrollo incremental del nivel de madurezde la semántica.
En la figura 3 se presenta una descripcióngráfica del flujo de datos en el lago de datos.
Flujo de datos en el Lago de Datos
Flujo de datos en el lago de datos
XML
.xls
etc.
Etiquetado y vinculación de metadatos
Etiquetados, sinónimos, vinculación
El lago de datos ofrece una oportunidad única
para obtener perspectivas de big data flexibles,
evolutivas y maduras
Usuarios colaboran para identificar, organizar ydar sentido a los datos en el lago de datos
Analistas de datos yde negociosseleccionan y reportandatos de dominiosespecíficos
Científicos de datos yde negociosseleccionan y reportansobre datos dedominios específicos
Máquinas ayudan adescubrir patrones y acrear vistas de datos
Extractos
de datos
ascendentes
Análisis de datos entre dominios
Nuevas acciones (i.e. campañas a
clientes) basadas en la
información obtenida de los datos
Metadatos crecen y maduran através del tiempo, gracias a lainteracción de los usuarios
Un repositorio de big data almacena los datos originalescargando los datos existentes yaceptando nueva informaciónregularmente
Nuevos datos ingresan al lago
Figura 3: Descripción gráfica del flujo de datos en un lago de datos
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
11/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
¿Cómo maduraun lago de datos? Madurez y Gobernabilidad
La incorporación de nuevos datos en el lago
de datos puede ocurrir gradualmente y notendrá un impacto en modelos existentes.
El lago inicia con datos en bruto, y vamadurando a medida que más datosingresan, a medida que los usuarios ylas máquinas construyen metadatos, y laadopción de los usuarios incrementa.
Los términos ambiguos y que pudiesensolaparse, eventualmente convergirán a unentendimiento común (eso es, semántica)dentro y a lo largo de los dominios delnegocio. La madurez de los datos resultadel crecimiento natural de la interacción y retroalimentación de los usuarios,en la capa de gestión de los metadatos(interacción que continuamente refina ellago y mejora la “discoveribilidad”).
Con el lago de datos, los usuarios pueden
tomar aquello que les sea relevante y dejarel resto. Dominios individuales del negociopueden madurar independientemente ygradualmente. La clasificación perfectade los datos no es requerida. Los usuariosa lo largo de la empresa pueden obtenerinformación de todas las disciplinas, sinestar limitados por silos organizacionales oesquemas rígidos.
Muchas de las personas que escuchan el
término lago de datos, podrían asociar elconcepto con un gran sandbox de datos,pero el rango de los potenciales casos deuso para lagos de datos es mucho másamplio. Las empresas visualizan depósitosal estilo lago de datos, como áreas demontaje, como alternativas a los almacenesde datos, o incluso como centros de datosoperacionales, asumiendo las tecnologías ycasos de uso apropiados.
Un componente clave es Hadoop, así comomuchas de las tecnologías de análisis dedatos asociadas con él. Lo que comenzócomo un medio de análisis por lotesad hoc en Hadoop y MapReduce, estáevolucionando rápidamente con la ayudade YARN y Storm9 para ofrecer analíticasdistribuidas de propósito general, así como
capacidades de procesamiento en tiemporeal.
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
12/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Madurez y Gobernabilidad (cont.)
Al menos un proveedor ha estado ejecutando
un clúster Hadoop de más de 2.000 nodospara soportar las aplicaciones de análisis decomportamiento de 8 clientes10.
A pesar de estos avances, las empresas aúnsiguen preocupadas con el riesgo que existealrededor de la implementación de lagos dedatos, especialmente en esta etapa inicialde desarrollo. ¿Cómo pueden las empresasmitigar el riesgo y gestionar un lago basado
en Hadoop para exploraciones de ampliorango?
Los lagos pueden proveer beneficiosúnicos con respecto a los métodos degestión de datos tradicionales a un costosubstancialmente más bajo, pero requierende muchas consideraciones prácticas yun enfoque reflexivo con respecto a la
gobernabilidad, particularmente en sectoresaltamente regulados.
Las áreas a considerar incluyen:
•Complejidad de datos heredados:Muchos sistemas heredados contienenun amasijo de parches de seguridad, workarounds y diseño deficiente. Comoresultado, los datos en bruto podríanproveer un valor limitado fuera de sucontexto heredado. El lago de datosfunciona óptimamente cuando esalimentado con datos inalterados desdesistemas fuente, y luego complementado
con metadatos.• Gestión de metadatos: Los lagos de datos
requieren de una avanzada gestión demetadatos, incluyendo caracterizacionesde archivos de datos, análisis asistidospor computadoras y seguimiento dela procedencia de los datos para cadatransformación. ¿La definición delesquema de datos al momento de la
lectura debería ser la regla, y los esquemaspredefinidos la excepción? Depende de
las fuentes. El primer caso es ideal para
trabajar con estructuras de datos quecambian rápidamente, mientras que elúltimo es mejor para dar respuesta, enfracciones de segundos, a consultas sobredatos altamente estructurados.
• Madurez del lago: Los científicos de datos tomarán la
delantera en el uso y maduración de loslagos de datos. Las organizaciones podránincorporar las necesidades de otros que se
podrían beneficiar también de la iniciativadentro del contexto de los procesosorganizacionales, sistemas y controlesexistentes.
• Áreas de montaje o zona “búfer”: El lago puede servir como un lugar
efectivo en términos de costos para colocardatos y realizar análisis previos quepudiesen ser prohibitivamente costosos
de analizar en data warehouses u otrossistemas.
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
13/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Lecciones iniciales aprendidas yobstáculos a evitar
Algunas iniciativas de lagos de datos no han
sido exitosas, produciendo en su lugar mássilos o sandboxes vacíos. Dado este riesgo,las empresas están abordándolo con muchaprecaución. “Vemos a nuestros clientescrear cementerios de big data, colocandotodos sus datos en HDFS con la esperanzade lograr algo eventualmente. Pero luegosimplemente pierden la pista de lo que hancolocado ahí” dice Sean Martin, CTO deCambridge Semantics, un proveedor de
herramientas de gestión de datos.
Las Compañías pueden evitar la creaciónde cementerios de big data mediante eldesarrollo y ejecución de un sólido planestratégico que aplique la tecnología ymétodos adecuados al problema.
Pocas soluciones tecnológicas en tiempos
recientes han tenido tanto potencial de
lograr cambios significativos como Hadoop
y las bases de datos de tipo NoSQL (No sóloSQL, por sus siglas en inglés) especialmentecuando pueden habilitar un repositorioúnico, para toda la empresa, y proveeracceso a datos que anteriormente seencontraban atrapados en silos. El mayorreto no es crear un lago de datos per se, sinoel tomar ventaja de las oportunidades quepresenta. Un medio para crear, enriquecer y gestionar metadatos semánticos de forma
incremental es esencial.
Como se ha observado a lo largo de esteboletín, las empresas cada vez más sepodrán beneficiar de la capacidad deintegrar “cualquier dato, desde cualquierfuente, en cualquier formato, a cualquiermomento”. Un aspecto clave de esteproceso, generalmente delegado a las
organizaciones de TI, es que sea realizado
manteniendo la seguridad de los datos pero
a su vez facilitando el acceso a personal clavecon una reducida dependencia de TI.
PwC puede ayudar a las organizaciones adefinir estrategias de integración y hojasde rutas bien definidas, así como unaarquitectura de integración segura quepermita que el ecosistema de la Compañíapueda manejar tecnologías nuevas yemergentes junto con tecnologías ya
establecidas, mientras integra de formasegura y transparente servicios soportadoslocalmente y servicios ubicados en la nube.
PwC a su vez puede apoyar en la evaluacióndel modelo de seguridad requerido parasoportar esta arquitectura, así como en elmejoramiento del control interno apoyadopor procesos más eficientes, más accesibles y
más seguros.
http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
14/15
Boletín de Servicios de Asesoría en RiesgosLagos de Datos Empresariales: Mayor integración y mejor análisis de nuestros datos
No. 1 - 2015Página
siguientePáginaanteriorCerrar ImprimirContenido
Referencias
1 Para más información, ver: http://www.pwc.com/us/en/
increasing-it-effectiveness/new-it-platform.jhtml
2 Apache Hadoop es una colección de tecnología de
estándar abierto que permiten a los usuarios almacenar
y procesar datos de dimensiones petabyte a través de
clústeres de computadores comerciales en la nube.
Para más información, ver “Making sense of Big Data,”
PwC Technology Forecast 2010, Issue 3 en http://www.
pwc.com/us/en/technology-forecast/2010/issue3/
index.jhtml.
3 Para más información sobre procesamiento
masivamente paralelo utilizando hardware estándar,
ver: http://www.sandia.gov/~rbbrigh/papers/cplant-
journal.pdf
4 “UC Irvine Health does Hadoop,” Hortonworks, http://
hortonworks.com/customer/uc-irvine-health/.
5 “The end of data standardization,” Marzo 20, 2014,
http://usblogs.pwc.com/emerging-technology/the-end-
of-datastandardization/
6 YARN es el centro arquitectónico de Hadoop que
permite a motores de procesamiento de múltiples
datos, como SQL interactivo, el poder manejar datos
almacenados en una única plataforma, permitiendo
todo un nuevo enfoque para la analítica, http://
hortonworks.com/hadoop/yarn/
7 Ley de Reforma de Wall Street y Protección al
Consumidor Dodd-Frank. Para más detalle, ver: http://
www.banking.senate.gov/public/_files/070110_Dodd_
Frank_Wall_Street_Reform_comprehensive_summary_
Final.pdf
8 Para más información de SocialMind y de otras
aplicaciones de análisis que PwC ofrece, ver http://
www.pwc.com/us/en/analytics/analytics-applications.
jhtml
9 Storm es un sistema de computación en tiempo real
distribuido que es utilizado para procesar grandes
volúmenes de datos a gran velocidad. Más información
en: http://hortonworks.com/hadoop/storm/
10 Timothy Prickett Morgan, “Cluster Sizes Reveal Hadoop
MaturityCurve,” Enterprise Tech: Systems Edition,
8 de Noviembre, 2013. http://www.enterprisetech.
com/2013/11/08/cluster-sizesreveal-hadoop-maturity-
curve/
http://nextpage/http://prevpage/http://print/http://close/
8/9/2019 Boletín de Servicios de Asesoría en Riesgos N° 1 - Lagos de Datos Empresariales
15/15
Créditos
Este boletín es de carácter informativo y no expresa opinión de la Firma. Si bien se han tomado todas las precauciones del caso en la preparación de este material, Espiñeira, Pacheco y Asociados no asume ninguna
responsabilidad por errores u omisiones; tampoco asume ninguna responsabilidad por daños y perjuicios resultantes del uso de la información contenida en el presente documento. Las marcas mencionadas son propiedad de
sus respectivos dueños. PwC niega cualquier derecho sobre estas marcas
© 2015. Espiñeira, Pacheco y Asociados (PricewaterhouseCoopers). Todos los derechos reservados. PwC se refiere a la firma venezolana Espiñeira, Pacheco y Asociados (PricewaterhouseCoopers) y en ocasiones podríareferirse a la red de rmas miembro de PwC. Cada rma miembro es una entidad legal separada. Para más detalles visite www.pwc.com/ve • R.I.F.: J-00029977-3
Editado por Espiñeira, Pacheco y AsociadosTeléfono master: (58-212) 700 6666
Contactos de este boletín:
José Miguel Chirinos [email protected]
+58 (212) 700 62 46
No. 1 - 2015
Síganos en
Para suscribirse al Boletín
Consultoría
Gustavo Pulgar [email protected]
+58 (241) 824 23 21
ve.linkedin.com /in/gpulgar
Páginasiguiente
PáginaanteriorCerrar ImprimirContenido
@PwC_Venezuela pwcVenezuela pwc-Venezuela pwcvenezuela
mailto:[email protected]://twitter.com/3d0rrhttps://twitter.com/3d0rrhttps://twitter.com/robersvhttp://instagram.com/pwcvenezuelahttp://twitter.com/pwc_venezuelahttp://www.facebook.com/pwcVenezuelahttp://linkedin.com/company/pwc-venezuelamailto:[email protected]://nextpage/http://prevpage/http://print/http://close/