Webinar ISACA Chalico

Preview:

Citation preview

RIESGOS EN EL MANEJO DE BIG DATA Y ANALÍTICOS PREPARÁNDONOS PARA LATIN CACS 2015Carlos Chalico, LI, CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA

#LatinCACS @carloschalico

@CarlosChalicoT

BIENVENIDOS

¿Tiene preguntas? Utilice el botón Ask A Question

El Audio se transmite via streaming

¿Temas técnicos? Haga Click en el botón ?

Utilice el botón Feedback para compartir sus opiniones sobre este evento.

¿Sugerencias o comentarios? Envíe su correo electrónico a eLearning@isaca.org

Utilice el botón Attachments para encontrar lo siguiente

• Copia en PDF de la Presentación del día de hoy

• Liga a Event Home Page en donde los miembros de ISACA pueden encontrar el cuestionario CPE Quiz

• MORE Documentación adicional del Presentador de hoy

• Próximos eventos de ISACA

2

#LatinCACS @carloschalico

@CarlosChalicoT

PRESENTADOR DE HOY

• Especialista en riesgos de TI: CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA

• 18 años de experiencia

• Colaborador de EY 1996-2012

• Actualmente dirige la oficina de Toronto de Ouest Business Solutions Inc.

• Instructor en la Universidad de Toronto (Big Data, Gobierno de TI, Seguridad de la Información)

• Director de Membresía capítulo Toronto ISACA

@carloschalico @CarlosChalicoT

#LatinCACS

3

#LatinCACS @carloschalico

@CarlosChalicoT

AGENDA

1. Comprendiendo el concepto

2. ¿Cómo llegamos aquí?

3. Consideraciones y herramientas

4. Riesgos en Big Data y Analíticos

5. La aportación de ISACA

6. Conclusiones

4

#LatinCACS @carloschalico

@CarlosChalicoT

COMPRENDIENDO EL CONCEPTO

5

#LatinCACS @carloschalico

@CarlosChalicoT

COMPRENDIENDO EL CONCEPTO

6

• Colección de conjuntos de datos tan grandes y complejos que se hacen difíciles de manejar usando herramientas tradicionales de base de datos

• Entre los retos identificados se encuentran:

- Captura

- Almacenamiento

- Búsqueda

- Transferencia

- Compartición

- Análisis y visualización

#LatinCACS @carloschalico

@CarlosChalicoT

COMPRENDIENDO EL CONCEPTO

• ¿De qué nos sirven los datos una vez colectados?

• El valor de los datos es cuestionable, limitado, si nada se hace con ellos

• Análisis de Datos, Analíticos

- Descubrimiento y comunicación de elementos de valor significativos en los datos

- Este tipo de análisis usa simultáneamente: estadística, programación e investigación de operaciones

- Se favorece de la visualización para compartir valores, hallazgos

• Análisis de datos empresariales

7

#LatinCACS @carloschalico

@CarlosChalicoT 8

• El análisis de datos y el manejo de Big Data puede incluir el uso de herramientas de Inteligencia Artificial como el aprendizaje de máquina (supervisado o no supervisado)

• Las fuentes de datos incluyen elementos estructurados tradicionales, pero también nuevos elementos no estructurados:

- Navegación web

- Uso de redes sociales

- Sensores de IoT

- Datos de vigilancia

COMPRENDIENDO EL CONCEPTO

#LatinCACS @carloschalico

@CarlosChalicoT 9

Volumen

Velocidad

Variedad

Validez VeracidadAdaptado de Gartner Inc. Svetlana Sicular

Doug Laney

COMPRENDIENDO EL CONCEPTO

#LatinCACS @carloschalico

@CarlosChalicoT

¿CÓMO LLEGAMOS AQUÍ?

10

• 2003: Secuencia del genoma humano

• 2003: Google publica “The Google File System”

• 2005: NUMB3RS

• 2006: Businessweek: Math Will Rock Your World; PBS transmite The Great Robot Race

• 2007: iPhone

• 2008: 21

• 2010: iPad, Apple Siri.

10

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

#LatinCACS @carloschalico

@CarlosChalicoT

¿CÓMO LLEGAMOS AQUÍ?

11

11

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• 2011: IBM Watson gana Jeopardy; Moneyball; Nevada permite que los vehículos autónomos de Google circulen por sus caminos

• 2012: HBR pone el foco en el concepto; Nate Silver predice las elecciones en Estados Unidos por estado

• 2013: Hadoop 2; Conferencia Strata conference > 3,200 aasistentes

• 2014: artículo en The Economist.

#LatinCACS @carloschalico

@CarlosChalicoT

¿CÓMO LLEGAMOS AQUÍ?

12

• Big Data ha atraído de forma importante a la prensa • En más de un foro se habla sobre cómo Big Data

transformará al mundo • Paradójicamente, no podemos predecir cómo • Volúmenes de datos

- NYSE produce 1TB/día de transacciones - Facebook guarda aproximadamente 10 billones de fotos = 1 Pb - Ancestry.com: 2.5 PB - El CEO de Ericsson predijo un elevado número de dispositivos

conectados para 2020 - El IoT está aquí - El monto de los datos se duplica aceleradamente

#LatinCACS @carloschalico

@CarlosChalicoT

¿CÓMO LLEGAMOS AQUÍ?

13

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

14

• El Big Data y los analíticos proveen múltiples puntos mejorados de toma de decisiones

• Ayudan a: - Enfocar mejor la estrategia operativa - Mejorar las técnicas de mercadotecnia - Hacer procesos más eficientes - Detectar eventos inusuales o inesperados (ataques,

fraude, violaciones a medidas de control interno) - Hacer más efectivas las labores de investigación y

desarrollo - Incrementar utilidades

• La “prisa” en su adopción es un arma de doble filo por la que muchas organizaciones cometen serios errores al no implantar correctamente

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

15

• Algunas de las aplicaciones del Big Data y los analíticos incluyen: - Predicción de ataques - Auditoría continua - Análisis de mercado basado en sentimientos - Calificación de créditos - Control de calidad - Administración de inversiones - Manejo de insumos y mejora de la cadena de suministro - Incremento de precisión en labores agrícolas - Seguridad y rastreo de medios de transporte - Servicio a clientes - Manejo de flota - Recomendaciones

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES

16

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• Piensa por un momento:

- ¿Cuáles son esos artículos que tiendes a comprar? - ¿Qué tipo de películas te gustan? - ¿Qué tipo de música te gusta? - ¿Qué libros lees? - ¿Que es aquello que genera una influencia en tus hábitos

de consumo?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES

17

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

Considerando que ya sabemos… • Tus Preferencias • Las preferencias de tus

amigos • Lo que has comprado en el

pasado • Las ofertas existentes • Lo que estás comprando

ahora

¿Qué…:

• más podría gustarte? • haría juego con eso que

acabas de comprar? • recomendarías a tus

amigos? • más podrías comprar en

otra ocasión?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES

18

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

House of Cards no se lanzó al aire sin fundamento

Netflix posee una cantidad de datos sin precedente sobre entretenimiento

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

19

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• Las relacionales surgieron en los 70s • Han visto retos de escalamiento • Tienen problemas manejando texto y video • Enfocadas en almacenamiento no redundante • Buenas para datos estructurados • Hoy estamos capturando grandes volúmenes

de datos esparcidos en diversas fuentes • Las organizaciones se están tramsformando

¿Qué ha pasado con las bases de datos?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

20

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• Diseñados para GRANDES volúmenes de datos • Reconocen y tratan las posibilidades de fallas en discos • Tienen mejoras significativas sobre las bases de datos

relacionales para aplicaciones específicas relacionadas con Big Data

• Generalmente se pierde – Modelo relacional (maduro) – Indexación – Fortaleza en consistencia

Manejadores de Bases de Datos para Big Data

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

21

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

22

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• La velocidad a la que los datos se pueden leer en las unidades de disco no ha seguido el ritmo de aumento de la capacidad de almacenamiento

• Puede tomar hasta 2 ½ horas leer un Tb en un disco (la escritura es más lenta)

• Las bases de datos relacionales pueden perder mucho tiempo haciendo búsquedas

• Muchos de los datos usados hoy son semi-estructurados o no estructurados

Hadoop ¿Por qué tanto escándalo?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

23

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• En 2003, Google publicó “The Google File System” describiendo su sistema escalable y distribuido de base de datos

• A este le siguió “MapReduce: Simplified Data Processing on Large Clusters” describiendo el enfoque usado por Google para implementar su motor de indexación de escala mundial

• Hadoop es una alternativa de código abierto creada por Doug Cutting de Apache Lucene

Hadoop ¿Por qué tanto escándalo?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

24

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• Un sistema de archivos distribuido (HDFS) y un motor de proceso (MapReduce)

• Originalmente pensado para ser el corazón del motor de búsqueda Lucene pero evolucionó (usado por Yahoo!)

• 2008: el sistema más rápido para ordenar un Tb de datos (209 segundos en 900 nodos)

• Ha probado tener mayor aplicación de la que originalmente se pensó

¿Qué es exactamente Hadoop?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

25

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

• HDFS – Diseñado para que grandes volúmenes de datos puedan

distribuirse en muchas computadoras – Optimizado para concentrarse en velocidad de

transferencia • MapReduce

– Marco para dividir el proceso de datos en pequeñas fracciones paralelas

– Orientado a trabajar por lotes (no para búsquedas rápidas) • Modelo de seguridad basado en Kerberos • Diseñado para trabajar con grandes arreglos de computadoras

¿Qué es exactamente Hadoop?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

26

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

split 2 map

reduce part 0

split 0 map

split 1 map

reduce part 1

OrdenaCopia

Une

¿Qué es exactamente Hadoop?

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

27

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

Data Storage

Data Processing

Data Access

Data Exchange(ETL)

Data Management

Drill, Mahout, Spark, Storm Data Analytics

El ecosistema Hadoop (en constante cambio)

#LatinCACS @carloschalico

@CarlosChalicoT

CONSIDERACIONES Y HERRAMIENTAS

28

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

El ecosistema Big Data (Una muestra)

#LatinCACS @carloschalico

@CarlosChalicoT

RIESGOS EN BIG DATA Y ANALÍTICOS

29

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

Fuente: Data Management Association International (DAMA)

DMBoK Wheel

#LatinCACS @carloschalico

@CarlosChalicoT

Los riesgos en Big Data son los mismos que en los ambientes tradicionales más los relacionados con:

• Proteger el capital intelectual de la organización derivado de la aplicación de analíticos

• Proteger los datos que pueden ser más vulnerables o no tan bien controlados al estar fuera de sus repositorios nativos

• Concentrar activos de información en ubicaciones específicas aumentando el riesgo individual y/o compuesto

• Nuevas herramientas, incluyendo las de código abierto que pueden ser menos confiables desde la perspectiva de seguridad de la información

30

RIESGOS EN BIG DATA Y ANALÍTICOS

#LatinCACS @carloschalico

@CarlosChalicoT

¿Qué busca mi organización para considerar a los datos seguros?

31

RIESGOS EN BIG DATA Y ANALÍTICOS

Identificación – Quién accede a los datos Autenticación – Confirmar que se es quien se dice ser Autorización – Determiner que tiene los derechos necesarios

Confidencialidad – No todos deben acceder a todo Privacidad – Hay muchas restricciones en PII Auditoría – Registro de quién accede a qué

Integridad – Mantener la “pureza” de los datos Disponibilidad – Que los datos estén cuando se necesitan

Validez – Que el dato sea real Exactitud – Que el dato sea correcto Vigencia – El dato sirve en el momento en el que se usa

Adaptado de curso “Foundations of Enterprise Analytics”

Universidad de Toronto

#LatinCACS @carloschalico

@CarlosChalicoT 32

RIESGOS EN BIG DATA Y ANALÍTICOSPrivacidad, el elemento que no todos quieren ver

• Estos temas no solo impactan el lado financiero, sino que se encuentran muy cerca de los sentimientos del consumidor

• Valor accionario, reputación, ventas, utilidad, supervivencia política, todos pueden ser positiva o negativamente impactados por asuntos relacionados con privacidad

• Retos en el manejo de riesgo compuesto • Los requerimientos legales son complejos y,

generalmente, incluyen multas MUY importantes • Indispensable integración técnico-legal-administrativa

#LatinCACS @carloschalico

@CarlosChalicoT 33

RIESGOS EN BIG DATA Y ANALÍTICOSPrivacidad, la regulación en el mundo

Fuente: Ernst & Young México

#LatinCACS @carloschalico

@CarlosChalicoT 34

LA APORTACIÓN DE ISACALas cinco preguntas

1.¿Podemos confiar en nuestras fuentes de datos? 2.¿Qué información estamos colectando sin exponer a la

organización a batallas en el terreno legal y regulatorio? 3.¿Cómo protegeremos nuestras fuentes, procesos y

decisiones de robo y corrupción? 4.¿Qué políticas se han implementado para asegurar que

los empleados mantengan la información de los stakeholders protegida mientras trabajan para la organización y aún después?

5.¿Cuáles de nuestras acciones están creando tendencias que podrían ser seguidas por nuestros rivales?

#LatinCACS @carloschalico

@CarlosChalicoT 35

LA APORTACIÓN DE ISACA• Las consideraciones de riesgo:

- Ambientes complejos - Crecimiento masivo de transacciones - Explosión de nuevos tipos de interacción con

datos: redes sociales, dispositivos - Uso de nuevas herramientas - Amenazas internas y externas - APT

• Acciones mínimas -Identificar TODOS los datos sensibles -Asegurar TODOS los datos sensibles -Demostrar cumplimiento con leyes y -Definir y ejecutar acciones de monitoreo -Definir, operar, y mantener modelos ágiles y efectivos de respuesta a incidentes

#LatinCACS @carloschalico

@CarlosChalicoT

CONCLUSIONES

36

Lecturas recomendadas

#LatinCACS @carloschalico

@CarlosChalicoT

CONCLUSIONES

37

Lecturas recomendadas

#LatinCACS @carloschalico

@CarlosChalicoT

CONCLUSIONES

38

Lecturas recomendadas

#LatinCACS @carloschalico

@CarlosChalicoT

CONCLUSIONES

39

• La seguridad de la información y privacidad deben ser elementos clave en el diseño de un modelo de Big Data y analíticos

• Si no existen modelos generales en la organización, los riesgos en Big Data y analíticos son aún mayores

• La naturaleza de Big Data atrae riesgos adicionales • La integración del tema en el marco corporativo de

riesgos es indispensable • La definición de un modelo de gobierno es crucial • COBIT se constituye como una herramienta de gran valor • Tenemos un reto importante con la gente: analíticos-

seguridad-cambio-efectividad • ¿Ha muerto la privacidad?

#LatinCACS @carloschalico

@CarlosChalicoT

“Conforme la era digital avanza, el término “Big Data” emerge al centro del universo del

Internet de las Cosas. Es fácil entender porqué. Un creciente arreglo de sensores, dispositivos y

sistemas de información genera grandes montos de datos. Redes sociales, sistemas de mensajería, audio, video y un rápidamente

creciente universo de documentos se agrega a la mezcla”

Samuel Greengard

40

¿Qué cosa es eso del Internet de las Cosas?

Carlos Chalico, LI, CISA, CISSP, CGEIT, CRISC, PbDA, ISO27000LA Director Eastern Region, Ouest Business Solutions Inc.

21-22 de Septiembre, Ciudad de México

Definiendo la estrategia de privacidad

121133

https://www.isaca.org/ecommerce/pages/latin-america-cacs-isrm.aspx

www.isaca.org/webinars

GRACIAS POR SU ASISTENCIA

FOR MORE GO TO:

Carlos Chalico, LI, CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA Director Eastern Region, Ouest Business Solutions Inc. carlos.chalico@ouestsolutions.com +1(647)638-8062

Recommended