9
Cómo convertirse en una organización basada en datos Joe Chung, estratega empresarial y evangelizador de tecnología de Amazon Web Services

Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Cómo convertirse en una organización basada en datos Joe Chung, estratega empresarial y evangelizador de tecnología de Amazon Web Services

Page 2: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Todas las compañías tienen un problema de datos

Imagine lo siguiente…

El informe semanal de Excel se publica y llega directamente a su email. Al revisarlo, comprueba que hay una anomalía en los datos financieros que no entiende, a pesar de que la tabla dinámica del informe permite obtener un cierto nivel de detalle. A continuación, pregunta a su analista de operaciones cuál es el problema y este le

responde que no está seguro y que va a investigar la causa.

Al día siguiente, el analista le dice que el motivo de la anomalía es que había un nivel muy bajo de productividad en la fábrica.

“Eso no tiene sentido”, responde usted. “¿Puede consultar con el Departamento de Recursos Humanos si los días de baja por enfermedad están afectando a la productividad?” ¿O puede que el problema estuviera en la aplicación de control de tiempo de la fábrica?

“Necesitaremos una semana para obtener esos datos y combinarlos con los datos financieros”, dice su analista.

“¿No podría sencillamente mandarme un volcado de datos de la aplicación ERP y de registro de tiempo para que lo calcule yo mismo?”

A esta pregunta, el analista responde: “No tengo acceso a esos datos y necesitaré unos días para enviar los tickets necesarios para obtener esa información”.

Si esta situación le resulta familiar, su organización tiene un problema de big data.

Page 3: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Todas las organizaciones tienen problemas de big data que han ocultado de diversas maneras.”

Inicialmente, puede pensar que se trata del típico problema relacionado con el proceso de inteligencia empresarial y herramientas que ha afectado a las organizaciones desde siempre, en lugar de considerar que es un problema de big data. El aspecto fundamental, sin necesidad de establecer un intenso debate sobre la definición de analítica, generación de informes e inteligencia empresarial, es que todas las organizaciones tienen un problema de big data. Las funcionalidades de inteligencia artificial y aprendizaje automático están empezando a dar sus frutos, por lo que ahora es más importante que nunca que las empresas tengan un mayor control de sus datos y de la manera de aprovecharlos para convertirse en una organización basada en datos.

Para ilustrar cómo una empresa se convierte en una organización basada en datos, podemos recurrir al símil del sistema nervioso del cuerpo humano. Las terminaciones nerviosas se extienden por todo nuestro cuerpo y envían señales sensoriales a la médula espinal para que nuestro cerebro las procese y actúe según corresponda. Se trata de un modelo estimulado por arquitecturas de datos que reciben, procesan y almacenan datos en tiempo real desde cualquier lugar dentro y fuera de la compañía. Las señales se procesan en tiempo real y se llevan a cabo a través de algoritmos de aprendizaje automático. Desgraciadamente, hay demasiadas compañías que piensan que estas capacidades nuevas solo se pueden aplicar en situaciones en que los datos son especializados, o intentan volver a etiquetar plataformas de inteligencia empresarial heredadas como “lagos de datos”.

Disfunción de datos La mayoría de nosotros piensa que los problemas del big data estriban en el volumen de datos. Sin embargo, la realidad es que todas las organizaciones tienen problemas de datos más allá del volumen que se han ocultado de diversas maneras. Estas son algunas de las disfunciones de datos más comunes que he podido observar:

Datos solitarios y desechadosEn primer lugar, muchas organizaciones no son conscientes de que se desecha una gran cantidad de datos de interés o simplemente no se puede acceder a ellos. Por ejemplo, datos como la actividad de usuario en la aplicación (y el uso de esa aplicación en relación con otras aplicaciones), la telemetría de la infraestructura en la que se aloja la aplicación o versiones antiguas de datos que no son compatibles con el esquema de tablas actual.

En segundo lugar, los datos se guardan en silos en muchas aplicaciones y almacenes de datos. Aunque las aplicaciones por sí solas no sean “grandes”, al juntarse sí lo son, y el negocio tiene problemas a la hora de analizar datos de fuentes diferentes. Esto se debe a la dificultad de acceder a los datos almacenados en silos. Cada lugar en el que se almacenan los datos tiene sus propias funciones, reglas y procesos de acceso que pueden complicar la obtención de los datos.

Page 4: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Para tomar decisiones basadas en datos, es necesario acceder a diversos tipos de información.”

Datos poco fiablesLos sistemas de negocio heredados generalmente procesan y capturan estados finales y solo informan sobre períodos breves de tiempo. Asimismo, los datos se procesan por lotes en lugar de en tiempo real. Los datos pueden cambiar significativamente entre cada período de lotes, pero los sistemas antiguos suelen estar diseñados para desechar los cambios provisionales porque no pueden procesar la velocidad a la que pueden cambiar los datos.

Datos incompatiblesMuchas organizaciones comprueban que hay una gran cantidad de datos que no son compatibles con las tecnologías tradicionales de almacenamiento en bases de datos (por ejemplo, imágenes, datos del sensor, etc.). También existen diferentes formas de analizar y conocer los datos. Por ejemplo, a la hora de lanzar una iniciativa de análisis nueva, es posible que vea que no existe una solución única de creación de informes o visualización que responda a todas sus necesidades. Puede que necesite facilitar la información procesada por algoritmos a través de API, aplicaciones con widgets personalizados de visualización que utilicen un lenguaje JavaScript como D3.js y portales de inteligencia empresarial que aprovechen Tableau y otras soluciones de visualización.

Datos desordenadosDado que los datos desordenados no son convenientes para los sistemas de las compañías, se han creado formatos, reglas y

otros procesos de validación para asegurarse de que los datos estén lo más ordenados posible antes de su almacenamiento. Sin embargo, es posible que algunos de los datos de mayor interés no estén tan organizados y surjan problemas al tratar con datos sin estructura o basados en objetos. Para solucionar este problema, existen una serie de filtros, mejoras y mecanismos de amplificación que permiten obtener los datos deseados. Una de las preocupaciones de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad y supervisión de registros. En la mayoría de los casos, es posible disminuir los costos filtrando una gran cantidad de datos que no son necesarios.

Si ha tenido problemas con alguno de los aspectos mencionados, ha llegado la hora de que su organización reflexione sobre sus estrategias de análisis y arquitectura. Cada compañía tiene la posibilidad de implementar soluciones de análisis que se ajusten a las necesidades del negocio y de TI (almacenamiento, procesamiento, consultas, análisis, presentación, etc.).

Las plataformas modernas de análisis permiten obtener información crítica del negocioUna vez que esté preparado para afrontar el problema de big data, ¿qué puede conseguir realmente con plataformas modernas de análisis? Aquí le mostramos lo que es posible obtener y la manera de conseguirlo desde una perspectiva técnica.

Page 5: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Acceso a cualquier datoPara tomar decisiones basadas en datos, es necesario acceder a diversos tipos de información. Un piloto necesita los indicadores del avión para comprender la información crítica del vuelo, como la altitud, la velocidad del aire o el consumo de combustible. Imagine que el piloto no pudiera acceder a todos estos indicadores en un único lugar. Es posible que tuviera que ir a la cabina de la parte trasera, utilizar la radio para obtener la información o, aún peor, pedir permiso para acceder a los datos. Desgraciadamente, este ejemplo refleja la realidad del mundo empresarial de hoy en día.

Las empresas con un pensamiento de futuro le han dado la vuelta a este estándar extrayendo datos de sus sistemas y almacenándolos en un único lugar (un lago de datos). Aunque hay un gran número de compañías que almacenan grandes cantidades de un tipo de datos, cada vez hay más organizaciones que crean lagos de datos para todo el negocio que contienen múltiples tipos de datos de diferentes fuentes.

Empresas de escalabilidad web como Amazon, Yahoo y Facebook comprobaron a principios de la década del 2000 que las tecnologías de bases de datos relacionales habían llegado a su límite en cuanto a

escalabilidad y rendimiento. Amazon reaccionó con la tecnología Dynamo, una base de datos de claves-valor con gran disponibilidad y escalabilidad, como la tecnología NoSQL/no relacional. Después, Amazon evolucionó y aprovechó la tecnología Dynamo para crear servicios como Amazon S3 y Amazon DynamoDB. Amazon S3 es ideal para compañías que deseen crear lagos de datos gracias a su habilidad para almacenar un gran número de diferentes tipos de datos y a su almacenamiento de bajo costo. Por supuesto, existen otras soluciones técnicas como Hadoop, pero la característica importante de todas las soluciones de lago de datos es su habilidad para almacenar todo tipo de datos a escala de petabytes y a un bajo costo.

Capacidad de respuesta al cambioLos sistemas de negocios y datos cambian continuamente, pero los sistemas que informan o comparten la información a menudo no evolucionan. ¿Cuántas veces ha oído que son necesarios seis o más meses para corregir los datos en los almacenes de datos e informes? ¿O que los cambios en los datos de los sistemas de origen no han llegado a los sistemas de información y que pueden ser necesarios varios días para implementar esos cambios por el procesamiento por lotes? La velocidad a la que están disponibles los datos determina la velocidad en la toma de decisiones. Por lo tanto, las plataformas modernas de análisis deberían ser capaces de procesar e informar sobre datos en tiempo casi real y de responder al cambio para mejorar el flujo del origen de datos.

La velocidad a la que están disponibles los datos determina la velocidad en la toma de decisiones.”

Page 6: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

Tenemos que facilitar la experiencia del usuario a la hora de obtener los datos y la información que necesite.”

El primer habilitador principal yace en la forma de almacenar los datos de las tecnologías de big data como Amazon S3 o Hadoop. Uno de los primeros problemas a la hora de modificar una base de datos relacional es modificar el esquema o la definición relativa a la manera de almacenar los datos. Hasta que no se modifique el esquema, los datos no podrán llegar a la base de datos o se interrumpirán. La forma en la que se estructuran los datos no es un impedimento para las tecnologías de almacenamiento de archivos o basadas en objetos como Amazon S3, ya que los datos pueden gestionarse tal y como son o adaptarse a otra estructura.

Otro de los problemas presentes es que solo hay un esquema activo en todo momento. Estoy seguro de que todos hemos visto tablas de bases de datos identificadas como “2015” y “2016”, pero esta situación no es ideal. Las tecnologías de big data cuentan con un esquema basado en la lectura, por lo que la estructura de los datos se utiliza al extraerlos y no se modifica en función del almacenamiento. Por lo tanto, las empresas no tienen que preocuparse por los cambios de datos en los sistemas de origen.

El segundo habilitador son las tecnologías de streaming como Amazon Kinesis y Apache Spark. La mayoría de las empresas mueven los datos en lotes grandes y, normalmente, una vez al día. Las tecnologías de streaming permiten procesar los datos en cantidades más pequeñas con una gran escalabilidad. Por ejemplo, el fabricante de altavoces SONOS procesa 1000 millones de eventos a la semana a través de Amazon Kinesis. Una persona nunca debería tener que esperar a que se complete un lote diario para conocer el estado de su negocio.

Información interactiva donde y como yo quieraLos empresarios de hoy en día tienen que superar una serie de obstáculos para conocer la información que se les facilita. Por ejemplo, navegar por la bandeja de entrada para encontrar el informe adjunto o iniciar sesión en el sistema de informes para descargar un PDF y descubrir que es necesario copiar el contenido en un Excel para comprender la información. Tenemos que facilitar la experiencia del usuario a la hora de obtener los datos y la información que necesite. La consigna para los usuarios está clara: obtener los datos en el formato correcto, con las herramientas adecuadas y en el momento preciso.

Software como Tableau, Amazon QuickSight y otros programas han mejorado la experiencia de usuario en la interacción de datos. Sin embargo, he podido comprobar que la mayoría de las empresas necesitan utilizar muchas herramientas para responder a las necesidades de los usuarios, como Amazon QuickSight integrado en un portal de inteligencia empresarial o un informe Tableau enviado por email. AWS proporciona una diversidad de herramientas de almacenamiento de datos e inteligencia empresarial a través de un sistema de pago por uso, lo que permite a las empresas experimentar con diferentes herramientas de inteligencia empresarial sin realizar una gran inversión en infraestructura y licencias.

Page 7: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

El mejor algoritmo del mundo será inútil si no está integrado en los procesos empresariales.”

Es muy importante tener en cuenta a los científicos de datos de su empresa. Los blocs de notas de Jupyter se han consolidado en la comunidad de la ciencia de datos, ya que permiten gestionar el contenido, ejecutar el código y visualizar los datos. Es una herramienta muy eficaz para compartir conocimientos y documentar y ejecutar algoritmos de aprendizaje automático. Amazon SageMaker es un entorno de bloc de notas completamente administrado que hace el trabajo pesado por usted y sus científicos de datos.

Integración de la inteligencia en el negocioLa inteligencia artificial y el aprendizaje automático son, con razón, tendencia hoy en día. Los avances en los entornos de aprendizaje automático junto con el uso de servidores especializados que utilizan unidades de procesamiento de gráficos (GPU) permiten posibilidades nuevas como la conducción autónoma. Es evidente que, para entrenar a los modelos de aprendizaje automático, es necesario contar con grandes cantidades de datos (por este motivo he hablado con anterioridad sobre los aspectos del lago de datos). Las organizaciones están aprovechando las posibilidades de la inteligencia artificial y el aprendizaje automático para obtener resultados pioneros, como la capacidad de pronosticar en función

de la imagen retiniana o predecir cortes o averías en el hardware. AWS puede encargarse del trabajo pesado para que las empresas refuercen sus prestaciones de inteligencia artificial y aprendizaje automático, ya que no se trata solo de la teoría, sino que es una realidad hoy en día.

Un último aspecto que me gustaría destacar es que el mejor algoritmo del mundo será inútil si no está integrado en los procesos empresariales. Conseguir la información o el modelo de ciencia de datos suele ser a menudo la parte más sencilla. El proceso se complica a la hora de integrar ese modelo en su negocio de póliza de seguros o plataforma de ventas, ya que normalmente estos sistemas no pueden integrar orígenes de datos o API externos. Esta puede ser una gran oportunidad para mover estos sistemas a la nube y aprovechar los servicios disponibles para su modernización y reestructuración.

Organizarse para obtener la informaciónLa tecnología no es el único aspecto a tener en cuenta para crear una capacidad de análisis avanzada en su compañía. El mayor reto de las organizaciones suele estar dentro del propio negocio (los procesos, la gerencia y las personas). De este modo, ¿qué necesita organizar para que su inversión de análisis tenga éxito?

Page 8: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

No solo se trata de disponer de las herramientas más pioneras, sino de responder de una manera sencilla a las necesidades de sus clientes.”

Empiece creando un centro de excelencia para operaciones de análisis

Para que la estrategia y las ideas se conviertan en progreso, uno de los primeros pasos será identificar y elegir un equipo y un líder para afrontar el cambio, y establecer un centro de excelencia (COE) para operaciones de análisis. Al principio, el equipo será pequeño y contará con algunas tareas multidisciplinares, pero con el paso del tiempo irá creciendo para ofrecer más servicios.

Muchas compañías grandes ya han establecido organizaciones de servicios compartidos para encargarse de la inteligencia artificial o generación de informes. Estas organizaciones pueden mejorar los COE para operaciones de análisis con funciones técnicas y empresariales. Al igual que las organizaciones de infraestructura informática, estas organizaciones no solo deberán proveer talento, sino también impulsar y promover el esfuerzo, dado que, con el paso del tiempo, tendrán que evolucionar para adaptarse o formar parte de los COE para operaciones de análisis. El grupo estará compuesto en un principio por ingenieros y arquitectos de datos, analistas de inteligencia empresarial y científicos de datos. Además, el grupo tendrá que contar con un líder que pueda trabajar con diferentes organizaciones, unidades de negocio y departamentos de operaciones como contabilidad e informática.

Responder a todas las necesidades de los clientesUno de los cambios de actitud fundamentales que deben tener las organizaciones es

evolucionar del “tendrá que utilizar nuestra solución de generación de informes y le acabará gustando” a “¿cuáles son sus necesidades de análisis y cómo podemos ayudar a solucionarlas?” A menudo, las organizaciones de servicios compartidos para generación de informes solo quieren obtener informes en lugar de responder a cuestiones complejas de empleados, jefes comerciales y clientes.

Por este motivo, a la hora de establecer un nuevo COE para operaciones de análisis, es importante crear principios para el grupo, con el objetivo de dirigir la manera de actuar y tomar decisiones.

El COE para operaciones de análisis debe adaptarse a dos tipos de clientes:

• Los clientes de datos y análisis: responsables de la toma de decisiones, científicos de datos, analistas de inteligencia empresarial y desarrolladores. Estos clientes suelen interesarse por la habilidad para acceder rápidamente a la información y los datos y por la calidad de las herramientas y los servicios disponibles para procesar y presentar los datos.

• Los productores de datos: propietarios de aplicaciones, infraestructura y dispositivos que suministrarán los datos a la plataforma. Este tipo de clientes necesita servicios como la habilidad para publicar fácilmente sus datos en la plataforma de análisis y definir un contrato de datos, incluyendo el modelo de dominio de los datos, la frecuencia de actualización y la definición de políticas como, por ejemplo, una política de seguridad sobre los usuarios que pueden acceder a sus datos.

Page 9: Cómo convertirse en una organización basada en datos · 2020-01-22 · de muchas empresas es la espiral de costos de enviar datos a herramientas privadas de agregación, seguridad

La capacidad de análisis y la plataforma tienen que responder a las necesidades de ambos tipos de clientes, ya que, de lo contrario, el esfuerzo de análisis no generará un valor en su negocio. Por este motivo, es fundamental contar con un mecanismo que capture las necesidades de ambos tipos de clientes en una amplia y diversa gama de unidades empresariales y personas. Hay organizaciones que crean juntas de asesores o trabajan con algunos grupos de interés para tratar estas necesidades. No hay una única respuesta correcta, pero es fundamental contar con mecanismos para capturar la opinión de los clientes y dar prioridad a sus necesidades.

Reconsiderar el COEUn COE para operaciones de análisis ejecuta y presenta una serie de servicios especializados en la nube cuyo objetivo es responder a las necesidades de análisis. En el pasado, las organizaciones de generación de informes e inteligencia empresarial solían ofrecer una solución para responder a las necesidades de sus clientes (una estrategia única para todos). Sin embargo, nos encontramos en la era de la evolución rápida de las tecnologías de big data, visualizaciones sofisticadas, toma de decisiones automatizadas, inteligencia artificial y aprendizaje automático, por lo que no es posible contar con una única solución de tecnología. No solo se trata de disponer de las herramientas más pioneras, sino de responder de una manera sencilla a las necesidades de sus clientes (productores o consumidores).

Existe el riesgo de que los COE se conviertan en servicios de asistencia, lo que puede ser ideal para ciertos tipos de peticiones. Sin embargo, el COE puede verse rápidamente superado y contar con un gran número de tareas pendientes si no cuenta con mecanismos de escalabilidad y autoservicio ni con procesos de gestión o prioridades transparentes. Los COE para operaciones de análisis deben diseñar y estructurar una plataforma de datos con autoservicio que sea segura, operativa y escalable, y que cuente con un ecosistema de tecnología en continua evolución para procesar, analizar y presentar la información.

Es cierto que no es posible convertirse en una organización basada en datos de un día para otro, pero identificar sus necesidades de datos, organizar un plan relacionado con el servicio a sus clientes y facultar a sus equipos para ofrecer el valor correcto en el momento adecuado permitirá caminar en la dirección adecuada.

Sobre el autor

Joe Chung es un estratega empresarial y evangelizador de tecnología de Amazon Web Services.