36
#SQSummit Polybase Eladio Rincón [email protected] Cruzando datos estructurados y menos estructurados

Polybase en SQL Server 2016

  • Upload
    solidq

  • View
    194

  • Download
    1

Embed Size (px)

Citation preview

Page 1: Polybase en SQL Server 2016

#SQSummit

Polybase

Eladio Rincón

[email protected]

Cruzando datos estructurados y menos estructurados

Page 2: Polybase en SQL Server 2016

Sponsors del SolidQ Summit Panamá

Page 3: Polybase en SQL Server 2016

Polybase en SQL Server 2016

• Motivación y Escenarios de Uso

• Arquitectura Hadoop – foco consultar

• Arquitectura Polybase

• Instalación y Puesta en Marcha

• Conclusiones

Page 4: Polybase en SQL Server 2016

Definiciones de Big Data

• Un conjunto de tecnologías relacionales y no relacionales para analítica a gran escala

• Gran volumen, alta velocidad y gran variedad de información que demanda un procesado poco costoso para obtener conocimiento y tomar decisiones.

• Volumen: Terabytes, Petabytes, Exabytes• Velocidad: hora, segundos, milisegundos• Variedad: 5 formatos, 10 formatos, 20+ formatos• Variabilidad: formatos cambian en el tiempo• Valioso: beneficio/coste de la solución

Page 5: Polybase en SQL Server 2016

Definiciones de Big Data

Page 6: Polybase en SQL Server 2016

Motivación Polybase – Usuario Final

Page 7: Polybase en SQL Server 2016

Motivación Polybase – Habilidades

Page 8: Polybase en SQL Server 2016

Escenarios de Uso: Big Data

• Combinar cualquier origen de datos• Desordenado: webs, media

• Bastante ordenado: fb, twitter, sensors,

• Casi ordenado: csv, arc. intercambio

• Ordenado: otros RDBMS

• Datos archivados• Demasiado valiosos para borrar

Page 9: Polybase en SQL Server 2016

Escenarios de Uso: Big Data Polybase

Latencia

Transf

orm

ació

n

Desordenado -

Webs, Media

Ordenado -

Otros RDBMS

Casi

Ordenado

-

csv, txt

Bastante

Ordenado

-

twitter,

streams

Transformación

compleja

Page 10: Polybase en SQL Server 2016

Escenarios de Uso Polybase: Gran Depende

• Data Scientists: Leer muchos datos?

• Capacidad Calculo: A qué coste?

• ETL/ELT: Transformar datos?

• Archiving: A sitio barato?

Page 11: Polybase en SQL Server 2016

Escenarios de Uso Polybase: Data Scientists

Necesidad:

• Leer y transformar cualquier cosa

• Gran capacidad de cálculo

• Menos de 100 usuarios

Procedimiento:

• Modela su visión

• Transfiere modelo

Desordenados!?

Scale up, out

Concurrencia 32

Page 12: Polybase en SQL Server 2016

Escenarios de Uso Polybase: Capacidad Calculo

• Volumetría de procesamiento muy grande• Predicate push-down!

• Dependiendo de necesidades

• Modelo on-prem

• Modelo appliance

• Modelo PaaS

• Modelo Storage

SQL DW PaaS Autogestionado

Grande, modelo

racks

SQL de siempre

Azure Storage Solo store!

Page 13: Polybase en SQL Server 2016

Escenarios de Uso Polybase: ETL/ELT

• Dilema en proyectos de Big Data

ETL (transforma

antes)

ELT (transforma

después)

Cuando “1 vez” En cada lectura

Flexible Esquema fijo Falsa Flexibilidad

Estructurado En Capas – Staging Mezcla de capas

Modelado Modelo Primero Modelo Después

Herramientas SSIS, BIML Hive, TSQL, APIs

Page 14: Polybase en SQL Server 2016

Escenarios de Uso Polybase: Archiving y acceso rápido/eventual

Polybase es mixto

• Mezclado con Hadoop existente

• Storage en Azure (no calculo)• Push Storage a Azure. Distinto de StrechDB

Hadoop DELL/HP Legacy Systems

Coste / TB 1K USD 10-15K USD 40-50K USD

http://www.informationweek.com/software/how-hadoop-cuts-big-data-costs/d/d-id/1105546?

Page 15: Polybase en SQL Server 2016

© Hortonworks Inc. 2013 - Confidential

Apache Hive: SQL in Hadoop

CORE SERVICES

DATASERVICES

SQOOP

FLUME

HIVEPIGHBASE

TEZStore and Process Data

Apache Hive

SQL interface in Hadoop

• De-facto SQL interface, enables world of tools on Hadoop

• Scales from GB to PB across all queries

• Good for both batch and interactive queries

• First application to use Apache Tez

OPERATIONAL SERVICES

Provision, Manage &

Monitor the cluster

Page 16: Polybase en SQL Server 2016

Arquitectura: Objetivos Diseño

• Interfaces / Conceptos• Similar a Hive: tablas reales

• Acciones• Leer y escribir de/a Hadoop SELECT,

INSERT• Combinar datos JOIN

• Orígenes• On-prem: SQL Server y APS• PaaS: SQL DW• Cualquier distribución Hadoop• Azure Storage (sin HDInsight!)

Page 17: Polybase en SQL Server 2016

Arquitectura: Diseño

Cloudera

HortonWorks

Azure StorageSQL DW PaaS

Page 18: Polybase en SQL Server 2016

Las consultas

entran por aqui

Se consultan

tablas locales

o externas

Los Nodos de cálculo son útiles para escalar

procesamiento contra tablas externas HDFS

El DBA ajusta dinámicamente el número

de nodos de calculo

El cluster Hadoop se puede compartir con

varios clusters de SQL Server

Arquitectura: Diseño final on Prem

Page 19: Polybase en SQL Server 2016

Las consultas

entran por aqui

Se consultan

tablas locales

o externas

Arquitectura: SQL DW PaaS

El DBA ajusta dinámicamente el número

de nodos de calculo (DW Units)

Page 20: Polybase en SQL Server 2016

Instalación y Puesta en Marcha (INS)

• Pasos para usar Polybase:

1. Elegirlo en Setup

2. Habilitarlo en instancia

3. Enlazar SQL con Hadoop

4. Crear “tablas”

5. Consumir datos

Page 21: Polybase en SQL Server 2016

INS: Elegirlo en el Setup

• Pre-requisitos:

• SQL2016 STD/EE

• .NET 4.5

• JRE 7.51

• 4GB RAM

• 2GB Disk Space

• TCP/IP

Page 22: Polybase en SQL Server 2016

INS: Habilitarlo en Instancia

• Opciones de configuración:

exec sp_configure 'hadoop connectivity', 7;

Page 23: Polybase en SQL Server 2016

INS: Enlazar con Hadoop

• Transact SQL:

Page 24: Polybase en SQL Server 2016

INS: Crear Formatos de Archivos

Page 25: Polybase en SQL Server 2016

INS: Crear Tablas

Page 26: Polybase en SQL Server 2016

INS: Crear Tablas (CTAs)

• Solo SQL Azure DW y APS

Page 27: Polybase en SQL Server 2016

INS: Crear Tablas (CTAs)

• Solo SQL Azure DW y APS

Page 28: Polybase en SQL Server 2016

DEMO

Ejemplos con Polybase

Page 29: Polybase en SQL Server 2016

Conclusiones y Retos

• Propósito• Integrar datos de fuentes diversas

• Dentro de SQL Server, con Scale-out

• Retos y Dilemas• ETL o ELT mientras lees?

• Índice de concurrencia?

• Tiempo real?

• Archivado?

Page 30: Polybase en SQL Server 2016

¿Preguntas?

30

Page 31: Polybase en SQL Server 2016

También puedes preguntar tus

dudas con el hashtag

#SQSummit en Twitter

ADAPTIVE BI FRAMEWORK

Te ayudaremos a mejorar la velocidad de desarrollo de tu plataforma de analítica de negocio basada en nuestra experiencia:

•Diseña antes de construir

•Automatización de procesos por ETL

•Servicios de mentoring para ayudarte a conseguir mejores prácticas para la construcción de procesos específicos y plataformas de analítica de negocio

•Muy fácil de mantener

SOLIDQ FLEX SERVICES

Con SolidQ Flex Services evitarás sustos, consiguiendo que tus sistemas sean estables. Desde una solución sencilla de monitorización, hasta un servicio de atención de incidencias 24/7, mantenimiento proactivo, resolución de problemas y línea de soporte.

Todo con un coste fijo mensual… y tú dedica el tiempo a las cosas importantes.

¡Gracias!

Page 32: Polybase en SQL Server 2016

Apéndice

Page 33: Polybase en SQL Server 2016

© Hortonworks Inc. 2013 - Confidential

Arquitectura Hadoop

Hortonworks Data Platform (HDP)

• Core Services– Storage & processing

• Data Services– Movement and interaction

• Operational Services– Management, monitoring

CORE SERVICES

HORTONWORKS DATA PLATFORM (HDP)

OPERATIONAL SERVICES

DATASERVICES

HDFS

SQOOP

FLUMEAMBARIFALCON

YARN

MAP TEZREDUCE

HIVEPIGHBASE

OOZIE

Enterprise ReadinessHigh Availability, Disaster

Recovery, Rolling Upgrades,

Security and Snapshots

Page 34: Polybase en SQL Server 2016

© Hortonworks Inc. 2013 - Confidential

Apache Flume: Loading Stream Data

CORE SERVICES

DATASERVICES

SQOOP

FLUME

HIVEPIGHBASE

Apache Flume

Store Log Files & Events

• Distributed service for efficiently collecting, aggregating, and moving streams of log data into HDFS

• Primary use case: move web log files directly into Hadoop

Store and Process Data

OPERATIONAL SERVICES

Provision, Manage &

Monitor the cluster

Page 35: Polybase en SQL Server 2016

© Hortonworks Inc. 2013 - Confidential

Apache Sqoop: Loading Databases

CORE SERVICES

DATASERVICES

SQOOP

FLUME

HIVEPIGHBASE

Apache Sqoop

Get Data from/to SQL Databases

• SQ-OOP: SQL to Hadoop

• Tools and connectors that enable data from traditional SQL databases and data warehouses to be stored to & retrieved from Hadoop

Store and Process Data

OPERATIONAL SERVICES

Provision, Manage &

Monitor the cluster

Page 36: Polybase en SQL Server 2016

© Hortonworks Inc. 2013 - Confidential

Apache Pig: Scripting in Hadoop

CORE SERVICES

DATASERVICES

SQOOP

FLUME

HIVEPIGHBASE

Store and Process Data

Apache Pig

Scripting Interface for Hadoop

• Write complex data transformations using a simple scripting language

• Pig latin (the language) defines a set of transformations on a data set such as aggregate, join and sort among others

OPERATIONAL SERVICES

Provision, Manage &

Monitor the cluster