Upload
solidq
View
194
Download
1
Embed Size (px)
Citation preview
#SQSummit
Polybase
Eladio Rincón
Cruzando datos estructurados y menos estructurados
Sponsors del SolidQ Summit Panamá
Polybase en SQL Server 2016
• Motivación y Escenarios de Uso
• Arquitectura Hadoop – foco consultar
• Arquitectura Polybase
• Instalación y Puesta en Marcha
• Conclusiones
Definiciones de Big Data
• Un conjunto de tecnologías relacionales y no relacionales para analítica a gran escala
• Gran volumen, alta velocidad y gran variedad de información que demanda un procesado poco costoso para obtener conocimiento y tomar decisiones.
• Volumen: Terabytes, Petabytes, Exabytes• Velocidad: hora, segundos, milisegundos• Variedad: 5 formatos, 10 formatos, 20+ formatos• Variabilidad: formatos cambian en el tiempo• Valioso: beneficio/coste de la solución
Definiciones de Big Data
Motivación Polybase – Usuario Final
Motivación Polybase – Habilidades
Escenarios de Uso: Big Data
• Combinar cualquier origen de datos• Desordenado: webs, media
• Bastante ordenado: fb, twitter, sensors,
• Casi ordenado: csv, arc. intercambio
• Ordenado: otros RDBMS
• Datos archivados• Demasiado valiosos para borrar
Escenarios de Uso: Big Data Polybase
Latencia
Transf
orm
ació
n
Desordenado -
Webs, Media
Ordenado -
Otros RDBMS
Casi
Ordenado
-
csv, txt
Bastante
Ordenado
-
twitter,
streams
Transformación
compleja
Escenarios de Uso Polybase: Gran Depende
• Data Scientists: Leer muchos datos?
• Capacidad Calculo: A qué coste?
• ETL/ELT: Transformar datos?
• Archiving: A sitio barato?
Escenarios de Uso Polybase: Data Scientists
Necesidad:
• Leer y transformar cualquier cosa
• Gran capacidad de cálculo
• Menos de 100 usuarios
Procedimiento:
• Modela su visión
• Transfiere modelo
Desordenados!?
Scale up, out
Concurrencia 32
Escenarios de Uso Polybase: Capacidad Calculo
• Volumetría de procesamiento muy grande• Predicate push-down!
• Dependiendo de necesidades
• Modelo on-prem
• Modelo appliance
• Modelo PaaS
• Modelo Storage
SQL DW PaaS Autogestionado
Grande, modelo
racks
SQL de siempre
Azure Storage Solo store!
Escenarios de Uso Polybase: ETL/ELT
• Dilema en proyectos de Big Data
ETL (transforma
antes)
ELT (transforma
después)
Cuando “1 vez” En cada lectura
Flexible Esquema fijo Falsa Flexibilidad
Estructurado En Capas – Staging Mezcla de capas
Modelado Modelo Primero Modelo Después
Herramientas SSIS, BIML Hive, TSQL, APIs
Escenarios de Uso Polybase: Archiving y acceso rápido/eventual
Polybase es mixto
• Mezclado con Hadoop existente
• Storage en Azure (no calculo)• Push Storage a Azure. Distinto de StrechDB
Hadoop DELL/HP Legacy Systems
Coste / TB 1K USD 10-15K USD 40-50K USD
http://www.informationweek.com/software/how-hadoop-cuts-big-data-costs/d/d-id/1105546?
© Hortonworks Inc. 2013 - Confidential
Apache Hive: SQL in Hadoop
CORE SERVICES
DATASERVICES
SQOOP
FLUME
HIVEPIGHBASE
TEZStore and Process Data
Apache Hive
SQL interface in Hadoop
• De-facto SQL interface, enables world of tools on Hadoop
• Scales from GB to PB across all queries
• Good for both batch and interactive queries
• First application to use Apache Tez
OPERATIONAL SERVICES
Provision, Manage &
Monitor the cluster
Arquitectura: Objetivos Diseño
• Interfaces / Conceptos• Similar a Hive: tablas reales
• Acciones• Leer y escribir de/a Hadoop SELECT,
INSERT• Combinar datos JOIN
• Orígenes• On-prem: SQL Server y APS• PaaS: SQL DW• Cualquier distribución Hadoop• Azure Storage (sin HDInsight!)
Arquitectura: Diseño
Cloudera
HortonWorks
Azure StorageSQL DW PaaS
Las consultas
entran por aqui
Se consultan
tablas locales
o externas
Los Nodos de cálculo son útiles para escalar
procesamiento contra tablas externas HDFS
El DBA ajusta dinámicamente el número
de nodos de calculo
El cluster Hadoop se puede compartir con
varios clusters de SQL Server
Arquitectura: Diseño final on Prem
Las consultas
entran por aqui
Se consultan
tablas locales
o externas
Arquitectura: SQL DW PaaS
El DBA ajusta dinámicamente el número
de nodos de calculo (DW Units)
Instalación y Puesta en Marcha (INS)
• Pasos para usar Polybase:
1. Elegirlo en Setup
2. Habilitarlo en instancia
3. Enlazar SQL con Hadoop
4. Crear “tablas”
5. Consumir datos
INS: Elegirlo en el Setup
• Pre-requisitos:
• SQL2016 STD/EE
• .NET 4.5
• JRE 7.51
• 4GB RAM
• 2GB Disk Space
• TCP/IP
INS: Habilitarlo en Instancia
• Opciones de configuración:
exec sp_configure 'hadoop connectivity', 7;
INS: Enlazar con Hadoop
• Transact SQL:
INS: Crear Formatos de Archivos
INS: Crear Tablas
INS: Crear Tablas (CTAs)
• Solo SQL Azure DW y APS
INS: Crear Tablas (CTAs)
• Solo SQL Azure DW y APS
DEMO
Ejemplos con Polybase
Conclusiones y Retos
• Propósito• Integrar datos de fuentes diversas
• Dentro de SQL Server, con Scale-out
• Retos y Dilemas• ETL o ELT mientras lees?
• Índice de concurrencia?
• Tiempo real?
• Archivado?
¿Preguntas?
30
También puedes preguntar tus
dudas con el hashtag
#SQSummit en Twitter
ADAPTIVE BI FRAMEWORK
Te ayudaremos a mejorar la velocidad de desarrollo de tu plataforma de analítica de negocio basada en nuestra experiencia:
•Diseña antes de construir
•Automatización de procesos por ETL
•Servicios de mentoring para ayudarte a conseguir mejores prácticas para la construcción de procesos específicos y plataformas de analítica de negocio
•Muy fácil de mantener
SOLIDQ FLEX SERVICES
Con SolidQ Flex Services evitarás sustos, consiguiendo que tus sistemas sean estables. Desde una solución sencilla de monitorización, hasta un servicio de atención de incidencias 24/7, mantenimiento proactivo, resolución de problemas y línea de soporte.
Todo con un coste fijo mensual… y tú dedica el tiempo a las cosas importantes.
¡Gracias!
Apéndice
© Hortonworks Inc. 2013 - Confidential
Arquitectura Hadoop
Hortonworks Data Platform (HDP)
• Core Services– Storage & processing
• Data Services– Movement and interaction
• Operational Services– Management, monitoring
CORE SERVICES
HORTONWORKS DATA PLATFORM (HDP)
OPERATIONAL SERVICES
DATASERVICES
HDFS
SQOOP
FLUMEAMBARIFALCON
YARN
MAP TEZREDUCE
HIVEPIGHBASE
OOZIE
Enterprise ReadinessHigh Availability, Disaster
Recovery, Rolling Upgrades,
Security and Snapshots
© Hortonworks Inc. 2013 - Confidential
Apache Flume: Loading Stream Data
CORE SERVICES
DATASERVICES
SQOOP
FLUME
HIVEPIGHBASE
Apache Flume
Store Log Files & Events
• Distributed service for efficiently collecting, aggregating, and moving streams of log data into HDFS
• Primary use case: move web log files directly into Hadoop
Store and Process Data
OPERATIONAL SERVICES
Provision, Manage &
Monitor the cluster
© Hortonworks Inc. 2013 - Confidential
Apache Sqoop: Loading Databases
CORE SERVICES
DATASERVICES
SQOOP
FLUME
HIVEPIGHBASE
Apache Sqoop
Get Data from/to SQL Databases
• SQ-OOP: SQL to Hadoop
• Tools and connectors that enable data from traditional SQL databases and data warehouses to be stored to & retrieved from Hadoop
Store and Process Data
OPERATIONAL SERVICES
Provision, Manage &
Monitor the cluster
© Hortonworks Inc. 2013 - Confidential
Apache Pig: Scripting in Hadoop
CORE SERVICES
DATASERVICES
SQOOP
FLUME
HIVEPIGHBASE
Store and Process Data
Apache Pig
Scripting Interface for Hadoop
• Write complex data transformations using a simple scripting language
• Pig latin (the language) defines a set of transformations on a data set such as aggregate, join and sort among others
OPERATIONAL SERVICES
Provision, Manage &
Monitor the cluster