Upload
cristian-gonzalez-garcia
View
77
Download
0
Embed Size (px)
Citation preview
1
Microsoft
Azure
Cristian González García v 1.2.1 Noviembre 2015
Índice Introducción
Arquitectura
HDInsight
Inscripción
Creación de Almacenamiento
Creación de un clúster Hadoop
Hive en HDInsight
Azure PowerShell
Ejemplo: Word Count
Ejemplo: Hipotecas
Subiendo datos
Errores
2
Introducción Anunciado el 27 de Octubre del año 2008 Lanzado el 1 de Febrero del año 2010
Anteriormente conocido como Windows Azure y Azure Services Platform
Propiedad de Microsoft
Colección de servicios de computación en la nube Almacenamiento, máquinas virtuales, sitios web,
bases de datos, multimedia, desarrollo, hadoop, caché, …
Ofrece servicios fijos Pagas por lo que utilizas
Siempre que esté funcionando
4
¿Que ofrece? Almacenaje
Discos duros, Bases de datos, …
Procesamiento Hadoop, Machine learning
Servidores Windows y Linux
Almacenamiento Local, redundante, redundante solo lectura
Monitorización de servicios
Seguridad Backups, …
Desarrollo Visual Studio Online
…
6
Es utilizado por …
Telefónica
Empresa de telefonía
Maxcom Telecomunicaciones
Telefonía local e IP
DELSUR
Distribuidora de electricidad
Xerox
Proveedor de fotocopiadoras tóner
Y 361 más…
https://customers.microsoft.com/Pages/advanced
search.aspx?mrmcproducts=Microsoft Azure
7
Regiones
Geográficas I
20 regiones
3 nuevas en 2015
9
Azure Region Location
Centro de EE. UU. Iowa
Este de EE. UU. Virginia
Este de EE. UU. 2 Virginia
Gobierno de EE.UU. - Iowa Iowa
Gobierno de EE.UU. - Virginia Virginia
Centro y norte de EE. UU. Illinois
Centro y sur de EE. UU. Texas
Oeste de EE. UU. California
Norte de Europa Irlanda
Europa Occidental Países Bajos
Este de Asia Hong Kong
Sudeste de Asia Singapur
Este de Japón Tokio, Saitama
Oeste de Japón Osaka
Sur de Brasil Estado de Sao Paulo
Este de Australia Nueva Gales del Sur
Sudeste de Australia Victoria
Regiones Geográficas III
La región se selecciona en la creación del
componente
No todas tienen el mismo precio
No todas tienen todos los servicios
11
Regiones Geográficas IV
Permite replicar los datos
Localmente (LRS): Misma región
Redundancia de zona (ZRS): 1-2 regiones
Geográficamente: Región secundaria
Normal (GRS): En otra región cercana
Sólo lectura (RA-GRS)
En la localización secundaria. Mayor disponibilidad
12
Instancias
Tienen diferente precio según la región
Permite seleccionar por el número de nodos
(HDInsight)
1, 2, 4 u 8
4 instancias (Máquinas Virtuales)
A1, A2, A3 y A4
http://azure.microsoft.com/en-
us/pricing/details/virtual-machines/
Lo mejor, usar la calculadora
13
Calculadora de precios
Calculadora de precios
http://azure.microsoft.com/es-
es/pricing/calculator/
14
Servicios
http://azure.microsoft.com/es-es/services/
15
…
¿Qué es? Servicio Web de Microsoft Azure
Procesamiento de grandes volúmenes de datos
Utiliza Apache Hadoop
Utiliza el almacenamiento de Azure
Windows Server 2012 R2 o Ubuntu 12.04 LTS
Versiones 3.2 – Hadoop 2.6
3.1 – Hadoop 2.4 (Por defecto)
3.0 – Hadoop 2.2
Modos Instancias por defecto
Personalizado
18
¿Qué ofrece? Versión oficial de Hadoop Interfaz gráfica para crear la instancia
Editor Hive
Integración con herramientas de Microsoft PowerShell
Excel
Integración con otras herramientas de Azure Almacenamiento, BDD SQL, …
Otras herramientas Big Data Pig, Hive, HBase, Oozie, Zookeeper, Mahout, …
SDK Java, .NET
19
Ciclo de vida
Ciclo de uso
Crear el almacenamiento (si no existe)
Subir los datos
Crear el clúster
Hacer la consulta
PowerShell
Hadoop
Hive (requiere pasos previos)
22
Finalización Azure avisa insistentemente de que se te acabará
la inscripción y te cortarán el servicio, bien sea por dinero o por tiempo
36
Almacenamiento
Almacenamiento escalable
Alta disponibilidad
Redundancia elegible
Local, geográfica, geográfica solo lectura, zona
Pagas por lo que ocupas
Ofrece APIs REST usando HTTP/HTTPS
https://azure.microsoft.com/en-us/documentation/articles/storage-introduction/
38
Almacenamiento I
Servicio de Datos -> Almacenamiento ->
Creación rápida
NombreDeseado+.core.windows.net
Elegir Lugar
Por defecto, el de la cuenta
No en todos los sitios se paga lo mismo
Elegir tipo de redundancia
40
Almacenamiento V
Utiliza pares clave-valor para guardar los
datos
Permite el uso de “/” para simular
directorios
Los archivos de 0 bytes representan
carpetas vacías
Contienen metadatos de permisos y
propietarios
En verdad son ficheros
44
HDInsight I Creamos el HDInsight cluster
HDInsight 3.2
Hadoop 2.6
http://azure.microsoft.com/en-us/documentation/articles/hdinsight-component-versioning/
NombreDeseado.azurehdinsight.net
Tamaño del clúster A más tamaño mayor coste
https://azure.microsoft.com/es-es/pricing/details/hdinsight/
Contraseña del Admin
Cuenta de almacenamiento
46
Hive en HDInsight
Usaremos Hive para consultar datos
Se puede utilizar la consola de consultas o
el PowerShell
Ejemplo proporcionado por HDInsight
Interfaz web
La tabla se llama “hivesampletable”
Contiene datos de móviles
Datos de fábrica, plataforma, modelo, …
51
Datos del ejemplo Almacenamiento -> Contenedores ->
hive/warehouse/hivesampletable/HiveSampleData.txt
53
Consola de consultas
Seleccionamos el clúster Hadoop creado
Vamos a la opción “Consola de
consultas”
54
Autenticación
Introducimos la autenticación con la
clave que utilizamos antes
Si erráis, tendréis que cerrar la sesión y
entrar
55
Query Console Getting Started Gallery
Introducción con ejemplos
Hive Editor Editor de consultas Hive
Job History Historial de ficheros con todas las consultas realizadas o en
ejecución
File Browser Navegador de los archivos existentes
Hadoop UI (2015) Interfaz de Hadoop del puerto 50700
Yarn UI (2015) Interfaz de Yarn
56
Hive Editor III
Escribir la consulta
Submit: para ejecutarla
View Details: ver resultados y log
Tiene ctrl+z, ctrl+y, tabulador, …
59
Power Query
Descargamos
http://www.microsoft.com/es-
ES/download/details.aspx?id=39379
Plugin que permite descargar datos desde
HDInsight al Excel
Elegir el adecuado: x86 o x64
63
Importación a Excel III
La contraseña hay que buscarla en
Almacenamiento -> Instancia -> Configurar
-> Administrar Claves de Acceso -> Clave
de acceso Primaria
66
Importación a Excel IV
Seleccionamos a la izquierda nuestro
almacenamiento
Lo abrimos con doble clic
68
Importación a Excel VI
Filtramos por “stdout” y clic en “Aceptar”
Ficheros con la información
70
1
2
3
Importación a Excel VII
Clic sobre el “Binary” que deseamos
visualizar
Con esto abriremos los datos obtenidos
71
1
Importación a Excel IX
Seleccionamos en Inicio -> Cerrar y
cargar
Obtendremos los datos en el Excel que
creamos
73
Descarga
Bajamos el Azure PowerShell
http://go.microsoft.com/fwlink/p/?linkid=32
0376&clcid=0x409
76
Inicio
Abrimos “Microsoft Azure PowerShell”
Esperamos a que cargue
Soporta ayuda de comandos por
tabulador
79
Vinculación cuenta II Se vinculó nuestra cuenta al PowerShell
También se puede hacer mediante un Script
O utilizando un certificado
81
Información de la cuenta
Para ver información de la cuenta
Get-AzureAccount
Get-AzureSubscription
82
Word Count
Uso de MapReduce
Usar el PowerShell
Se usa el mismo ejemplo WordCount.jar
Información en la pestaña de HDInsight ->
MapReduce en Azure
84
Nombre de la Suscripcion
Ir a Azure
Nombre -> Ver mi factura
Pulsar sobre: “Pase sobre Azure”
Editar detalles de la suscripción
Cambiar el nombre de la suscripción
Esto es necesario para el siguiente paso
para evitar problemas
85
Suscripción y Trabajo Establecemos la suscripción a utilizar
Creamos una variable con el nombre del clúster HDInsight
Definimos el trabajo -JarFile: definimos el Jar a utilizar
Hadoop 2.1: hadoop-examples.jar
Hadoop 3.0+: hadoop-mapreduce-examples.jar
-ClassName: Nombre de la clase -Arguments: Argumentos que se le pasan a Hadoop
Fichero de entrada
Fichero de salida
86
Trabajo y Resultado
Lanzamos el trabajo
Iréis obteniendo información en la
consola acerca del trabajo actual
Comprobamos la salida
87
Consultar resultado Web
Ir al almacenamiento
Seleccionar almacenamiento
Buscar la carpeta de salida del trabajo
Descargar
91
Escritorio remoto I
Activaremos el uso remoto de Hadoop
HDInsight -> Seleccionar clúster ->
Configuración -> Habilitar de forma remota
Rellenamos el popup
97
Escritorio remoto II
Ahora clicamos en “Conectar”
Descargamos el archivo y lo ejecutamos
Esto nos abre un escritorio remoto a nuestra máquina Hadoop 2.6
Para enviar datos a esta máquina
Los copiamos (Ctrl+C) de nuestra máquina
Los pegamos (Ctrl+V) en el remoto
Metedlos en la raíz de la unidad “C”
98
Opciones
Azure PowerShell
AzCopy
Azure Storage Explorer
Hadoop Command Line
Otras herramientas
http://blogs.msdn.com/b/windowsazurestor
age/archive/2014/03/11/windows-azure-
storage-explorers-2014.aspx
111
Azure PowerShell I
Establecemos las variables del Almacén
Establecemos las variables del fichero
Obtenemos la clave del Almacén
Creamos el objeto almacén
Subimos el fichero
112
Azure Storage Explorer I
Descargar Azure Storage Explorer
http://azurestorageexplorer.codeplex.com/
Instalarlo
Ejecutarlo
114
Azure Storage Explorer III
Nombre de la cuenta y clave
Los mismos que para bajar los datos al Excel
Testeamos para comprobar que funcione
116
Error I – Ejecutar Acción
Comprobar que el reloj esté en hora
Solo admite un desajuste de 15 minutos
Otra causa de este error son los permisos de los ficheros
Se pueden modificar desde la consola de Almacenamiento
120
Error II – Ejecutar Acción
La sesión ha caducado
Debes volver a loguearte
Usar el comando Add-AzureAccount
121
Error III – Seleccionar
Suscripción
Ocurre si cambiaste el nombre de la
suscripción hace poco
Tienes que volver a hacer “login”
Después selecciona la suscripción deseada
122
123
Microsoft
Azure
Cristian González García v 1.2.1 Noviembre 2015