Taller de Text Mining en Twitter con R

Preview:

Citation preview

Octubre.2016

Taller de introducción a técnicas de Text Mining en Twitter con R

@Legado y @zigiella

Índice1. Quiénes somos2. Contexto3. Qué es R4. Los datos textuales5. Cómo obtener información de estos datos 6. Demo en R

a) Preprocesadob) Stemmingc) Inspeccionar palabras frecuentesd) Asociaciones e) Plot de asociacionesf) Nube de palabrasg) Clúster

i. Dendogramaii. K-means  

7. Interpretación y conclusiones8. Anexo 1: Conectarse a Twitter9. Anexo 2: Instalar paquetes necesarios

QUIÉNESSOMOS

¡Hola!

Consultor Freelance

@Legado

Juandy

● Jefe de campamento y algo friki.● Escritor frustrado (por ahora).● Viajero por necesidad.● Jugador de fútbol americano.● Filólogo.

@Legado

@zigiella

INGENIERÍA INFORMÁTICA

DATA MANAGEMENT & ANALYTICS

PSICOLOGÍA

ExecutiveMBA

EMPR

END

EDU

RÍA

BUSINESS MANAGEMENTMARKETINGADVERTISING

Bea

● Nativa digital de la generación X!● Tech+Digital+Business.● Aprendizaje non stop.● Retos non stop.● Me gusta que los planes salgan

bien.@zigiella

CONTEXTODónde, qué, por qué y eso...

TRANSFORMACIÓNDIGITAL

BIG DATA

CULTURADATA DRIVEN

EL DATOVALOR

TOMA DE DECISIONES

TRANSVERSAL

RBreve introducción breve

● Software de análisis de datos.● Ciencia, medicina, psicología, economía,...● Gratuito, libre y de código abierto.● Gran comunidad.● Muchos paquetes.● Bla, bla, bla,...● Fin de la intro breve.

Origen: DataCamp

LA TEORÍAComencemos a entender

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Datos textuales – Qué son

Voice to text

Datos textuales – Qué son

Focus groups

Libros

Investigaciones

Documentos oficialesTexto …

CASOS DE USO REALES¿Pero esto es útil?

Caso de uso real

MARCA DE BEBIDAS

MARCA DE COCHES

E-COMMERCE DE MODA

Caso de uso real

Necesitamos conectar con las tendencias en nuestro e-commerce

Scrapping

Frecuencia

Asociación

Topics

Descripciones

Etiquetas

Taxonomía

Posicionamiento

E-COMMERCE DE MODA

Caso de uso real

Necesitamos conocer a tiempo posibles amenazas hacia la marca

Salud

Medio ambiente

Nutrición

Bulos

Sistema de alerta

temprana

MARCA DE BEBIDAS

Caso de uso real

MARCA DE COCHES

Necesitamos encontrar la forma de volver a conectar con la audiencia: conocer sus nuevos territorios e intereses, y descubrir insights para

trabajar la reconexión.

Caso de uso real

Movilidad

Medios de transporte

Sensaciones

Problemas

MARCA DE COCHES

EL NEGOCIOHerramientas

El negocio

El negocio

30.000€ y

50.000€Anuales

Wordcloud

Ásociación

Topics en líneas temporales

Clustering

Gratis

Un buen comienzo

TALLER PRÁCTICOYa es la hora de hacer cositas en R...

Se trata de un ejercicio de iniciación a las técnicas de Text Mining. Tenemos un dataset compuesto de un conjunto de tweets recién extraídos de Twitter y vamos a tratar de averiguar qué temas tratan.

El esquema del proceso a realizar es el siguiente:

Conjunto de tweets

PreprocesoCreación

de Corpus

CreaciónMatriz

TérminosDocs

Análisis

¡¡¡Al final, a la máquina le damos números!!!

Corpus

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Minería

Corpus

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Minería

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Tweet

Preprocesado

Minería

Pasar texto a minúsculas

Quitar todo aquello que no es útil en el análisis

Quitar signos de puntuación

Quitar números

Quitar expresiones

Stemming

Preprocesado

Preprocesado - Stemming

ArboladoArboledaArbóreoArbolitos

Árbol

Stemming

¡Son matrices con mucho “sparsity”!

Asociación

Árbol ipsum dolor incendio amet, consectetur adipiscing elit. Praesent vestibulum magna sed ante tempus iaculis. Maecenas vitae nisl quam. Integer augue nisi, lacinia in neque sit amet, interdum congue odio. In neque magna, mattis sit amet nisi id, cursus ullamcorper felis. Aenean pharetra porttitor ipsum ut tincidunt. Sed condimentum purus ut leo mattis, quis pretium nunc rhoncus. Ut accumsan orci at orci venenatis, vitae Bosque dui congue. Nulla magna quam, accumsan ac tincidunt id, cursus in massa. Etiam nec eros sit amet eros fringilla varius. Vestibulum ac purus venenatis, malesuada est vitae, molestie dui. Nulla eget neque sit amet odio semper mollis et ornare justo. Etiam lacinia, purus at semper tincidunt, libero metus venenatis sapien, sed convallis quam elit vel sapien. Vivamus porta dictum augue ut ornare. Pellentesque luctus, purus non fringilla ornare, velit est volutpat nulla, eget tempus tellus eros ac ligula. Etiam nulla Arboleda, ultrices vel mauris incendio, mollis ornare massa. Sed aliquam vulputate consectetur. Ut lacinia dignissim nisl vitae consequat. Donec posuere, dui et placerat varius, libero enim laoreet est, quis posuere purus neque nec libero. Nunc aliquet sapien nec convallis rhoncus. Donec ac metus leo.

¡EMpezamos a saber de qué va la cosa!

Igual “USEFUL” no aporta valor al resultado y debería haberla quitado antes (momento stopwords)...

visualizar es super potente para darse cuenta de cosas… :)

SE ven cosas interesantes cuando buscamos los términos que más se relacionan con unos en concreto...

una sencilla visualización superpotente!

Clusterización - Clúster

Agrupación(Habitualmente por similitud

o por cercanía)

Dendograma – Clúster por orden jerárquico

CONCLUSIONES¿Dónde está el valor verdadero?

INTERPRETACIÓN

Y DEBATE DE RESULTADOS

¡el dato no habla por nosotros!

¡nosotros hablamos por el dato!

¡GRACIAS Y HASTA PRONTO!

@zigiella @Legado

ANEXO 1Conectarse a Twitter con R

PASO 1: Para poder conectarnos a Twitter desde R necesitamos tener una cuenta en Twitter y estar logineados.

Entonces debemos acceder a https://apps.twitter.com y crear una app:

Rellenaremos un sencillo formulario indicando cuatro cosas. Mirad el ejemplo.

PASO 2: Si todo ha ido bien estaremos en la página de la app. Iremos al menú “Keys and Access Tokens y crearemos nuestros tokens:

El resultado será similar al que ves y tendrás tus credeciales:

Api KeyApi SecretAccess TokenAccess Token Secret

Ya podemos ejecutar código R para obtener tweets. Este ejemplo es una pequeña muestra.

Tendremos que poner nuestras credenciales en el código.

Cuando hagamos setup nos hará una pregunta:

Responderemos “Yes” y continuaremos.:)

ANEXO 2Instalar paquetes necesarios en R

¡GRACIAS DE NUEVO!

@zigiella @Legado