28
Dime qué tuiteas y te diré quién eres Ernesto Mislej - @fetnelio [email protected] Buenos Aires, 1 de Noviembre de 2013

Dime qué tuiteas y te diré quién eres. DataFest 2013

Embed Size (px)

DESCRIPTION

Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos. Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos, entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros. Cómo mantener la privacidad en el mundo virtual actual.

Citation preview

Page 1: Dime qué tuiteas y te diré quién eres. DataFest 2013

Dime qué tuiteas y te diré quién eres Ernesto Mislej - @fetnelio [email protected]

Buenos Aires, 1 de Noviembre de 2013

Page 2: Dime qué tuiteas y te diré quién eres. DataFest 2013

1

Dime qué tuiteas y te diré quién eres

Abstract

Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos. Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos, entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros. Cómo mantener la privacidad en el mundo virtual actual.

Page 3: Dime qué tuiteas y te diré quién eres. DataFest 2013

2

Un astrónomo, un físico y un matemático estaban viajando en tren por Escocia cuando uno dice “una oveja negra…”

Page 4: Dime qué tuiteas y te diré quién eres. DataFest 2013

3

El caso del submarinista calcinado Se cuenta que alguien, tras un gran incendio forestal, encuentra un cuerpo quemado y, al acercarse, descubre que tiene puesto un equipo de buceo, traje de neopreno, mascarilla y botellas de oxígeno y pies de rana…

Page 5: Dime qué tuiteas y te diré quién eres. DataFest 2013

4

La lógica forense

Page 6: Dime qué tuiteas y te diré quién eres. DataFest 2013

5

Page 7: Dime qué tuiteas y te diré quién eres. DataFest 2013

6

Page 8: Dime qué tuiteas y te diré quién eres. DataFest 2013

7

El razonamiento lógico: El esquema deductivo Regla general: "Todos las monedas de la bolsa negra son falsas". Caso: "Estas monedas provienden de la bolsa negra". Resultado: "Estas monedas son falsas".

La deducción mantiene la verdad.

Page 9: Dime qué tuiteas y te diré quién eres. DataFest 2013

8

El razonamiento lógico: El esquema inductivo Regla general: "Estas monedas provienen de la bolsa negra". Caso: "Estas monedas son falsas". Resultado: "Todas las monedas de la bolsa negra son falsas".

A partir de unas observaciones se construyen reglas más generales que pueden llevar a resultados falsos

Page 10: Dime qué tuiteas y te diré quién eres. DataFest 2013

9

El razonamiento lógico: El esquema abductivo Regla general: "Todas las monedas de la bolsa negra son falsas". Caso: "Estas monedas son falsas". Resultado: "Estas monedas provienen de la bolsa negra".

Un razonamiento abductivo ofrece una hipótesis que lo explica. Esa conjetura busca ser, a primera vista, la mejor explicación, o la más probable.

Page 11: Dime qué tuiteas y te diré quién eres. DataFest 2013

10

¿Es posible inducir características de usuario a partir de su comportamiento en las redes sociales?

Page 12: Dime qué tuiteas y te diré quién eres. DataFest 2013

11

You Are Where You Tweet: A Content-Based Approach to Geo-locating Twitter Users Yi Zhu, 2010

Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes para validar la ubicación.

Page 13: Dime qué tuiteas y te diré quién eres. DataFest 2013

12

Palabras clave locales en los Tweets

Page 14: Dime qué tuiteas y te diré quién eres. DataFest 2013

13

Inferring gender of movie reviewers: exploiting writing style, content and metadata Otterbacher, 2010

El trabajo utilizó los comentarios realizados por usuarios de IMDb.

El modelo de detección de género se basa en métricas de estilo del lenguaje y feedback social; y es independiente de la longitud de la crítica.

En contraposición de otros dominios, como la literatura o textos científicos, el modelo de discriminación de género del aficionado de películas alcanzó un 73.7% de certeza.

Page 15: Dime qué tuiteas y te diré quién eres. DataFest 2013

14

An Exploration of Observable Features Related to Blogger Age Burger & Henderson, 2006

El modelo predictor de edad utilizó, además del texto de los posts, indicadores cuantitativos como:

1.  La hora y día de la semana de publicación 2.  La cantidad de Links e imágenes 3.  La cantidad de seguidores 4.  La cantidad y tipo de comentarios 5.  Los intereses

Page 16: Dime qué tuiteas y te diré quién eres. DataFest 2013

15

“How Old Do You Think I Am?”: A Study of Language and Age in Twitter Nguyen, Gravel, Trieschnigg, Meder, 2013

Las variables que cambian según la edad: 1.  TODO EN MAYUSCULAS: HAHA, LOL 2.  Prolongación alfabética: niiiiiice vs. nice 3.  Intensificadores: so, really & awful 4.  Referencias personales: I, me, mine, my, myself 5.  Conversaciones, RE, 6.  RT, likes, #hashtags

Page 17: Dime qué tuiteas y te diré quién eres. DataFest 2013

16

Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter + A Machine Learning Approach to Twitter User Classiffication Pennacchiotti, Popescu, 2011

El modelo general de profile toma en cuenta: 1.  perfil del usuario, 2.  comportamiento en mensajes, 3.  contenido de los mensajes, 4.  estructura de la red social (seguidores/

seguidos)

Los resultados del trabajo: 1.  Political Affiliation. precision (0.989) &

recall (~0.872) 2.  Starbucks precision (0.763) & recall

(0.759) 3.  Etnia: precision (0.878) & recall (0.799)

Page 18: Dime qué tuiteas y te diré quién eres. DataFest 2013

17

Our Twitter Profiles, Our Selves: Predicting Personality with Twitter Quercia, Kosinski, Stillwell, Crowcroft, 2011

The Big Five Personality Test – OCEAN

Page 19: Dime qué tuiteas y te diré quién eres. DataFest 2013

18

¿Qué define a una red social?

Las características escenciales de una red social son:

1.  Las entidades que participan de la red son típicamente personas. 2.  Las relaciones entre esas entidades toman referencia a una relación de la vida real como

amigos, familiares, colegas. 3.  Existe la noción de nonrandomness or locality

Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C, luego la probabilidad que B y C estén relacionados es mayor que el promedio.

Page 20: Dime qué tuiteas y te diré quién eres. DataFest 2013

19

Detección de comunidades en grafos Fortunato, 2010 Los grafos sociales no son regulares como las lattices. Tampoco son random, donde la distribución de ejes es uniforme en todos los nodos.

Los grafos sociales están estructurados en comunidades revelando un alto nivel de orden y organización.

El grado nodal tiene una distribución de power law, esto es muchos nodos con pocos ejes conviven con muy pocos con alto grado..

Page 21: Dime qué tuiteas y te diré quién eres. DataFest 2013

20

Detecting communities by label propagation Raghavan et al, 2007 Cada nodo está asociado con una etiqueta con un número entero.

1.  Al inicio cada vértice tiene una etiqueta distinta. 2.  Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más

popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se escoje alguna aleatoriamente. Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los miembros de la comunidad.

3.  Todos los vértices con la misma etiqueta pertenecen a la misma comunidad.

Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una actualización “asincrónica”.

Page 22: Dime qué tuiteas y te diré quién eres. DataFest 2013

21

Modelos de propagación de mensajes y comunidades Leskovec, 2006 Existen numerosos modelos de propagación de mensajes en redes sociales. Los siguientes 2 son los más populares:

1.  Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado cuando la suma de sus vecinos supera el umbral.

2.  Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede cambiar su estado bajo una probabilidad dada.

Page 23: Dime qué tuiteas y te diré quién eres. DataFest 2013

22

Dios los cría y el viento los amontona…

Page 24: Dime qué tuiteas y te diré quién eres. DataFest 2013

23

The Gaydar Project MIT, 2009 El estudio demostró que es posible determinar –de manera muy precisa- la orientación sexual del usuario, analizando la información expuesta por su red de contactos.

El modelo observa sólo la información pública de los vínculos (no la información del usuario, sino el de tus vínculos).

Y eso funciona aunque seas muy reservado que no publicás nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.

Page 25: Dime qué tuiteas y te diré quién eres. DataFest 2013

24

Romantic Partnerships and the Dispersion of Social Ties: A Network Analysis of Relationship Status on Facebook Backstrom, Kleinberg, 2013

¿Es posible reconocer el amor sólo viendo la estructura del grafo social? ¿Cuánto dura el amor?

Page 26: Dime qué tuiteas y te diré quién eres. DataFest 2013

25

Private traits and attributes are predictable from digital records of human behavior Kosinskia, Stillwella, Graepel, 2013 El modelo usa los likes de los usuarios para alimentar un modelo de inferencia. Se trabajó con 58000 voluntarios que proveyeron sus likes y datos demográficos e intereses. Para categorías dicotómicas tiene los siguientes resultados:

•  African Americans vs. Caucasian 95% •  Género 93% •  Hombres homo/heterosexual 88% •  Demócratas vs. republicanos 85% •  Cristianos vs. Islam 82%

Page 27: Dime qué tuiteas y te diré quién eres. DataFest 2013

26

No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities Leskovec, 2013

Page 28: Dime qué tuiteas y te diré quién eres. DataFest 2013

7puentes.com +54 11 4202 5487 Alem 1303 - Banfield, Buenos Aires, Argentina

Ernesto Mislej - @fetnelio [email protected]