Metodología MEM

Metodología para la detección de cuentas trolls en TWITTER El caso de las elecciones presidenciales de 2012

R. Mansilla Corona1 R. Mansilla Sánchez2 Marco Larrea Schiavon2

Se debe hacer todo tan sencillo como sea posible, pero no más sencillo. A. Einstein

Resumen

En la actual campaña electoral por la presidencia de México las redes sociales están jugando un papel notable. Una de las formas que han utilizado los candidatos para aumentar artificialmente su visibilidad es la creación de cuentas fantasmas y trolls. Estas últimas repiten de manera incansable mensajes y hashtag favorables al candidato que apoyan. Si este comportamiento no es controlado, sin duda sesgaría fuertemente los conteos que hacemos en la página www.monitoreoelectoralmexico.com. En este trabajo se describe la metodología utilizada para detectar los usuarios trolls en TWITTER y mantenerlos fuera de nuestro análisis.

1 Centro de Investigaciones Interdisciplinarias en Ciencias y Humanidades, UNAM 2 Facultad de Ciencias, UNAM.

I Introducción. En tiempos recientes, las redes sociales se han convertido en parte insoslayable de los fenómenos sociales, su desarrollo y desenlace. La capacidad de comunicar en tiempo real a enormes masas de personas en las mismas, ha sido el factor determinante en el desenlace de muchos sucesos. En particular los fenómenos electorales han sido muy influenciados por estas redes. La percepción que de los candidatos se tiene depende en mucho de la manera en que su personalidad es discutida en las mismas. Los equipos de campaña que asesoran a los candidatos a cargos de elección popular en muchas partes del mundo brindan gran importancia al desempeño de sus aspirantes en estas redes. Entre los sitios más dinámicos y flexibles para llevar adelante una discusión masiva en temas muy disimiles se encuentra TWITTER. Por ello, la creación de una cuenta en este servicio de mensajes cortos es una ventana a la comunicación con cantidades de personas impensable por los métodos tradicionales. Por ello muchas personalidades públicas (artistas, deportistas, periodistas y políticos) han creado cuentas las cuales mantienen con gran disciplina. Las opiniones que el conjunto de sus seguidores produce es una invaluable retroalimentación sobre el desempeño de sus actividades. La cantidad de estos últimos se ha convertido en una medida tácita de la aceptación que generan. En lo que se refiere a los candidatos a cargos públicos el volumen de sus seguidores es entendido como una medida del eventual éxito en futuras elecciones. Es por ello que en muchas ocasiones se intenta aumentar la cantidad de estos seguidores y potenciar su actividad en la red de manera artificial. El uso de programas de cómputo (que son conocidos como bots) para generar estas cuentas trolls ha distorsionado la correcta imagen que la ciudadanía tiene acerca de muchos candidatos. En el sitio www.monitoreoelectoralmexico.com se hace un análisis minuto a minuto de los mensajes emitidos por los usuario de TWITTER referidos a los candidatos presidenciales de las próximas elecciones de julio de 2012. El apego a la realidad que nuestro análisis ofrece se vería sesgado si las opiniones de estos trolls fueran contabilizadas. Por tal motivo se hizo necesario desarrollar una metodología que identificara a este tipo de usuarios y los mantuviera al margen del análisis que realizamos. La organización de este documento es como sigue. En la Sección II se hace un recorrido por los resultados teóricos que serán utilizados en nuestro análisis. En la Sección III se describen algunos aspectos fenomenológicos de las cuentas trolls esenciales en la discusión que sigue. La Sección IV está dedicada a la descripción del método de clasificación. En la Sección V se ofrece testimonio de la existencia de cuentas trolls detectadas por el procedimiento aquí desarrollado. Finalmente la Sección VI está dedicada a las referencias bibliográficas utilizadas. El lector que no está interesado en los detalles técnicos puede pasar directamente a la Sección IV.

II Resultados teóricos utilizados. II.1 La medida de complejidad de Kolmogorov-Chaitin. Consideremos la cadena binaria S = c1c2cn , ci ∈ 0,1{ } . Intuitivamente, la cantidad de información que ella contiene es igual a la longitud (en bits) del más corto programa que sin datos adicionales, genera a S . En la afirmación anterior se debe precisar en qué computadora se ejecutará ese programa. Una definición más precisa es la siguiente: Llamamos medida de complejidad de Kolmogorov-Chaitin de la cadena S a la longitud del más corto programa de computadora que ejecutado en una máquina de Turing genera a S :

K(S) =min p , S = T (p){ }

aquí T representa una máquina de Turing y p es la longitud en bits del programa p . Una excelente exposición de las propiedades y aplicaciones fundamentales de este concepto puede encontrarse en [1]. Una de las áreas donde recientemente se ha aplicado este concepto es la bioinformática [2]-[7] donde el análisis de cadenas de nucleótidos se traduce en el análisis de cadenas de caracteres sobre un alfabeto de cuatro letras. La referencia [7] es una buena exposición del estado del arte en este tema. Como es conocido (ver por ejemplo Teorema 2.3.2, pag. 121 y discusión en página 185 de [1]) la medida de complejidad de Kolmogorov-Chaitin es en general incomputable, no obstante su valor puede aproximarse con compresores estándar como los basados en la metodología de Lempel-Ziv (gzip). Se tiene evidencia además de que la compactación por diferentes tipos de métodos suele ser robusta respecto a los resultados [8]. Aplicaciones de este concepto al estudio de las similitudes entre frase a través del buscador GOOGLE pueden verse en [9]. II.2 Algoritmos genéticos. Si bien las ideas de la programación evolutiva fueron introducidas por I. Rechenberg en la década de 1960s, los algoritmos genéticos fueron desarrollados por John Holland y sus alumnos una década después. Su obra fundamental es [10]. La idea básica en la que se sustentan los algoritmos genéticos es la selección natural. Se diseña una población de individuos (que pueden ser funciones, rutas de transportación de mercancías, números, agentes, etc.) y se les evalúa en la medida en que realizan con más o menos éxito una tarea. Aquellos individuos que realizan mejor las tareas asignadas tienen una mayor oportunidad de procrear miembros de la población, mientras que los de bajo desempeño desaparecen. Este proceso se nutre además de mutaciones e intercambio de

características entre los miembros de la población. Como consecuencia el proceso genera individuos altamente adaptados a hacer con muchísima eficiencia asignadas. Ejemplos de este tipo de tareas pueden ser clasificar los individuos de una población (trolls o usuarios reales de una red social), encontrar recorridos más cortos entre dos puntos de una ciudad, optimización de procesos, etc. Tal vez el área de aplicación más relacionada con nuestros objetivos es el aprendizaje de máquinas [11] y la generación de árboles de decisión óptimos [12]-[14]. II.3 Máquinas de estados finitos. Las máquinas de estados finitos son modelos matemáticos para describir la evolución de ciertos sistemas, cuya característica fundamental es que solo se observan en un número finito de posibles situaciones o estados (de ahí su nombre). Pueden representarse por un trío del tipo E,M,ε0( ) en el cual E representa el conjunto de los estados posible, M es la matriz de transición entre estados y ε0 ∈ E es el estado inicial. Una buena introducción a este tema puede encontrarse en [15]. Por ejemplo, una cadena de caracteres como:

yo amo a mi mama pertenece al conjunto de cadenas admisibles de una máquina de estados finitos con alfabeto E = a, i,m,o, y,∧{ } donde el símbolo ∧ representa el espacio en blanco. La matriz M en este caso es:

M =

0 0 23 0 0 1

30 0 0 0 0 112

14 0 1

4 0 0

0 0 0 0 0 10 0 0 1 0 012 0 1

2 0 0 0

!

"

#########

$

%

&&&&&&&&&

En el caso de los nombres de usuarios en TWITTER el conjunto E tiene 37 elementos (26 letras del alfabeto, 10 dígitos y el guion bajo), por tanto la matriz M es cuadrada de orden 37. III Algunos aspectos fenomenológicos de las cuentas trolls. Una de las características distintivas de las cuentas trolls es lo singular de sus nombres de usuarios. Los programas cibernéticos no han logrado emular completamente la capacidad humana de generar nombres con sentido semántico, por tanto, observamos una “rareza” desacostumbrada en las cadenas de caracteres que definen al usuario. Para evaluar esto en sus justos términos es necesario tener en cuenta que desde aquel ya lejano 21 de marzo de

2006 en que Jack Dorsey creó la primera cuenta con el nombre de usuario @jack las posibilidades de los usuarios de esta red han ido disminuyendo. Lo anterior es descrito en la siguiente figura:

Una vez que alguien ocupa el nombre @juanperez, el mismo deja de estar disponible para los demás usuarios, por tanto, deben ocuparse otros disponibles. Esto provoca un proceso de aleatorización creciente de los nombres el cual debía ser cuantificado. Para ello usamos un algoritmo de compactación basado en el método del Lempel-Ziv (gzip) que como discutimos en la Sección II es una aproximación de la medida de complejidad de Kolmogorov-Chaitin. Aplicamos el algoritmo de compactación a los nombres de usuarios de 3,000,000 de cuentas creadas en México desde el 31 de Diciembre de 2006 hasta el 31 de Diciembre de 2011. Las mismas fueron agrupadas de acuerdo a su fecha y hora de creación en intervalos de dos minutos, calculándose para cada grupo el promedio de los tamaños de los archivos con extensión zip creados. Los resultados aparecen en la Figura 1. En el eje horizontal de la misma está el tiempo, medido en intervalos de dos minutos. En el eje vertical el promedio de los tamaños en bytes de los archivos con extensión zip creados. Como puede verse existe una tendencia creciente a la aleatorización de los nombres. Debe encontrarse un procedimiento para descontar esa tendencia secular y mantenerla controlada en nuestro análisis. Para ello necesitábamos una suerte de “hipótesis nula”, esto es, una figura pública con una gran cantidad de seguidores y que a nuestro juicio no tuviera incentivos reales para crearse cuentas fantasmas dada su reputación y prestigio. La decisión de los autores fue tomar a Carmen Aristegui (CA en lo que sigue) como referencia.

@JuanPerez

@JPerez

@JuanPerez1 @JuanPerezoso

@JPuchi

Figura 1: Crecimiento de la longitud de compactación de los nombres de usuario usando el algoritmo de Lempel-Ziv. El valor t = 0 corresponde al 31 de Diciembre de 2006 a las 23:00

Se tomaron los nombres de usuarios de los seguidores de EPN, JVM, AMLO y CA y se agruparon por el mes de creación de la cuenta, desde Abril de 2009 hasta Enero de 2012. A cada uno de esos grupos se le construyó la matriz M de la máquina de estados finitos que mejor representaba al grupo. Se calculó la distancia euclidiana de estas matrices en cada uno de los grupos para cada uno de los candidatos con respecto a CA, es decir:

d(MEPNt ,MCA

t ) ; d(MJVMt ,MCA

t ) ; d(MAMLOt ,MCA

t )

aquí t = Abril 2009,…,Enero 2012 . Los gráficos de esas distancias aparecen en la Figura 2:

Figura 2: Distancia euclidiana entre las matrices de las máquinas de estados finitos de los nombres de usuarios de los seguidores de los candidatos y las matrices de las máquinas de estados finitos de los seguidores de CA. Los valores correspondientes a los meses de Febrero de 2012 en adelante se muestran nulos pues no estaban disponibles en el momento de la realización de este trabajo.

Valores grandes de estas distancias significan diferencias grandes en la estructura de los nombres de usuarios del candidato con respecto a la referencia (CA). Como se está descontando la tendencia secular, los valores de estas distancias son una medida de la aleatoriedad en la composición de los nombres y por tanto una indicación de la existencia de cuentas fantasmas. IV Descripción del método de clasificación. Comenzaremos por dar una definición de usuario troll:

① En general tiene un nombre de usuario poco común ② Escribe muchos tweets idénticos o hace muchos retweets. ③ Tiene pocos (o ningún) seguidores. ④ Es seguido por muy pocas personas, eventualmente otros trolls.

El procedimiento para clasificarlos consiste en crear una función cuyos inputs son medidas de las cuatro características antes mencionadas con una salida binaria, como se muestra en la siguiente figura:

Aquí c1cr es la cadena de caracteres del nombre de usuario, x1 es la suma del número de tweets y retweets que el propietario de la cuenta ha escrito o hecho, x2 el número de seguidores y x3 el número de personas que le siguen. La técnica que utilizamos para construir esa función fue generar una población de arboles de decisiones y utilizar un algoritmo genético para seleccionar la más adecuada [12], [13], [14]. Para entrenar a la población de 1000 arboles de decisión, inicializados de manera aleatoria se utilizaron 45,000 cuentas de usuarios, que a nuestro juicio eran reales, esto es con más de 5000 seguidores, con muchos mensajes posteados diferentes (más del 85% del

total) y siguiendo al menos a 500 personas. Estos usuarios fueron seleccionados de las cuentas de seguidores de EPN, JVM, AMLO y CA. V Testimonio de la existencia de cuentas trolls detectadas por este procedimiento. Contrastamos el comportamiento de los usuarios reales (es decir, aquellos seleccionados de las poblaciones de seguidores de los candidatos, con más de 5000 seguidores, con muchos mensajes posteados diferentes y siguiendo al menos a 500 personas) con las cuentas que fueron clasificadas como trolls por nuestro procedimiento. La diferencia más notable fue la diferencia entre las matrices de las máquinas de estados finitos de los usuarios reales y de los presuntos trolls, las cuales mostramos a continuación para los tres candidatos. Las Figuras 3, 4 y 5 muestran las matrices de las máquinas de estados finitos para los usuarios reales y trolls de EPN, JVM y AMLO respectivamente.

Figura 3: Matrices de las máquinas de estados finitos para los usuarios reales y los presuntos trolls de EPN. La posición (1,1) de la matriz está en la esquina inferior izquierda. La posición (37,37) está en la esquina superior derecha. La escala de colores a la izquierda evalúa los valores de las líneas de nivel que aparecen dentro de la matriz (azul más bajo, rojo más alto).

Figura 4: Matrices de las máquinas de estados finitos para los usuarios reales y los presuntos trolls de JVM. La posición (1,1) de la matriz está en la esquina inferior izquierda. La posición (37,37) está en la esquina superior derecha. La escala de colores a la izquierda evalúa los valores de las líneas de nivel que aparecen dentro de la matriz (azul más bajo, rojo más alto).

Figura 5: Matrices de las máquinas de estados finitos para los usuarios reales y los presuntos trolls de AMLO. La posición (1,1) de la matriz está en la esquina inferior izquierda. La posición (37,37) está en la esquina superior derecha. La escala de colores a la izquierda evalúa los valores de las líneas de nivel que aparecen dentro de la matriz (azul más bajo, rojo más alto).

Usuarios reales!

Presuntos trolls!

VI Referencias. [1] M. Li, P. Vitanyi, An introduction to Kolmogorov complexity and its applications, Spriger-Verlag, 1997. [2] E. Rivals, et al., Detection of significant patterns by compression algorithms: the case of approximate tandem repeat in DNA sequences, CABIOS, 13, pags. 131-136, 1997. [3] M. Li, et al., An information-based sequences distance and its application to whole mitochondrial genome phylogeny, BIOINFORMATICS, 17, pags. 149-154, 2001. [4] X. Chen, et al., DNACompress: fast and effective DNA sequence compression, BIOINFORMATICS, 18, pags. 1696-1698, 2002. [5] M. Li, et al., The similarity metric, IEEE Transactions on Information Theory, 50, pags. 3251-‐3264, 2004. [6] A. Kocsor et al., Application of compression-based distance measures to protein sequence classification: a metodologicla study, BIOINFORMATICS, 22, pags. 407-412, 2006. [7] R. Giancarlo et al., Textual data compression in computational biology: a sinopsis, BIOINFORMATICS, 25, pags. 1575-1586, 2009. [8] R. Cilibrasi, P. Vitanyi, Clustering by compression, http://arxiv.org/abs/cs/0312044v2. [9] R. Cilibrasi, P. Vitányi, The Google similarity distance, IEEE Transactions on Knowledge and Data Engineering, 19, pags. 370-383, 2007. [10] J. Holland, Adaption in Natural and Artificial Systems, The MIT Press, 1992. [11] D. Jurafsky, J. Martin, Speech and language processing: An introduction to natural language processing, computational linguistic and speech recognition, Prentice Hall, 2000. [12] K. Min Kim, et al., Binary decision tree using genetic algorithm for recognizing defect pattern of cold mil strip, [paper 1] [13] J.-P. Li, et al., A species conserving genetic algorithm for multimodal function optimization, [paper 2] [14] R. Storn, K. Price, Differential evolution. A simple and efficient adaptive scheme for global optimization over continuous spaces, [paper 3] [15] J. Anderson; Th. Head, Automata theory with modern applications. Cambridge University Press, pags. 105–108, 2006.

Documents

Metodología MEM