Upload
isabel-mora-coronel
View
214
Download
0
Embed Size (px)
Citation preview
Técnicas para el análisis de datos
digitalesAnálisis de redes sociales online y minería de
texto para las ciencias sociales
Camilo [email protected]
Día 4
5. Minería de texto5.1. Consideraciones teóricas5.2. Representación y descripción: convirtiendo el texto en datos5.3. Interpretación y exploración
5.1 Consideraciones teóricas
Enfoques para el análisis de contenido• Enfoques descriptivos y exploratorios• análisis de frecuencia de palabras• análisis de co-ocurrencia (Doerfel y Barnett 1996)
• Enfoques deductivos métodos de análisis de contenido• Automatizar la elección del esquema de categorización y la clasificación de los
documentos en las categorías• Análisis de clusters• Menores costes iniciales
• no hay opciones teóricas sobre qué categorías son necesarias ex ante• no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004
Enfoques para el análisis de contenido• Análisis automatizado de textos (Hillard et al 2007;. Monroe
y Schrodt 2008)• Clasificación de texto (sin supervisión y aprendizaje supervisado
(Sebastiani 2002; Liu 2011; Scharkow 2011).• Análisis de redes Semánticas (van Atteveldt 2008)• Topic modeling• Procesamiento del lenguaje natural - entender el significado a
partir del lenguaje natural• Detección de tendencias - Predecir temas emergentes
Enfoques para el análisis de contenido•Métodos de aprendizaje supervisado• Requieren elegir categorías y una muestra de documentos
codificados manualmente• Puede utilizarse para la mayoría de las preguntas con interés
teórico• Descubrimiento de un conjunto relevante de categorías a partir de
los datos• Enfoques deductivos• Codificación basada en diccionario• Análisis basado en reglas
Análisis de contenidos - aplicaciones
Minería de texto
• Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias)• latentes• previamente desconocidos• potencialmente útiles
• Extracción de información de los documentos y agregación de la colección completa
• Datos altamente redundantes• Patrones – Encontrar frases importantes• Conexiones - Encontrar palabras con significado semántico• Reducir la complejidad - Crear un resumen de los documentos
Minería de texto – retos
• Conceptos• Difíciles de representar - combinaciones sutiles de relaciones
abstractas entre conceptos• Altamente dimensionales - muchas maneras para representar
conceptos similares• Complejos - características múltiples
Características complejas de los medios sociales
•Microtextos• Twitter y la mayoría de los mensajes de Facebook son muy cortos
• Contenido ruidoso• deletreo inusual• capitalización irregular• Emoticones• abreviaturas idiosincrásicas
• Temporalidad• Fecha de creación• modelos temporales para examinar tendencias, volatilidad, causalidad
Bontcheva and Rout / Semantics of Social Media Streams
Características complejas de los medios sociales• Contexto social
• Indispensable para una interpretación correcta de los contenidos de los medios sociales• Posición estructural• Autoridad del usuario• Clusters
• Centrado en el usuario• Usuarios como productores y consumidores de contenidos de los medios sociales• Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses,
opiniones
• Plurilingüe• Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés• Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos
Bontcheva and Rout / Semantics of Social Media Streams
Minería de texto – limitaciones
• Palabras• Homonimia: misma forma, significado diferente• La polisemia: misma forma, significado relacionado• Sinonimia: forma diferente, mismo significado• Hiponimia: una palabra denota una subclase de otra
• Uso del lenguaje• sarcasmo• ironía
Minería de opiniones
• Extracción de opiniones del texto• Opiniones: declaraciones subjetivas que reflejan sentimientos o
percepciones de las personas sobre las entidades o eventos• Se utiliza igualmente el concepto de “análisis de Sentimiento”• Los medios sociales ofrece un entorno idóneo para que la gente
comparta opiniones• Fuente útil de información no estructurada• El reto consiste en extraer la información útil
Minería de opinions y medios sociales• Twitter stream • fuente de datos centralizada• actualizada en tiempo real• nuevas fuentes de información se integran automáticamente en el
corpus• amplia gama de perspectivas individuales• decenas de miles de contribuyentes activos involucrados en el
discurso público
Minería de opinions y medios sociales• Los medios de comunicación social ofrecen una gran cantidad de
información sobre el comportamiento y los intereses de los usuarios:• explícita: John le gusta ...• implícitas: personas que les gusta ... tienden a ser grandes tomadores de
riesgo• asociativo: la gente que compra ... productos también tienden a comprar
productos ...
• La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante• Si mucha gente habla en los sitios de medios sociales sobre ...
Retos en la Minería de opiniones
• Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial)• Identificar la entidad expresando la opinión• Identificar la polaridad y el grado de la opinión (a favor o en
contra)• Identificar el tema de la opinión (opinión acerca de qué?)
5.2 Representación y descripción: convirtiendo el texto en datos
Proceso de minería de texto
1. Captura de información• Recopilar, seleccionar, filtrar documentos que pueden ser útiles
2. Extracción de Información - Organización• Tweets• contenidos del Sitio• API de contenidos especializados (Newswires, actividad parlamentaria, ...)
3. Definir las estructuras de datos• Documentos de texto sin formato• Tablas• Bases de datos
Proceso de minería de texto
4. Limpiar el texto• Quitar las etiquetas y la información no textual
5. Partición• Texto en unidades - DTM
Término1 Término2 Término3 … Términon
Documento1
Documento2
Documento3
…Documenton
Proceso de minería de texto
6. Búsqueda• entidades pertinentes (personas, organizaciones, instituciones)• hechos acerca de las entidades (atributos)• palabras clave
7. Análisis• co-ocurrencia, co-referencia, redes conceptuales• clustering, clasificación de documentos, tendencias
8. Visualización
Recursos y herramientas
• Recursos• Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus
anotados• Instrumentos• Convertidores de documentos, detectores de oraciones,
tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos
Qué buscamos?
• Frecuencia• Superior / inferior• Dentro de / entre poblaciones
• Medidas de similitud - Correlación• Objetivo• Patrones
• Combinaciones• Co-referencia (redes latentes)! = Vínculos intencionales
5.3. Interpretación y exploración
Términos comunes
• Listas de términos comunes• Métricas de términos y conjuntos de términos• Agrupados por clusters• Términos frecuentes – “Stop words”
• http://www.elwebmaster.com/referencia/stopwords-en-espanol • http://latel.upf.edu/morgana/altres/pub/ca_stop.htm
• Evitar la dispersión• Baja frecuencia en la DTM
Nubes de términos
• Representación visual de frecuencias
•www.tagxedo.com/app.html
Redes semánticas
• Representación de términos relacionados• Términos como nodos• Términos más comunes – evitar dispersión
• Ego-red• Clústeres de términos• Clasificación• Distancia - Intensidad por color• Centralidad
Redes de hashtag
• Listas de los hashtags que se utilizan en conjunto• Métricas de términos y conjuntos de términos - recuentos Hashtag• Hashtags como nodos
• Redes ego• Clústeres de hashtags• Clasificación• Distancia • Centralidad
Clustering
• Estrategia de reducción de datos• reducir un gran número de variables a un conjunto más pequeño que
mantiene la información de predicción del conjunto más amplio• Separa los tweets en grupos que son similares con respecto a los términos
contenidos en cada tweet
• Maximizar la disimilitud entre los grupos• Minimizar la disimilitud entre los grupos
Análisis de clústeres – reducir la complejidad e investigación exploratoria
• Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida)• creación de metadatos• detección de temas• Indexación conceptual (con hechos, eventos)• clasificación de documentos