Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

Embed Size (px)

Citation preview

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    1/16

    Creation and evaluation of a dictionary taggedwith emotions and weighted for Spanish

    Creación y evaluación de un diccionario marcadocon emociones y ponderado para el español

    Ismael Díaz Rangel: Laboratorio de Lenguaje Natural y Procesamiento de Texto, Centro de Investigación enComputación (CIC), Instituto Politécnico Nacional (IPN). México. Correo electrónico: [email protected] Sidorov: Laboratorio de Lenguaje Natural y Procesamiento de Texto, Centro de Investigación en Com-putación (CIC), Instituto Politécnico Nacional (IPN). México. Correo electrónico: [email protected] Suárez Guerra: Laboratorio de Lenguaje Natural y Procesamiento de Texto, Centro de Investigación enComputación (CIC), Instituto Politécnico Nacional (IPN). México. Correo electrónico: [email protected]

    Fecha de recepción: septiembre de 2012Fecha de aceptación: febrero de 2014

    ONOMÁZEIN 29 (junio de 2014): 31-46DOI: 10.7764/onomazein.29.5

    29Junio

    2014

    Instituto Politécnico NacionalMéxico

    Instituto Politécnico NacionalMéxico

    Instituto Politécnico NacionalMéxico

    Ismael Díaz Rangel

    Sergio Suárez Guerra

    Grigori Sidorov

    Revista semestral de lingüística, flología y traducción

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    2/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 32

    This paper presents a method for creationof dictionaries marked with specic values (forexample, emotions, polarity) for use in varioustasks of automatic natural language processing.In the created dictionary, the selected words aretagged with six basic emotions. For this, theyare rst analyzed (annotated) manually by mul-tiple annotators and automatically weighted

    on the basis of these evaluations. The methodwas applied to the Spanish language. The para-digm chosen for tagging the words that formthe dictionary corresponds to basic emotionalcategories: joy, anger, fear, sadness, surprise anddisgust. Unlike other dictionaries, our dictionarycontains weightings that correspond to percen-

    tages of probability of being used with the sen-se related to emotion. Each word was evaluatedby multiple annotators, and, subsequently, theagreement between them was analyzed with themethod of weighted kappa adapted for multipleentries. On the basis of these results, we proposea new measure that estimates the probability ofthe affective use: probability factor of affective

    use (PFA), which serves to provide potentiallyemotional words with the weight. PFA can beused as data in automatic systems for emotionalanalysis of texts. PFA refers to the use tendencyof each word, which is useful for automatic sys-tems.

    Keywords: emotional dictionary; probability factor of affective use; agreement between annotators;sentiment analysis; method of weighted kappa.

    Este artículo presenta un método para lacreación de diccionarios marcados con un valorespecíco (por ejemplo, las emociones, la pola-ridad) para su uso en varias tareas de procesa-miento de lenguaje natural realizadas por com-putadoras. En el diccionario creado las palabrasseleccionadas se han etiquetado con seis emo-ciones básicas. Para eso, las palabras primerofueron analizadas (anotadas) manualmente pormúltiples evaluadores y ponderadas automá-

    ticamente a base de estas. El método se aplicópara el idioma español. Las palabras que confor-man el diccionario fueron etiquetadas con lascategorías emocionales básicas: alegría, enojo,miedo, tristeza, sorpresa y repulsión. A diferen-cia de otros diccionarios para computadoras, eldiccionario propuesto contiene ponderaciones

    —porcentajes de probabilidad de ser usadas conun sentido emocional—. Cada palabra fue valo-rada por múltiples evaluadores, y posteriormen-te se realizó un análisis de concordancia con elmétodo de kappa ponderado, adaptándolo paraevaluadores múltiples. Con los resultados obte-nidos, se propuso una medida que estima quétan frecuente es el uso afectivo de una palabra:factor de probabilidad de uso afectivo (FPA), elcual sirve para dotar a las palabras potencial-

    mente emocionales con un factor de peso. ElFPA puede ser incluido como información en sis-temas automáticos, por ejemplo, para la detec-ción de sentimientos en texto. El FPA se reere ala tendencia del uso de cada palabra, no es unacaracterística absoluta. Así, es útil para los siste-mas automáticos.

    Palabras clave: diccionario marcado con emociones; factor de probabilidad de uso afectivo; concor-  dancia entre evaluadores; análisis de sentimientos; método de kappa ponderado.

    Resumen

    Abstract

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    3/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 33

    La detección automática de sentimientosen texto cada día cobra un mayor interés en di-

    versos sectores; en parte se debe a la inmensacantidad de información disponible en la red,como son análisis o evaluaciones de productosde consumo, programas informáticos, deportes,películas, etcétera, todo ello accesible en sitiosespecializados como revistas electrónicas, blogs y foros; son también una importante fuente deinformación los sitios de ventas, como, por ejem-plo,  Amazon. A su vez, es de creciente interés laidenticación de contenido emocional presenteen sitios de noticias y redes sociales como Face-book y Twitter .

    La información a que se hace referencia esuna vasta y útil fuente de datos para su procesa-miento automático por computadoras. Se puedeaplicar, por ejemplo, para mercadología, asesoríade imagen y política, psicología, seguridad —anivel desde personal hasta nacional—, sectorlúdico, interacción hombre-máquina, síntesis devoz y cualquier área interesada en la extraccióny conocimiento de opiniones, estados de ánimo,

    observaciones y evaluaciones.Las principales áreas que se encargan de

    clasicar automáticamente palabras, textos odocumentos de acuerdo a la opinión, emoción osentimiento que expresan son conocidas comominería de opiniones (Opinion mining) y análisisde sentimientos (Sentiment analysis).

    “Existen diversos problemas inherentes enla detección de sentimientos; como muestrabasta mencionar que casi cualquiera palabra,

    potencialmente puede tener contenido afectivo,incluso aquellas que pueden parecer neutrales”(Strapparava y Mihalcea, 2007); algunas palabrasen cualquier contexto o casi en cualquier con-texto denotan o sugieren una emoción; un ejem-plo puede ser la palabra “regocijo”, en cuyo casotodos sus sentidos son relacionados con unaemoción; sin embargo, otras palabras dependendel contexto, como, digamos, la palabra “depre-

    1. Introducción sión”: algunos sentidos sí son relacionados conlas emociones, mientras que otros no. “Hay ca-sos más complejos, como la palabra ‘fantasma’,

    donde el potencial afectivo es parte de la imagi-nación colectiva” (Strapparava y Mihalcea, 2007).

    Existen diversos enfoques con los que sepuede realizar la clasicación o identicación deemociones en un texto dado; los más relevantessegún un estudio realizado (Cowie y Cornelius,2003) son: modelos circunejos (Russell, 1980),descripciones basadas en evaluación (Scherer yEkman, 1984), dimensiones emocionales (Wundt,1896) y categorías emocionales (Smith, 1989).

    Es más común encontrar trabajos relacio-nados con los dos últimos enfoques. Las dimen-siones emocionales consideran el nivel presentesobre tres aspectos: valencia (o polaridad), acti-vación y control. La polaridad indica si existe unestado emocional positivo o negativo, donde lafelicidad se considera positiva y la tristeza nega-tiva. La activación indica una situación activa opasiva del estado emocional, donde el extremoactivo puede ser la excitación y el pasivo la cal-ma. El control indica por un lado la dominación y

    al otro extremo la sumisión.

    Con respecto a las categorías emocionales ,se reere a ubicar la unidad de estudio (palabras,oraciones, párrafos, textos, etcétera) dentro de laclasicación propuesta en alguna teoría de emo-ciones, como las observadas en la tabla 1 (Ortonyy Turner, 1990).

    En minería de opiniones y análisis de senti-mientos —como en muchas otras áreas—, paralograr los objetivos buscados son necesarios di-

    versos recursos lingüísticos; los recursos léxicosson indispensables y existen varios disponiblespara el idioma inglés, como el SentiWordNet(Esuli y Sebastiani, 2006), el General Inquirer  (Sto-ne y otros, 1996) y el ANEW ( Affective Norms forEnglish Words) (Redondo y otros, 2007); en gene-ral los recursos para el idioma español son es-casos, y en cuestiones puntuales, inexistentes.Como ejemplo de recursos para determinar la

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    4/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 34

    1 http://www.internetworldstats.com/stats.htm

    Algunas teorías de clasicación de emociones básicas

    TABLA 1

    INVESTIGADOR EMOCIONESBÁSICAS BASES

    Arnold

    Ira, aversión, coraje,abatimiento, deseo,desesperación, mie-do, odio, esperanza,

    amor, tristeza

    Relación conlas tendencias

    de actuar

    Ekman,Friesen yEllsworth

    Ira, repulsión,miedo, alegría,

    tristeza, sorpresa

    Expresionessiológicas

    facialesuniversales

    GrayRabia, terror,

    ansiedad, alegríaInvoluntarias

    McDougall

    Ira, asco, alegría,miedo, sumisión,

    oferta de emo-ción, asombro

    Relación alos instintos

    polaridad de opiniones en idioma español estáel Sentitex  (Moreno y otros, 2010a), que entreotras cosas se ha utilizado para analizar la opi-nión de usuarios acerca de hoteles (Moreno yotros, 2010b) y para realizar el análisis de emo-ciones en redes sociales (Moreno y Pérez, 2013);

    también existe el recurso EmotiBlog  (Boldrini yotros, 2009), que incluye los idiomas español, in-glés e italiano. Sin embargo, esos recursos parael español no están marcados con emociones, ysolamente tienen los valores positivo o negativopara el análisis de polaridad.

    Este trabajo está centrado en la metodolo-gía para la creación de diccionarios con palabrasemocionales que fue aplicada para el idiomaespañol; se diferencia en varios aspectos de laadaptación al español del ANEW; primero por elhecho de que cada palabra proporciona informa-ción acerca de su categoría emocional, tomandocomo referencia las seis emociones básicas pro-puestas por Ekman (1972), mientras que ANEWproporciona información con un enfoque de di-mensiones emocionales; segundo, las palabrasincluidas indican la frecuencia con que se usan

    con un sentido emocional, considerando dife-rentes contextos de aplicación; tercero, se apli-có una adaptación del método de concordancia

    ponderada en las evaluaciones realizadas, mien-tras que ANEW no lo hace.

    Dado que la mayor cantidad de recursos es-tán hechos para el idioma inglés, es importantedesarrollarlos para otros idiomas, especíca-mente para el español, donde tan solo en Amé-rica Latina existen más de 235 millones de usua-rios de Internet (internautas1).

    El trabajo tiene la estructura siguiente. Enel apartado 2, se explica el criterio de selección

    de palabras y su colocación en una categoríaemocional especíca. En el apartado 3, se indicacómo, con la ayuda de múltiples evaluadores,se realizaron estimaciones acerca del conte-nido emocional de las palabras seleccionadas,siguiendo una serie de criterios de valoración yreglas de etiquetado. En el apartado 4, se realizaun análisis de las evaluaciones utilizando el mé-todo de kappa ponderado, haciendo adecuacio-nes para su aplicación sobre múltiples evaluado-res. En la sección 5, se escogen los datos de los

    evaluadores más anes usando la informaciónobtenida en el análisis de concordancia entreellos, para calcular el factor de probabilidad deuso afectivo (FPA) asociado a cada palabra. Al -nal, se presentan conclusiones.

    Nuestra propuesta consiste en la creaciónde un diccionario etiquetado con emociones bá-sicas: alegría, enojo, miedo, repulsión, sorpresa ytristeza. En primera instancia se tomó el recur-so WordNet-Affect (Strapparava y Valitutti, 2004)para el inglés, el cual está conformado por syn-sets ; en este caso son grupos de palabras sinoní-micas que comparten valores en su etiqueta, lacual tiene tres aspectos: positivo, negativo y ob-jetivo, cuya suma es 1. “Este recurso fue creadousando varias técnicas lingüísticas y clasicado-

    2. Selección de palabras del diccionario

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    5/16

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    6/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 36

    acepciones, el signicado indicara relación conla emoción de la categoría asociada; ante la me-nor duda en el análisis, la palabra se conservó.

    Esto representó un laborioso trabajo manual,con la nalidad de obtener un recurso léxico dealta calidad, lo cual puede derivar en un mejordesempeño al utilizarlo en un sistema automá-tico de reconocimiento de emociones; existentrabajos donde una idea similar se ha llevado acabo para otros conjuntos de palabras, como enlo expuesto por Moreno y otros (2011).

    Después del minucioso análisis y depura-ción de términos, se agregaron las palabras clasi-

    cadas según el criterio de Ekman mostradas enGreenberg (2000), el cual muestra las emocionesprimarias y las emociones secundarias más cer-canas. La cantidad total resultante de palabrasfue de 2,036, como se observa en la tabla 5.

    Tamaño del diccionario después de la depuración

    TABLA 5

    CATEGORÍA PALABRAS (ESPAÑOL)

     Alegría 668

    Repulsión 209

    Enojo 382

    Miedo 211

    Sorpresa 175

    Tristeza 391

    Total 2,036

    Una vez denida la lista de palabras del dic-cionario, se procedió a evaluar si las palabraspropuestas guardaban relación con la emocióncon que fueron asociadas —etiquetadas en laetapa de selección—. Para ello se pidió ayudaa evaluadores voluntarios. Hay varias manerasde pedir que se realicen evaluaciones, lo cualdepende de la información que se desee obte-

    3. Apreciación de evaluadores sobreemociones en palabras del diccionario

    ner. A los evaluadores, además del diccionario,se les proporcionó un instructivo de evaluación,el cual se puede resumir así: “Lo que se busca es

    cuanticar qué tan probable es que el sentidocon el que se usa la palabra que se evalúa denoterelación con la emoción a la cual se asocia. Nóte-se que no se evalúa si el signifcado de la palabraestá relacionado con alguna emoción o la inten-

    sidad de la emoción , sino que, más bien, es la es-timación de qué tan frecuentemente se usa esta

    palabra para denotar algo relacionado con dicha

    emoción, imaginando sus posibles contextos de

    uso y su frecuencia”. Esto se hace marcando unade las opciones que tiene cada palabra: “nula”,

    “baja”, “media” y “alta”.

    “Nula” indica que bajo ningún contexto elsignicado de la palabra denota relación con laemoción a la cual se asocia; “baja” indica que enalgunos contextos el signicado de la palabra sídenota algo relacionado con la emoción, pero espoco frecuente usarla con ese propósito; “me-dia” para indicar que con igual frecuencia la pa-labra se usa o no para denotar algo relacionadocon la emoción a la cual se asocia; y por último,

    “alta” se usa para indicar que casi siempre —osiempre— la palabra denota algo relacionadocon la emoción asociada.

    Dado que algunos términos pueden serpoco usuales y es posible que el evaluador no re-cuerde o no conozca los posibles contextos enlos cuales el término se puede usar, se procedióa colocar manualmente las deniciones —mu-chas de ellas con oraciones ejemplo— a casila mitad de los términos incluidos; para ello seutilizó la información del diccionario de uso del

    español de María Moliner; para acceder a ellas,el evaluador solo debe pasar el cursor sobre eltérmino y automáticamente se despliegan susdeniciones (tabla 6).

    Es de mencionar que cada evaluador trabajóíntegramente sobre el conjunto de palabras deuna categoría emocional. La tabla 7 muestra cuán-tos evaluadores participaron en la valoración delos términos sobre cada categoría emocional.

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    7/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 37

    Segmento de lista de palabras etiquetadas con la emoción “miedo”

    TABLA 6

    Evaluaciones realizadas en las palabras de cadacategoría emocional

    Estimaciones de evaluadores

    TABLA 7

    TABLA 8

    CATEGORÍA PALABRAS EVALUADORES

     Alegría 668 19

    Repulsión 209 17

    Enojo 382 17

    Miedo 211 19

    Sorpresa 175 19

    Tristeza 391 17

    Total 2,036 108

    # PALABRA NULA BAJA MEDIA ALTA

    1 abundancia 1 (5.3%) 2 (10.5%) 8 (42.1%) 8 (42.1%)

    2 acabalar  7 (36.8%) 1 (5.3%) 9 (47.4%) 2 (10.5%)

    3 acallar  9 (47.4%) 8 (42.1%) 1 (5.3%) 1 (5.3%)

    4 acatar  9 (47.4%) 5 (26.3%) 4 (21.1%) 1 (5.3%)

    5 acción 6 (31.6%) 7 (36.8%) 4 (21.1%) 2 (10.5%)

    6 aceptable 4 (21.1%) 3 (15.8%) 11 (57.9%) 1 (5.3%)

    7 aceptación 3 (15.8%) 2 (10.5%) 6 (31.6%) 8 (42.1%)

    8 acicate 4 (21.1%) 6 (31.6%) 7 (36.8%) 2 (10.5%)

    9 aclamación 3 (15.8%) 2 (10.5%) 4 (21.1%) 10 (52.6%)

    Se muestra un ejemplo de los datos antes deque se realizara una depuración de ellos. La tabla8 contiene un fragmento de las estimaciones delos 19 evaluadores de la categoría “alegría”. Enella se observa la palabra estimada y la cantidadde evaluadores que eligieron asociarla a una delas categorías propuestas; entre paréntesis se in-dica el porcentaje correspondiente. A simple vistase puede intuir el grado de concordancia/discor-dancia de las evaluaciones: a mayor porcentaje enuna sola categoría, mayor concordancia; aunqueesto es sin considerar los efectos del azar, por loque se aplicó un método que sí considera dichosefectos, lo cual se comenta más adelante.

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    8/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 38

    En las evaluaciones donde se involucren losestados afectivos la subjetividad podrá estar

    presente, por lo que se espera que existan algu-nas diferencias en las estimaciones entre un eva-luador y otro; sin embargo, lo que nos interesa essaber dónde hay mayores coincidencias, ya quecon ello se sabe qué tanto se puede o no relacio-nar una palabra con un contexto afectivo.

    Por otro lado, las discrepancias pueden estardadas por la displicencia al realizar las evalua-ciones, incluso es probable que algún evaluadorrealice el marcaje —integral o parcialmente—

    de manera aleatoria. Por lo que es necesarioun mecanismo con el cual se pueda analizar laconcordancia entre las evaluaciones realizadas,y descartar el trabajo de los evaluadores que pre-senten una notoria discordancia con respecto alos demás evaluadores.

    En términos generales, la concordancia esel grado con que dos o más observadores, méto-dos, técnicas u observaciones están de acuerdosobre el mismo fenómeno observado (Cortés,2008). Por lo tanto, la concordancia no evalúa

    la validez o la certeza sobre observaciones conrelación a un estándar de referencia dado, sinocuán anes están entre sí las observaciones so-bre el mismo fenómeno.

    El índice de acuerdo observado simplemen-te expresa en qué proporción hubo coincidenciaen la clasicación entre los observadores, en re-lación al total de elementos examinados. Estese obtiene sumando la cantidad de objetos deestudio donde hubo coincidencias en las evalua-

    ciones, y se divide por el total de objetos analiza-dos. El problema que plantea este índice básicoes que una parte de ese acuerdo puede deberseexclusivamente al azar.

    El índice de kappa diseñado por Cohen (1960)ajusta el efecto del azar en la proporción de laconcordancia observada. En esencia, el proceso

    4. Análisis de evaluaciones de elaboración del índice es el siguiente: se cal-cula la diferencia entre la proporción de acuerdoobservado y la proporción de acuerdo esperado

    por azar; si esta es igual a cero, entonces el gradode acuerdo observado puede atribuirse entera-mente al azar; si la diferencia es positiva, ello in-dica que el grado de acuerdo es mayor que el quecabría esperar si solo estuviera operando el azar.

    Este índice es empleado exclusivamentepara dos evaluadores y variables binarias —porejemplo, positivo o negativo—; los resultados delas evaluaciones de los objetos de estudio debenser introducidos en una tabla de frecuencias de

    doble entrada o de contingencia (tabla 9).

    n11 es la cantidad de los objetos que el eva-luador 1 y 2 han estimado como positivos2.

    n12 es la cantidad de objetos que el evalua-dor 1 calicó como positivos y el 2 como ne -gativos.

    n21 es la cantidad de objetos que el evalua-dor 1 calicó como negativos y el 2 como po-sitivos.

    n22 es la cantidad de los objetos que el eva-

    luador 1 y 2 apreciaron como negativos.

    A1 y A2 son la suma de los elementos de sula (A1 = n11 + n12).

    B1 y B2 son la suma de los elementos de sucolumna (B1 = n11 + n21).

    N es la cantidad de objetos evaluados.

    Tabla de contingencia

    TABLA 9

    EVAL 2

    Positivo Negativo Total

    EVAL 1

    Positivo n11

    n12

    A1

    Negativo n21

    n22

    A2

    Total B1

    B2

    N

    2 Las sumatorias se realizan considerando la evaluación de un mismo objeto; esto aplica a las demás celdas.

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    9/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 39

    La estimación por el índice de kappa siguela ecuación:

    (1)

    donde:

    Po es la proporción de acuerdo observado y

    se calcula con:

    (2)

    es decir, en la forma completa:

    (4)

    Pe  es la proporción de acuerdo esperado al

    azar y se calcula con:

    (3)

    Una interpretación más popular propuesta

    por Landis y Koch (1977) para valorar el grado deacuerdo en función del índice de kappa se pre-senta en la tabla 10.

    Para este tipo de evaluaciones, un método deconcordancia es el de kappa ponderado (Cohen,1968), en el cual se establecen pesos para cuanti-car la proporción de concordancia, en funciónde la distancia entre las m categorías elegidas enla evaluación del objeto de estudio. Para ello, seasigna un peso (w

    ij) a la celda de cada categoría

    (tabla 12), con un valor comprendido entre 0 y 1.

    En nuestro caso, para la evaluación de laspalabras que conforman el diccionario las varia-

    k  =P

    0

     — Pe

    1 — Pe

    =∑P02

     j=1

    n jj

    N

    =∑Pe2

     j=1

     A j · B

     j

    N2

    =Pe

    ((n11

    +n12

     ) · (n11

    +n21

     )) + ((n21

    +n22

     ) · (n12

    +n22

     ))

    N2

    Interpretación de índice de kappa

    TABLA 10

    KAPPA GRADO DE ACUERDO

    < 0.0 sin acuerdo

    0.0 – 0.2 insignicante

    0.2 – 0.4 bajo

    0.4 – 0.6 moderado

    0.6 – 0.8 bueno

    0.8 – 1.0 muy bueno

    bles no son binarias, son de tipo multinominal,es decir, tienen más de dos opciones o catego-rías para su evaluación; además son variables

    ordinales, esto es, que tienen un orden estable-cido y no es intercambiable; por ello, aunque nose dé una evaluación idéntica sobre un objeto,existirán valoraciones de concordancia diferen-tes, dependiendo de la posición de la categoríaseleccionada en la evaluación. La tabla 11 con-tiene un ejemplo para la evaluación de múltiplescategorías (Cat

    x).

    Tabla de contingencia para kappa ponderado

    Tabla de doble entrada para asignación de pesos

    TABLA 11

    TABLA 12

    EVAL 2

    Cat 1 Cat 2 ... Cat m Total

    EVAL 1

    Cat 1 n11

    n12

    ... n1m

    A1

    Cat 2 n21

    n22

    ... n2m

    A2

    ... ... ... ... ... ...

    Cat m nm1

    nm2

    ... nmm

    Am

    Total B1

    B2

    ... Bm N

    EVAL 2

    Cat 1 Cat 2 ... Cat m

    EVAL 1

    Cat 1 w11

    w12

    ... w1m

    Cat 2 w21

    w22

    ... w2m

    ... ... ... ... ...

    Cat m wm1

    wm2

    ... wmm

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    10/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 40

    Los valores de los pesos dependen de la im-portancia que se quiera adjudicar a los desacuer-dos. Inicialmente Cohen propuso una escala li-

    neal (tabla 13a) de pesos dada por:

    (5)

    donde m es la cantidad de categorías.

    Uno de los pesos más usados fue propuestoposteriormente por Fleiss y Cohen (1973), el cualpropone una escala conocida como bicuadráticao cuadrática (tabla 13b):

    (6)

    La expresión para la estimación del índice dekappa ponderada es:

    (7)

    Para calcular la concordancia observada(P

    ow) se multiplica la tabla de evaluaciones por la

    tabla de pesos:

    (8)

    Para calcular la concordancia esperada (Pew

    )se multiplican los límites marginales por la tablade pesos:

    (9)

    El método de kappa ponderado es única-mente para dos evaluadores. Este trabajo tienemás evaluadores; sin embargo, es posible utili-zar el kappa ponderado trabajando por parejasde evaluadores y al nal hacer un promedio totalcon todos los valores obtenidos. Trabajar de estamanera también da la oportunidad de conocerel aporte —en cuanto a concordancia— de cadaevaluador; para ello, solo se estima el promedio

    de los valores de kappa obtenidos entre dichoevaluador vs. todos los demás. Para saber cuán-tas parejas diferentes se pueden formar entretodos los evaluadores usamos:

    (10)

    donde M es el número de evaluadores.

    La tabla 14 representa el contenido de lasevaluaciones de kappa obtenido de cada pa-reja (k

    w_eval {i_j}); son un total de M  por M  cel-

    das, aunque no todas son parejas distintas y ladiagonal no cuenta. Para el caso de las palabrasetiquetadas con la emoción “alegría” participa-ron 19 evaluadores, por lo que se formaron 171parejas realmente distintas de estimaciones dekappa.

    =[i—j]

    wij  1 — 1 ≤ i, j ≤m

    m—1

    =

    (i—j)2

    wij  1 — (m—1)2

    Pesos lineales y bicuadrados para 4 categorías

    a) Peso lineal

    b) Peso bicuadrado

    TABLA 13

    EVAL 2

    Cat 1 Cat 2 Cat 3 Cat m

    EVAL 1

    Cat 1 1 2/3 1/3 0

    Cat 2 2/3 1 2/3 1/3

    Cat 3 1/3 2/3 1 2/3

    Cat 4 0 1/3 2/3 1

    EVAL 2

    Cat 1 Cat 2 Cat 3 Cat m

    EVAL 1

    Cat 1 1 8/9 5/9 0

    Cat 2 8/9 1 8/9 5/9

    Cat 3 5/9 8/9 1 8/9Cat 4 0 5/9 8/9 1

    =k w

     1— P

    ew

    Pow

    — Pew

    =Pow ∑∑wij · nij(   (

    k k 

    i=1  j=1N

    =Pew

    ∑∑w

    ij· ·

     Ai

    B j( ( 

     ( (k k 

    i=1  j=1 N N

    =Número de parejas ∑p + i   AM≥2M—1

    i=1

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    11/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 41

    Tabla de estimación de kappa por pares

    TABLA 14

    Parejas1° evaluador Parejas2° evaluador   ••• ParejasM evaluador

    kw

    _eval {1_1} kw

    _eval {2_1} ••• kw

    _eval {M_1}

    kw

    _eval {1_2} kw

    _eval {2_2} ••• kw

    _eval {M_2}

    ••• ••• ••• •••

    kw

    _eval {1_ M} kw

    _eval {2_ M} ••• kw

    _eval {M_ M}

    En este punto se procedió a obtener el índi-ce de kappa promedio de cada evaluador, esto serealizó haciendo la sumatoria de todas las pare-

    jas de estimaciones de kappa que se formaroncon cada evaluador (i) y dividiendo el resultadoentre la cantidad de evaluadores menos uno.

    (11)

    Para conocer el grado de concordancia ge-neral o total de todas las evaluaciones sobre eldiccionario se promedian todas las concordan-

    cias:(12)

    Los resultados obtenidos para cada diccio-nario se muestran en la tabla 15, donde lineal ybicuadrado  se reeren al tipo de pesos usadosen la estimación del índice de kappa.

    1

    M—1=kw_pevali kw_eval{i_j}∑   Ai≠j

    M

     j=1

    1

    M=k wtotal k  w_pevali∑

    M

    i=1

    Resultados de estimación del kappa total por categoríaemocional

    TABLA 15

    kw

    total

    CATEGORÍA LINEAL BICUADRADO

     Alegría 0.641 0.771

    Enojo 0.649 0.781

    Miedo 0.671 0.798

    Repulsión 0.622 0.741

    Sorpresa 0.641 0.76

    Tristeza 0.647 0.779

    La nalidad de realizar evaluaciones en eldiccionario emocional propuesto y aplicar a lasevaluaciones un método de concordancia fuela de conocer hasta qué punto —a pesar de lasubjetividad— un término puede ser relaciona-do con una emoción en particular; el nivel deconcordancia obtenido nos da una referenciaacerca de la validez de la hipótesis: que es posi-

    5. Estimación de factor de probabilidad

    de uso afectivo (FPA)

    ble cuanticar la frecuencia de uso afectivo depalabras sobre diferentes contextos.

    Realizar las estimaciones de kappa por paresnos da la oportunidad de conocer la contribu-ción de cada evaluador de manera independien-te, lo cual puede servir como mecanismo para ladepuración de las evaluaciones, bajo el supuestode que algunos evaluadores hayan trabajado demanera displicente. La tabla 16 muestra las esti-maciones de kappa de cada evaluador, esto parala categoría “alegría”, ordenados por el valor bi-cuadrado.

    Con la idea de utilizar directamente las eva-luaciones, la información proveniente de la pro-porción de concordancia observada, es conve-niente hacer una depuración: se puede apreciaren la tabla 16 cómo los evaluadores 4, 11 y 17 tu-vieron un nivel de concordancia notablementeinferior con respecto a los otros evaluadores. En

    la tabla 17 se muestran los niveles de kappa lo-grados utilizando solo a los 10 evaluadores quemostraron mayor anidad en sus evaluaciones,que son mayores en comparación con la tabla 15.

    El alto nivel de concordancia nos da la con-anza de utilizar la información de estos eva-luadores para realizar la estimación estadísticasobre la valoración de cada palabra, y con ellotener una proporción probabilística o del por-

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    12/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 42

    Estimaciones de concordancia para cada evaluadoren la categoría “alegría” vs. todos los demás

    TABLA 16

    kw

    total

    EVALUADOR LINEAL BICUADRADO

    7 0.685 0.834

    13 0.697 0.833

    16 0.688 0.823

    15 0.674 0.822

    1 0.685 0.821

    18 0.684 0.813

    3 0.682 0.812

    12 0.667 0.793

    9 0.649 0.787

    5 0.664 0.786

    19 0.656 0.772

    14 0.645 0.766

    10 0.631 0.758

    8 0.615 0.748

    2 0.631 0.746

    6 0.607 0.741

    11 0.55 0.668

    17 0.549 0.663

    4 0.528 0.659

    Estimaciones de kappa con 10 evaluadores

    TABLA 17

    kw

    total

    CATEGORÍA LINEAL BICUADRADO

     Alegría 0.726 0.860

    Enojo 0.699 0.834

    Miedo 0.743 0.872

    Repulsión 0.705 0.837

    Sorpresa 0.717 0.838

    Tristeza 0.718 0.851

    centaje con que se utiliza un término para deno-tar una emoción. Nótese que se usó el índice dekappa para elegir a los evaluadores más anes. A

    partir de este momento ya no usamos kappa. Lamatriz de evaluaciones tiene la forma mostradaen la tabla 18.

    donde M es la cantidad de evaluadores, N es lacantidad de palabras y m  es la cantidad de ca-tegorías de evaluación (nula, baja, media, alta).Nótese que los valores de esta tabla son 1 (positi-vos) o 0 (negativos) dependiendo de si el evalua-dor eligió esta categoría o no.

    El cálculo de la proporción de frecuencia deuso afectivo sobre cada palabra se realizó de lasiguiente manera: primero se calcula la cantidadde evaluaciones positivas (EP) para cada palabraen cada categoría (de nula hasta alta) de evalua-ción, y se vacían los resultados en una nuevamatriz (EP). Para todos los  j (de 1 a N) y k (de 1 am) se calcula el valor de cada celda de la matriz

    bidimensional EP:(13)

    Para obtener los resultados en términos deporcentaje (PEP) es necesario multiplicar porcien y dividir entre la cantidad de evaluadores al

    Matriz con todos los datos de evaluaciones porcada emoción

    TABLA 18

    Evaluador Palabra Cat 1   ••• Cat m

    E1

    P1

    n111

    ••• n11m

    E1

    P2

    n121

    ••• n12m

    ••• ••• ••• ••• •••

    E1

    PN

    n1N1

    ••• n1Nm

    E2

    P1

    n211

    ••• n21m

    E2

    P2

    n221

    ••• n22m

    ••• ••• ••• ••• •••

    EM

    PN

    nMN1

    ••• nMNm

    =EP jk  ∑nijk 

    M

    i=1

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    13/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 43

    contenido de cada celda de la matriz EP:

    (14)

    La tabla 19 es un segmento de las palabrasde la categoría emocional “alegría” con el cálcu-lo de porcentaje de probabilidad de uso de la pa-labra en un contexto relacionado con la alegría.

    Por ejemplo, en la palabra “abundancia”, enpromedio el 50% de los evaluadores eligió la op-ción “media”, lo que indica que esta palabra seutiliza en un contexto que denota alegría casicon igual frecuencia que cuando se usa en un

    contexto donde no se denota dicha emoción;además, el otro 50% de los evaluadores eligió elvalor “alta”, lo cual indica que desde su puntode vista la palabra “abundancia” siempre o casisiempre se usa para denotar algo relacionadocon la alegría.

    En la palabra “acallar” el 50% eligió “nula”,eso indica que jamás se usa para manifestar algorelacionado con la alegría; el 40% eligió “baja”,indicando así que aunque sí puede usarse para

    =  100

    PEP jk 

      EP jk 

     M

    Porcentajes de probabilidad de uso afectivo en palabras del diccionario “alegría”

    TABLA 19

    PROBABILIDAD DE USO AFECTIVO

    # PALABRA NULA [%] BAJA [%] MEDIA [%] ALTA [%]

    1 abundancia 0 0 50 50

    2 acabalar  40 0 60 0

    3 acallar  50 40 10 0

    4 acatar  50 40 10 0

    5 acción 30 30 30 10

    6 aceptable 0 20 80 0

    7 aceptación 0 20 50 30

    8 acicate 10 50 40 0

    9 aclamación 10 10 10 70

    denotar algo relacionado con la alegría, es unuso poco frecuente.

    Como puede observarse, aunque los resulta-dos presentados ya pueden ser potencialmenteútiles para sistemas automáticos de detecciónde categorías emocionales en texto a nivel frase,párrafo, texto o corpus, se propone otra caracte-rística de cada palabra que llamamos el “factorde probabilidad de uso afectivo” (FPA).

    La propuesta considera que entre más cer-canas estén las evaluaciones a la opción “nula”,menor será el índice FPA, siendo ‘0’ el valor míni-mo, y esto sucederá cuando todos los evaluado-

    res hayan seleccionado la opción “nula”. El valormáximo es ‘1’, y esto sucederá cuando todos losevaluadores hayan elegido la opción “alta”. Paratodos los valores intermedios y posibles combi-naciones, se plantea una escala de pesos lineal:

    (15)

    m—1

    k—1=wk  ∑

    m

    k =1

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    14/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 44

    La estimación del factor de probabilidad deuso afectivo se dene por:

    (16)

    La tabla 20 es un segmento de la categoríaemocional “alegría”, donde se muestran los re-sultados obtenidos.

    Para explicar lo que implica el FPA se anali-zan algunos resultados obtenidos:

    1. Palabra “abundancia”. El 50% de los evalua-

    dores cree que dicho término siempre de-nota algo relacionado con la alegría, el otro50% cree que se usa en la misma proporciónpara denotar algo relacionado o no con laalegría. Con estas evaluaciones se observauna alta correspondencia entre la palabracitada y la emoción alegría, de ahí su alto va-lor de FPA.

    2. Palabra “acallar”. El 50% cree que este térmi-no no tiene relación alguna con la emociónalegría, 40% piensa que aunque sí puede

    PEP jk  · wk 

    100=FPA j ∑

    m

    k =1

    Fragmento de los valores FPA para la categoría “alegría”

    TABLA 20

    PROBABILIDAD DE USO AFECTIVO

    # PALABRA NULA [%] BAJA [%] MEDIA [%] ALTA [%] FPA

    1 abundancia 0 0 50 50 0.830

    2 acabalar 40 0 60 0 0.396

    3 acallar 50 40 10 0 0.198

    4 acatar 50 40 10 0 0.198

    5 acción 30 30 30 10 0.397

    6 aceptable 0 20 80 0 0.594

    7 aceptación 0 20 50 30 0.696

    8 acicate 10 50 40 0 0.429

    9 aclamación 10 10 10 70 0.799

    tener relación con la alegría, casi nunca seusa con esa nalidad, y solo el 10% lo evalúacon la categoría media. Se aprecia una po-

    bre relación entre esta palabra y la emociónalegría, lo cual corresponde al bajo nivel FPAobservado.

    3. En las palabras “aceptable” y “aceptación”,ambas tienen 0% en la opción “nula” y 20%en la opción “baja”; la diferencia es la distri-bución en las categorías superiores; en ellasse observa que “aceptación” tiene una ma-yor estimación hacia la parte “alta”; por ello,el FPA es también mayor.

    Por lo que se aprecia que a mayor FPA, mayores la probabilidad de que la palabra sea usadacon un sentido relacionado con la emoción conque está etiquetada. Queda a criterio libre esta-blecer el uso del factor en sistemas de detecciónautomáticos de emociones.

    El método presentado para la elaboraciónde diccionarios emocionales se diferencia conrespecto a los diccionarios de términos afec-

    6. Conclusiones

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    15/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 45

    tivos conocidos principalmente por el hechode que no fue concebido para indicar el nivel o“fuerza” que tiene una palabra con respecto a

    una emoción —por ejemplo, qué tan positiva onegativa es una palabra—, sino que fue creadopara indicar una estimación de la frecuencia conque una palabra se usa con un sentido relacio-nado a una emoción. Además se provee un fac-tor de probabilidad de uso afectivo (FPA), el cualpotencialmente se puede emplear en una etapade un sistema automático de clasicación (redesneuronales, memorias asociativas, máquinasde soporte vectorial, etc.) como un elemento deponderación de afectividad y mejorar así la pre-

    cisión en el reconocimiento de categorías emo-cionales.

    La etapa de análisis de concordancia tienecomo nalidad dar un punto de referencia acer-ca de la calidad y validez de los términos selec-cionados; también sirve como método para ladepuración de los evaluadores. En este caso seutilizó el método de kappa ponderado propues-to por Cohen —adaptándolo para múltiples eva-luadores—, sin embargo existen otras métricas

    que pueden utilizarse con la misma nalidad.Es de mencionarse que existen algunas pa-

    labras que dependiendo de su contexto puedenrelacionarse con más de una emoción, por esarazón se trabajó de manera independiente paracada categoría emocional propuesta, de ahí quealgunas palabras existan en más de una catego-ría; se aclara que las palabras fueron evaluadasde manera independiente con respecto a su ca-tegoría emocional.

    Adicionalmente, las palabras propuestas noson todas las existentes para denotar emocio-nes, aunque aplicando el mismo método se pue-den agregar más. También es necesario conside-rar que aunque se trate de hispanoparlantes, elsentido de las palabras cambia de una región aotra, y palabras que en alguno de sus sentidospuedan reejar una emoción, en otra región es

    posible que no sea así, por lo que no se descartala idea de agregar una etiqueta donde se men-cione la región donde radiquen los evaluadores.

    Por último, este recurso es una alternativanueva y diferente a las utilizadas actualmen-te para resolver la identicación del contenidoemocional en textos, además incrementa los li-mitados recursos léxicos existentes para el espa-ñol en esta área, por lo que se pone a disposiciónde cualquier interesado el diccionario desde unsitio web3 o solicitándolo directamente a los au-tores por medio de sus cuentas de correo elec-trónico.

    3 http://www.cic.ipn.mx/~sidorov

    7. Bibliografía citadaBOLDRINI , Ester y otros, 2009: “EmotiBlog: an anno-tation scheme for emotion detection and analy-sis in non-traditional textual genres”, Procee-dings of the 2009 International Conference onData Mining , 491-497.

    COHEN , Jacob, 1960: “A coefcient of agreementfor nominal scales”, Educational and Psychologi-cal Measurement 20, 37-46.COHEN

     , Jacob, 1968: “Weighted kappa: nominalscale agreement with provision for scaled disa-greement or partial credit”, Psychological Bulle-tin 70, 213-220.

    CORTES , Édgar, 2008: Comparación en la estimacióndel VO2max a través de un monitor de frecuen-

    cia cardíaca Polar S810 y una prueba de esfuerzomaximal en banda sin fn según el protocolo deBalke, en deportistas universitarios entrenadosen resistencia aeróbica en la ciudad de Bogotá .Tesis de maestría en Epidemiología Clínica, Uni-

    versidad Nacional de Colombia.

    COWIE , Roddy y Randolph CORNELIUS , 2003: “Descri-bing the emotional states that are expressed inspeech”, Speech Communication Special Issueon Speech and Emotion 40, 5-32.

    EKMAN , Paul, 1972: “Universals and cultural diffe-

  • 8/19/2019 Creación y evaluación de un diccionario marcado con emociones y ponderado para el español

    16/16

    ONOMÁZEIN 29 (junio de 2014): 31 - 46Ismael Díaz, Grigori Sidorov y Sergio Suárez

    Creación y evaluación de un diccionario marcado con emociones y ponderado para el español 46

    rences in facial expressions of emotion”, Nebras-ka Symposium on Motivation 19, 207-283.

    ESULI , Andrea y Fabrizio SEBASTIANI , 2006: “Sen-tiWordNet: A Publicly Available Lexical Resourcefor Opinion Mining”, Fifth international confe-rence on Language Resources and Evaluation(LREC 2006) , 417-422.

    FLEISS , Joseph y Jacob COHEN , 1973: “The equiva-lence of weighted kappa and the intraclass co-rrelation coefcient as measures of reliability”,Educational and Psychological Measurement 33,613-619.

    GREENBERG , Leslie, 2000: Emociones: Una guía inter-na , Bilbao: Descleé De Brouwer.

    LANDIS , Richard y Gary KOCH , 1977: “The measu-rement of observer agreement for categoricaldata”, Biometrics 33, 159-174.

    MARTÍN , Tamara y otros, 2010: “Opinion PolarityDetection - Using Word Sense Disambiguationto Determine the Polarity of Opinions”, Procee-dings of the International Conference on Agents

    and Artifcial Intelligence (1) , 483-486.

    MOLINER , María, 1996: Diccionario de uso del espa-ñol , tercera edición, Madrid: Gredos.

    MORENO , Antonio y otros, 2010a: “Sentitext: siste-ma de análisis de sentimiento para el español”,Procesamiento del Lenguaje Natural 45, 297-298.MORENO , Antonio y otros, 2010b: “Análisis de Valo-raciones de Usuario de Hoteles con Sentitext: unsistema de análisis de sentimiento independien-te del dominio”, Procesamiento del Lenguaje Na-

    tural 45, 31-39.MORENO , Antonio y otros, 2011: “Domain-neutral,Linguistically-motivated Sentiment Analysis: aperformance evaluation”,  XXVII Congreso de laSociedad Española para el Procesamiento delLenguaje Natural , 361-369.

    MORENO , Antonio y Chantal PÉREZ , 2013: “Lexicon-Based Sentiment Analysis of Twitter Messages

    in Spanish”, Procesamiento del Lenguaje Natural50, 93-100.

    ORTONY , Andrew y Terence TURNER , 1990: “What'sbasic about basic emotions?”, Psychological Re-view 97, 315-331.

    REDONDO , Jaime y otros, 2007: “The Spanish adap-tation of ANEW (Affective Norms for EnglishWords)”, Behavior Research Methods 39, 600-605.

    RUSELL , James, 1980: “A circumplex model ofaffect”, Journal of Personality and Social Psycho-logy  39, 1161-1178.

    SCHERER , Klaus y Paul EKMAN , 1984: “On the Natureand Function of Emotion: A Component ProcessApproach” en  Approaches to emotion , HillsdaleNew Jersey: Lawrence Erlbaum Associates, 293-317.

    SMITH , Craig, 1989: “Dimensions of appraisal andphysiological response in emotion”,  Journal ofPersonality and Social Psychology  56 (3), 339-353.

    STONE , Phillip y otros, 1966: The General Inquirer: A

    Computer Approach to Content Analysis , OxfordEngland: The M.I.T. Press.

    STRAPPARAVA , Carlo y Alessandro VALITUTTI , 2004:“WordNet-Affect: an affective extension of word-net”, Proceedings of the 4th International Con-ference on Language Resources and Evaluation ,1083-1086.

    STRAPPARAVA , Carlo y Rada MIHALCEA , 2007: “SemE-val-2007 Task 14: Affective Text”, Proceedings ofthe 4th International Workshop on the Seman-

    tic Evaluations (SemEval 2007) , Praga, RepúblicaCheca.

    WUNDT , Wilhelm, 1896: Grundriss der Psychologie ,Leipzig, Alemania: Verlag von Wilhelm Engel-mann.