25
Magyar nyelvű szövegek emócióelemzésének elméleti és nyelvtechnológiai problémái S ZABÓ M ARTINA K ATALIN 1,2 , V INCZE V ERONIKA 3,4 , M ORVAY G ERGELY 1,5 1 Precognox Informatikai kft. 2 Szegedi Tudományegyetem, Orosz Filológiai Tanszék [email protected]; [email protected] 3 MTA-SZTE Mesterséges Intelligencia Kutatócsoport 4 Szegedi Tudományegyetem, Informatikai Tanszékcsoport [email protected] 5 ELTE BTK Elméleti Nyelvészet ELTE-MTA Kihelyezett Tanszék [email protected]

Szabó - Vincze - Morvay: Magyar nyelvű szövegek emócióelemzésénekelméleti és nyelvtechnológiai problémái

Embed Size (px)

Citation preview

Magyar nyelvű szövegek emócióelemzésének

elméleti és nyelvtechnológiai problémái

SZABÓ MARTINA KATALIN1,2, VINCZE VERONIKA3,4, MORVAY

GERGELY1,5

1Precognox Informatikai kft. 2Szegedi Tudományegyetem, Orosz Filológiai Tanszék

[email protected]; [email protected]

3MTA-SZTE Mesterséges Intelligencia Kutatócsoport4Szegedi Tudományegyetem, Informatikai Tanszékcsoport

[email protected]

5ELTE BTK Elméleti Nyelvészet ELTE-MTA Kihelyezett

Tanszé[email protected]

Bevezető gondolatok

Korábbi előadásunkban (Szabó–Morvay 2015) már bemutattuk kutatócsoportunk egyik projektjét, amelynek célja: a magyar nyelvű szövegek automatikus emócióelemzésének hatékony megoldása

Nincs tudomásunk más hasonló, magyar nyelvi vonatkozású projektről. Okok:o a nyelvtechnológusok kis vagy kisebb jelentőséget

tulajdonítanak a az emócióknak, mint a szentimenteknek. Vö. központi szerep több tudományos diszciplínában, pl. viselkedéstudomány vagy pszichológia. A nyelvtechnológiában csupán az utóbbi időben találni publikációkat (vö. pl. Strapparava–Mihalcea 2008; Mulcrone 2012).

o az emócióelemzést a magyar nyelvre irányuló munkákban a szentimentelemzés feladatkörébe utalják, gyakran azonosítják is egymással (vö. pl. Pólya et al. 2015: 202).

Emóciók vs. szentimentek

Munkánk elméleti alapvetései:

o szentiment: bizonyos dolgok (személyek, helyek, tárgyak stb.), másképpen targetek vonatkozásában megfogalmazott nyelvi értékelés

o emóció: a valamely targettel kapcsolatos érzelem szövegszintű megnyilvánulása

Okok:

o Péter (1991: 46) megkülönböztetheti az értékelés emocionális (1a) és racionális (1b) típusait:

(1) a. a főnököm remek ember

b. a habbeton rossz hővezető

o A racionális típusban az érzelmek nem játszanak szerepet (vö. Szabó 2015)

o A két fogalom lényegi eltérései következtében automatikus kinyerésük is más-más haszonnal járhat

o Hatékony feldolgozásukhoz eltérő megoldásokat is alkalmaznunk kell bizonyos esetekben

A szentiment- és az emóciókifejezéseket, így a szentiment- és az emócióelemzés feladatát egymástól külön kezeljük

Az emócióelemzés

fontossága Az NLP-feladatok között az emócióelemzés fontos

szerepet tölthetne be. Ok:

az érzelmek olyan tényezőkre adott reakciók, amelyek fontosak számunkra boldogulásunk, jólétünk

szempontjából → szoros kapcsolatban állnak a szükségleteinkkel: arról a viszonyról szólnak, amely a szükségletek és azok kielégítése között áll fenn (vö. Симонов 1975; Ekman 2007).

az emóciótartalom kinyerése értékes információkat hozhat a felszínre

hasznosíthatóság különböző nyelvtechnológiai alkalmazásokban, pl. pszichológiai szempontú

szövegelemzés; vásárlóihangulat-mérés; gazdasági trendek azonosítása stb.

Az előadás apropója

Korábbi munkánk során: o létrehoztunk egy emóciószótárat, amelyben

az ún. emóciókifejezéseket rendszereztük

o létrehoztunk egy kézzel annotált emóciókorpuszt fejlesztési és tesztelési céllal

• Tapasztalatok: számos elméleti és nyelvtechnológiai dilemma és probléma (vö. Szabó–Morvay 2015)

• A jelen előadás célja: e problémák és kérdések tárgyalása, a lehetőségek feltérképezése

Az első nagy dilemma: mit is

keres az, aki emóciót keres a

szövegben I. Banczerowski (2005b: 71): “az érzelmek olyan

jelenségek, amelyeket nem lehet a nyelv segítségével, tehát szavakkal kifejezni. (...) A szavakban rögzíthetjük a gondolatainkat, de nem rögzíthetjük az érzelmeinket.”

Saját tapasztalataink is hasonlóak: a pszichológiában azonosított, jól elkülönülő érzelemtípusok a nyelvben nem képeződnek meg ugyanilyen jól elkülönülő, könnyen azonosítható módon. A szentimenteket, azaz az értelmi alapú értékelést könnyebb a szöveg szintjén megfelelően azonosítani, mint az érzelmeket.

Eszközök: szavak; többszavas kifejezések; körülírás, irónia, gúny, eufemizmus; központozás, emotikonok; diskurzusjelölők, hangutánzó és hangulatfestő szók…

A pragmatika kimagasló szerepe!

Az első nagy dilemma: mit is

keres az, aki emóciót keres a

szövegben II. A pszichológiában Ekman–Friesen (1969) és más

pszichológusok, pl. LeDoux 2000: 130–132: bizonyos emóciók az evolúció folyamatában fejlődtek ki → kultúrafüggetlen arckifejezések, gesztusok (vö. Banczerowski 2005a: 203) → kultúrafüggetlenazonosíthatóság, azaz “intuitíve érthetőek”

(Banczerowski 2005a: 203)

De! “a nyelvész számára az alapvető emóciók pszichológiai elmélete az inspiráció forrása lehet, de egyidejűleg komoly kétségeket is ébreszt” (Banczerowski 2005a: 203);

Wierzbicka (1999) alapján Banczerowski (2005a: 203): “az adott nyelv nevei által jelölt érzelmek kultúrafüggőek”, mivel a nyelv a kultúrközösség terméke.

Az eddig elvégzett munka I.

A szótár létrehozásának a menete:

o Affective Text

[http://www.cse.unt.edu/~rada/affectivete

xt/]

o Kézzel ellenőriztük, javítottuk és

kiegészítettük az automatikus fordítás

eredményét

o A munka során használt szótárak:

oMTA SZTAKI online szótár

oSzinonimaszotar.hu

oPoet szinonimaszótár

Az eddig elvégzett munka II.

Az osztályozás alapelvei:

otöbbszavas kifejezések is, pl.

(2) hogy a fene enné meg!

otág értelmezés: minden főnév, melléknév,

határozószó és ige, amely emóciót fejez

ki, vagy az emóció meglétére utalhat, pl.

(3) begurul; káromkodik; belepofázik

[DÜH]

o szleng is

Az eddig elvégzett munka III.

A kategóriarendszer kérdése:oAz emóciólexikon létrehozásának egyik

kardinális kérdése volt

o végül azt a hat alapérzelmet vettük alapul,

amelyek arckifejezéseit a kutatások alapján

kultúrafüggetlenül azonos módon produkálhatjuk

és egyformán azonosíthatjuk (vö. Ekman–

Friesen 1969): DÜH, FÉLELEM, UNDOR,

MEGLEPŐDÉS, ÖRÖM, BÁNAT

Az eddig elvégzett munka IV.

A PrecoEmo kézzel annotált emóciókorpusz:o cél: a szótár hatékonyságának a tesztelése, fejlesztése; egyéb kutatási és

fejlesztési célok

o anyaga: a 2014-es év folyamán keletkezett, tévés és mozis témájú blogoldalakrólszármazó, különböző terjedelmű és szerzőségű kritikák, hírek és kommentek

o mérete: jelenleg 15 987 mondat és 197 707 token

o az annotáló szoftver a Szegedi Tudományegyetem munkatársainak a fejlesztése

o amit annotáltunk:• az emóciót megfogalmazó teljes fragmentumot

• azon belül a konkrét emóciókifejezést

• az esetleges siftereket

• azokat a kifejezéseket, melyek valamely érzelem meglétére utalnak, de nem köthetőek egyértelműen egyik érzelemtípushoz sem (pl. wow!, azta!, bakker).

o A nyers szövegkorpuszból eddig 3911 mondatot és 45 955 tokent dolgoztunk fel.

A szótárak hatékonyságát kiértékeltük a korpuszon: A nyers szövegeken egyszerű szóillesztéses megoldással automatikusan azonosítottunk minden olyan emóciókifejezést, amelyet az emóciószótárunk tartalmazott.

Tapasztalatok, problémák I.

A szövegalapú emócióelemzésben számtalan kategorizálási

megoldással találkozni; pl. Nyomárkay (1975) az “érzelemmel

kombinált igéket” 13 típusba sorolja attól függően, hogy azok mely

“érzelmi színezettel” rendelkeznek.

A nemzetközi szakirodalomban is sokféle kategóriarendszert

találhatunk, melyekről a következő táblázat nyújt áttekintést.

Az általunk kiindulópontként használt kategóriarendszer jó átlagát

nyújtja a sokféle felosztásnak. A 6 kategória középen helyezkedik el

a 2-11 kategóriáig terjedő skálán, és a többi 13 kategória emóciói is

legalább 50%-ban megegyeznek valamelyik emócióval az Ekman–

Friesen-féle 6-ból.

Kiemeléssel azokat az emóciókategóriákat jelöltük, amelyek

megegyeznek azzal a két emócióval (FESZÜLTSÉG és VONZALOM),

melyekkel a későbbiekben egészítettük ki a kezdeti 6 kategóriánkat.

Az alapérzelmek a nemzetközi

szakirodalombanArnold (1960) Anger, aversion, courage,

dejection, desire,

despair, fear, hate, hope,

love, sadness

Mowrer (1960) Pain, pleasure

Oatley, Johnson-Laird

(1987)

Anger, disgust, anxiety,

happiness, sadness

Frijda (1986) Desire, happiness,

interest, surprise, wonder,

sorrow

Panksepp (1982) Expectancy, fear, rage,

panic

Gray (1982) Rage and terror, anxiety,

joyPlutchik (1980) Acceptance, anger,

anticipation, disgust, joy,

fear, sadness, surprise

Izard (1971) Anger, contempt, disgust,

distress, fear, guilt,

interest, joy, shame,

surprise

Tomkins (1984) Anger, interest, contempt,

disgust, distress, fear,

joy, shame, surprise

James (1884) Fear, grief, love, rage Watson (1930) Fear, love, rage

McDougall (1926) Anger, disgust, elation,

fear, subjection, tender-

emotion, wonder

Weiner , Graham

(1984)

Happiness, sadness

Az 1. szótár statisztikai adatai

Szótár Elemszám Százalékos megoszlás

ÖRÖM 695 39%

DÜH 401 22%

BÁNAT 299 17%

FÉLELEM 196 11%

UNDOR 127 7%

MEGLEPŐDÉS 80 4%

Összesen: 1798 100%

Tapasztalatok, problémák II.

Aránytalanságok: oaz ÖRÖM kifejezései a lexikon 39%-át teszik

ki, pontosan annyit, mint a BÁNAT, a FÉLELEM, az UNDOR és a MEGLEPŐDÉS együtt

oa BÁNAT az egyetlen emóció, ami arányosan (1:6 mértékben szerepel a lexikonban

oaz ÖRÖM, a DÜH és a MEGLEPŐDÉS

szélsőségesen felül-, illetve alulreprezentáltak

oFeltételezhető, hogy az aránytalanságok a kategóriarendszer problematikusságával is összefüggésbe hozhatóak (vö. pl. az UNDOR

és a MEGLEPŐDÉS kompaktsága az ÖRÖM

kategóriához képest)

Tapasztalatok, problémák III. Az annotálás tapasztalata: a hat emóciókategória nem fedi

le teljesen a szövegekben megjelenő érzelmek spektrumát; pl.

a, izgatottan toporog

b, zaklatottan kérdezte

HARAG? FÉLELEM? Más? → FESZÜLTSÉG

Vö. „anxiety” – Gray, Oatley, Johnson-Laird;

„distress” – Izard, Tomkis; „panic” – Pankstepp

c, nagyon bejön

d, nézte szerelmesen

ÖRÖM? Más? → VONZALOM

Vö. „love” – Arnold, James, Watson; „desire” – Arnold, Frijda; „pleasure” – Mowrer, „tender-emotion” –

McDougall

Ez utóbbi kategóriát abban a kutatási szakaszban még nem alkalmaztuk.

A munka következő

lépéseként… Immáron 8 kategóriával átdolgoztuk a teljes emóciólexikont.

A FESZÜLTSÉG kategória bevezetése főleg a DÜH és a BÁNAT kategóriákat érintette, míg a VONZALOM kategóriáé az ÖRÖM kifejezéseit.

Eredmények: az így létrejött lexikon már arányosabb képet mutat:

Szótár Elemszám Százalékos

megoszlás

ÖRÖM 558 30%

DÜH 336 18%

BÁNAT 279 15%

FÉLELEM 185 10%

FESZÜLTSÉG 140 8%

VONZALOM 137 8%

UNDOR 127 7%

MEGLEPŐDÉS 80 4%

Összesen: 1842 100%

A manuális korpusz

annotációjának javítása Az emóciólexikon revíziója után

újraannotáltuk a korpuszunk szövegeit, immár a nyolc emóciókategóriával.

A lexikonhoz hasonlóan az annotálás során is a VONZALOM főként az ÖRÖM emóció helyét vette át, míg a FESZÜLTSÉG a FÉLELEMmel és a DÜHvel volt közelebbi kapcsolatban.

Az újraannotálás folyamán o sok olyan új emóciókifejezést is jelölni tudtunk,

melyek az eddigi kategóriáink egyikébe sem fértek bele,

o de számos, korábban már annotált emóciókifejezést is átsoroltunk az új kategóriák valamelyikébe (pl. kaparom a falat, ideglelés, odáig van, szerelmes évődés)

A régi és az új annotált korpusz

statisztikai adatai

VONZALOM 0 260

DÜH 102 107

FESZÜLTSÉG 105 114

UNDOR 19 22

FÉLELEM 34 34

ÖRÖM 161 159

BÁNAT 120 129

MEGLEPETÉS 41 48

ÖSSZES: 582 873

Az annotált korpusz mintegy 300 elemmel bővült, ennek legnagyobb

része az új VONZALOM kategória elemei.

A VONZALOM ezzel a legnagyobb kategória lett, majdnem akkora, mint a

második és harmadik ÖRÖM és BÁNAT együtt.

A korpuszannotáció revíziójának

tanulságai A FESZÜLTSÉG kategória felvétele a

DÜH és a FÉLELEM kategóriák tisztább körvonalazását segítette.

A VONZALOM kategóriába pedig olyan elemek kerületek, amik eddig nem voltak annotálva.

Problémát jelentenek az indirekt kifejezések, illetve az emóciókategóriáinkkal ellentétes emóciók annotálása.

Az új szótárak eredményessége

az eredeti szótárakhoz képest

A korpusz

elemei Szótár 1.0 % Szótár 2.0 %

VONZALOM 220 0 0 36 16.36

DÜH 80 16 20 21 26.25

FESZÜLTSÉG 98 0 0 65 66.33

UNDOR 18 4 22.22 6 33.33

FÉLELEM 28 12 42.86 16 57.14

ÖRÖM 132 27 20.45 34 25.76

BÁNAT 119 32 26.89 36 30.25

MEGLEPETÉS 31 9 29.03 21 67.74

ÖSSZES: 726 100 161.45 235 323.16

A szótár revíziójának

tapasztalatai A szótár 1.0 a VONZALOM és a FESZÜLTSÉG

kategóriákat még nem tudta kezelni a szótár 2.0-val szemben

A szótár 2.0 mind a 8 emóciókategória esetében javulást mutat a szótár 1.0-hoz képest

A legjobb eredményt a régi szótár esetében a FÉLELEM kategóriában produkáltuk (42.86%), míg az új szótárban a MEGLEPETÉS (67,74%) és a FESZÜLTSÉG (66,33%) szerepelt a legjobban.

Érdekes, hogy a másik új kategória, a VONZALOM (16,36%) a legrosszabb eredményt produkálta.

A legjelentősebb javulást a MEGLEPETÉSkategória esetében értünk el (29.03% →

Összegzés, távlatok

Az emóciólexikon újraformálása egy dinamikusabb modell alapján, ami az emóciók intenzitását és egymáshoz való viszonyait is kezelni tudja (pl. dimenzionális modellek).

Korpuszalapú, esetleg doménfüggő szótárak fejlesztése a Precorpus nyolc domén szövegeiből álló eszköz segítségével

Az emócióshifterek kezelési kérdéseinek feltérképezése (szemantikai kompozíciós szabályok kialakítása és alkalmazása a pozíciós szabályszerűségek tükrében)

IRO

DA

LO

M

Banczerowski Janusz 2005a. A félelem tartományába tartozó negatív érzelmek konceptualizációjáról. Magyar Nyelvőr 129. évf., 2. sz. 202--208.

Banczerowski Janusz 2005b. A pozitív érzelmek konceptualizálásának néhány kérdése. Magyar Nyelvőr 129. évf., 1. sz. 71--77.LeDoux J. 2000. Mózgemocjonalny. Tajemnicze podstawy życia emocjonalnego, tłum. A. Jankowski, Poznań.

Ekman, P. 1972. Universals and Cultural Differences in Facial Expression of Emotion. In J. Cole ed. Nebraska Symposium on Motivation. Lincoln, Nebraska: University of Nebraska Press, 207-283.

Ekman, P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York: St. Martin's Griffin.

Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49–98.

Ekman, P.–Friesen, W. V.–Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotionin the human face. New York: Cambridge University Press. 39-55.

Frijda, N. H. 1986. The emotions. New York: Cambridge University Press.

Gray, J. A. 1985. The whole and its parts: Behaviour, the brain, cognition and emotion. Bulletin of the British Psychological Society 38. 99-112.

Izard, C. E. 1977. Human emotions. New York: Plenum Press

Jack, R.E.–Garrod, O.G.B.–Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, 187-192.

James, W. 1884. What is an emotion? Mind 9, 188-205.

McDougall, W. 1926. An introduction to social psychology. Boston: Luce.

Mowrer, O. H. 1960. Learning theory and behavior. New York: Wiley.

Mulcrone, K. 2012. Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok. 2012. április 28. [https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf]

Nyomárkay István 1975. Érzelemmel kombinált érzékelést, észlelést, gondolkodást jelentő igék az összetett mondatokban. Magyar Nyelv LXXI. évf. 3. sz. 318--324.

Oatley, K.–Johnson-Laird, P. N. 1987. Towards a cognitive theory of emotions. Cognition & Emotion 1. 29-50.

Ortony, A.–Turner, T. J. 1990. What's basic about basic emotions? Psychological Review 97. 315-331.

Panksepp, J. 1982. Toward a general psychobiological theory of emotions. The Behavioral and Brain Sciences 5. 407-467.

Parrott, W. 2001. Emotions in Social Psychology. Psychology Press, Philadelphia.

Péter Mihály 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó

Plutchik, R. 1980. A general psychoevolutionary theory of emotion. In R. Plutchik & H. Kellerman Eds. Emotion: Theory, research, and experience: Vol. 1. Theories of emotion. New York: Academic. 3-33.

Pólya et al. 2015. A véleményváltozás azonosítása politikai témájú közösségi médiában megjelenő szövegekben. In Tanács A.–Varga V.–Vincze V. szerk. XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). Szeged, Szegedi Tudományegyetem, 198–209.

Quan, C.–Ren, F. 2010. Sentence Emotion Analysis and Recognition Based on Emotion Words Using Ren-CECps, in International Journal of Advanced Intelligence, Volume 2, Number 1. AIA International Advanced Information Institute. 105-117.

Shaver, P.–Schwartz, J.–Kirson, D.–O'Connor, C. 2001. Emotional Knowledge: Further Exploration of a Prototype Approach. In G. Parrott Eds. Emotions inSocial Psychology: Essential Readings 26-56. Philadelphia, PA: Psychology Press.

Strapparava, C.–Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf]

Szabó M. K. 2015. A nyelvi értékelés mibenléte a számítógépes értékeléselemzés (szentimentelemzés) szempontjából. Nyelvészdoktoranduszok 18. Országos Konferenciája (LingDok). Publikálásra benyújtva

Szabó Martina Katalin–Morvay Gergely 2014. Emócióelemzés magyar nyelvű szövegeken. „Nyelv, kultúra, társadalom” című alkalmazott nyelvészeti konferencia. Megjelenés előtt

Tomkins, S. S. 1984. Affect theory. In K. R. Scherer–P. Ekman Eds. Approaches to emotion Hillsdale. NJ: Erlbaum. 163-195.

Watson, J. B. 1930. Behaviorism. Chicago: University of Chicago Press.

Weiner, B.–Graham, S. 1984. An attributional approach to emotional development. In C. E. Izard, J. Kagan–R. B. Zajonc Eds. Emotions, cognition, and behavior. New York: Cambridge University Press. 167-191.

Wierzbicka, A. 1999. Emotions across Languages and Cultures: Diversity and universals, Cambridge University Press, Cambridge, UK.

Köszönjük a figyelmet!Szabó Martina Katalin

[email protected];

[email protected]

Vincze [email protected]

Morvay [email protected]