Magyar nyelvű szövegek emócióelemzésének
elméleti és nyelvtechnológiai problémái
SZABÓ MARTINA KATALIN1,2, VINCZE VERONIKA3,4, MORVAY
GERGELY1,5
1Precognox Informatikai kft. 2Szegedi Tudományegyetem, Orosz Filológiai Tanszék
[email protected]; [email protected]
3MTA-SZTE Mesterséges Intelligencia Kutatócsoport4Szegedi Tudományegyetem, Informatikai Tanszékcsoport
5ELTE BTK Elméleti Nyelvészet ELTE-MTA Kihelyezett
Tanszé[email protected]
Bevezető gondolatok
Korábbi előadásunkban (Szabó–Morvay 2015) már bemutattuk kutatócsoportunk egyik projektjét, amelynek célja: a magyar nyelvű szövegek automatikus emócióelemzésének hatékony megoldása
Nincs tudomásunk más hasonló, magyar nyelvi vonatkozású projektről. Okok:o a nyelvtechnológusok kis vagy kisebb jelentőséget
tulajdonítanak a az emócióknak, mint a szentimenteknek. Vö. központi szerep több tudományos diszciplínában, pl. viselkedéstudomány vagy pszichológia. A nyelvtechnológiában csupán az utóbbi időben találni publikációkat (vö. pl. Strapparava–Mihalcea 2008; Mulcrone 2012).
o az emócióelemzést a magyar nyelvre irányuló munkákban a szentimentelemzés feladatkörébe utalják, gyakran azonosítják is egymással (vö. pl. Pólya et al. 2015: 202).
Emóciók vs. szentimentek
Munkánk elméleti alapvetései:
o szentiment: bizonyos dolgok (személyek, helyek, tárgyak stb.), másképpen targetek vonatkozásában megfogalmazott nyelvi értékelés
o emóció: a valamely targettel kapcsolatos érzelem szövegszintű megnyilvánulása
Okok:
o Péter (1991: 46) megkülönböztetheti az értékelés emocionális (1a) és racionális (1b) típusait:
(1) a. a főnököm remek ember
b. a habbeton rossz hővezető
o A racionális típusban az érzelmek nem játszanak szerepet (vö. Szabó 2015)
o A két fogalom lényegi eltérései következtében automatikus kinyerésük is más-más haszonnal járhat
o Hatékony feldolgozásukhoz eltérő megoldásokat is alkalmaznunk kell bizonyos esetekben
A szentiment- és az emóciókifejezéseket, így a szentiment- és az emócióelemzés feladatát egymástól külön kezeljük
Az emócióelemzés
fontossága Az NLP-feladatok között az emócióelemzés fontos
szerepet tölthetne be. Ok:
az érzelmek olyan tényezőkre adott reakciók, amelyek fontosak számunkra boldogulásunk, jólétünk
szempontjából → szoros kapcsolatban állnak a szükségleteinkkel: arról a viszonyról szólnak, amely a szükségletek és azok kielégítése között áll fenn (vö. Симонов 1975; Ekman 2007).
az emóciótartalom kinyerése értékes információkat hozhat a felszínre
hasznosíthatóság különböző nyelvtechnológiai alkalmazásokban, pl. pszichológiai szempontú
szövegelemzés; vásárlóihangulat-mérés; gazdasági trendek azonosítása stb.
Az előadás apropója
Korábbi munkánk során: o létrehoztunk egy emóciószótárat, amelyben
az ún. emóciókifejezéseket rendszereztük
o létrehoztunk egy kézzel annotált emóciókorpuszt fejlesztési és tesztelési céllal
• Tapasztalatok: számos elméleti és nyelvtechnológiai dilemma és probléma (vö. Szabó–Morvay 2015)
• A jelen előadás célja: e problémák és kérdések tárgyalása, a lehetőségek feltérképezése
Az első nagy dilemma: mit is
keres az, aki emóciót keres a
szövegben I. Banczerowski (2005b: 71): “az érzelmek olyan
jelenségek, amelyeket nem lehet a nyelv segítségével, tehát szavakkal kifejezni. (...) A szavakban rögzíthetjük a gondolatainkat, de nem rögzíthetjük az érzelmeinket.”
Saját tapasztalataink is hasonlóak: a pszichológiában azonosított, jól elkülönülő érzelemtípusok a nyelvben nem képeződnek meg ugyanilyen jól elkülönülő, könnyen azonosítható módon. A szentimenteket, azaz az értelmi alapú értékelést könnyebb a szöveg szintjén megfelelően azonosítani, mint az érzelmeket.
Eszközök: szavak; többszavas kifejezések; körülírás, irónia, gúny, eufemizmus; központozás, emotikonok; diskurzusjelölők, hangutánzó és hangulatfestő szók…
A pragmatika kimagasló szerepe!
Az első nagy dilemma: mit is
keres az, aki emóciót keres a
szövegben II. A pszichológiában Ekman–Friesen (1969) és más
pszichológusok, pl. LeDoux 2000: 130–132: bizonyos emóciók az evolúció folyamatában fejlődtek ki → kultúrafüggetlen arckifejezések, gesztusok (vö. Banczerowski 2005a: 203) → kultúrafüggetlenazonosíthatóság, azaz “intuitíve érthetőek”
(Banczerowski 2005a: 203)
De! “a nyelvész számára az alapvető emóciók pszichológiai elmélete az inspiráció forrása lehet, de egyidejűleg komoly kétségeket is ébreszt” (Banczerowski 2005a: 203);
Wierzbicka (1999) alapján Banczerowski (2005a: 203): “az adott nyelv nevei által jelölt érzelmek kultúrafüggőek”, mivel a nyelv a kultúrközösség terméke.
Az eddig elvégzett munka I.
A szótár létrehozásának a menete:
o Affective Text
[http://www.cse.unt.edu/~rada/affectivete
xt/]
o Kézzel ellenőriztük, javítottuk és
kiegészítettük az automatikus fordítás
eredményét
o A munka során használt szótárak:
oMTA SZTAKI online szótár
oSzinonimaszotar.hu
oPoet szinonimaszótár
Az eddig elvégzett munka II.
Az osztályozás alapelvei:
otöbbszavas kifejezések is, pl.
(2) hogy a fene enné meg!
otág értelmezés: minden főnév, melléknév,
határozószó és ige, amely emóciót fejez
ki, vagy az emóció meglétére utalhat, pl.
(3) begurul; káromkodik; belepofázik
[DÜH]
o szleng is
Az eddig elvégzett munka III.
A kategóriarendszer kérdése:oAz emóciólexikon létrehozásának egyik
kardinális kérdése volt
o végül azt a hat alapérzelmet vettük alapul,
amelyek arckifejezéseit a kutatások alapján
kultúrafüggetlenül azonos módon produkálhatjuk
és egyformán azonosíthatjuk (vö. Ekman–
Friesen 1969): DÜH, FÉLELEM, UNDOR,
MEGLEPŐDÉS, ÖRÖM, BÁNAT
Az eddig elvégzett munka IV.
A PrecoEmo kézzel annotált emóciókorpusz:o cél: a szótár hatékonyságának a tesztelése, fejlesztése; egyéb kutatási és
fejlesztési célok
o anyaga: a 2014-es év folyamán keletkezett, tévés és mozis témájú blogoldalakrólszármazó, különböző terjedelmű és szerzőségű kritikák, hírek és kommentek
o mérete: jelenleg 15 987 mondat és 197 707 token
o az annotáló szoftver a Szegedi Tudományegyetem munkatársainak a fejlesztése
o amit annotáltunk:• az emóciót megfogalmazó teljes fragmentumot
• azon belül a konkrét emóciókifejezést
• az esetleges siftereket
• azokat a kifejezéseket, melyek valamely érzelem meglétére utalnak, de nem köthetőek egyértelműen egyik érzelemtípushoz sem (pl. wow!, azta!, bakker).
o A nyers szövegkorpuszból eddig 3911 mondatot és 45 955 tokent dolgoztunk fel.
A szótárak hatékonyságát kiértékeltük a korpuszon: A nyers szövegeken egyszerű szóillesztéses megoldással automatikusan azonosítottunk minden olyan emóciókifejezést, amelyet az emóciószótárunk tartalmazott.
Tapasztalatok, problémák I.
A szövegalapú emócióelemzésben számtalan kategorizálási
megoldással találkozni; pl. Nyomárkay (1975) az “érzelemmel
kombinált igéket” 13 típusba sorolja attól függően, hogy azok mely
“érzelmi színezettel” rendelkeznek.
A nemzetközi szakirodalomban is sokféle kategóriarendszert
találhatunk, melyekről a következő táblázat nyújt áttekintést.
Az általunk kiindulópontként használt kategóriarendszer jó átlagát
nyújtja a sokféle felosztásnak. A 6 kategória középen helyezkedik el
a 2-11 kategóriáig terjedő skálán, és a többi 13 kategória emóciói is
legalább 50%-ban megegyeznek valamelyik emócióval az Ekman–
Friesen-féle 6-ból.
Kiemeléssel azokat az emóciókategóriákat jelöltük, amelyek
megegyeznek azzal a két emócióval (FESZÜLTSÉG és VONZALOM),
melyekkel a későbbiekben egészítettük ki a kezdeti 6 kategóriánkat.
Az alapérzelmek a nemzetközi
szakirodalombanArnold (1960) Anger, aversion, courage,
dejection, desire,
despair, fear, hate, hope,
love, sadness
Mowrer (1960) Pain, pleasure
Oatley, Johnson-Laird
(1987)
Anger, disgust, anxiety,
happiness, sadness
Frijda (1986) Desire, happiness,
interest, surprise, wonder,
sorrow
Panksepp (1982) Expectancy, fear, rage,
panic
Gray (1982) Rage and terror, anxiety,
joyPlutchik (1980) Acceptance, anger,
anticipation, disgust, joy,
fear, sadness, surprise
Izard (1971) Anger, contempt, disgust,
distress, fear, guilt,
interest, joy, shame,
surprise
Tomkins (1984) Anger, interest, contempt,
disgust, distress, fear,
joy, shame, surprise
James (1884) Fear, grief, love, rage Watson (1930) Fear, love, rage
McDougall (1926) Anger, disgust, elation,
fear, subjection, tender-
emotion, wonder
Weiner , Graham
(1984)
Happiness, sadness
Az 1. szótár statisztikai adatai
Szótár Elemszám Százalékos megoszlás
ÖRÖM 695 39%
DÜH 401 22%
BÁNAT 299 17%
FÉLELEM 196 11%
UNDOR 127 7%
MEGLEPŐDÉS 80 4%
Összesen: 1798 100%
Tapasztalatok, problémák II.
Aránytalanságok: oaz ÖRÖM kifejezései a lexikon 39%-át teszik
ki, pontosan annyit, mint a BÁNAT, a FÉLELEM, az UNDOR és a MEGLEPŐDÉS együtt
oa BÁNAT az egyetlen emóció, ami arányosan (1:6 mértékben szerepel a lexikonban
oaz ÖRÖM, a DÜH és a MEGLEPŐDÉS
szélsőségesen felül-, illetve alulreprezentáltak
oFeltételezhető, hogy az aránytalanságok a kategóriarendszer problematikusságával is összefüggésbe hozhatóak (vö. pl. az UNDOR
és a MEGLEPŐDÉS kompaktsága az ÖRÖM
kategóriához képest)
Tapasztalatok, problémák III. Az annotálás tapasztalata: a hat emóciókategória nem fedi
le teljesen a szövegekben megjelenő érzelmek spektrumát; pl.
a, izgatottan toporog
b, zaklatottan kérdezte
HARAG? FÉLELEM? Más? → FESZÜLTSÉG
Vö. „anxiety” – Gray, Oatley, Johnson-Laird;
„distress” – Izard, Tomkis; „panic” – Pankstepp
c, nagyon bejön
d, nézte szerelmesen
ÖRÖM? Más? → VONZALOM
Vö. „love” – Arnold, James, Watson; „desire” – Arnold, Frijda; „pleasure” – Mowrer, „tender-emotion” –
McDougall
Ez utóbbi kategóriát abban a kutatási szakaszban még nem alkalmaztuk.
A munka következő
lépéseként… Immáron 8 kategóriával átdolgoztuk a teljes emóciólexikont.
A FESZÜLTSÉG kategória bevezetése főleg a DÜH és a BÁNAT kategóriákat érintette, míg a VONZALOM kategóriáé az ÖRÖM kifejezéseit.
Eredmények: az így létrejött lexikon már arányosabb képet mutat:
Szótár Elemszám Százalékos
megoszlás
ÖRÖM 558 30%
DÜH 336 18%
BÁNAT 279 15%
FÉLELEM 185 10%
FESZÜLTSÉG 140 8%
VONZALOM 137 8%
UNDOR 127 7%
MEGLEPŐDÉS 80 4%
Összesen: 1842 100%
A manuális korpusz
annotációjának javítása Az emóciólexikon revíziója után
újraannotáltuk a korpuszunk szövegeit, immár a nyolc emóciókategóriával.
A lexikonhoz hasonlóan az annotálás során is a VONZALOM főként az ÖRÖM emóció helyét vette át, míg a FESZÜLTSÉG a FÉLELEMmel és a DÜHvel volt közelebbi kapcsolatban.
Az újraannotálás folyamán o sok olyan új emóciókifejezést is jelölni tudtunk,
melyek az eddigi kategóriáink egyikébe sem fértek bele,
o de számos, korábban már annotált emóciókifejezést is átsoroltunk az új kategóriák valamelyikébe (pl. kaparom a falat, ideglelés, odáig van, szerelmes évődés)
A régi és az új annotált korpusz
statisztikai adatai
VONZALOM 0 260
DÜH 102 107
FESZÜLTSÉG 105 114
UNDOR 19 22
FÉLELEM 34 34
ÖRÖM 161 159
BÁNAT 120 129
MEGLEPETÉS 41 48
ÖSSZES: 582 873
Az annotált korpusz mintegy 300 elemmel bővült, ennek legnagyobb
része az új VONZALOM kategória elemei.
A VONZALOM ezzel a legnagyobb kategória lett, majdnem akkora, mint a
második és harmadik ÖRÖM és BÁNAT együtt.
A korpuszannotáció revíziójának
tanulságai A FESZÜLTSÉG kategória felvétele a
DÜH és a FÉLELEM kategóriák tisztább körvonalazását segítette.
A VONZALOM kategóriába pedig olyan elemek kerületek, amik eddig nem voltak annotálva.
Problémát jelentenek az indirekt kifejezések, illetve az emóciókategóriáinkkal ellentétes emóciók annotálása.
Az új szótárak eredményessége
az eredeti szótárakhoz képest
A korpusz
elemei Szótár 1.0 % Szótár 2.0 %
VONZALOM 220 0 0 36 16.36
DÜH 80 16 20 21 26.25
FESZÜLTSÉG 98 0 0 65 66.33
UNDOR 18 4 22.22 6 33.33
FÉLELEM 28 12 42.86 16 57.14
ÖRÖM 132 27 20.45 34 25.76
BÁNAT 119 32 26.89 36 30.25
MEGLEPETÉS 31 9 29.03 21 67.74
ÖSSZES: 726 100 161.45 235 323.16
A szótár revíziójának
tapasztalatai A szótár 1.0 a VONZALOM és a FESZÜLTSÉG
kategóriákat még nem tudta kezelni a szótár 2.0-val szemben
A szótár 2.0 mind a 8 emóciókategória esetében javulást mutat a szótár 1.0-hoz képest
A legjobb eredményt a régi szótár esetében a FÉLELEM kategóriában produkáltuk (42.86%), míg az új szótárban a MEGLEPETÉS (67,74%) és a FESZÜLTSÉG (66,33%) szerepelt a legjobban.
Érdekes, hogy a másik új kategória, a VONZALOM (16,36%) a legrosszabb eredményt produkálta.
A legjelentősebb javulást a MEGLEPETÉSkategória esetében értünk el (29.03% →
Összegzés, távlatok
Az emóciólexikon újraformálása egy dinamikusabb modell alapján, ami az emóciók intenzitását és egymáshoz való viszonyait is kezelni tudja (pl. dimenzionális modellek).
Korpuszalapú, esetleg doménfüggő szótárak fejlesztése a Precorpus nyolc domén szövegeiből álló eszköz segítségével
Az emócióshifterek kezelési kérdéseinek feltérképezése (szemantikai kompozíciós szabályok kialakítása és alkalmazása a pozíciós szabályszerűségek tükrében)
IRO
DA
LO
M
Banczerowski Janusz 2005a. A félelem tartományába tartozó negatív érzelmek konceptualizációjáról. Magyar Nyelvőr 129. évf., 2. sz. 202--208.
Banczerowski Janusz 2005b. A pozitív érzelmek konceptualizálásának néhány kérdése. Magyar Nyelvőr 129. évf., 1. sz. 71--77.LeDoux J. 2000. Mózgemocjonalny. Tajemnicze podstawy życia emocjonalnego, tłum. A. Jankowski, Poznań.
Ekman, P. 1972. Universals and Cultural Differences in Facial Expression of Emotion. In J. Cole ed. Nebraska Symposium on Motivation. Lincoln, Nebraska: University of Nebraska Press, 207-283.
Ekman, P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York: St. Martin's Griffin.
Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49–98.
Ekman, P.–Friesen, W. V.–Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotionin the human face. New York: Cambridge University Press. 39-55.
Frijda, N. H. 1986. The emotions. New York: Cambridge University Press.
Gray, J. A. 1985. The whole and its parts: Behaviour, the brain, cognition and emotion. Bulletin of the British Psychological Society 38. 99-112.
Izard, C. E. 1977. Human emotions. New York: Plenum Press
Jack, R.E.–Garrod, O.G.B.–Schyns, P.G. Dynamic Facial Expressions of Emotion Transmit an Evolving Hierarchy of Signals over Time. Current Biology 24, 2, 187-192.
James, W. 1884. What is an emotion? Mind 9, 188-205.
McDougall, W. 1926. An introduction to social psychology. Boston: Luce.
Mowrer, O. H. 1960. Learning theory and behavior. New York: Wiley.
Mulcrone, K. 2012. Detecting Emotion in Text. Elhangzott:UMM CSci Senior Seminar Conference. University of Minnesota, Morris. Morris, Amerikai Egyesült Államok. 2012. április 28. [https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf]
Nyomárkay István 1975. Érzelemmel kombinált érzékelést, észlelést, gondolkodást jelentő igék az összetett mondatokban. Magyar Nyelv LXXI. évf. 3. sz. 318--324.
Oatley, K.–Johnson-Laird, P. N. 1987. Towards a cognitive theory of emotions. Cognition & Emotion 1. 29-50.
Ortony, A.–Turner, T. J. 1990. What's basic about basic emotions? Psychological Review 97. 315-331.
Panksepp, J. 1982. Toward a general psychobiological theory of emotions. The Behavioral and Brain Sciences 5. 407-467.
Parrott, W. 2001. Emotions in Social Psychology. Psychology Press, Philadelphia.
Péter Mihály 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó
Plutchik, R. 1980. A general psychoevolutionary theory of emotion. In R. Plutchik & H. Kellerman Eds. Emotion: Theory, research, and experience: Vol. 1. Theories of emotion. New York: Academic. 3-33.
Pólya et al. 2015. A véleményváltozás azonosítása politikai témájú közösségi médiában megjelenő szövegekben. In Tanács A.–Varga V.–Vincze V. szerk. XI. Magyar Számítógépes Nyelvészeti Konferencia (MSZNY 2015). Szeged, Szegedi Tudományegyetem, 198–209.
Quan, C.–Ren, F. 2010. Sentence Emotion Analysis and Recognition Based on Emotion Words Using Ren-CECps, in International Journal of Advanced Intelligence, Volume 2, Number 1. AIA International Advanced Information Institute. 105-117.
Shaver, P.–Schwartz, J.–Kirson, D.–O'Connor, C. 2001. Emotional Knowledge: Further Exploration of a Prototype Approach. In G. Parrott Eds. Emotions inSocial Psychology: Essential Readings 26-56. Philadelphia, PA: Psychology Press.
Strapparava, C.–Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf]
Szabó M. K. 2015. A nyelvi értékelés mibenléte a számítógépes értékeléselemzés (szentimentelemzés) szempontjából. Nyelvészdoktoranduszok 18. Országos Konferenciája (LingDok). Publikálásra benyújtva
Szabó Martina Katalin–Morvay Gergely 2014. Emócióelemzés magyar nyelvű szövegeken. „Nyelv, kultúra, társadalom” című alkalmazott nyelvészeti konferencia. Megjelenés előtt
Tomkins, S. S. 1984. Affect theory. In K. R. Scherer–P. Ekman Eds. Approaches to emotion Hillsdale. NJ: Erlbaum. 163-195.
Watson, J. B. 1930. Behaviorism. Chicago: University of Chicago Press.
Weiner, B.–Graham, S. 1984. An attributional approach to emotional development. In C. E. Izard, J. Kagan–R. B. Zajonc Eds. Emotions, cognition, and behavior. New York: Cambridge University Press. 167-191.
Wierzbicka, A. 1999. Emotions across Languages and Cultures: Diversity and universals, Cambridge University Press, Cambridge, UK.