Click here to load reader

A verb-centered Sentiment Analysis for · PDF file a verb-centered sentiment analysis system for French. We build a French polarity lexicon resource, where we propose a new polarity

  • View
    4

  • Download
    0

Embed Size (px)

Text of A verb-centered Sentiment Analysis for · PDF file a verb-centered sentiment analysis system...

  • Institut für Computerlinguistik

    A verb-centered Sentiment Analysis for

    French

    Eine verb-zentrierte Sentimentanalyse für Französisch

    Masterarbeit der Philosophischen Fakultät der Universität

    Zürich im Studienfach Multilinguale Textanalyse

    Referent: Prof. Dr. M. Volk

    Betreuer: Dr. M. Klenner

    Verfasserin: Susanna Tron

    Matrikelnummer 07-428-741

    Dörflistrasse 107

    8050 Zürich

    November 11, 2013

  • Abstract

    Sentiment Analysis is a challenging domain of NLP in many aspects. Words and

    phrases need to be recognised and marked not only with regard to their grammatical

    and syntactic role, but also with regard to their polarity, which can be positive,

    negative or neutral. Furthermore, they cannot be considered in isolation, because

    they can be modified by other elements of the sentence, which include other polar

    words, prepositions, adverbs and, most importantly, verbs. The modelling of verbs

    has been omitted in many state-of-the-art systems and models, where the focus is

    often put on the noun phrase level. In this master project, we model and implement

    a verb-centered sentiment analysis system for French. We build a French polarity

    lexicon resource, where we propose a new polarity tag-set with fine-grained polarity

    labels, and where we specify the semantic behaviour of a selection of verbs. For the

    implementation of the system, we adopt a rule-based and compositional approach,

    where the focus is put on the role and function of verbs. We show how the inclusion

    of a verb-component increases our model’s performance, albeit not as significantly as

    we expected, due to its dependence on lexicon coverage and parser accuracy. Finally,

    we conduct a number of empirical analyses in order to build a theoretical model for

    the assessment of so-called polarity conflicts, in view of possible extensions of the

    present system.

  • Zusammenfassung

    Sentimentanalyse ist ein anspruchsvolles und sehr vielfältiges Gebiet der Compu-

    terlinguisitk. Wörter und Phrasen müssen nicht nur auf Hinblick ihrer grammati-

    kalischen und syntaktischen Funktion erkannt und markiert werden, sondern auch

    bezüglich ihrer Polarität. Diese kann entweder positiv, negativ oder neutral sein. Sol-

    che polaren Wörter können überdies nicht isoliert betrachtet werden, da sie von an-

    deren Satzelementen, wie zum Beispiel von weiteren polarenWörtern, Präpositionen,

    Adverbien, oder Verben umgeben und modifiziert werden können. Die Modellierung

    von Verben wird jedoch in vielen führenden Arbeiten nicht mit einbezogen: Der

    Schwerpunkt liegt meistens auf der Nominalphrasen-Ebene. In dieser Masterarbeit

    implementieren wir ein verb-zentriertes Sentimentanalyse-system für Französisch.

    Wir erstellen ein französisches Polaritätenlexikon, für das wir sowohl ein neues, fei-

    neres Polaritäten-Tagset vorschlagen als auch die polaren Rahmen einzelner Verben

    spezifizieren. Für die Implementierung des Systems wählen wir einen regelbasierten

    und auf dem Kompositionalitätsprinzip basierenden Ansatz, bei dem der Schwer-

    punkt auf die Rolle und Modellierung der Verben liegt. Wir zeigen wie das Einbinden

    der Verbkomponente zu einer Verbesserung unseres Systems führt. Diese ist aller-

    dings von einem kleineren Ausmass als erwartet, da die Leistung des Systems stark

    von der Lexikonabdeckung und der Präzision des Parsers abhängig ist. Schliesslich

    führen wir empirische Analysen durch, um ein theoretisches Modell zu erstellen, das

    im Hinblick auf mögliche Erweiterungen des aktuellen Systems der Verrechnung von

    sogenannten Polaritätskonflikten dienen soll.

  • Acknowledgements

    I would like to express my gratitude to all the people who helped and supported me

    during my Master project.

    First, I would like to thank Dr. Manfred Klenner for agreeing to supervise my

    thesis and for allowing me to carry it out in the context of a research project at

    the Institute of Computational Linguistics. I am grateful for his help and e↵orts to

    introduce me to the domain of Sentiment Analysis, which I was rather unfamiliar

    with at the beginning, and for the constructive and stimulating input he provided

    me with throughout the project. I would also like to thank Prof. Martin Volk, who

    encouraged me to take this daring step of carrying out my thesis in an unfamiliar

    domain and moreover for French, a language that has received less attention than

    others in the domain of NLP.

    I am indebted to the precious help and patience of Michi Amsler, who not only

    provided me with the basis of my system, but also spent many hours helping me

    with technical and practical issues. In this sense, I would also like to thank Nora

    Hollenstein, who also helped me in a number of technical matters. I am also very

    grateful to my friends Esther Germann and Franziska Tobler for proof-reading my

    thesis, and to Katrin Rettich for helping me with initial formatting problems.

    Last but not least, I would like to thank my family and friends for supporting

    me throughout my thesis. I would like to address special thanks to my companion,

    Max Michels, and to my father, Giorgio Tron, who always supported me during my

    studies. I would lastly like to dedicate this work to my late mother, Alda Muratore.

    iii

  • Contents

    Abstract i

    Acknowledgements iii

    Contents iv

    List of Figures vii

    List of Tables viii

    List of Acronyms ix

    1 Introduction 1

    1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 Research Questions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3 Thesis Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2 Related Work and Theoretical Background 6

    2.1 Related Work . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.1 Sentiment Analysis Lexicons . . . . . . . . . . . . . . . . . . . . 7

    2.1.2 The Compositionality Principle in Sentiment Analysis . . . . . 10

    2.1.2.1 Basic Models and Implementations . . . . . . . . . . . . . 10

    2.1.2.2 Compositional Models featuring Verb-Components . . . . . 12

    2.1.3 Negation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    2.2 Theoretical Background and Tools . . . . . . . . . . . . . . . . . . . . 19

    2.2.1 Dependency Grammar . . . . . . . . . . . . . . . . . . . . . . . 20

    2.2.2 The VISL CG-3 Tool . . . . . . . . . . . . . . . . . . . . . . . . 21

    3 Data and Resources 23

    3.1 Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.2 Polarity Lexicon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.2.1 Polarity Labels . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.2 Composing the French Polarity Lexicon . . . . . . . . . . . . . 28

    3.2.2.1 Source . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    iv

  • Contents

    3.2.2.2 Corrections . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.2.2.3 Annotation and Lexicon Format . . . . . . . . . . . . . . . 31

    3.2.2.4 Addenda . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.2.2.5 Total Numbers . . . . . . . . . . . . . . . . . . . . . . . . 33

    3.3 Verb-polarity Frame Resource . . . . . . . . . . . . . . . . . . . . . . 34

    3.3.1 The Concept Verb-polarity Frame . . . . . . . . . . . . . . . . . 34

    3.3.2 Extraction of Verbs . . . . . . . . . . . . . . . . . . . . . . . . . 36

    3.3.3 Specification Procedure . . . . . . . . . . . . . . . . . . . . . . 38

    4 The French Sentiment Analysis System 41

    4.1 Dependency Parsing and Conversion into VISL Format . . . . . . . . 41

    4.2 Prior Polarity Marker . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.2.1 Building VISL-readable Lemma Lists . . . . . . . . . . . . . . . 43

    4.2.2 Generating the Prior Polarity Marker . . . . . . . . . . . . . . . 44

    4.3 Sentiment Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    4.3.1 NP Shifter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4.3.1.1 Direct Dependency Relations . . . . . . . . . . . . . . . . . 46

    4.3.1.2 Indirect Dependency Relations . . . . . . . . . . . . . . . . 47

    4.3.1.3 Special Cases and a priori Disambiguations . . . . . . . . . 47

    4.3.2 Coordination and NP-PP Composition . . . . . . . . . . . . . . 48

    4.3.2.1 Coordination . . . . . . . . . . . . . . . . . . . . . . . . . 48

    4.3.2.2 NP and PP Composition . . . . . . . . . . . . . . . . . . . 49

    4.3.3 Verb Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    4.3.3.1 Verb Class Definitions: Frame-classes . . . . . . . . . . . . 51

    4.3.3.2 Syntactic Frames . . . . . . . . . . . . . . . . . . . . . . . 51

    4.3.3.3 Verb, E↵ect and Expectation Marking . . . . . . . . . . . 52

    4.3.3.4 Copula, NoAPriori, Intensifier and Diminisher Verbs . . . 52

    4.3.3.5 Non-default Cases . . . . . . . . . . . . . . . . . . . . . . . 54

    5 Evaluation 57

    5.1 Evaluation Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . .

Search related