115
UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS Faculdade de Computação e Engenharia Elétrica Bacharelado em Sistemas de Informação PRISCILLA DE SOUZA SILVA AVALIAÇÃO DO DESEMPENHO DE MÉTODOS DE ANÁLISE DE SENTIMENTOS NA PRESENÇA DAS FIGURAS DE LINGUAGEM SARCASMO E IRONIA Marabá 2016

PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

UNIVERSIDADE FEDERAL DO SUL E SUDESTE DO PARÁ

INSTITUTO DE GEOCIÊNCIAS E ENGENHARIAS

Faculdade de Computação e Engenharia Elétrica

Bacharelado em Sistemas de Informação

PRISCILLA DE SOUZA SILVA

AVALIAÇÃO DO DESEMPENHO DE MÉTODOS DEANÁLISE DE SENTIMENTOS NA PRESENÇA DASFIGURAS DE LINGUAGEM SARCASMO E IRONIA

Marabá2016

Page 2: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

PRISCILLA DE SOUZA SILVA

AVALIAÇÃO DO DESEMPENHO DE MÉTODOS DEANÁLISE DE SENTIMENTOS NA PRESENÇA DASFIGURAS DE LINGUAGEM SARCASMO E IRONIA

Trabalho de Conclusão de Curso, apresentadoà Universidade Federal do Sul e Sudeste doPará, como parte dos requisitos necessáriospara obtenção do Título de Bacharel em Sis-temas de Informação

Orientador: Prof. José SantosCoorientador: Profª. Drª. Leila Weitzel Coe-lho da Silva

Marabá2016

Page 3: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Dados Internacionais de Catalogação-na-Publicação (CIP)

Biblioteca Josineide da Silva Tavares da UNIFESSPA. Marabá,PA

Silva, Priscilla de Souza

Avaliação do desempenho de métodos de análise de

sentimentos na presença das figuras de linguagem sarcasmo

e ironia / Priscilla de Souza Silva; orientador, José Santos,

coorientadora, Leila Weitzel Coelho da Silva. — 2016.

Trabalho de Conclusão de Curso (Graduação) - Universidade

Federal do Sul e Sudeste do Pará, Campus Universitário de

Marabá, Instituto de Geociências e Engenharias, Faculdade de

Educação e Engenharia Elétrica, Curso Bacharelado em

Sistemas de Informação, Marabá, 2016.

1. Mineração de dados (Computação). 2. Mineração de uso da

Web. 3. Mídia social. 4. Conteúdo gerado pelo usuário. 5. Ironia.

I. Santos, José, orient. II. Título.

CDD: 22. ed.: 006.312

Page 4: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão
Page 5: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Dedico este trabalho a minha família,

Aos mestres, amigos e colegas de trabalho.

Page 6: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Agradecimentos

Agradeço primeiramente a Deus, por me dar forças para enfrentar os desafios davida. Agradeço a ele pelas inúmeras bençãos recebidas, dentre essas o diploma de Bacharelem Sistemas de Informação.

A minha família por todo amor gratuito e sem reservas. Em especial aos meuspais (Jodimar e Juvenilda) que sempre batalharam com afinco para me proporcionar aoportunidade de crescer espiritualmente e profissionalmente. E a minha irmã Mikaelhypelo companheirismo silencioso.

Agradeço especialmente ao professor Haroldo Gomes Barroso Filho, por acreditare confiar no meu trabalho, me incentivando a buscar e conquistar meu espaço no meioacadêmico. E pela credibilidade ao me convidar para o grupo de pesquisa DataLab. Alémdo esforço empregado na publicação de trabalhos em eventos da área de Data Mining.

Ao professor José Santos orientador deste trabalho, pela paciência, atenção, presta-tividade e por sempre me encorajar a buscar meus projetos de vida.

A professora Leila Weitzel, pela confiança de me entregar está magnifica pesquisa,e pelo apoio durante o desenvolvimento da mesma.

Ao professor Warley Junior, por me ensinar que sempre podemos correr atrás domelhor de nós. E por sua benevolência para comigo. Um profissional comprometido com adisseminação do conhecimento e do aprendizado.

A equipe do Centro de Tecnologia da Informação e Comunicação (CTIC) daUniversidade Federal do Sul e Sudeste do Pará, coordenada pelo Análista Hugo Pereira Ku-ribayashi. Em especial á equipe da Divisão de Redes (DIRSI), dirigida pelo analistaIdelvandro, e composta pelos analistas e técnicos - Nielsen, Fábio, Edney, Regivaldo eKennedy. Foi através destes profissionais que aprendi lições para o enriquecimento daminha vida profissional e pessoal.

A todos os meus colegas de turma com os quais partilhei bons momentos duranteos quatro anos de curso. Em especial aos grandes amigos que conquistei nesta jornada,Dilcielly Ribeiro, Ítalo Giovanni e Anderson Reis.

Por fim e não menos importante, gostaria de agradecer a todos os professoresda Faculdade de Computação e Engenharia Elétrica da UNIFESSPA, com os quais tivea honra de aprender um pouco mais, bem como a todos os colaboradores que foramfundamentais a minha formação acadêmica.

A todos meu sincero obrigado!

Page 7: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

“O verdadeiro perigo não está no fato de que má-quinas começarão a pensar como homens, masque homens começarão a pensar como máqui-nas.”

(Sydney J. Harris)

Page 8: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Resumo

Análise de Sentimentos é uma área de estudo em expansão, aplicada a inúmeros ambientes(financeiro, político, acadêmico, empresarial ou de comunicação), cujo propósito é buscarmensagens publicadas nas mídias sociais, e através destas identificar e classificar aopinião das pessoas sobre determinado item como positivo ou negativo. Classificar osentimento expresso em mensagens opinativas é uma tarefa tão importante que, atualmenteempresas investem muito dinheiro na coleta deste tipo de informação e na elaboração demétodos e técnicas capazes de classificar o sentimento que estas expressam, para utilizaros resultados como informação útil na elaboração de estratégias de marketing e vendasde forma eficiente, ou pelo setor acadêmico para descobrir fatores relevantes à sociedade.Atualmente muitos destes métodos passaram a ser desenvolvidos e implementados emdiversos tipos de aplicações e ferramentas que realizam a análise de sentimentos emmensagens compartilhadas nas redes sociais. No entanto, muitos destes métodos, vemsendo empregados sem um entendimento concreto da sua aplicabilidade em diferentescontextos, suas vantagens, limitações e eficiência comparado aos demais métodos. Dentreestes contextos, encontra-se um dos grandes problemas enfrentando pela Análise deSentimentos, que é a dificuldade dos métodos em analisar corretamente mensagens comteor sarcástico e/ou irônico, já que estes fenômenos linguísticos possuem a característicade transformar a polaridade ou significado de um enunciado positivo ou negativo em seuoposto. Neste contexto a presente pesquisa buscou avaliar e comparar quantitativamente odesempenho de diferentes métodos de Análise de Sentimentos existentes na literatura aoclassificarem a polaridade de mensagens com teor sarcastico.

Palavras-chave: Análise de Sentimentos. Sarcasmo. Inversão de Polaridade.

Page 9: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Abstract

Sentiment analysis is a study area expanding, applied to numerous environments (financial,political, academic, business or and communication), whose purpose is to search formessages posted on social media, and through these to identify and classify people’sopinions about particular item as positive or negative. Classify the sentiment expressedin opinionated messages is such an important task that currently companies invest a lotof money in collecting this type of information and the development of methods andtechniques to classify the feeling that they express, to use the results as useful informationin preparation marketing and sales strategies efficiently, or the academic sector to discoverrelevant factors society. Currently many of these methods began to be developed andimplemented in various types of applications and tools that perform sentiment analysis onshared messages on social networks. However, many of these methods are being used indeveloping applications without a concrete understanding of its applicability in differentcontexts, its advantages, limitations and efficiency compared to other methods. Amongthese contexts, is one of the major problems facing the sentiment analisys, which is thedifficulty of methods to properly analyze messages with content sarcastic or ironic, sincethese linguistic phenomena have the characteristic of transforming the polarity or meaninga positive or negative statement into its opposite. In this context the present study soughtto evaluate and compare quantitatively the performance of different methods existing inthe literature to classify the polarity messages with the presence of sarcasm.

Keywords: Sentiment Analysis. Sarcasm. Reversal of Polarity.

Page 10: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Lista de ilustrações

Figura 1 – Tweet sarcástico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17Figura 2 – Etapas comuns da Análise de Sentimentos. . . . . . . . . . . . . . . . . 26Figura 3 – Sentiment140 ferramenta de Análise de Sentimentos. . . . . . . . . . . 29Figura 4 – Léxico de sentimentos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 35Figura 5 – Hiperplano ótimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41Figura 6 – Termos que compõem a escala PANAS. . . . . . . . . . . . . . . . . . . 42Figura 7 – Variações de emoticons. . . . . . . . . . . . . . . . . . . . . . . . . . . 47Figura 8 – Etapas de realização da metodologia proposta. . . . . . . . . . . . . . . 57Figura 9 – Ferramenta SOMtool. . . . . . . . . . . . . . . . . . . . . . . . . . . . 59Figura 10 – Arquitetura do sistema Web iFeel. . . . . . . . . . . . . . . . . . . . . 60Figura 11 – Página principal do iFeel 2.0. . . . . . . . . . . . . . . . . . . . . . . . 61Figura 12 – Filtro StringToWordVector. . . . . . . . . . . . . . . . . . . . . . . . . 63Figura 13 – Exemplo de arquivo gerado pelo iFeel 2.0. . . . . . . . . . . . . . . . . 70Figura 14 – Trecho de um arquivo ARFF. . . . . . . . . . . . . . . . . . . . . . . . 71Figura 15 – Vetor de Palavaras do corpus B. . . . . . . . . . . . . . . . . . . . . . . 73Figura 16 – Exemplo de matriz de confusão Multiclasse 3x3. . . . . . . . . . . . . . 75Figura 17 – Exemplo de como calcular as métricas de avaliação. . . . . . . . . . . . 78Figura 18 – Comparação dos resultados do teste com hashtags (tweets Positivos). . 82Figura 19 – Comparação dos resultados do teste sem hashtags (tweets Positivos). . 83Figura 20 – Comparação dos resultados do teste com hashtags (tweets Negativos). . 85Figura 21 – Comparação dos resultados do teste sem hashtags (tweets Negativos). . 85Figura 22 – Comparação dos resultados do teste com hashtags (tweets neutros). . . 87Figura 23 – Comparação dos resultados do teste sem hashtags (tweets neutros). . . 87Figura 24 – Resultados obtidos pelo algoritmo SVM. . . . . . . . . . . . . . . . . . 89Figura 25 – Comparação de desempenho entre os métodos. . . . . . . . . . . . . . . 90Figura 26 – Acurácia do experimento com hashtags. . . . . . . . . . . . . . . . . . 91Figura 27 – Acurácia do experimento sem hashtags. . . . . . . . . . . . . . . . . . . 92Figura 28 – Matriz do método SentiWordNet (com#). . . . . . . . . . . . . . . . . 97Figura 29 – Matriz do método PANAS-t (com#). . . . . . . . . . . . . . . . . . . . 97Figura 30 – Matriz do método Sentistrenght (com#). . . . . . . . . . . . . . . . . . 98Figura 31 – Matriz do método Emolex (com#). . . . . . . . . . . . . . . . . . . . . 98Figura 32 – Matriz do método NRChashtag (com#). . . . . . . . . . . . . . . . . . 99Figura 33 – Matriz do método Opinion Lexicon (com#). . . . . . . . . . . . . . . . 99Figura 34 – Matriz do método Pattern.en (com#). . . . . . . . . . . . . . . . . . . 100Figura 35 – Matriz do método AFINN (com#). . . . . . . . . . . . . . . . . . . . . 101Figura 36 – Matriz do método Vader (com#). . . . . . . . . . . . . . . . . . . . . . 101

Page 11: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Figura 37 – Matriz do método Sentiment140 (com#). . . . . . . . . . . . . . . . . . 102Figura 38 – Matriz do método Combined Method (com#). . . . . . . . . . . . . . . 103Figura 39 – Matriz do método SentiWordNet (sem#). . . . . . . . . . . . . . . . . 104Figura 40 – Matriz do método PANAS-t (sem#). . . . . . . . . . . . . . . . . . . . 104Figura 41 – Matriz do método Sentistrenght (sem#). . . . . . . . . . . . . . . . . . 105Figura 42 – Matriz do método Emolex (sem#). . . . . . . . . . . . . . . . . . . . . 105Figura 43 – Matriz do método NRChashtag (sem#). . . . . . . . . . . . . . . . . . 106Figura 44 – Matriz do método Opinion Lexicon (sem#). . . . . . . . . . . . . . . . 106Figura 45 – Matriz do método AFINN (sem#). . . . . . . . . . . . . . . . . . . . . 107Figura 46 – Matriz do método Vader (sem#). . . . . . . . . . . . . . . . . . . . . . 107Figura 47 – Matriz do método Sentiment140 (sem#). . . . . . . . . . . . . . . . . . 108Figura 48 – Matriz do método Combined Method (sem#). . . . . . . . . . . . . . . 108Figura 49 – Matriz do método Pattern.en (sem#). . . . . . . . . . . . . . . . . . . 109

Page 12: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Lista de tabelas

Tabela 1 – Exemplo de uma entrada de classificador com vetor binário de termos. 39Tabela 2 – Termos removidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Tabela 3 – Distribuição dos tweets rotulados manualmente. . . . . . . . . . . . . . 67Tabela 4 – Exemplos de Tweets Rotulados Manualmente. . . . . . . . . . . . . . . 67Tabela 5 – Classificação dos tweets Positivos para o teste com hashtags. . . . . . . 81Tabela 6 – Classificação dos tweets Positivos para o teste sem hashtags. . . . . . . 81Tabela 7 – Classificação dos tweets Negativos para o teste com hashtags. . . . . . 84Tabela 8 – Classificação dos tweets Negativos para o teste sem hashtags. . . . . . 84Tabela 9 – Classificação dos tweets Neutros para o teste com hashtags. . . . . . . 86Tabela 10 – Classificação dos tweets Neutros para o teste semhashtags. . . . . . . . 86

Page 13: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Lista de abreviaturas e siglas

AMT Amazon Mechanical Turk Service

ANEW Affective Norms for English Words

ARFF Attribute Relation File Format

AS Análise de Sentimentos

Cosine Similarity CS

DAL Dictionary of Affective Language

DLA Dicionário de Língua Afetiva

IBM International Business Machines

LIWC Linguistic Inquiry and Word Count

MO Mineração de Opinião

MSE Mean Squared Error

PLN Processamento de Linguagem Natural

POS Part-of-Speech

SWN SentiWordNet

TI Tecnologia da Informação

WEKA Waikato Environment for Knowledge Analysis

Page 14: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

Sumário

1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.1 Motivação e Justificativa . . . . . . . . . . . . . . . . . . . . . . . . 171.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3 Estrutura do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Ambiente da Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 212.1 Análise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . . . 212.1.1 Terminologias e Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1.2 Níveis da Análise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . 252.1.3 Etapas da Análise de Sentimentos . . . . . . . . . . . . . . . . . . . . . 262.1.3.1 Recuperação dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.3.2 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1.3.3 Sumarização dos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2 Figuras de Linguagem . . . . . . . . . . . . . . . . . . . . . . . . . . 292.2.1 Sarcasmo e Ironia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Métodos e Técnicas Utilizados na Análise de Sentimentos . . 343.1 Polaridade Baseada em Dicionário Léxico de Sentimentos . . . 343.1.1 SentiWordNet (SWN) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.2 Polaridade Baseada em Aprendizado de Máquina . . . . . . . . . 373.2.1 Aprendizado Supervisionado e Não Supervisionado . . . . . . . . . . . . 393.2.1.1 Support Vector Machine (SVM) . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.3 Outros Métodos e Técnicas . . . . . . . . . . . . . . . . . . . . . . . 413.3.1 PANAS-t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.3.2 EmoLex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.3.3 NRC Hashtag Sentiment Lexicon . . . . . . . . . . . . . . . . . . . . . . 433.3.4 Opinion Lexicon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.3.5 Opinion Finder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.3.6 VADER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3.7 Sentiment140-Lexicon . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3.8 LIWC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.9 SentiStrength . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.10 Emoticons . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.11 Happiness Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.12 Combined Method . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.3.13 Emoticon Distant Supervisor . . . . . . . . . . . . . . . . . . . . . . . . 48

Page 15: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

3.3.14 AFINN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.3.15 Pattern.en . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.1 Maynard; Greenwood (2014) . . . . . . . . . . . . . . . . . . . . . . 51

4.1.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Gonçalves et. (2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3 Hernandez Farías et al.(2015) . . . . . . . . . . . . . . . . . . . . . 54

4.3.1 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 Metodologia da Pesquisa . . . . . . . . . . . . . . . . . . . . . . 56

5.1 Ferramentas Utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.1.1 SOMtool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.1.2 iFeel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.1.3 WEKA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2 Coleta dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.3 Pré-processamentos dos Dados . . . . . . . . . . . . . . . . . . . . 65

5.4 Classificação Manual dos Dados . . . . . . . . . . . . . . . . . . . . 66

5.5 Experimentos Realizados . . . . . . . . . . . . . . . . . . . . . . . . 67

5.5.1 Experimentos Usando os Métodos do iFeel . . . . . . . . . . . . . . . . 68

5.5.2 Experimentos Usando o Algoritmo SVM . . . . . . . . . . . . . . . . . . 70

5.6 Métricas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.6.1 Precisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6.2 Revocação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.6.3 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.6.4 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.1 Resultados dos Métodos do iFeel . . . . . . . . . . . . . . . . . . . 80

6.2 Resultados do Algoritmo SVM . . . . . . . . . . . . . . . . . . . . 88

6.3 Comparação de Desempenho entre os Métodos . . . . . . . . . . 90

7 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . 93

Referências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

APÊNDICES 96102

Page 16: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

15

1 Introdução

Com advento da Web e, o progressivo uso de canais online (tais como, redes sociais,blogs, sites de relacionamento, jornais online, fóruns, sites de recomendações e ferramentascomerciais online que permitem aos usuários registrarem suas opiniões sobre produtos eserviços) nos quais os usuários trocam informações e compartilham seus conhecimentos,críticas, opiniões e sentimentos sobre algum tópico de interesse, fez com que na últimadécada a quantidade de informação textual escrita em linguagem natural1 atingisseproporções gigantescas. Conforme Cambria et al. (2013), extrair e processar de modoadequado toda esta montanha de informação tornou-se algo extremamente interessantepara o mundo dos negócios, pois através destes dados empresas podem obter um feedback2

contínuo e mais rápido sobre a opinião do seu público acerca de seus produtos e marca. Omeio acadêmico por sua vez é um dos grandes responsáveis pelo desenvolvimento dasferramentas e métodos para tratar esses dados.

Entretanto, apesar da relevância desse tipo de informação, coletar e analisar opiniõesadvindas da Web tornou-se uma tarefa impraticável pelo ser humano em tempo hábil,devido a grande quantidade de dado textual publicado. Então para tratar e analisarautomaticamente as opiniões e sentimentos expressos nesse tipo de dado, surgiu uma áreadenominada Análise de Sentimentos (AS) também chamada de Mineração de Opinião(LIU, 2010a).

A análise de sentimentos segundo Benevenuto, Ribeiro e Araújo (2015), é uma áreade estudo que emprega processamento computacional para definir técnicas automáticascapazes de extrair informações subjetivas de textos em linguagem natural, como opiniões esentimentos, a fim de criar conhecimento estruturado que possa ser utilizado por um sistemade apoio ou tomador de decisão. Basicamente estas técnicas identificam o sentimento queos usuários apresentam a respeito de alguma entidade de interesse (um produto específico,uma empresa, um lugar, uma pessoa, dentre outros) baseando-se nos textos compartilhadosna Web, permitindo que um usuário obtenha um relatório contendo o que as pessoascomentam sobre algum item, sem que seja preciso buscar e ler todas as opiniões e notíciasa respeito manualmente.

Atualmente empresas como a Walmart, MCDonalds e IBM, estão investindo emgrupos de pesquisa em análise de sentimentos, pois perceberam o valor das opiniõesexpressas nas mídias sociais e o quanto estas opiniões podem afetá-las de maneira positivaou negativa (CHEN; ZIMBRA, 2010). Outros setores emergentes interessados nesses dadossão: a política para manter seus membros informados sobre a opinião publica em relação1 É a linguagem escrita utilizada pelo ser humano para se comunicar através de simbolos específicos.2 Em português significa retorno.

Page 17: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

16

as suas ações; famosos que acompanham seu nível de popularidade entre os internautas;produtoras interessadas em saber sobre a aceitação dos filmes que produziram, entre outrossetores.

Dentre as distintas fontes de dados utilizadas pela AS, as redes sociais representamo ambiente mais propício para identificar opiniões e sentimentos sobre diferentes entidades,visto que são locais onde as pessoas discutem sobre tudo expressando opiniões políticas,religiosas ou mesmo sobre marcas, produtos e serviços. Além de que estas opiniões quandodevidamente recolhidas e analisadas, permitem não só compreender e explicar diversosfenômenos sociais complexos, mas também prevê-los.

No entanto, apesar da Web e principalmente das redes sociais facilitarem o acesso edistribuição de informação opinativa, a tarefa de identificar, classificar e sumarizar opiniõesde dados no formato de texto, não é algo trivial e possui diversos desafios, os quais induzemà inconsistências dos resultados gerados pelas aplicações de análise de sentimentos. Demodo geral, estes desafios são relacionados à dificuldade que os computadores têm emprocessar automaticamente a linguagem natural (humana). O processamento de automaçãoda linguagem humana tem seus princípios na área de estudo denominada Processamento deLinguagem Natura (PLN). Esta área relaciona-se diretamente com a AS, pois compartilhamo estudo de dados não estruturado3(LIU; HOGAN; CROWLEY, 2011).

A linguagem natural por sua vez, é um assunto um tanto quanto complexo prin-cipalmente quando se trata de redes sociais, pois é aonde há muitas nuances em umamensagem de texto. Esta complexidade se deve á desafios que são fatores próprios dalinguagem humana, tais como palavras e/ou frases com significados ambíguos, sarcasmo eironia, gírias, erros ortográficos, regionalismo, dialetos, entre outros.

Mediante estes desafios, é importante considerar que os estudos sobre detecção eclassificação automática de sarcasmo e/ou ironia ainda se encontram no seu início. Noentanto, a dificuldade de analisá-los é alta já que possuem a capacidade de transformar apolaridade de um enunciado positivo ou negativo em seu oposto ou alterar o significadodeste (GONZÁLEZ-IBANÉZ; MURESAN; WACHOLDER, 2011). Para isto, estes que sãocaracterizados como figuras de linguagem, utilizam-se de várias técnicas linguísticas comosimples jogos de palavras, que tem a capacidade de minar a eficiência das aplicações deanálise sentimentos (LUNANDO; PURWARINTI, 2013).

Para exemplificar a complexidade envolvida, a Figura 1 apresenta um tweet contendouma mensagem com teor sarcástico.

3 São dados oriundos da Web que se encontram no formato de textos não estruturados.

Page 18: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

17

Figura 1 – Tweet sarcástico.

Fonte: Extraido de www.twitter.com.br.

Na mensagem apresentada acima, o autor expressa através da figura de linguagem“sarcasmo” seu descontentamento com o desempenho da empresa Google, pois segundo ele aempresa tende a agir mais de maneira negativa do que positiva. Uma análise computacionalque interpretasse unicamente a mensagem e seus adjetivos (no caso destetweet a palavra“obrigado”) poderia entender isto como uma informação positiva para a empresa, gerandoassim relatórios com falsos positivos, e não sendo uma solução adequada para o contexto.

Assim, o reconhecimento e tratamento do sarcasmo e/ou ironia são de extrema im-portância para a melhoria da performance de métodos, algoritmos e técnicas que compõemos sistemas utilizados para a classificação ou detecção de polaridade em mensagens comopinião, disponíveis em grande quantidade na Web (KALAMKAR; PHAKATKAR, 2013).

1.1 Motivação e Justificativa

Atualmente, diversos estudos científicos na computação e em outras áreas doconhecimento, como por exemplo, a Linguística (CHEANG; PELL; 2011), tem voltandoseus esforços para a caracterização, detecção e classificação de sarcasmo e ironia em diálogosinformais compartilhados na Web.

Os autores (BUSCHMEIER; CIMIANO; KLINGER, 2014), por exemplo, apre-sentaram uma análise dos recursos aplicados na detecção de ironia, em um conjunto dedados a partir de produtos avaliados em comentários no site da Amazon.com4. Vealee Hao (2010), apontaram uma abordagem linguística para separar expressões irônicas deexpressões figurativas não irônicas, comparando mais de um corpus5 de smiles colhidos naWeb.

Em Reyes, Rosso e Veale (2013), o problema da detecção de ironia é abordadoexclusivamente para mensagens compartilhas no Twitter, onde um conjunto de caracterís-ticas textuais é usado para reconhecer ironia a nível linguístico. Já em Riloff et al. (2013),o foco está em identificar os tweets sarcásticos que expressam um sentimento positivoem direção a uma situação negativa. Um modelo para classificar os tweets sarcásticos,4 www.amazon.com.br5 Coleção de dados não estruturados, utilizados para tarefa de análise de sentimentos ou mineração de

texto.

Page 19: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

18

utilizando um conjunto de recursos lexicais é apresentado em (BARBIERI; SAGGION;RONZANO, 2014).

Um episódio recente que ilustra a importância de se estudar o sarcasmo nas mídiassociais ocorreu em 2014, quando a agência do Serviço Secreto dos Estados Unidos anuncioua contratação de desenvolvedores para a construção de um sistema detector de sarcasmoem redes sociais online, o objetivo foi automatizar a análise em tempo real do que épublicado nas redes sociais em especialmente no Twitter (BBC, 2014).

Segundo Benevenuto, Ribeiro e Araújo (2015), a ampla aplicabilidade da análisede sentimentos em diversos segmentos tem levado muitas empresas e pesquisadores deáreas diferentes a empregarem tempo e dinheiro em soluções que realizem a extraçãode fatores afetivos (opiniões e sentimentos) nas mensagens compartilhadas pelo públiconas rede socias, focando principalmente na identificação e classificação da orientação deum texto como positivo, negativo ou neutro.

Entretanto, conforme Maynard e Greenwood (2014) e Gonçalves et al. (2013a),muitos métodos existentes na literatura, vem sendo empregados no desenvolvimento deaplicações sem um entendimento concreto da sua aplicabilidade em diferentes contextos,suas vantagens, limitações e eficiência comparado aos demais métodos, além de que váriosdeles jamais foram avaliados em um contexto que envolva sarcasmo e/ou ironia. E o maisimportante, após uma análise minuciosa dos trabalhos em que são apresentados os métodosem tal contexto, percebe-se que poucos são os esforços no sentido de avaliar e compararquantitativamente a performance desses métodos em um contexto que envolva mensagenscom teor sarcástico ou irônico.

Um esforço prévio no sentido de comparar métodos neste contexto foi conduzidorecentemente em (GONÇALVES et al., 2015), no qual foi comparado o desempenho entretrês métodos de classificação de sentimentos para detecção de sarcasmo e ironia no Twitter.No entanto diversos novos métodos baseados em técnicas diferentes de classificação desentimento e/ou polaridade tem sido apresentados recentemente na literatura, bem comotambém frequentemente utilizados em pesquisas cientificas, acadêmicas ou em sistemasmais robustos de análise de sentimentos para redes sociais online. Neste contexto, levando-seem consideração o possível impacto que a presença do sarcasmo/ironia possa exercer sobreo desempenho dos métodos de análise de sentimentos, a presente pesquisa foi conduzidacom o objetivo de avaliar e comparar diferentes métodos disponibilizados atualmente naliteratura.

Dessa maneira as contribuições desta monografia incluem, a identificação dentrediferentes métodos o que melhor e pior classifica mensagens com teor sarcástico/irônicopara o escopo deste trabalho, bem como a criação de uma base de dados exclusiva, rotuladade acordo com a polaridade que cada tweet coletado expressa, a qual pode ser utilizadafuturamente por outros trabalhos.

Page 20: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

19

1.2 Objetivos

Buscou-se com esta pesquisa avaliar e comparar em termos quantitativos o de-sempenho de diferentes métodos de análise de sentimentos em classificar a polaridade demensagens com teor sarcástico retiradas do Twitter, bem como identificar o impacto dapresença do sarcasmo sobre a performance destes métodos.

Em particular avaliou-se 11 métodos e um algoritmo de classificação, comumenteutilizados na identificação de polaridade de texto, são eles: SentiWordNet, PANAS-t,Sentistrength, EmoLex, NRC Hashtag, Opinion Lexicon, Pattern.en, AFINN, Vader,Sentiment140, Combined Method e Support Vector Machine (SVM). Os 11 primeirosmétodos são implementados pelo sistema Web iFeel, e o SVM na ferramenta de mineraçãode dados Weka.

Nesta pesquisa o sarcasmo e ironia são tratados com mesmo significado, voltadopara a inversão da polaridade de uma mensagem, esta particularidade é melhor abordadana seção 2.6.

De modo mais específico, para alcançar o objetivo principal do presente trabalho,foi necessário alcançar os seguintes objetivos adjacentes:

• Pesquisar diferentes métodos de análise de sentimento existentes na literatura querealizem a classificação de polaridade;

• Criar uma base de dados com mensagens classificadas manualmente de acordo comtrês orientações de polaridade: positivo, negativo ou neutro;

• Realizar experimentos com os métodos de análise de sentimentos para a mesma basede dados em dois cenários diferentes: com a presença de hashtags de cunho sarcásticoe sem a presença de hashtags de cunho sarcástico;

• Calcular matrizes de confusão e métricas de avaliação de desempenho para osresultados das classificações de polaridade realizadas pelos métodos;

• Fazer avaliação individual e comparativa entre o desempenho alcançado pelos dife-rentes métodos testados.

1.3 Estrutura do Trabalho

Além desta introdução e das referências bibliográficas, este trabalho está organizadoda seguinte maneira: Capítulo 2, apresenta a fundamentação teórica sobre Análise deSentimentos; Figuras de Linguagem; Sarcasmo e Ironia. No capítulo 3 são descritos osmétodos e técnicas aplicados no domínio do problema tratado por este trabalho. O Capítulo4 exibe os trabalhos correlatos que nortearam a presente pesquisa, e suas respectivas

Page 21: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

20

contribuições. No Capítulo 5 apresenta-se a metodologia empregada para alçar o objetivoprincipal. Os resultados verificados são apresentados no Capítulo 6. E por fim, o Capítulo7 destaca as conclusões e trabalhos futuros.

Page 22: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

21

2 Ambiente da Pesquisa

Neste capitulo é descrito o ambiente no qual a pesquisa se insere – Análise deSentimentos, bem como a definição e relevância de Figuras de Linguagem para a AS, emespecial o sarcasmo e a ironia, domínios deste trabalho.

2.1 Análise de Sentimentos

Análise de sentimentos também conhecida como Mineração de Opinião (MO) éum processo que diferentemente das técnicas convencionais de mineração de texto (quebuscam determinar sobre qual tópico ou tema um texto, frase ou mensagem tratada) tempor objetivo descobrir qual o sentimento expresso em uma mensagem retirada da Web,para poder classificá-la como uma opinião positiva, negativa ou neutra (BOIY; MOENS,2008).

Para Liu (2010a) a análise de sentimentos, é uma maneira de automatizar a análisede opiniões, sentimentos, avaliações, atitudes, afeições, visões, emoções e subjetividadesexpressas nas Web no formato de texto, por alguém sobre algo. Várias abordagens podemser relacionadas à AS como: extração de opinião das Web principalmente das redes socias;classificação da opinião extraída quanto a sua polaridade (positiva, negativa ou neutra);comparação de mensagens quanto as opiniões que expressam, etc.

Uma peculiaridade da Análise de Sentimentos, são os diferentes termos que seaplicam a tarefa, tais como: mineração ou extração de opinião, mineração de sentimentos,análise de sentimento ou análise de subjetividade, análise afetiva, análise de emoção,extração de avaliação e mineração de revisão (PANG; LEE, 2008). Desta forma é possívelencontrar diversos trabalhos com diferentes termos, mas que abordam a mesma área de pes-quisa. Apesar dos diversos termos existentes na literatura o mais utilizado comercialmentee academicamente é Análise de Sentimentos.

Diferentemente dos demais autores, para Chen e Zimbra (2010) AS e MO não sãotermos intercambiáveis, de forma que a análise de sentimento é uma ferramenta utilizadaem mineração de opinião com o objetivo de identificar sentimentos expressos pelo usuárioem seus textos.

Alguns estudiosos como Liu (2010a) identificam a tarefa de análise de sentimentoscomo o que se pode chamar de classificação de sentimentos ou classificação da polari-dade dos sentimentos. Entretanto os pesquisadores de AS não se restringem apenas aclassificação de sentimentos. Exemplos de estudos vinculados a área, mas que não sãovoltados a classificação de sentimentos ou polaridade são as pesquisas a cerca da detecçãode subjetividade (identificar se uma determinada parte de um texto ou postagem em

Page 23: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

22

canais da Web, possui conteúdo opinativo) conforme apresentado no trabalho de Pang eLee (2004), além de outros como a melhoria da etapa de sumarização, ou a aplicação deAS a sistemas de respostas e perguntas (SOUZA, 2012).

Para realizar a tarefa de classificação geralmente a análise de sentimentos utilizatécnicas fundamentadas nas áreas de Processamento de Linguagem Natural (PLN) eMineração de Texto, para determinar se um dado texto está expressando algo positivo,negativo ou neutro. Isto porque estas áreas são pioneiras no tratamento de linguagemnatural através de máquinas, em específico informações no formato de texto.

PLN é um conjunto de técnicas computacionais para analisar e representar ocorrên-cias naturais de texto em um ou mais níveis de análise linguística. Seu objetivo é alcançarum processamento de linguagem similar ao humano, de modo que sistemas computacio-nais sejam capazes de executar diferentes tipos de tarefas que envolvam a comunicaçãoentre homem-máquina ou simplesmente fazendo processamento de textos de maneira útil egerando valor para o usuário (LIDDY, 2003). Em suma, é uma área que lida com diversoselementos linguísticos e estruturas gramaticais, tais como, morfologia, sintática, semântica,entre outros. Algumas de suas técnicas podem ser utilizadas para auxiliar na etapa depré-processamento de dados textuais (etapa de extrema relevância para a tarefa de análisede sentimentos), tal como a técnica de remoção de stopwords, segmentação de palavras,lematização, dentre outras (CARVALHO FILHO, 2014). Estas técnicas são aplicadas como propósito de melhorar a estrutura e organização dos dados a serem analisados.

A Mineração de Texto, também conhecida como mineração de dados de texto, é aárea de extração de padrões, tendências ou conhecimentos interessantes e não-triviais emdados não estruturados, através de um conjunto de métodos usados para navegar, organizare descobrir informação em grandes bases de dados textuais (BERRY; KOGAN, 2010).Realiza tarefas como: classificação, agrupamento, extração de informação, categorização esumarização. Quando associada a análise de sentimento atualmente tem sido utilizada parao monitoramento de mídias sociais, afim de identificar o que se fala sobre sobre marcasdas empresas, principalmente (PANG; LEE, 2008). É nas técnicas de PLN e mineração detexto que a análise de sentimentos se baseia para realizar suas tarefas.

Além de avaliar comentários acerca de produtos e/ou serviços, a AS é aplicadatambém para outros fins, através de varias aplicações. Abaixo são apresentados algumasdelas (SILVA, 2013):

• Análise de Empresas na Bolsa de Valores: Nesse ramo tem se a ferramenta Stock-Mood.com, que auxilia pequenos investidores na bolsa dos EUA. Ela identifica ohumor do mercado em relação às empresas negociadas na bolsa de valores com basenas opiniões dos analistas, com o objetivo de identificar a tendência dos preços;

• Análise de Produtos: Aplicações desse tipo tem o intuito de utilizar a opinião dos

Page 24: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

23

usuários como um fator de decisão na hora da compra de um produto, ou paramelhorar os produtos da empresa. Um exemplo desse tipo de aplicação é o Sentweet;

• Análise de Política: Eleitorando é um software com o objetivo de identificar asopiniões dos usuários do Twitter e do Youtube a respeito dos políticos. Ele analisaas opiniões dos usuários e disponibiliza as informações através de gráficos;

• Análise no Twitter: SocialView é uma das inúmeras ferramentas que usam a redesocial Twitter para realizar análise de sentimento. Essa ferramenta foi lançada pelaOpenAmplify com o propósito de realizar análise de uma determinada empresa ouproduto na base do Twitter, o resultado é apresentado sumarizado ou através degráficos. Existe também o Tweetfeel que é gratuito, usado para classificar as opiniõespostadas no Twitter, ele apenas mostra a quantidade deposts positivos e negativosrelacionados à pesquisa do usuário;

• openSys: É um sistema de mineração de opinião para análise de conteúdo onlineque indica a orientação semântica dos textos, traçando um panorama de quantoas entidades pesquisadas estão sendo citadas positivamente ou negativamente. Talsistema utiliza técnicas de Processamento de Linguagem Natural.

• Tracksal: é um sistema Web que permite realizar a classificação de comentáriosde clientes em positivos, neutros e negativos, e também em temas mais falados,facilitando o entendimento das demandas dos clientes.

2.1.1 Terminologias e Conceitos

Diante da recente popularidade desse tema, vários termos e conceitos vêm sendodescritos para tarefas associadas a detecção e classificação de sentimentos ou polaridade.A seguir são apresentados cada um deles, propostas em sua grande maioria por Liu (2012)e Benevenuto, Ribeiro e Araújo (2015):

• Polaridade: representa o grau de positividade e negatividade de um texto. Normal-mente esta é a saída para os métodos de análise de sentimentos que serão estudadosneste trabalho. Alguns métodos tratam a polaridade como um resultado discretobinário (positivo ou negativo) ou ternário (positivo, negativo ou neutro). Por exemplo,a frase “Como você está lindo hoje” é positiva e a frase “Hoje a França acordoude luto” é negativa, já a frase “Hoje é 21 de Outubro” não possui polaridade enormalmente é classificada como neutra.

• Sentimento/Emoção: índica um sentimento específico presente em uma mensagem(ex.: raiva, surpresa, felicidade, medo, desgosto, etc.). Alguns métodos de análisede sentimentos apresentam abordagens capazes de identificar qual sentimento em

Page 25: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

24

específico uma sentença representa, como o dicionário léxico EmoLex desenvolvidopor Mohammad e Turney (2013).

• Entidade/Objeto: um objeto é uma entidade qualquer que esteja sendo analisadaou comentada por alguém, como por exemplo, um produto, uma pessoa, um evento,uma organização ou um serviço;

• Característica/Aspecto: característica ou aspecto é um atributo, propriedade,parte ou componente de um objeto/entidade. Cada aspecto do objeto pode serclassificado como explícito ou implícito. Será explicito quando realmente aparecer nafrase e implícito quando, apesar de não estar presente poder ser deduzido a partirdo contexto do enunciado;

• Titular da Opinião: é o indivíduo (organização ou pessoa) que possui a opiniãoem questão, ou seja, que expressa a opinião. Comumente em dados advindos de blogs,redes sociais e fóruns, o titular da opinião é o próprio autor da postagem. Mas emoutras fontes como jornais online, a opinião expressa nem sempre vem do autor dapostagem, visto que os jornais comumente apresentam opiniões de outras pessoassobre determinado objeto;

• Sentença Objetiva versus Subjetiva: sentenças objetivas são mensagens queapresentam para o leitor um fato, acontecimento ou informação concreta, semexpressar a opinião do autor, já as sentenças subjetivas expressam a visão pessoal doautor em relação a um determinado objeto. Algumas técnicas utilizam a análise daobjetividade para estimar se compensa realizar a análise de sentimentos. Portantoentender se um conjunto de dados possui mais sentenças objetivas ou subjetivaspode influenciar diretamente os resultados;

• Opinião: são afirmações subjetivas que refletem sentimentos ou percepções daspessoas sobre as entidades e eventos, por exemplo: “Está chovendo hoje, cariocasodeiam dias chuvosos” ou “ I didn’t like the results of elections in some cities ” (emportuguês “Eu não gostei dos resultados das eleições em algumas cidades”). Umaopinião pode ser representada pela quíntupla (oj, fjk, ooijkl, hi, tl), onde:

– oj é um objeto; fjk uma característica do objeto oj ; ooijkl a polaridade daopinião sobre a característica fjk do objeto oj ; hi é o titular da opinião, e tl

o momento em que a opinião foi expressa por hi.

• Palavra Opinativa: são palavras normalmente utilizadas para expressar senti-mentos positivos ou negativos. Geralmente as palavras opinativas são adjetivos ouadvérbios, mas também podem ser substantivos ou verbos.

Page 26: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

25

• Opinião direta versus Comparativa: é um tipo de opinião que faz referênciassobre um aspecto ou objeto expressando diretamente um sentimento positivo ounegativo sobre ele. Uma opinião comparativa expressa uma preferência em relação adois ou mais objetos baseado em algumas de suas características compartilhadas. Égeralmente transmitido através da forma comparativa ou superlativa de um adjetivoou advérbio, por exemplo, “The Iphone 6S is better than the Moto X” (tradução emportuguês “O iPhone 6S é melhor do que o Moto X”);

• Sentenças opinativas: são sentenças que, independentemente da subjetividade ouobjetividade, expressam opiniões, mesmo que implicitamente.

Basicamente uma opinião é composta de pelo menos dois elementos: um “alvo” e um“sentimento” sobre o alvo. Um alvo pode ser uma entidade, aspecto de uma entidade, outópico, representando um produto, pessoa, organização, marca, evento, etc. Um sentimentorepresenta uma atitude, opinião ou emoção que o autor tem a respeito do alvo (SANTOS,2013).

2.1.2 Níveis da Análise de Sentimentos

Segundo Liu (2012) as linhas de pesquisa na área de AS são divididas basicamenteem três diferentes níveis de granularidade conforme a tarefa de detecção de sentimentose/ou polaridade nos textos. Quanto menor a granularidade, mais específica é a classificação:

• Nível de documento: neste nível realiza-se a classificação de um documento (textocompleto) como positivo, negativo ou neutro. Assumindo que cada documentoexpressa uma única opinião sobre uma única entidade, como por exemplo, os comen-tários realizados nas páginas de avaliações de produtos. Este nível não é aplicável adocumentos que fazem avaliação e comparação entre diferente entidades;

• Nível de sentença/frase : classifica cada sentença de um documento, como positiva,negativa ou neutra. Neste nível também é possível diferenciar sentenças objetivas(que expressam fatos) de sentenças subjetivas (que expressam opinião, ou seja, umsentimento positivo ou negativo). Por exemplo:

– Comprei uma placa de vídeo de 4 gb para meu notebook (sentença objetiva);

– Comprei uma placa de vídeo ótima de 4 gb para meu notebook (sentença comopinião positiva);

• Nível de entidade/aspecto: este nível descobre a opinião focando na entidade ouem um aspecto e não nas estruturas (documento, sentença ou orações). No exemplo“Amo meu computador Dell porque a qualidade de seu processador é excepcional.

Page 27: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

26

Pena que a capacidade do seu HD seja pouca”, observa-se que existem três opiniõesem 2 sentenças: sobre o computador Dell, e sobre dois de seus aspectos (HD eprocessador). Apenas a opinião sobre o HD é negativa, sendo que a opinião sobre oprocessador e o computador são positivas (CRESPO, 2015).

2.1.3 Etapas da Análise de Sentimentos

Basicamente a arquitetura de um sistema completo de análise de sentimentos éalgo complexo, por isso geralmente é dividido em grandes etapas. Para Angulakshmi eChezian (2014), essas etapas compreendem: a recuperação dos dados, classificação e asumarização (apresentação dos resultados). A Figura 2 ilustrada a relação entre as etapas.

Figura 2 – Etapas comuns da Análise de Sentimentos.

Fonte: Adaptado de Angulakshmi e Chezian (2014).

A seguir são descritas cada uma das etapas que compõem a AS.

2.1.3.1 Recuperação dos Dados

Esta é a tarefa de recuperação (extração) de textos, mensagens, posts ou comentáriosna Web, sobre determinado item de interesse, extraídos de alguma fonte como sites denotícias, redes sociais, plataformas de revisão de produtos/serviços, blogs, entre outros.Uma das ferramentas comumente utilizadas para essa tarefa são os web crawlers1.

Este processo pode envolver também o discernimento entre texto subjetivo (opinião)ou objetivo (fato), objetivando melhorar os resultados da etapa seguinte. Isto é comumquando o nível de análise é de granularidade menor. O critério utilizado para determinar se1 Software ou rotina automatizada que faz buscas pela web afim de criar índices de conteúdo (AGUIAR;

RODRIGUEZ, 2014).

Page 28: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

27

um conteúdo é subjetivo comumente consiste na identificação de palavras de sentimento (ex.:Eu recomendo este filme), ou de classes de palavras candidatas a expressar sentimentocomo adjetivos (BECKER; TUMITAN, 2013). Diversos trabalhos na literatura focam naresolução deste problema, como em Hatzivassiloglou e Wiebe (2000) que propuseram ummétodo de identificação de subjetividade baseado na orientação dos adjetivos contidosem uma frase. Abdul-Mageed, Diab (2011), propuseram uma abordagem para pesquisarsentenças subjetivas na língua árabe.

2.1.3.2 Classificação

A classificação ou análise de sentimento é a etapa mais importante do processode AS, pois é nesta que se mede a polaridade ou orientação da opinião, através do usode técnicas que identificam a polaridade de um texto, como negativo, positivo ou neutro.Para alcançar o objetivo da classificação de sentimentos existem diversas técnicas. Dentreestas as mais utilizadas na literatura são: algoritmos de aprendizagem de máquina outécnicas baseadas em recursos léxicos.

Usualmente a classificação consiste em um problema binário, ou seja, que classificaum texto em uma de duas classes: positivo ou negativo (BECKER; TUMITAN, 2013). Noentanto uma outra classe também pode ser considerada, a “neutra”, está abrange textossem uma tendência clara quanto a sua polaridade, ou simplesmente sem sentimento. Apolaridade também pode ser expressa com diferentes graus de intensidade (ex.: muitopositivo ou moderadamente positivo), ou em intervalos numéricos representando um graude intensidade [-1 a 1] (TSYTSARAU; PALPANAS, 2012).

Esta etapa comumente envolve também operações de pré-processamento e transfor-mações específicas, tais como, reconhecimento de construtores sintáticos, reconhecimentode n-gramas, extração de features (características), eliminação de termos irrelevantes,transformação de mensagens em vetor de palavras, etc. O propósito é preparar a mensagemde acordo com as particularidades de cada técnica. Para Santos (2010) o pré-processamentoconstitui uma etapa integrada da análise de sentimentos, responsável pelo tratamento dosdados, através de tarefas como a correção de possíveis erros ortográficos, abreviaturas,gírias e ditos populares, tradução de comentários, além da remoção de termos irrelevantesatravés de listas de stopwords.

As Stopwords podem ser traduzidas como “palavras vazias” e merecem particularatenção, pois são palavras muito comuns que aparecem frequentemente em textos ecarregam pouco significado ou importância para a determinação do conteúdo (significado)do texto, servindo apenas como função sintática, ou seja, não tem o papel de palavra chaveem uma sentença. Exemplos destas palavras são os artigos, preposições, pronomes e demaispalavras utilizadas para auxiliar na construção sintática das orações como: as, e, os, de,para, com (em inglês “at, and, the, in, for, with”). Logo, com a eliminação dessas palavras

Page 29: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

28

espera-se simplificar a ideia principal contida na mensagem para fins de classificação dotexto contido na mensagem (DRAGUT et al., 2009).

O tratamento de dados não estruturados ocorre basicamente da seguinte maneira:quando a linguagem escrita (isto é, as mensagens extraídas da Web) é armazenada emum arquivo de computador, ela é normalmente representada por meio de uma sequênciaou string (do inglês, “cadeia”) de caracteres. Isto é, em um arquivo de texto padrão, aspalavras são strings, as sentenças são strings e o próprio texto não passa, no fundo, de umalonga string. Os caracteres de uma string não precisam ser necessariamente alfanuméricos,podem incluir também caracteres especiais que representem os espaços, as tabulaçõesou os sinais de nova linha existentes no texto. Os métodos e técnicas de classificação depolaridade por sua vez, trabalham em cima dos dados transformados em strings.

2.1.3.3 Sumarização dos Resultados

A classificação de sentimento realizada sobre as mensagens postadas na Web, preci-sam também ser sumarizadas de modo que as informações encontradas na montanha dedados em formato de texto sejamx facilmente compreendidas pelos usuários finais (e.g.empresas que monitoram redes sociais atrás da opinião de seus consumidores, ou par-tidos políticos que precisam saber como anda sua popularidade perante os eleitores). Asumarização pode ser disponibilizada de duas maneira: no formato de texto ou comográficos.

A Figura 3 apresenta um sistema online de análise de sentimento chamado Sen-timent1402, que permite a descoberta da porcentagem de opiniões positivas e negativassobre um tópico qualquer. Este sistema realiza a recuperação dos dados no Twitter emtempo real, de acordo com o termo informado pelo usuário no campo de pesquisa. A buscapode ser por uma palavra ou frase. Para classificar a opinião o Sentiment140 se baseiaem técnicas de aprendizado de máquina, através de três algoritmos de classificação: NaiveBayes, Maximum Entropy e Support Vector Machine. Após a classificação da polaridadeda palavra ou mensagem, o sistema apresenta o resultado através de um gráfico quecorresponde a quanto por cento dos tweets recuperados online são positivos e quantos sãonegativos. Este gráfico gerado como resultado consiste em uma das formas de sumarizaçãomais utilizada nas aplicações de AS.

2 http://www.sentiment140.com/

Page 30: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

29

Figura 3 – Sentiment140 ferramenta de Análise de Sentimentos.

Fonte: Print screen da tela de resultados do Sentiment140.

Como pode ser observado na Figura 3, para o termo “Obama”, o resultado daanálise de sentimento foi mais positiva do que negativa. Sendo que 68% dos tweets quecontinham a palavra no corpo do tweet foram classificados como positivas e 32% comonegativas.

2.2 Figuras de Linguagem

Compondo parte integrada da linguagem escrita, figuras de linguagem (em inglêsfigurative language) são encontradas em literaturas orais primitivas, bem como na poesia,prosa polida e no discurso diário, rimas para cartões de felicitação, slogans publicitários,manchetes de jornais, legendas de cartoons, e os lemas de famílias e instituições quecostumam usar figuras de linguagem, geralmente para fins de humor, mnemônicos3 oupara ser chamativo.

“Figura de linguagem é qualquer desvio ou afastamento intencional da declaraçãoliteral ou uso comum que enfatiza, esclarece, ou embeleza tanto a língua escrita como afalada” (KALAMKAR; PHAKATKAR, 2013). Com o uso destas, um enunciado assumeum significado diferente do que as palavras teriam isoladamente. Fuguras de linguagempodem ser classificadas pelas seguintes categorias:

• Baseadas em semelhança: como Comparação, Metáfora, Personificação e Apóstrofe.

• Baseadas em contraste: Antítese, Epigrama, Ironia e Sarcasmo.

• Baseadas em Associação: Metonímia e Sinédoque.3 Mnemônico é um conjunto de técnicas utilizadas para auxiliar o processo de memorização.

Page 31: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

30

• Aquelas dependentes da construção: Clímax e Anticlímax.

Segundo Kalamkar e Phakatkar (2013), um grande número de titulares de opiniãonas redes sociais faz uso de figuras de linguagem enquanto escreverem suas avaliações oucomentários sobre algum produto ou pessoa, projetando assim sua própria personalidade nasmensagens. No entanto, figuras de linguagem podem representar desafios para ferramentase sistemas que precisam trabalhar com a linguagem humana escrita, pois estes nem sempreconseguem diferenciar corretamente quando as palavras ou sentenças são escritas demaneira lúdica, de quando são escritas em seu sentido literal (i.e. significado original)acarretando assim, em um processamento incorreto das mensagens e/ou palavras.

Este efeito é muito nítido quando se trata de sarcasmo e ironia, visto que estesse deleitam em usar linguagem afirmativa para transmitir crítica a algo ou alguém, ouseja, um enunciado escrito com conotação positiva (ou negativa) mas que no entanto,significa uma opinião ou sentimento negativo (ou positivo) sobre o alvo do sentimento.Metáfora, ironia e sarcasmo podem individualmente à sua maneira afetar um enunciado deformas complexas, e cada uma testa os limites das técnicas convencionais para análise desentimentos de mensagens supostamente escritas de forma literal (GHOSH et al., 2015).

Neste contexto, o sarcasmo e a ironia constituem um desafio relevante para asaplicações de análise de sentimentos, já que algumas das técnicas e métodos utilizados paraclassificação de sentimento ou de polaridade de texto, muitas vezes se mostram inadequadosem face de significados figurativos indiretos. Dentre estas técnicas pode-se destacar osdicionários léxicos que podem ser afetados pela inversão da polaridade, por levarem emconsideração as palavras individualmente, e não a mensagem completa HERNANDEZFARIAS et al., 2015).

O tópico as seguir traz definições para sarcasmo e ironia bem como suas diferençase similaridades. Por serem mais empregadas nas mídias sociais e consequentemente maisestudadas em trabalhos da área, serão as categorias de figuras de linguagem estudadasnesta pesquisa.

2.2.1 Sarcasmo e Ironia

Caracteristicamente, mas não exclusivamente, o sarcasmo e a ironia ocorremcom frequência em conteúdos gerados pelos internautas em blogs, fóruns, microposts eredes sociais online como o Twitter, Facebook, Myspace e Youtube, especialmente nalíngua inglesa. Neste ambiente identificar automaticamente quando alguém está sendosarcástico ou irônico é um desafio, visto que, a linguagem humana escrita envolve elementoscomplexos e de difícil compreensão pelas máquinas, pois como mencionado na seção anteriorcomputadores não processam com precisão mensagens e palavras de acordo com o contextoem que foram escritas (RILOFF et al., 2013).

Page 32: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

31

De acordo com o dicionário inglês NTC’s American English (SPEARS; GROUP,1998, tradução nossa), sarcasmo é a “atividade de dizer ou escrever o oposto do que você querdizer, ou falar de uma forma com o objetivo de fazer alguém se sentir estúpido ou mostrar-lheque você está com raiva”4. Geralmente, no sarcasmo há o uso de instrumentos linguísticosindiretos para a ridicularização ou zombaria, muitas vezes considerados grosseiros eofensivos, sendo utilizados para fins destrutivos e manipulados de forma hipócrita e comfalsa polidez. Um exemplo de sarcasmo pode ser visto no tweet “This is my brilliantson, who failed out of college #sarcasm“ (a tradução em português seria “Este é meufilho brilhante, que não conseguiu sair da faculdade #sarcasmo”), em que é encontradoum sentimento de agradecimento com o surgimento de um contratempo negativo em umdiálogo de desaprovação.

A ironia por sua vez é “uma forma de humor em que você usa palavras paraexpressar o oposto do que as palavras realmente significam”5 (SPEARS; GROUP, 1998,tradução nossa). Pode ser considerada como uma discordância entre o que se diz e oque se sente, ou do que se espera e do que realmente ocorre (SINGH, 2012). Esse tipo demensagem geralmente vêm acompanhada de um tom de brincadeira e possui menor pesoofensivo do que o sarcasmo. Por exemplo, “I loved my iPhone 6s! #irony”, (“Eu ameimeu iPhone 6s! #ironia“), nesta postagem em tom engraçado o usuário demonstra suadesaprovação para com o aparelho celular, levando-se em consideração os problemas que omodelo apresentou durante seu lançamento.

Na visão de Conz (2010), o sarcasmo e a ironia possuem uma ligação íntima, poisambos tendem a ser usados para se fazer um enunciado que possua um sentido emocional.Frequentemente as pessoas dizem que algo é irônico quando na realidade é sarcástico evice-versa. No entanto, na realidade sarcasmo é um conceito que se utiliza de ironia. Namaioria dos casos, a sutil diferença entre ambos é que, o sarcasmo tem o intuito mordazquase cruel, muitas vezes ferindo a sensibilidade da pessoa que o recebe, enquanto a ironiaé mais educada e sutil. Tradicionalmente a distinção entre ambos é de que, sarcasmo éuma ironia de forma mais explicita.

Na atualidade, principalmente nas redes sociais, o sarcasmo e ironia são geralmenteutilizados em declarações nas quais as pessoas ”dizem o contrário da verdade, ou o opostode seus verdadeiros sentimentos, a fim de serem engraçados, para enfatizar um determinadoponto ou zombar de algo ou alguém“ (MAYNARD; GREENWOOD, 2014)

Para Gonçalves et al. (2015), uma das principais dificuldades para a tarefa de iden-tificação ou classificação de mensagens sarcásticas ou irônicas da Web, é a falta de acordoentre a maioria dos pesquisadores (sociólogos, psicólogos, cientistas da computação, etc.)4 “The activity of saying or writing the opposite of what you mean, or of speaking in a way intended to

make someone else feel stupid or show them that you are angry”.5 “A form of humour in which you use words to expressthe opposite of what the words really mean”.

Page 33: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

32

em como definir ou diferenciar sarcasmo de ironia. Enquanto diversos trabalhos sugeremque sarcasmo e ironia são termos associados a um mesmo fenômeno linguístico (CONZ,2010; INGLE et al., 2014; MAYNARD; GREENWOOD, 2014), outros pesquisadores comoSingh (2012) sustentam que estes fenômenos se diferem.

Portanto, considerando que a base de dados utilizada no presente trabalho possuimensagens (tweets) de usuários que não diferenciam sarcasmo de ironia, esta pesquisa assimcomo em Maynard e Greenwood (2014) e Ingle et al. (2014), define uma declaração sarcás-tica e/ou irônica como ”aquela onde o significado oposto da sentença é intencional“, porqueeste é o uso dominante deste trabalho e também o que tende a influenciar/impactar apolaridade do sentimento expresso nas mensagens. Por exemplo, ” I love walking to workin the rain#sarcasm #irony“ ( tradução em português ”Eu adoro ir caminhado parao trabalho na chuva #sarcasmo #ironia“), seria interpretado como uma mensagem depolaridade negativa em seu sentido sarcástico e irônico. Desta forma os termos sarcasmoe ironia foram tratados neste trabalho como similares, sendo que o termo utilizado nocapítulo de Metodologia da Pesquisa (capítulo 5) foi sarcasmo.

As definições de sarcasmo e ironia adotados nesta pesquisa são baseadas na línguainglesa. A escolha deste idioma deve-se ao fato de que a grande maioria das aplicações,métodos ou ferramentas de análise de sentimentos são desenvolvidos para avaliação detextos em inglês. Desta maneira a base de dados criada para esta pesquisa é compostounicamente de tweets escritos no referido idioma.

Neste contexto que envolve sarcasmo e ironia na Web, na visão de Riloff et al.,(2013), a análise de sentimentos pode ser facilmente enganada pela presença de palavrasque tenham uma polaridade forte, mas que são utilizados como sarcasmo, o que significaque a polaridade oposta foi intencional. Por exemplo, o seguinte tweet que inclui as palavras”yay“ (oba) e ”thrilled“ (entusiasmado) são palavras fortes, mas que na verdade expressamum sentimento negativo: ”yay! it’s a holiday weekend and I’m on call for work! couldn’t bemore thrilled! #sarcasm.“ (”Oba! Um feriado prolongado e eu estou de plantão no trabalho!Não poderia estar mais entusiasmada! #sarcasmo“). Neste caso, a hashtag #sarcasm revelao sarcasmo pretendido, mas nem sempre os métodos utilizados para classificar sentimentotêm o benefício de etiquetas de cunho sarcastico explícitas em uma mensagem.

Hashtags são usualmente utilizadas como meta-informação 6 nos tweets, seja paraexpressar uma informação pragmática em forma textual, como ironia, ou avaliação (e.g. ashastags #not, #win, #fail), ou para classificá-los quanto ao tópico (e.g. #google, #android,etc.). As pesquisas na área de AS exploram o uso de hashtags como rótulos de sentimentos,isto é, os métodos classificam a orientação da polaridade das mensagens de acordo com aspalavras-chave dentro das hashtags que possui.6 Informação acerca da informação.

Page 34: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

33

Abaixo são apresentados alguns exemplos de tweets com hashtags de cunho sarcás-tico:

a. I love it when a thin layer of dirt covers the majority of my body. #sarcasm (tradução,”Eu adoro quando uma fina camada de sujeira cobre a maior parte do meu corpo.#sarcasmo“);

b. Absolutely adore it when my bus is late #sarcasm, (tradução, ”Com certeza adoroquando o meu ônibus está atrasado #sarcasmo“);

c. You must have a quiet timeline #irony , (tradução, ”Você deve ter um cronogramade vida bem tranquilo #ironia“).

Para entender melhor como o sarcasmo age, tomemos como exemplo a frase da opção”a“ apresentada acima, na qual de acordo com o contexto da mensagem, provavelmente oautor estivesse em algum spa com o corpo coberto de algum tipo de lama medicinal. Entãose levarmos em consideração a forma como a sentença foi escrita teremos uma mensagemque expressa uma opinião com a polaridade positiva, mas se consideramos o contexto emque ela foi escrita concluiremos que expressa uma opinião negativa, mesmo sem a presençadas hashtags ”sarcasm“ ou ”irony“, isto é, hashtags de cunho sarcástico. E é justamenteesta inversão de polaridade promovida pelo sarcasmo, que influência a classificação depolaridade realizada pelos métodos de análise de sentimentos, visto que estes nem sempresão capazes de entender com cem porcento de precisão o contexto de mensagens (mensagens,comentários ou posts) escritas de maneira lúdica através dos recursos linguísticos ”sarcasmoe ironia“.

Apesar dos marcadores #sarcasm e #irony serem comumente os mais utilizadospara indicar sarcasmo ou ironia em redes sociais como o Twitter, há também outros quedesempenham o mesmo papel, tais como #notcool, #greatstart, #lying, #moresarcasm,#notsarcasm, #somuchsarcasm e #funny (MAYNARD; GREENWOOD, 2014).

Para a identificação automática desses fenômenos linguísticos, alguns estudossugerem a criação de métodos que busquem por fatores gramaticais comuns em frasessarcásticas/irônicas (e.g., interjeições e advérbios). Em Kreuz e Caucci (2007), foramcriados padrões e fórmulas gramaticais para identificação do sarcasmo e ironia. Outraestratégia para identificação destas figuras de linguagem em mensagens postadas nasredes socias, é a técnica de filtragem por hashtags que denotem sarcasmo. Por exemplo,Gonzales-Ibáñes et al. (2011), criaram uma base de dados textual somente de mensagenscontento sarcasmo aonde cada mensagem foi rótula com as hashtags #sarcasm e #sarcastic.

Page 35: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

34

3 Métodos e Técnicas Utilizados na Análise de Sentimentos

Nesta seção são apresentados 17 dos principais métodos de análise de sentimentosexistentes na literatura, bem como as técnicas de classificação nas quais eles se baseiam.Para isto, foi realizada uma vasta busca na literatura a fim de identificar diferentes métodosde AS já utilizados em outras pesquisas. Vale ressaltar que estes têm sido utilizados comométodos de prateleira (off-the shelf ), ou seja, na grande maioria dos casos o pesquisadorese demais usuários interessados em aplicar a análise de sentimentos para determinadafinalidade escolhem algum ou alguns método (s) disponíveis e aceitos na literatura eaplicam ao fim pretendido.

Na literatura há diversos métodos de análise de sentimentos, os quais se diferenciamatravés das técnicas de classificação que utilizam para determinar o sentimento ou polari-dade expresso em uma mensagem. Dentre estas técnicas pode-se mencionar as abordagensbaseadas em dicionários léxicos, aprendizagem de máquina, processamento de linguagemnatural, escalas psicométricas, métodos híbridos (combinação de diferentes métodos) etécnicas avançadas de linguística e estatística.

Na visão de Pang e Lee (2008), os métodos atuais de detecção e/ou classificaçãode sentimentos ou polaridade de mensagens postadas na Web, podem ser divididos basi-camente em dois grupos: baseados em técnicas de dicionários léxicos e em aprendizadode máquina. Os métodos baseados em aprendizado de máquina comumente dependem debases de dados rotuladas manualmente para treinar (ensinar) algoritmos denominados declassificadores. Por outro lado, os métodos léxicos utilizam listas e dicionários de palavrasassociadas a sentimentos específicos (BENEVENUTO; RIBEIRO; ARAÚJO, 2015).

Dentre os 17 métodos de análise de sentimentos apresentados nesta seção 12 foramaplicados para experimentos realizados no presente trabalho.

3.1 Polaridade Baseada em Dicionário Léxico de Sentimentos

Dicionário léxico de sentimentos, é uma especie de dicionário de palavras ou termosque ao invés de possuir como conteúdo o significado de cada palavra, possui em seulugar um significado quantitativo (ou seja, pode ser um número entre -1 a 1, onde -1 é ovalor sentimental mais negativo e 1 o valor mais positivo) ou mesmo valor qualitativo (i.e. positivo/negativo, feliz/triste, amor/ódio). Abordagens léxicas assumem que palavrasindividuais possuem o que é chamado de polaridade prévia, que é uma orientação semânticaindependente de contexto e que pode ser expressada com um valor numérico ou classe depolaridade (TABOADA et al., 2011).

A AS baseada em técnicas léxicas, geralmente utiliza um grande dicionário de

Page 36: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

35

termos ou palavras, onde cada termo ou palavra é previamente associado a um sentimentoque possui determinada orientação de polaridade (i.e. cada termo possui rótulos positivosou negativos, ou valores que indicam o grau de polaridade).

O processo de classificação de sentimento ou de polaridade inicia quando o métodorecebe uma mensagem de entrada, em seguida realiza o processamento de linguagemnatural (na maioria do casos se trata do tratamento dos dados), e por último efetuauma pesquisa no léxico para analisar e comparar cada termo da mensagem de entrada comos termos existentes no léxico, e o retorno é somado ao valor final da mensagem. Quando ovalor resultante for maior que zero, o sentimento é classificado como positivo e quando formenor que zero, será negativo. (SOUZA, 2012). A Figura 4 mostra de maneira generalizadao funcionamento de um método de análise de sentimentos baseado em técnicas de dicionárioléxico para classificação da polaridade de uma mensagem.

Figura 4 – Léxico de sentimentos.

Fonte: Benevenuto, Ribeiro e Araújo (2015).

Comumente os métodos de AS utilizados na determinação da orientação semânticade palavras e termos (ou seja, a orientação da polaridade), são baseados em três tiposde abordagens: grandes corpora (dicionários com uma extensa quantidade de palavras etermos), baseados em recursos léxicos e os baseados em tradução ou multilíngue.

Na primeira abordagem os métodos utilizam relações encontradas entre palavras eexpressões presentes no seu dicionário léxico para determinar a polaridade da mensagem.Sua vantagem se aplica quando o método precisa classificar mensagens com palavras ouexpressões compostas como: ”espírito de porco“, ou expressões com polaridade adquiridaspor uso social (e.g. ”saco“). Dessa maneira, os resultados obtidos pelo método de ASdependerão da natureza do dicionário, já que em alguns casos existem diferentes sentidospara a mesma palavra ou expressão. Podendo assim, fazer com que os métodos léxicos nãoclassifiquem corretamente o texto.

A segunda abordagem trabalha com as relações semânticas existentes nos dicionários.

Page 37: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

36

Um exemplo é o grande banco de dados em inglês WordNet1, utilizado pelos métodospara identificar a polaridade de substantivos, verbos, adjetivos e advérbios. Esse tipo detécnica oferece aos métodos a possibilidade de explorar relações semânticas, manualmentecodificadas e avaliadas, existentes entre as palavras ou termos (SOUZA, 2012). Entretantoesses métodos só capturaram o significado literal da palavra ou termo, sendo incapaz deinterpretar gírias ou expressões compostas.

Os métodos de tradução também conhecidos como multilíngue, servem para detecçãode sentimentos em mensagens em idiomas diferentes do inglês. Exploram dicionários léxicosjá prontos para a criação de recursos para outras línguas alvo, ou seja, permitem extraire analisar opiniões em textos independentemente do idioma no qual foram escritos, suadesvantagem é a complexidade em traduzir duas línguas diferentes. Neste caso, há tentativasde recriar técnicas supervisionadas a partir de novos dados rotulados ou mesmo traduzindodicionários léxicos de métodos já existentes. Mas estas abordagens não são muito efetivaspois, é caro obter dados rotulados e desenvolver um novo método, assim como muitaspalavras e gírias especificas de uma língua não estão contidas nos léxicos ou serão traduzidoserroneamente (BENEVENUTO; RIBEIRO; ARAÚJO, 2015).

A desvantagem da técnica de dicionário léxico de sentimentos está no fato que, oconjunto de palavras utilizado nos dicionários léxicos deve ser cuidadosamente selecionado,tratando ainda a ambiguidade de uma mesma ”palavra“ em um mesmo tópico. Por exemplo,a palavra grande no contexto de avaliação de um celular, pode representar tanto umaopinião positiva, quanto uma opinião negativa, dessa maneira o dicionário selecionadodeve ser ajustado para cada tópico

Um outro impasse desta abordagem deve-se ao fato de que a grande maioria dosléxicos existentes na literatura são para a língua inglesa, tais como, o General Inquirer,OpinionFinder, SentiWordNet e o WordNetAffect, o que dificulta o desenvolvimento desistemas que realizem a análise de sentimentos em textos escritos em outros idiomas comoo português. A seguir apresenta-se um método de AS baseado em dicionário léxico.

3.1.1 SentiWordNet (SWN)

O SentiWorldNet é uma base léxica em formato de arquivo de texto, utilizadapara classificação de sentimentos. Foi desenvolvida através do banco de palavras dalíngua inglesa WordNet (MILLER, 1995), o qual é composto por substantivos, verbos,adjetivos e advérbios agrupados em conjuntos de sinônimos cognitivos (synsets), cadaum expressando um conceito diferente. Os Synsets são interligados por meio de relaçõesconceituais-semânticas e léxicas.

O SWN é resultado da anotação automática de cada synsets do WordNet, no qual1 https://wordnet.princeton.edu/

Page 38: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

37

foi atribuído a cada palavra três valores numéricos, indicando o qual P (Positivo), N(Negativo) e O (Neutro) os termos contidos em cada sysnet são. Um ponto importantesobre este método é que, dependendo do contexto em que uma palavra é utilizada o seuvalor é diferente. Por exemplo, a palavra “Love” pode ser entendida como substantivo(obtendo um valor objetivo = 0.375, positivo = 0.625 e negativo = 0) correspondendo aosseguinte sentidos: a) “uma forte emoção positiva de respeito e carinho”, ou ainda assumiro valor de verbo b) “ter uma grande afeição ou simpática” (objetivo = 0.5, positivo = 0.5e negativo = 0). Cada valor gerado está dentro do intervalo [0.0,1.0] e a soma dos trêsvalores associados é necessariamente 1. Isso significa que cada synset tem valor diferentede zero em pelo menos uma das categorias de polaridade.

O método utilizado para desenvolver o SentiWordNet é uma adaptação dos métodosde classificação para synsets de polaridade Positiva-Negativa e Subjetiva-Objetiva de termos.O método depende da formação de um conjunto de três classificadores ternários, cada umdeles decidindo se um synset é positivo, negativo ou objetivo. Cada classificador ternáriodifere dos outros no conjunto de treinamento e no instrumento de aprendizado usado paratreiná-los, produzindo diferentes classificações dos synsets do WordNet. Os scores (valores)relacionados a opiniões de cada synset são determinados pela proporção dos classificadoresternários que tenham dado o correspondente rótulo a ele. Se todos os classificadoresternários derem o mesmo rótulo a um synset, esse terá o maior score, caso contrário, cadarótulo terá um score proporcional aos classificadores (ESULI e SEBASTIANI, 2006).

Atualmente o SentiWordNet encontra-se na versão 3.0 e é disponibilizado em <http://sentiwordnet.isti.cnr.it/>.

3.2 Polaridade Baseada em Aprendizado de Máquina

Além dos dicionários léxicos uma outra técnica utiliza para classificação ou análisede polaridade de mensagens, é o Aprendizado de Máquina (do inglês Machine Learning).Consiste em uma subárea da Inteligência Artificial (IA), aplicada para elaboração dealgoritmos e técnicas que permitem aos computadores serem capazes de aprender e evoluirseu desempenho em determinadas tarefas, através da experiência adquirida com a repetiçãode tais tarefas (MITCHEL, 2006). Simon (1983) também define o aprendizado de máquina(AM) como qualquer mudança e um sistema que melhore o seu desempenho de maneiraautomática em uma posterior repetição da mesma tarefa ou em uma outra tarefa utilizandoa mesma base de dados.

Segundo Becker e Tumitan (2013), o objetivo principal das técnicas de aprendizadode máquina é descobrir automaticamente regras gerais (i.e. padrões) em grandes basesde dados, que permitam encontrar informações implicitamente representadas. De modogeral, as técnicas e algoritmos de AM podem ser divididos em dois tipos: aprendizado

Page 39: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

38

supervisionado e aprendizado não supervisionado.

Para classificar a polaridade de mensagens ou comentários extraídos da Web,os algorítimos de AM precisam de treinamento prévio, para tal necessitam dispor deum conjunto de treino de atributos quantitativos rotulados previamente, representandoinformações ou características dos dados. Esses dados de treino são utilizados pelosalgoritmos para criar regras e padrões que os possibilitem classificar corretamente apolaridade de novos dados (i.e. mensagens extraídas da Web) (SAUSEN, 2015).

Os dados de treino utilizados na tarefa de classificação equivalem a um conjuntode instâncias caracterizadas por atributos. O rótulo é denominado atributo alvo, enquantoque os demais são designados como atributos discriminantes ou features. O atributo alvona classificação é discreto2. Em termos de pré-processamento, é necessário extrair de cadaporção de texto analisada, as características relevantes para a tarefa de classificação erepresentá-las na forma de um vetor de palavras ou vetor de termos, como ilustra a Tabela1.

Os tipos de características comumente consideradas durante a classificação são(BECKER; TUMITAN, 2013):

• Palavras de sentimento: somente as palavras de sentimento de uma base são utilizadascomo feature. Não existe ordem entre as palavras, e estas são caracterizados de formabinária, isto é, presente ou ausente no texto.

• Termos e sua frequência: são usados n-gramas (de sentimento ou não), junto comsua frequência absoluta ou relativa (e.g. TF-IDF), como peso dos termos.

• Part-of-Speech (POS): as classes morfológicas das palavras também podem ser usadas,em complementação às palavras de sentimento ou termos.

• Dependência sintática: as dependências sintáticas entre as palavras podem serutilizadas, com o intuito de auxiliar na definição do alvo e fonte do sentimento.

Basicamente neste tipo de técnica é necessário um conjunto de mensagens previa-mente classificadas (rotuladas), que é utilizado como base de treinamento para o algoritmo.E a partir do algoritmo já devidamente treinado, novas mensagens podem ser classificadascorretamente.

2 Em atributos discretos o número de valores possíveis é um número finito ou uma quantidade enumerável.Na classificação estes valores são de dois tipos - positivo ou negativo.

Page 40: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

39

Tabela 1 – Exemplo de uma entrada de classificador com vetor binário de termos.

gosto produto ruim grande prático facilidade uso polaridade

0 1 0 0 1 0 0 positivo

1 1 1 1 1 0 0 negativo

1 1 0 0 0 1 1 positivo

Fonte: Becker e Tumitan (2013).

3.2.1 Aprendizado Supervisionado e Não Supervisionado

Os algoritmos baseados em aprendizado supervisionado utilizam-se de grande quan-tidade de dados, previamente rotulados de acordo com a classe ou categoria de polaridadeque representam. A finalidade é descobrir a partir desses dados rotulados manualmente,padrões que os modelos gerados pelos algoritmos, devem seguir para classificar outrosdados que não estejam rotulados.

A estratégia de classificação supervisionada consiste basicamente em três passos:

1. Uma base de dados de treinamento com mensagens (tweets) que contenham opiniõesexpressas em formato de texto é obtida, de maneira que cada mensagem estejarotulada com sua respectiva polaridade (positiva ou negativa);

2. Em seguida as mensagens contidas na base de treinamento são representadas apro-priadamente em forma de atributos (colunas), de modo que cada palavra de umamensagem possa ser tratada como um novo atributo. Assim um classificador3 étreinado para distinguir se uma mensagem contém uma opinião positiva ou nega-tiva, mediante a análise da frequência ou presença de seus atributos na base detreinamento;

3. Por fim, o algoritmo é utilizado para a classificação de mensagens que não forampreviamente rotuladas, isto é, que não foram utilizados na construção do classificador(treinamento do algoritmo).

No aprendizado não supervisionado, não há a necessidade de dados previamenterotulados manualmente. Este tipo de algoritmo procura por padrões dentro dos dados,agrupando-os em categorias (e.g. dados positivos ou negativos). Esse tipo de aprendizagemnão é muito utilizado para análise de sentimentos, já que as classes resultantes não podemser previamente determinadas, não tendo assim um ponto de comparação entre o resultodo classificador e a real classe de polaridade a qual a mensagem pertence (SILVA, 2013).3 Termo técnico para tratar os algoritmos de classificação.

Page 41: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

40

Ainda segundo Becker e Tumitan (2013), uma das grandes limitações no uso deaprendizado supervisionado para definição de polaridade é a necessidade de dados rotuladospara treino. O desempenho destes métodos é afetado não somente pela quantidade, masigualmente pela qualidade dos dados de treino disponíveis.

A seguir é apresentado um algoritmo baseado na técnica de aprendizado supervisi-onado.

3.2.1.1 Support Vector Machine (SVM)

Support Vector Machine (SVM) ou Máquinas de Vetores de Suporte, consiste emum método de aprendizado de máquina supervisionado para classificação binária baseadona fundamentação teórica do aprendizado estatístico desenvolvido por Vapnik (1995).É um método implementado através de algoritmos que visualizam os dados de entradacomo dois conjuntos de vetores em um espeço N-dimensional (N é o número de atributosdo vetor), e tentam classificar corretamente novos dados (GONÇALVES, 2010).

A ideia por trás do SVM é encontrar um hiperplano de separação ótima, ou seja, quedívida e diferencie melhor duas classes (categorias) de dados. Para isso, primeiramente oalgoritmo precisa receber dados rotulados manualmente para treino (no caso da classificaçãode mensagens estes dados são os vetores de palavras ou de termos), e após realizar váriostestes de treinamento inteligente com os dados rotulados, trata os mesmos como pontosno espaço de características e, então constrói hiperplanos capazes de fazer a separaçãoentre as diferentes classes identificadas nos dados rotulados, de modo que os novos dadosde entrada que não façam parte do conjunto de teste sejam classificados corretamente(HASTIE; TIBSHIRANI; FRIEDMAN, 2008).

Para um melhor entendimento, suponhamos uma base de treino composta porapenas dois atributos e duas classes possíveis (positivo e negativo). Para este caso tem-seum plano bidimensional que de acordo com Groot (2012) é um plano ideal, pois permite aseparação linear entre as duas classes, ou seja, seria possível traçar uma reta que separasseperfeitamente os elementos de uma classe da outra classe. Segundo Santos (2013) é possíveltraçar várias retas, entretanto a melhor reta é aquela que separa os dois grupos de elementosde forma a maximizar a distância entre a reta e eles.

Page 42: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

41

Figura 5 – Hiperplano ótimo.

Fonte: Hamester (2013).

Na Figura 5, vê-se um exemplo no espaço bidimensional, no qual considera-se comodados de treinamento, duas classes de sentimento (positivo e negativo). A classe “positivo”é composta pelos pontos indicados por círculos (equivalem aos tweets positivos) e a classe“negativo’ pelos quadrados (tweets negativos).

No entanto, entre os diversos hiperplanos possíveis, o algoritmo SVM escolherá omelhor hiperplano de separação, ou seja, o que melhor maximize a margem de separação,que equivale a duas vezes a distância entre o hiperplano e o ponto no espaço mais próximoa ele, como pode ser observado na Figura 5 (RUSSELL; NORVIG, 2009).

3.3 Outros Métodos e Técnicas

Este tópico apresenta uma breve descrição dos diferentes métodos utilizados paraclassificação de sentimento ou polaridade de dados não estruturados. Estes métodoscomo mencionado na seção anterior, envolvem diferentes técnicas de classificação, taiscomo: a utilização de processamento de linguagem natural na atribuição de polaridade;o uso de Mecânica da Amazon Mechanical Turk Service (AMT) para criar conjuntosde dados marcados; a utilização de escalas psicométricas para identificar sentimentosatravés do humor, aprendizagem supervisionada e não supervisionada, métodos híbridosque combinam diferente técnicas de classificação, entre outros.

3.3.1 PANAS-t

PANAS-t é um método léxico adaptado a partir de uma versão expandida de umaescala bastante conhecida na psicologia chamada de Positive and Negative Affect Schedule(WATSON; CLARK; TELLEGEN, 1985). Tem como objetivo detectar as flutuações dehumor dos usuários no Twitter, através das postagens.

Page 43: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

42

Consiste em uma escala psicométrica baseada em um largo dicionário léxico depalavras associadas a 11 categorias de humor: jovialidade, autoconfiança, serenidade,surpresa, medo, tristeza, culpa, hostilidade, timidez, fadiga e atenção. Foi desenvolvidopara detectar qualquer acréscimo ou decréscimo dos níveis de sentimentos ao longo deum período. O quadro apresentado na Figura 7 sumariza os itens que compõem a escalaPANAS-t (GONÇALVES; DORES; BENEVENUTO, 2012).

Figura 6 – Termos que compõem a escala PANAS.

Fonte: Gonçalves, Dores e Benevenuto (2012).

3.3.2 EmoLex

O EmoLex Mohammad e Turney (2013a), é um léxico criado a partir do AmazonMechanical Turk Service4, no qual pessoas foram pagas para classificar os termos. Cadaentrada esta associada a 8 sentimentos básicos em inglês: joy, sadness, anger, etc. Abase do EmoLex foi construída utilizando termos do Macquarie Thesaurus5 e palavras doGeneral Inquirer6 e do Wordnet. As palavras que o compõem incluem alguns substantivos,verbos, adjetivos e advérbios mais frequentes da língua Inglesa. O método também conta,não apenas com a presença de unigramas mas também de vários bigramas7, que sãocomumente utilizados em textos.

Em seu funcionamento o EmoLex associa as palavras a sua polaridade e a suaemoção. Por exemplo, a palavra “aberração” é negativa e pertence a categoria de emoçãodesgosto. Assim é possível não identificar apenas a polaridade da palavra, mas também asua emoção.4 https://www.mturk.com/mturk/welcome5 https://www.macquariedictionary.com.au/6 http://www.wjh.harvard.edu/∼inquirer/Home.html7 Refere-se à combinação de N termos consecutivos. Exemplo, considerando os gramas de tamanho 1 e

5 de palavras na frase: “Alguém entendeu o que eu disse? ”, obtém-se os seguintes gramas: “Alguém” -um grama, “entendeu o” - dois gramas, “o que eu” – três gramas, “Alguém entendeu o que” - quatrogramas, “Alguém entendeu o que eu disse” – cinco gramas

Page 44: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

43

De acordo com os desenvolvedores do método, apesar de algumas diferençasculturais, o léxico tem demonstrado que a maioria das normas afetivos são estáveis emtodos os idiomas. Assim, versões do léxico são fornecidas em mais de vinte idiomas atravésda página <http://www.saifmohammad.com>.

3.3.3 NRC Hashtag Sentiment Lexicon

O NRCHashtag (MOHAMMAD; KIRITCHENKO; ZHU, 2012), consiste em umdicionário de palavras com associações para sentimentos positivos e negativos, vinculadas aoito categorias de emoção: alegria, tristeza, raiva, medo, confiança, desgosto, antecipação esurpresa. O léxico é distribuído em três arquivos: unigramas-pmilexicon.txt (54,129 termos),bigramas-pmilexicon.txt (316,531 termos) e pares-pmilexicon.txt (480,010 termos). Paracriação deste léxico milhares de tweets foram rotulados automaticamente com base naocorrência de hashtags vinculadas a palavras positivas e negativas. A partir da rotulaçãoautomática verificou-se com contagens relativamente simples, quais palavras ocorriam commaior frequência em tweets positivos ou negativos.

Este léxico resultou em um dicionário com mais de 800 mil tweets contendo hashtagsque representam algum grau de positividade (ex.: #good, #joy #excellent) e negatividade(ex.: #anger, #disgust, #feart. #sadness). Alguns exemplos de tweets com hashtagspresentes no dicionário são:

• ”Me sentindo desprezado #tristeza“.

• ”Minha memória incrível salva o dia novamente# alegria“.

• ”Algum idiota roubou minha foto no tumblr #raiva“.

O corpus utilizado para criar o referido léxico é disponibilizado em <http://saifmohammad.com/WebDocs/Jan9-2012-tweets-clean.txt.zip>.

3.3.4 Opinion Lexicon

Opinion Lexicon (HU; LIU, 2004) também conhecido como Sentiment Lexicon, éum banco de dados lexical disponibilizado publicamente, ele contém aproximadamente6.800 palavras, sendo 2006 com orientação semântica positiva e 4783 com negativa. Foiinicialmente construído a partir do Wordnet, uma base de dados de palavras em inglêsagrupadas em conjuntos de sinônimos (synsets).

Por ser um léxico gerado automaticamente a partir de conteúdos extraídos demídias sociais, ele contém palavras com erros ortográficos, o que conta como ponto positivopara a tarefa de análise de sentimentos, já que as mensagens postadas em redes sociaiscomo o Twitter tendem a incluir grafias erradas e gírias da Internet (Liu, 2010b). Por

Page 45: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

44

exemplo, no Opinion Lexicon pode-se encontrar ambas as palavras ”impressionante“ e”impessionante“ na lista de palavras positivas e na lista negativa tanto ”horrível“ como”orrível“. Essa característica o torna diferente dos demais léxicos pois está mais atualizadopara lidar com expressões em redes sociais e reviws de produtos.

3.3.5 Opinion Finder

Opinion Finder é uma aplicação de AS híbrida, que realiza análise de subjetividade,identificando automaticamente quando opiniões, sentimentos, especulações e outros estadospessoais estão presentes no texto. Ele visa identificar frases subjetivas para marcar váriosaspectos da subjetividade nessas sentenças, incluindo a origem (titular) da opinião, epalavras que estão incluídas em frases que expressam sentimentos positivos ou negativos.

Este métodos funciona em dois modos, lote e interativo. No modo lote o sistema levauma lista de documentos a serem processadas. O modo interativo fornece uma interfaceque permite ao usuário consultar fontes de notícias online para os documentos a seremprocessados. Já para o processamento geral do documento, ele primeiramente executaum analisador chamado Sundance (RILOFF; PHILLIPS, 2005), que fornece etiquetasde classe semântica, identifica entidades nomeadas, e combina padrões de extração quecorrespondem a linguagem subjetiva. Em seguida, o OpenNLP 1.1.08 é utilizado paraindexar e dividir a sentença em partes do discurso e taguear os dados. Para identificarpalavras e frases utiliza um grande léxico baseado em linguagem subjetiva. E para analisara subjetividade (se o texto é opinativo) o Opinion Finder executa quatro etapas diferentes:

1. a primeira é a utilização do algoritmo de classificação Naive Bayes, responsável porfazer a distinção entre sentenças subjetivas e objetivas. Ele é treinado usando frasessubjetivas e objetivas, que são gerados automaticamente a partir de um grandecorpus de dados não rotulados;

2. a segunda identifica eventos de fala (por exemplo, “disse”, “conforme”) e expressõescom subjetiva direta (e.g., “medo”, “está feliz”);

3. A terceira combina um modelo de marcação de sequência chamado ConditionalRandom Field e um padrão de extração de aprendizagem, para identificar as fontesde eventos de fala e expressões subjetivas diretas;

4. A quarta e última, usa dois classificadores para identificar palavras contidas emfrases que expressam sentimentos positivos ou negativos. O primeiro classificador seconcentra em identificar expressões de sentimento, o segundo leva as expressões desentimento e identifica aquelas que são positivas e negativas.

8 http://opennlp.sourceforge.net/

Page 46: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

45

3.3.6 VADER

Proposto por (HUTTO; GILBERT, 2014) VADER (Valence Aware Dictionaryfor Sentiment Reasoning ) é um método para análise de sentimentos desenvolvido para ocontexto de mídias sociais.

Para sua construção os autores criaram uma lista de palavras com base em dicioná-rios já bem estabelecidos como LIWC, ANEW9 e GI10. Em seguida, foram adicionadasnumerosas construções léxicas presentes emmicroblogs tais como emoticons, acrônimos egírias que expressam sentimentos, resultando em 9000 novos candidatos a serem incluí-dos no dicionário. Em seguida, verificou-se por meio do “conhecimento das multidões”(AMT) quais destas possuíam realmente aplicabilidade através de pontuação atribuídapor Turkers variando de -4 (extremamente negativa) a 4 (extremamente positiva). Por fim,restaram 7000 construções léxicas no dicionário sendo que para a inclusão a média entreas avaliações obtidas com o AMT deveria ser diferente de 0 (neutro) e com desvio padrãoentre as pontuações abaixo de um limiar estabelecido pelos autores. A palavra “okay” porexemplo possui uma pontuação de 0.9, enquanto “great” tem o valor 3.1 e “horrible” é-2.5 (BENEVENUTO; RIBEIRO; ARAÚJO, 2015).

O VADER está disponível para download na página <https://github.com/cjhutto/vaderSentiment>

3.3.7 Sentiment140-Lexicon

Sentiment140-Lexicon ou simplesmente Sentiment140 (MOHAMMAD; KIRIT-CHENKO; ZHU, 2013b), é um dicionário léxico de palavras associadas a sentimentospositivos e negativos. O método foi criado com uma base de dados que consiste em cercade 1,6 milhões de tweets rotulados como positivo ou negativo.

Os tweets estão rotulados como unigramas, bigramas e pares de n-gramas (unigramas-unigramas, unigramas-bigramas, bigramas-unigramas e bigramas-bi-gramas). Por exem-plo, algumas das características que poderíamos ver na lista são: os unigramas (”@jef-fery_donovan“ e ”xoxoxo“); os bigramas (”sim“ e ”elogios¡‘) e os pares (”feito—tivemos“),”Eu—bebendo“, ”obrigado—adorável“, e ”bom dia—pode ser“). Cada recurso tem umapontuação que reflete o quão positiva ou negativa é a mensagem. Se a palavra for vistaem contextos mais positivos do que negativos, o resultado é positivo ou o contrário. Amagnitude da pontuação é maior quando a distribuição é extremamente positiva, e amagnitude é mais próximo de zero quando a palavra aparece igualmente em ambos oscontextos positivos e negativos. As palavras negativas são registadas com semelhantesvalores negativos em vez de valores positivos.9 https://github.com/damionjunk/sentimental10 http://www.cpp.edu/∼carich/gi/gi-1.3/doc/public/gi/Lexicon.html

Page 47: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

46

O corpus utilizado para criar este método pode ser encontrado em <http://saifmohammad.com/Lexicons/Sentiment140-Lexicon-v0.1.zip>.

3.3.8 LIWC

Linguistic Inquiry and Word Count (LIWC) é uma ferramenta baseada em análisede texto, onde é feita a contagem de palavras relacionando seu significado de formapsicológica (TAUSCZIK; PENNEBAKER, 2010). Ela possui um dicionário léxico deaproximadamente 4500 palavras e raízes de palavras que fazem parte de oitenta categoriasde sentimentos. Todas as palavras de raiva por exemplo, estão incluídas em pelo menosduas categorias que são emoções negativas e emoção geral. As categorias foram definidas epopuladas com base em buscas em diversos dicionários como Thesaurus11, questionários elistas feitas por pesquisadores. Para a correta definição, três juízes independentes julgaramcada uma das palavras e definiram em qual categoria ela deveria estar. O percentual deacordo entre os juízes ficou entre 93 e 100%. A construção do dicionário começou entre1992 e 1994 e ainda sofre alterações e incrementos atualmente.

A ferramenta encontra-se na versão LIWC 2007, e pode ser acessada na página <http://www.liwc.net/>.

3.3.9 SentiStrength

O SentiStrength (THELWALL, 2013) é uma ferramenta para estimar a polaridadede textos pequenos em linguagem informal, para isto utiliza um dicionário léxico rotuladopor humanos e é automaticamente aprimorado por aprendizado de máquina. Seu idiomade origem é o inglês, mas possui também implementações que permitem a classificaçãoem outros idiomas. Utiliza também técnicas de classificação baseada em aprendizadode máquina que permitem seu aprimoramento automaticamente. Também possui umdicionário de termos baseado em uma versão otimizada para redes sociais do dicionárioLIWC. Dessa forma é caraterizado como um método híbrido.

Dada uma mensagem, a referida ferramenta classifica sua polaridade dentro de umaescala de [-5, 5], onde -5 representam as pontuações mais negativas e 5 as mais positivas.Encontra-se disponível para download em <http://sentistrength.wlv.ac.uk/>.

3.3.10 Emoticons

Segundo Araújo et al., (2014), um dos métodos mais simples para detecção depolaridade, são os baseados nos emoticons que uma mensagem possa conter. Os emoticonstornaram-se populares nos últimos anos, e são baseados em uma sequência de caracterestipográficos (e.g. :), :( , ˆ-ˆ, :3, e.e ’,’ ’-’ e :-), ou em representações faciais que podem11 http://www.thesaurus.com/browse/lexicon

Page 48: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

47

expressar sentimentos de felicidade ou tristeza. Embora exista uma ampla gama de variaçõesque não representam expressões faciais como, por exemplo, o emoticon <3 (coração) queapesar de não ser uma expressão facial, carrega uma carga sentimental de amor ou afeição.A principal vantagem de um método para classificação baseado em detecção de emoticons,se dá pelo fato de que, estes são independentes de idioma visto que, um mesmo símboloque representa um emoticon é utilizado em diferentes idiomas com o mesmo significado.

Potencialmente, quando analisadas em larga escala, mensagens contendo emoticonspodem ser utilizadas para medir variações de humor do público à nível de população.Esse tipo de medição pode possuir diversas aplicações, como a previsão de humor co-letivo relacionada a tópicos específicos, com o objetivo de compreender como, quandoe porque sentimentos variam de acordo com eventos sociais, econômicos, políticos, etc.(GONÇALVES; BENEVENUTO; ALMEIDA, 2013b).

Os léxicos baseados em emoticons são desenvolvidos em sua grande maioria apartir de mensagens coletas de fóruns e mídias sociais (e.g., Twitter, troca de mensagensvia Skype, Yahoo! e Facebook). Um exemplo de léxico utilizado para classificação depolaridade em mensagens retiradas do Twitter foi desenvolvido por (BENEVENUTO etal., 2013b), ele inclui as variações mais comuns para emoticons que expressam polaridadepositiva, negativa e neutra. A Figura 8 apresenta a rotulagem manual de um conjuntode emoticons utilizados para servir como base de comparação para a identificação ouclassificação de polaridade de mensagens.

Figura 7 – Variações de emoticons.

Fonte: Gonçalveset al. (2013b).

Atualmente emoticons vem sendo utilizados em combinações com outros métodospara a construção de bases de treinamento para técnicas de aprendizado de máquinasupervisionada.

Page 49: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

48

3.3.11 Happiness Index

O método Happiness Index (DODDS; DANFORTH, 2009), é uma escala de sen-timentos baseada no dicionário léxico Affective Norms for English Words (BRADLEY;LANG, 1999), que consiste em uma coleção de 1.034 palavras associadas a dimensõesafetivas de valência, excitação e dominância.

O referido método foi criado com base no já consilidado léxico ANEW e, tem comoobjetivo calcular pontuações com valores entre 1 e 9 para um dado texto, indicando aquantidade de felicidade que existe neste. Seus desenvolvedores calcularam a frequênciaem que cada palavra do ANEW aparece no texto e então computaram o peso médioencontrado, levando em consideração apenas o sentimento de valência (ou seja, com maiorpeso médio). A validação do método Happiness Index, foi feita através de sua aplicaçãoem letras e títulos de músicas e mensagens de blogs. Como resultado, encontrou-se queníveis de felicidade em letras de músicas tiveram um decréscimo entre 1961 e 2007, masaumentaram nas amostras extraídas de blogs.

3.3.12 Combined Method

Desenvolvido por (GONÇALVES et al., 2013a), Combined Methos (em português,Método Combinado) é um método que consiste na combinação de 7 métodos existentesna literatura para a tarefa de analisar sentimentos, sendo eles: PANAS-t, Emoticons,SentiStrength, SentiWordNet, SenticNet, SASA e Happiness Index. Ele analisa a médiaharmônica (F-measure) da precisão e revocação de cada método e distribui diferentespesos para cada um deles. Para avaliação do desempenho do método, os desenvolvedorestestaram-no sobre a base de dados do SentiStrength que consiste de mensagens rotuladaspor humanos, em seguida calcularam o F-measure e a média de abrangência em cimadesses dados. Também computaram a abrangência baseada na base de dados que consisteem um histórico completo do Twitter, utilizando a média de abrangência através de 6eventos analisados (AirFrance, Olimpíadas 2008, Susan Boyle, Eleições-EUA2008, H1N1 eHarry Potter).

Os teste realizados sobre a base de dados SentiStrength mostraram que enquantocombinar todos os métodos de detecção de sentimentos pode melhorar a abrangência, háapenas um pequeno ganho marginal dessa, quando se aumenta o número de métodos naanálise. Este método foi criado especialmente para ser implementado no sistema de análisede sentimentos iFeel.

3.3.13 Emoticon Distant Supervisor

Emoticon Distant Supervisor – EmoticonDS (SUTTLES; IDE, 2013), é um léxicoque possui termos gerados a partir de uma extensa base de dados do Twitter, aplicável atécnica de supervisão de distância (MINTZ et al., 2009) que demonstra ser uma forma

Page 50: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

49

eficaz de superar a necessidade de um grande conjunto de dados rotulados manualmentepara produzir classificadores precisos.

No EmoticonDS os tweets são classificados de acordo com um conjunto de emoçõesbásicas bipolares, são elas: alegria, tristeza, raiva, medo, confiança, desgosto, antecipaçãoe surpresa. Estas oito emoções são organizadas em quatro conjuntos bipolares: alegriavs. tristeza, raiva vs. medo, confiança vs. desgosto, e surpresa vs. antecipação. Esta novaorganização das emoções permite tratar o problema inerente a classificação de emoção demulticlasses, como um problema binário para quatro pares opostos de emoção.

O trabalho de desenvolvimento deste método resultou em um léxico que compreendea combinação de rótulos emocionais incluindo hashtags e emoticons tradicionais. Supõe-seque a utilização de qualquer um desses símbolos reflete a emoção do autor da mensagem,mesmo quando o estado emocional reflete outro tópico. O Emoticon Distant Supervisorresultou em um léxico de 69 emoticons. O método não é publicamente disponibilizadopara consultas.

3.3.14 AFINN

AFINN12 (NIELSEN, 2011), é um dicionário léxico que fornece uma lista de palavrasem inglês associadas com uma valência afetiva ou pontuação, está lista inclui palavras comsentimentos, gírias da internet e palavras obscenas. As pontuações ( scores) das palavrasvariam em uma escala de -5 indicando um sentimento muito negativo, a 5 indicando umsentimento muito positivo. Atualmente existem duas versões: AFINN-111 versão maisrecente com 2477 palavras e frases, e AFINN-96 com 1468 palavras e frases originais em1480 linhas.

3.3.15 Pattern.en

Pattern.en13 (SMEDT; NIJS; DAELEMANS, 2014) é um pacote da linguagem deprogramação python para lidar com processamento de linguagem natural. Um de seusmódulos é responsável por inferir o sentimento no texto. Criado para ser rápido ele ébaseado em polaridades associadas ao WordNet. Este módulo se chama ”text“ e contém:um etiquetador rápido part-of-speech para o idioma inglês (que identifica substantivos,adjetivos, verbos, etc. em uma frase), ferramentas para conjugação de verbos e substantivo,singularização e pluralização em inglês, uma interface WordNet; um léxico com 8.500 verbosingleses comuns e suas formas conjugadas, além de analisar sentimentos. O Pattern.enempacota um léxico de adjetivos (por exemplo, bom, mau, impressionante, irritante, . . . )que ocorrem com frequência em análises de produtos, anotado com as pontuações para umapolaridade de sentimento (positivo ↔ negativo) e subjetividade (↔ objetivo subjetiva).12 <http://www2.imm.dtu.dk/pubdb/views/publication_details.php?id=6010>13 <http://www.clips.ua.ac.be/pages/pattern-en#article>

Page 51: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

50

A função sentimento retorna uma tupla (polaridade, subjetividade) para a sentençadada, com base nos adjetivos que ela contém, onde polaridade é um valor entre -1,0 e+ 1,0 e subjetividade entre 0.0 e 1.0. A sentença pode ser uma string, texto, frase, pedaçode uma frase ou uma palavra. A função positiva retorna “Verdadeiro” se a polaridadede determinada sentença está acima do limite. A função negativa retorna “Falso” se apolaridade de determinada sentença está abaixo do limite. O limite pode ser diminuídoou aumentado, mas no geral 0,1 dá os melhores resultados para análises de produtos. Aprecisão é de cerca de 75% para críticas de filmes.

Page 52: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

51

4 Trabalhos Correlatos

Nesta seção são apresentados os principais trabalhos correlatos que nortearama presente pesquisa. O objetivo em comum destas investigações é o estudo de métodosutilizados para a tarefa de analisar sentimentos, bem como o estudo do sarcasmo e/ouirônica no contexto de mídias sociais, considerando o impacto ou influência que estasfiguras de linguagem exercem sobre a AS como um todo. Algumas pesquisas têm como focoo desenvolvimento de métodos que consigam classificar a opinião de mensagens levandoem consideração a presença do sarcasmo e/ou ironia, enquanto outros estudam a atuaçãodestes nos sistemas de análise de sentimentos.

Diferentemente dos trabalhos correlatos, a presente pesquisa buscou avaliar odesempenho de métodos de análise de sentimentos apresentados na literatura, e nãodesenvolver técnicas para tratar as referidas figuras de linguagem.

4.1 Maynard; Greenwood (2014)

Segundo Maynard e Greenwood (2014), é comum que informações úteis relacionadasao sentimento de mensagens postadas nas redes sociais, estejam contidas dentro de hashtags,porém este tipo de estrutura é de certa forma um problema para a tarefa de identificaçãode sarcasmo, pois hashtags são tipicamente tokenizadas1 como um único token2, emboraelas contenham vários tokens (e.g., #notreally, #notcool e #greatstart). Focados nesteproblema os referidos autores desenvolveram um algoritmo para extrair os tokens e palavrasindividuais de hashtags. O algoritmo procura reconhecer palavras positivas e negativas,que podem ser usadas para denotar sarcasmo, de maneira que seja possível fazer uso dainformação contida dentro das hashtags para a detecção de polaridade. Para identificardeclarações sarcásticas, foram coletados manualmente uma lista de hashtags sarcásticas apartir de um corpus de tweets aleatórios extraído do microblogin Twitter.

Além do algoritmo também foi desenvolvido um conjunto de regras, com o objetivode compreender corretamente o alcance do sarcasmo a partir de hashtags. O resultado dasregras foram:

• Se houver uma única hashtag denotando sarcasmo, e o sentimento inicial é positivoou neutro, muda-se para a polaridade negativa;

1 É a maneira como os tokens (blocos de textos) são processados (tratados) pelos programas decomputadores que trabalham com processamento linguístico.

2 Tokens são blocos constituintes dos textos, em sua grande maioria equivalem as palavras que compõemum texto.

Page 53: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

52

• Se houver mais de uma hashtag, olha-se para qualquer sentimento contido nessashashtags;

• Se houverem duas hashtags ambas contendo indicadores de sarcasmo, elas devem sertratadas como um indicador único de sarcasmo, por exemplo, “#lying #notreally”;

• Se uma hashtag positiva é seguida por um indicador de sarcasmo, e a polaridadedo tweet é positiva ou neutra, troca-se a polaridade do sentimento da hashtag depositivo para negativo, e depois aplica-se este sentimento a mensagem;

• Se uma hashtag negativa é seguida por um indicador de sarcasmo, e a polaridadedo tweet é positiva ou neutra, trata-se as duas hashtags como negativo e troce-se apolaridade do tweet para negativo.

Por último foi realizado um experimento para medir a precisão da tokenização3 ouatomização4 das hashtags, utilizando um conjunto padrão de hashtags anotadas manual-mente através do sistema GazetteerListCollector5. O experimento mostrou que detectarcorretamente sarcasmo pode melhorar a classificação de sentimento em quase 50%, noentanto, mesmo quando um tweet seja corretamente identificado como sendo sarcástico,a precisão da análise de sentimentos ainda não apresenta um resultado com valores tãoelevados.

4.1.1 Principais Contribuições

Os autores criaram uma lista de hashtags para identificar um tweet como sarcástico.Esta lista possui as seguintes hashtags: #notcool, #sarcasm, #irony, #lying, #greatstart,#notreally. Nesta pesquisa, estas hashtags juntamente com outras também de cunhosarcástico pesquisadas e selecionadas pela própria desenvolvedora deste trabalho, serviramcomo critério de coleta dos tweets com teor sarcástico, que constituíram a base de dadosutilizada nos experimentos realizados sobre os métodos e algoritmo de AS.

Esta pesquisa também serviu de inspiração para o presente trabalho, ao levantara questão da falta de trabalhos focados no estudo do impacto causado pela presença dosarcasmo sobre o desempenho da tarefa de classificação realizada por métodos de análisede sentimentos.

4.2 Gonçalves et. (2014)

Em Gonçalves et al. (2014a) é proposto um sistema Web chamado “Ifeel”, quepermite a comparação entre oito diferentes métodos de análise de sentimentos existentes na3 Do inglês tokenization.4 Alguns autores da lingua portuguesa utilizam o termo atomização para referenciar a tarefa de

tokenização (FINATTO, 2005; LINGUATECA, 2007).5 <http://gate.ac.uk/userguide/sec:gazetteers:listscollector>.

Page 54: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

53

literatura. O estudo fez uso de duas bases de dados construídas com dados não estruturadosextraídos de diferentes redes sociais. A primeira base com tweets associados a 6 eventossociais relacionados a tragédias, lançamento de produtos, política, saúde e esporte, e asegunda com uma coleção de textos rotulados por humanos para positivo e negativo. Asbases foram utilizadas para comparar os resultados da classificação de polaridade alcançadospor cada método. Os métodos implementados pela ferramenta foram os seguinte: LIWC,Happiness Index, SentiWordNet, SASA, PANAS-t, Emoticons, SenticNet e SentiStreng.

O objetivo dos autores foi avaliar o desempenho da classificação em função dasmétricas de abrangência (medindo a fração de mensagens capturadas por um método)e concordância (medindo a concordância entre a polaridade entre os métodos utilizandouma base rotulada). Para alcançar tal objetivo, através da classificação realizada comos métodos do iFeel e da base classificada manualmente (base rotulada) utilizaram osresultados das seguintes métricas de avaliação:

• Recall : R = a/(a + c);

• Precision : P = a/(a + b);

• F −measure = 2 ∗ (P ∗R)/(P + R)

• Acurracy : A = (a + d)/(a + b + c + d)

Onde a equivale ao número de mensagens corretamente classificadas como positivas,b o número de mensagens negativas classificadas como positivas, c o número de mensagenspositivas classificadas como negativas, ed o número de mensagens negativas classificadascomo negativas. Os autores consideraram que a melhor medida de comparação é o F-measure, já que ele é a média harmônica entre precisão e recall, e considera que um métodoalcança o máximo valor para F-measure em 1, significando que a classificação de polaridadefoi perfeita. Os resultados alcançados foram:

1. Os métodos possuem diferentes graus de abrangência, variando entre 4% e 95%quando aplicados a dados associados a eventos reais. Isso sugere que, dependendo dométodo utilizado, apenas uma pequena fração de mensagens será analisada, podendolevar a resultados enviesados ou não representativos.

2. Nenhum método alcançou níveis altos de abrangência e concordância ao mesmotempo. O método Emoticons atingiu a maior acurácia (acima de 85%), porém umadas menores abrangências (4 – 13%).

3. A concordância dos métodos, quando aplicados aos dados rotulados, variaram entre33% e 80%, sugerindo que uma mesma amostra de dados pode ser interpretada deforma diferente dependendo do método escolhido.

Page 55: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

54

4. Existe desacordo entre os métodos na predição de sentimentos para diferentes eventosconsiderados. Para o caso do evento da queda de um avião, metade dos métodosdetectaram mais positividade do que negatividade. O mesmo é observado em outroseventos onde eram esperados uma maior quantidade de sentimentos negativos.

4.2.1 Principais Contribuições

O sistema Web iFeel permitiu que a metodologia proposta no presente trabalhofosse alcançada. Pois o iFeel possibilitou que fossem realizados diferentes experimentos declassificação de polaridade com diferentes métodos de AS, além de gerar um arquivo comos resultados da classificação de polaridade obtida por cada método, que serviu como basepara calcular-se as métricas de avaliação de desempenho sobre os métodos testados.

Além da classificação da base de dados com o sistema iFeel, este trabalho tambémserviu como um ponto de partida para a escolha das métricas utilizadas para a avaliaçãodo desempenho dos métodos e algoritmo estudados.

4.3 Hernandez Farías et al.(2015)

Em Hernandez Farías et al. (2015), foi desenvolvido um sistema chamado ValenTopara avaliação de diferentes tipos de figuras de linguagem em mensagens postadas noTwitter, em particular o sarcasmo, ironia e metáfora. O sistema utilizou um modelo deregressão linear6 para explorar características lexicais e estruturais de tweets. O trabalhopropõs uma abordagem supervisionada, que consiste na atribuição de um valor de polari-dade a tweets usando um modelo de regressão linear a partir de um conjunto de dadosrotulados, com o objetivo de capturar características que permitissem medir o valor dapolaridade em cada tweet, para isto, considerou-se o conjunto de recursos descritos abaixo:

• Características estruturais: o comprimento de tweets na quantidade de palavras(lengthWords); o comprimento de um tweet como o número de caracteres que compõea mensagem (lengthChar); a frequência de vírgulas, ponto e vírgula, dois pontos,exclamação e pergunta (punctuationmarks); a frequência de alguma parte de cate-gorias de discurso como substantivos, advérbios, verbos e adjetivos; a frequênciade letras maiúsculas em cada caso (upperFreq); a frequência ou a presença de URL(urlFreq); e da quantidade de emoticons usados para expressar algum tipo de emoção,considerando tanto positivos (emotPosFreq) e negativos (emotNegFreq).

• Recursos lexicais: a fim de ter em conta os sentimentos, emoções e característicaspsicolinguísticas e contar a sua frequência. Os seguintes recursos lexicais foramutilizados pelo sistema:

6 É uma equação para se estimar a condicional (valor esperado) de uma variável y, dados os valores dealgumas outras variáveis x.

Page 56: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

55

– Normas Afetivas para Palavras Inglesas (ANEW);

– Dicionário de Língua Afetiva (DLA);

– General Inquirer, dicionário contendo categorias e subcategorias para análisede sentimentos;

– Dicionário léxico SentiWordNet;

– Recurso semântico SenticNet.

Para medir o desempenho do sistema ValenTo foram realizados testes com um corpusrico em mensagens contendo sarcasmo, ironia e metáfora, objetivando assim determinarpara cada mensagem se o usuário expressava um sentimento positivo, negativo ou neutroe o grau desse sentimento, para se ter uma medida da intensidade. O desempenho dosistema foi avaliado através de duas medidas de desempenho - “Cosine Similarity (CS)” e“Mean Squared Error (MSE)”, estas foram estabelecidas pelo Workshop Internacional deSemântica SemEval 2015. A pontuação do ValenTo para a métrica CS foi igual a 0.895,0.901 e 0.393 para correta identificação do sarcasmo, ironia e metáfora respectivamente, ede 1.004, 0.777 e 4.730 para o MSE. Com estás pontuações o sistema se classificou como osexto colocado dentre 15 sistemas participantes do Worksop SemEval 20157.

4.3.1 Principais Contribuições

No trabalho são apresentados conceitos extremamente relevantes sobre a estrutura,comportamento, e influência de diferentes tipos de figuras de linguagem em mensagenscomo tweets, principalmente acerca do sarcasmo e da ironia. Estas definições permitiramum maior entendimento da aplicação e funcionamento do sarcasmo e ironia nas mídiassociais, principalmente no Twitter que é plataforma na qual foram retiradas as mesnagensque compuseram a base de dados de teste utilizada na presente pesquisa.

Além de apresentar técnicas de classificação baseadas em recursos léxicos e emaprendizado de máquina, como o dicionário de sentimentos SentiWordNet e o algoritmoSVM, assim como configurações específicas da ferramenta de mineração de dados Weka,aplicada ao algoritmo SVM, principalmente a utilização do filtro StringToWordVector,utilizado para transformas as mensagens em vetores de palavras a serem processadas peloalgoritmo SVM.

7 <http://alt.qcri.org/semeval2015/>

Page 57: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

56

5 Metodologia da Pesquisa

A metodologia de pesquisa empregada no presente trabalho constitui em uma abor-dagem de natureza básica, pelo fato dos resultados alcançados poderem ser utilizados empesquisas aplicadas ou tecnológicas. Quanto aos objetivos caracteriza-se como explicativa,pois preocupa-se em identificar fatores que determinam ou contribuam para a ocorrênciade um determinado fenômeno. Com relação aos procedimentos apresenta-se como pesquisaexperimental, pois consiste em determinar um objeto de estudo, selecionar as variáveis queseriam capazes de influenciá-lo, definir as formas de controle e de observação dos efeitosque a variável produz no objeto. E por fim, em relação a tabulação dos dados, os mesmossão apresentados de maneira quantitativa através de tabelas e gráficos com porcentagensde acertos e erros de cada método (GIL, 2002).

Conforme abordado no capítulo 1, o sarcasmo/ironia é um dos grandes desafios aser enfrenado pela análise de sentimentos, devido ao fato de ser um elemento da linguagemnatural que interfere no resultado dos métodos de análise de sentimentos durante aclassificação da polaridade de dados não estruturados. Assim sendo, neste capítulo sãoapresentados experimentos com o intuito de avaliar o comportamento de 12 métodosexistentes na literatura utilizados para análise de sentimentos, bem como a identificaçãodo desempenho de cada um destes ao serem submetidos ao contexto do sarcasmo. Estedesempenho também foi avaliado para a classificação de mensagens positivas e neutras,apesar de não serem o foco principal desta pesquisa. O estudo de avaliação e comparação dosmétodos foi baseando em quatro métricas de avaliação de desempenho: precisão, revocação,F-mesuare e acurácia, comumente utilizadas na literatura para tarefas similares.

Para validação da abordagem proposta, contou-se com a utilização de uma basede dados com mensagens curtas (tweets) rotuladas (classificadas) manualmente comopositivas, negativas e neutras, compostas por assuntos diversos.

É importante ressaltar que os experimentos realizados tiveram o intuito de revelar odesempenho dos métodos em classificar mensagens com teor sarcástico, e não abordar comoeles processaram estas mensagens ou desenvolver estratégias para melhorar o desempenhodeles. Dessa forma o presente trabalho delimitou-se em realizar a avaliação e comparaçãodo desempenho de classificação de polaridade em exatamente 12 métodos de análise desentimentos.

O fluxo das etapas de realização da métodologia do presente trabalho pode servisualizado na Figura 9.

Page 58: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

57

Figura 8 – Etapas de realização da metodologia proposta.

Fonte: Elaborado pela autora.

O passo inicial da estratégia adotada para realização do trabalho, foi primeiramentecriar uma base de dados composta por mensagens (tweets) postadas no Twitter. Estaserviu de entrada para as classificações de polaridade a serem realizadas pelos métodos ealgoritmo de AS. Para tal tarefa, contou-se com a ferramenta SOMtool, responsável pelacoleta personalizada dos dados.

Os dados coletados passaram inicialmente por um tratamento (pré-processamento)com o intuito de retirar as inconsistências que pudessem atrapalhar o processo de clas-sificação realizado pelos métodos e algoritmo. Além de que segundo (SANTOS, 2010;BENEVENUTO; RIBEIRO; ARAÚJO, 2015) o pré-processamento constitui uma etapaintegrada e fundamental da tarefa de AS.

Em seguida, as mensagens que compunham cada tweet foram classificadas (rotula-das/etiquetadas) manualmente criando-se assim, rótulos que identificassem a polaridadeexpressa por cada mensagem como positivo, negativo ou neutro. Os dados rotuladosassumiram duas tarefas: base de comparação para os resultados gerados pelos métodos(i.e. um ponto de comparação entre a real polaridade das mensagens e o julgamento dosmétodos), e como base para os experimentos realizados com o algoritmo SVM, já queeste utiliza dados rotulados para treinar o algoritmo.

A tarefa posterior consistiu na realização dos experimentos com os métodos, tanto osdisponibilizados pelo sistema iFeel quanto com algoritmo SVM. Os referidos experimentosforam realizados de duas maneiras: no primeiro as mensagens foram submetidas aosmétodos e algoritmo com a presença de hashtags (marcadores) que denotam sarcasmo,no segundo teste estas hashtags foram removidas das mensagens e a base submetidanovamente para classificação dos mesmos métodos e algoritmo.

Com os resultados das classificações, e com a rotulação correta das mensagensexistentes na base de teste, calculou-se então as métricas de avaliação (revocação, pre-cisão, F-measure e acurácia). Os valores encontrados foram utilizados para comparar o

Page 59: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

58

desempenho dos métodos e organizar os resultados em formato de tabelas e gráficos.

5.1 Ferramentas Utilizadas

Nesta seção são apresentadas as ferramentas que foram necessárias para a realizaçãodas tarefas cruciais ao desenvolvimento deste trabalho, assim como a justificativa dautilização de cada uma.

5.1.1 SOMtool

SOMtool é um framework1 de adaptação do método léxico SentiWordNet, desen-volvido na linguagem de programação JAVA, em um trabalho de conclusão de curso dosdiscentes Aguiar e Rodriguez (2014), para obtenção do certificado de bacharel em Sistemasde Informação pela Universidade Federal do Sul e Sudeste do Pará.

Esta ferramenta consiste de um sistema que análisa a polaridade de tweets. E pararealizar a recuperação de tweets na plataforma Twitter implementa uma codificação querealiza a requisão das mensagens á API Rest do Twitter. Esta API realiza buscas sistemá-ticas para extrair tweets de timelines2 públicas. Dessa forma a ferramenta SOMtool fazrequisições à Rest APIs3 do Twitter que retorna os tweets a ferramenta, que por sua vezos armazena em um arquivo de texto (.txt). Com os dados inseridos, o framework executaa análise léxica e os retorna como dados polarizados (como positivo, negativo ou neutro).

Dentre as ferramentas existentes que executam a tarefa de extração de mensagensem redes sociais como o Scup (comercial), Salesforce (comercial) e o Analytics for Twitter(gratuita), o SOMtool foi escolhido por ser gratuito e atender à necessidade de extrairmensagens do Twitter a partir dos termos existentes em uma hashtag, o que permitiucriar a base de dados utilizada nesta pesquisa, com mensagens de cunho sarcástico (compolaridade negativa), e também mensagens positivas e neutras. Vale ressaltar que apresente ferramenta, assim como os dados coletados que foram utilizados nos testes declassificaçaõ dos métodos de Análise de Sentimentos na presente pesquisa, foram gentilmentecedidos pelos pesquisadores Raul Freire Aguiar e Walter Fernando García Rodriguez. Eestão disponíveis em Weitzel et al. (2014). A Figura 10 apresenta a tela principal doframework em questão.

1 Framework é uma abstração que une códigos comuns entre vários projetos de software provendo umafuncionalidade genérica.

2 Nas redes sociais timeline equivale a maneira sequêncial e cronológica como as postagens e conversasdos usuários são organizadas.

3 Rest APIs do Twitter é um serviço online gratuito que ajuda os usuários a extrairem os tweets usandoa pesquisa do Twitter. Esta ferramenta é disponibiliza no site <https://dev.twitter.com/rest/public>.

Page 60: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

59

Figura 9 – Ferramenta SOMtool.

Fonte: Aguiar e Rodriguez (2014).

A ferramenta SOMtool foi utilizada neste trabalho especificamente para a coletados dados, isto é, para extração das mensagens no Twitter.

5.1.2 iFeel

O iFeel 2.0 é uma aplicação Web gratuita que permite detectar sentimentos emqualquer formato de texto, incluindo dados de mídia social não estruturados. Ele dáacesso a 19 métodos de análise de sentimento existentes na literatura, permitindo assimuma fácil visualização da polaridade classificada por cada método (ARAÚJO et al.,2014), são eles: AFINN, Emolex, Emoticons, EmoticonDS, Happiness Index, OpinionFinder, NRCHashtag, OpinionLexicon, PANAS-t, SANN, SASA, Senticnet, Sentiment140,Sentistrength, SentiWordNet, SO-CAL, StanfordDeep Learning, Umigon e Vader. Aprimeira versão desta aplicação disponibilizada outrora no endereço <http://blackbird.dcc.ufmg.br:8080/>, implementava apenas oito métodos de AS, mas a versão 2.0 passou porreajustes recentemente, aonde foram retirados os métodos Pattern.en e Combined Methode acrescentado os métodos os demais citados acima.

Levando-se em consideração que as ferramentas de análise de sentimentos existentesabrangem diferentes categorias de humor como raiva, felicidade, fadiga, etc., o iFeelfoi proposto com o proposito de permitir a comparação da classificação de polaridaderealizada por diferentes métodos. O resultado de sua análise varia em uma escala de [-1, 0,1], representando a polaridade do sentimento de uma mensagem em três classes: neutro(0), positivo (1) ou negativo (-1). A arquitetura de funcionamento do iFeel é apresentadapela Figura 11.

Page 61: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

60

Figura 10 – Arquitetura do sistema Web iFeel.

Fonte: Araújo et al. (2014).

O sistema funciona basicamente através de um fluxo de seis etapas:

• Etapa 1: o processo começa quando o usuário logado carrega um arquivo de textona aplicação. Neste arquivo cada mensagem é delimitada por quebras de linhas;

• Etapa 2: após a conclusão do upload do arquivo, o sistema cria um segmentoassíncrono para os 19 métodos processarem simultaneamente o arquivo;

• Etapa 3: em seguida ocorre o processamento do arquivo por todos os métodos demaneira paralela, e a saída de cada processo é armazenada em seu próprio arquivo;

• Etapa 4: está etapa é realizada em dois passos: para cada linha do arquivo deentrada, é adquirido o resultado de cada método; e é atribuído um maior peso parao método que obtiver melhor F-measure ou seguindo exatamente os pesos indicadospelo utilizador, se houver algum;

• Etapa 5: os resultados de sentimentos (polaridade) referentes as mensagens classifica-das por cada método, são armazenadas no ficheiro de saída (um arquivo no formatoXML e outro no formato XLSX). Os sentimentos são representados por números [-1, 0 ou 1];

• Etapa 6: Por fim, os resultados são disponibilizados para download.

O iFeel também possui em sua página principal um campo de pesquisa, no qual ousuário pode entrar com uma palavra ou frase, e aplicar a análise de sentimentos sobre

Page 62: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

61

os mesmos. Como resultado é gerado a visualização gráfica da polaridade da frase oupalavra, no formato de etiquetas organizadas por cores, associadas às diferentes polaridades,possibilitando uma interpretação mais fácil e indutiva dos resultados.

A Figura 12 mostra a interface principal do iFeel 2.0, ao realizar a análise desentimentos do seguinte tweet “The culpo’s friends acquaintances seem so nice :))))))#sarcasm”. Pode-se observar o resultado na parte inferior da interface de entrada, onde asetiquetas verdes com resultado igual a +1, correspondem aos métodos que classificaram amensagem como positiva, as vermelhas (-1) classificaram-na como negativa e as laranjas(0) como neutra.

Figura 11 – Página principal do iFeel 2.0.

Fonte: Extraído do site <http://blackbird.dcc.ufmg.br:1210/>.

Escolheu-se o iFeel para este trabalho, porque dentre as pesquisas realizadas naliteratura ele foi a única ferramenta encontrada que implementasse vários métodos de ASem uma única plataforma. Permitindo o acesso a não apenas um, mas vários métodosbaseados em diferentes técnicas de classificação de polaridade. Possibilitando assim, acomparação de diferentes resultados de classificação de maneira mais fácil e organizada.Além disto, o sistema permite o upload de arquivos de texto de até 10.000 linhas demensagens. A verão 2.0 do iFeel pode ser acessada na página <http://blackbird.dcc.ufmg.br:1210/>.

5.1.3 WEKA

Weka (Waikato Environment for Knowledge Analysis) é um software Open Sourcedesenvolvido em JAVA em 1993 pela Universidade de Waikato em Nova Zelândia, paratarefa de Mineração de Dados. Ele agrega algoritmos provenientes de diferentes abordagensna subárea da inteligência artificial, tais como, classificação, regressão, agrupamento e

Page 63: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

62

associação de dados. Estes algoritmos são capazes de vasculhar grandes bases de dados demodo eficiente e revelar padrões interessantes, escondidos dentro da montanha de dados.Os algoritmos podem ser aplicados diretamente ao conjunto de dados ou instânciadospor um código JAVA. O Weka também conta com ferramentas para pré-processamento evisualização gráfica dos resultados.

Esta ferramenta trabalha preferencialmente com arquivos de entrada no formato.arff, que corresponde a um arquivo de texto contendo um conjunto de instâncias, pre-cedido por um pequeno cabeçalho. Apesar de ser desenvolvido para mineração de dadosestruturados4 o Weka possui um filtro chamado StringToWordVector que ao ser aplicadosobre dados não estruturados, cria uma representação estruturada dos dados textuaistornando assim, possível a aplicação dos algoritmos tradicionais de mineração de dadosestruturados disponíveis no software sobre dadosde texto. Este filtro realiza as seguintestarefas:

• Tokenizer : este processo consiste em seccionar um texto em unidades mínimaschamadas tokens, mas que exprimem a mesma semântica original do texto. Os tokenssão unidades textuais que muitas vezes correspondem somente a uma palavra, oualgumas vezes unidades que não são consideradas palavras (e.g., “#”, “@”, modelode data “08/02/2015”, ou abreviações “GTG”);

• Remoção de stopwords: remoção de palavras que não agregam valor sentimental aotexto;

• Cálculo de relevância dos termos tokenizados segundo métricas como TF e IDF;

• CaseFolding: operação que converte todos os termos para letras minúsculas;

• MinTermFreq: permite definir uma frequência mínima por termo, fazendo com queos termos abaixo do valor definido neste parâmetro sejam descartados na criação damatriz.

A Figura 13 mostra os parâmetros deste filtro.

4 Os dados estruturados são organizados em linhas e colunas, geralmente são encontrados em banco dedados relacionais, são eficientes quanto à recuperação e processamento.

Page 64: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

63

Figura 12 – Filtro StringToWordVector.

Fonte: Print screen da ferramenta Weka.

Apesar de existirem outras ferramentas que permitam a implementação do algoritmoSVM, escolheu-se o Weka para a tarefa de classificação de polaridade, por ele conterferramentas de pré-processamentos, indexação, normalização, e o filtro StringToWordVector,além de ser um software gratuito.

Na presente pesquisa o Weka foi utilizado para a implementação do algoritmo SVMatravés da importação do pacote em java libSVM, bem como para a transformação dosdados não estruturados em um vetor de palavras através do filtro StringToWordVector.

5.2 Coleta dos Dados

Para coleta dos dados necessários à realização dos experimentos com os métodos,utilizou-se o serviço de microblogging lançado em 2006 chamado Twitter. Um dos motivospara a escolha desta rede social foi, por ser uma ferramenta de disseminação de informaçõesresponsável por uma grande quantidade de conteúdos opinativos disponibilizados em

Page 65: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

64

tempo real, além da sua ampla utilização para trabalhos acadêmicos com a mesma linhade pesquisa da presente pesquisa. Uma de suas principais características é o tamanhomáximo prefixado em 140 caracteres para a postagem de tweets. Dessa forma, temos comoponto positivo, a postagem de mensagens curtas que emitem sentimento sobre apenas umobjeto.

A uma mensagem do Twitter chama-se de “tweet”. Um tweet pode conter diversossímbolos importantes que conotam os sentimentos ou atitudes de um usuário e suasrelações com os outros usuários da ferramenta. Um símbolo importante é a hashtag (#),que provê meta-informação (informação acerca da informação) sobre o tweet. Normalmente,os usuários utilizam hashtags antes de uma palavra-chave para categorizá-la e tornar maisfácil a busca por ela.

Na tarefa de coleta, utilizou-se o web crawler implementado na ferramente SOMtool,para a extração dos tweets postados em timelines publicas de usuários da plataforma.Para isto obedeceu-se os seguintes critérios:

1. A primeira busca capturou aleatoriamente apenas mensagens escritas na línguainglesa, afim de se obter mensagens que expressassem a polaridade positiva e neutra;

2. A segunda busca capturou especificamente tweets que continham as seguintes hashtagsde cunho sarcastico: #sarcasm, #lying, #notcool, #greatstart, #moresarcasm,#notsarcasm, #somuchsarcasm, #funny e #sarcasmsunday. Afim de obter mensagenscom teor sarcástico .

A coleta resultou em um total de mais de 3000 tweets. Sobre este total foi realizadauma filtragem manual, com o proposito de separar e selecionar as mensagens que com-poriam a base de dados a ser utilizada nos experimentos. Seguindo os critérios adotadosem Filho (2014) e Benevenuto, Ribeiro e Araújo (2015), descartou-se as mensagens queapresentavam os seguintes parâmetros:

• Menos de três palavras válidas no inglês;

• Má ortografia em demasia: mensagens com texto escrito de maneira extremamenteerrada ou faltando muitas palavras e letras;

• Prefixo “Rt”, “RT”, e “rt”: indica que a informação é replicada de outro usuário enem sempre indica concordância com o sentimento expresso no tweet compartilhado;

• Imagens: não é possível identificar o sentimento expresso em imagens;

• Apenas “http” ou “https”: links e urls não são considerados porque, também nãoexpressam sentimento;

Page 66: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

65

• Apenas onomatopeias: palavras que imitam um sons como ruídos, gritos, cantos deanimais, etc, não expressam nenhum sentimento;

• Mensagens com parte do texto em outro idioma: porque a maioria dos métodostestados trabalham apenas com o idioma inglês;

• Apenas números: números geralmente fazem parte do fato comentado e não denotamnenhum tipo de valor sentimental.

Após este primeiro processo de triagem realizado manualmente, a base de dadoscoletada inicialmente resumiu-se a um total de 1137 tweets. Ao final desta etapa iniciou-sea etapa de pré-processamento, explicada na subseção seguinte.

5.3 Pré-processamentos dos Dados

O pré-processamento consiste na limpeza dos dados, ou seja, desconsiderar asestruturas textuais que não contribuem no processo de classificação da orientação dapolaridade expressa nos tweets.

Assim, os 1137 tweets resultantes da etapa anterior, passaram por um tratamentoonde foram descartadas estruturas consideradas irrelevantes ao processo de classificaçãoda polaridade dos dados, denominados de tokens. Essas estruturas incluíram: palavrasirrelevantes chamadas de stopwords, termos presentes especificamente do Twitter, pontuaçãoe caracteres especiais. A Tabela 2 apresenta estas estruturas.

Tabela 2 – Termos removidos.

Estrutura Representação

Hashtag #

Nome de usuários, marcado com o arroba @

URL http://www.twitter.com

Caracteres não alfanuméricos & % $ ) _ - + * ] : ; /

Fonte: Elaborado pela autora.

Além da remoção dos tokens, também foi necessário a substituição de pontos deinterrogação aplicados incorretamente no lugar de apóstrofes, e a correção de palavrasescritas incorretamente ou com a ausência de letras.

O token (#), foi descartado apenas dos tweets positivos e neutros visto que, servecomo um marcador/etiqueta para indicar quando a mensagem contém sarcasmo. Nestetrabalho como mencionado anteriormente as mensagens negativas são os textos com teor

Page 67: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

66

sarcástico identificados através de hashtags de cunho sarcástico (i.e. o termo cerquilhaseguido de palavra (s) que indiquem sarcasmo), apresentados na seção 5.2.

Vale ressaltar que o processo de remoção dos tokens foi realizado através dafuncionalidade “Pattern” disponibilizada pela ferramenta Weka, esta permitiu a pesquisae a remoção automatizada dos tokens apresentados na Tabela 2. O que resultou em umamaior agilidade na etapa de pré-processamento.

5.4 Classificação Manual dos Dados

Nesta etapa os 1137 tweets resultantes das etapas anteriores foram rotuladosmanualmente, ou seja, analisados por humanos e classificados de acordo com a polaridade(positivo, negativo ou neutro) que expressavam.

Antes de serem rotulados os 1137 tweets foram lidos, analisados e julgados porduas pessoas, sendo uma delas a pesquisadora do presente trabalho e a Profª. Drª. LeilaWeitzel Coelho da Silva (co-orientadora da monografia) que supervisionou a rotulagemdas mensagens, visto que a mesma possui conhecimentos avançado no idioma inglês. Apóso julgamento foi atribuído manualmente os rótulos a cada mensagem. Esse processo tevecomo objetivo cruzar o julgamento de cada um dos analisadores para eleger qual polaridadeclassificaria cada tweet da base, diminuindo assim a possibilidade de mensagens rotuladasincorretamente. Os rótulos possíveis foram:

• Neutro: mensagens que não expressam nenhuma opinião ou sentimento;

• Positivo: mensagens que expressam um sentimento positivo;

• Negativo: mensagens que expressam um sentimento negativo, mas são escritas coma estrutura de textos positivos.

A tarefa de rotulagem ou classificação manual, consistiu em abir a base de dadosque se encontrava no formato .txt, através do software Notpad++ e acrescentar os termos”pos“ (positivo) e ”neg“ (negativo) neut”, para representar a polaridade que a determinadamensagem expressava.

Para este trabalho as mensagens rotuladas como negativas, foram definidas comotextos positivos que possuem hashtags de cunho sarcástico, o que faz com que elas apesarde serem escritas como textos positivos expressem na realidade um sentimento negativo,já que o sarcasmo inverte a polaridade de um enunciado. Para garantir isto, dentre todosos tweets coletados que continham sarcasmo, escolheu-se apenas aqueles cujo contextodeduzia um sentimento negativo, apesar de sua escrita ser positiva e possuiam hashtags decunho sarcástico.

Page 68: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

67

Após a tarefa de rotulagem, foi criada uma base de dados anotada com 1137 tweets,sendo que deste total 120 foram rotulados com positivos, 231 como neutros e 786 comonegativos. A Tabela 3 sumariza essa distribuição.

Tabela 3 – Distribuição dos tweets rotulados manualmente.

Classe Quantidade Porcentagem na BasePositivo 120 11%Negativo 786 69%Neutro 231 20%

Fonte: Elaborado pela autora.

Vale ressaltar que o processo de rotulagem manual, não considerou apenas osentimento isolado das palavras, mas sim o sentimento geral expresso na mensagem, ouseja, a polaridade de uma mensagem é positiva ou negativa ou neutra, visto que os métodosde AS testados geram apenas um tipo de sentimento. Na Tabela 4 apresenta-se exemplosde como os tweets foram rotulados.

Tabela 4 – Exemplos de Tweets Rotulados Manualmente.

Tweet (mensagem) Rótulo“London life is great. . . I enjoy every moment here #happydays” pos“You are a very attractive person #sarcasm” neg“G+ Hangout on Observing Earth from Space” neu

Elaborado pela autora.

A etapa de classificação ou rotulagem manual, teve dois objetivos:

1. Classificar os dados entre neutros, positivos e negativos, para que depois esta cate-gorização servisse de base para saber se a classificação automática realizada pelosmétodos foram corretas ou incorretas;

2. Utilizar a base de dados rotulada, para os testes com o algoritmo SVM, visto que eleprecisa tanto dos dados quanto da classe, ou seja, categoria a que os dados pertencem,para realizar o treinamento do algoritmo.

Dessa forma duas bases no formato .txt contendo os mesmos tweets foram utilizadasnos experimentos, a base não rotulada e a rotulada.

5.5 Experimentos Realizados

Todos os experimentos foram realizados em uma máquina de uso pessoal, comas seguintes configurações de hardware e software: Sistema Operacional (Windows 8);

Page 69: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

68

Processador (Intel (R) Core (TM) i5 3337U CPU, @ 1.80GHz); Memória instalada (4 GB);Tipo de sistema (64 bits).

O objetivo crucial da realização dos experimentos, foi identificar em termos quanti-tativos (mais especificamente em porcentagem) o desempenho de cada um dos métodosselecionados para avaliação, ao serem submetidos a classificação da polaridade de mensa-gens que continham teor sarcástico (rotuladas como negativa), positivas e neutras. Bemcomo encontrar a diferença de desempenho dos métodos para as três classes (categorias)de polaridade.

Desta maneira os experimentos realizados contemplaram dois momentos: a clas-sificação realizada sobre os tweets com a presença de hashtags de cunho sarcástico e aclassificação sem hashtags de cunho sarcastico. Os testes foram executados através destametodologia porque, como abordado anteriormente na subseção 2.5.1, hashtags influenciamna maneira como determinados métodos de AS classificam a polaridade das mensagens,então sem a presença destas seria possível avaliar os métodos sem que estes dispusessemde nenhum benefício de identificação do sarcasmo, tratando apenas o texto na integra.

A etapa de classificação de polaridade, constitui-se no principal componente eobjeto de estudo de várias pesquisas na área de análise de sentimentos, cujo objetivo é aidentificação do sentimento ou polaridade contido em uma mensagem. Desta forma foinesta etapa que os experimentos executados aqui se concentram, já que procurou-se medira capacidade com que os métodos classificaram cada classe de polaridade existente nabase de dados de teste.

5.5.1 Experimentos Usando os Métodos do iFeel

O primeiro experimento realizado consistiu na análise de sentimento realizadapelos 11 métodos disponibilizados pelo sistema Web iFeel, sobre o conjunto de 1137 tweetscoletados e devidamente tratados nas etapas anteriores. Os métodos utilizados foram: Sen-tiWordNet, PANAS-t, Sentistrength, EmoLex, NRC Hashtag, Opinion Lexicon, Pattern.en,AFINN, VADER, Sentiment140 e Combined Method. Escolheu-se especificamente estesmétodos por utilizarem diferentes técnicas de classificação de polaridade, o que permitiudiversidade nos resultados gerados.

O objetivo desta etapa do trabalho foi basicamente testar o desempenho dos métodoscitados acima, em classificar corretamente a polaridade (sentimento) de mensagens (tweets)positivas, neutras e principalmente negativas. Pois, como mencionado anteriormente nasubseção 5.4 as mensagens rotuladas como negativas (que representam as mensagensde cunho sarcástico), são na realidade sentenças escritas com palavras e termos chaveque possuem um caráter positivo, no entanto expressam um sentimento negativo quandoanalisadas de acordo com o contexto em que foram escritas, ou seja, são as mensagensque sofreram com a inversão de polaridade causado pela presença do sarcasmo.

Page 70: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

69

No Twitter estas mensagens são comumente identificadas como sarcásticas atravésdo uso de hashtags, que são palavras-chave seguidas de uma cerquilha (#). Como jámencionado na subseção 3.3, alguns métodos utilizam estas palavras-chave para identi-ficar o sarcasmo/ironia durante a classificação das mensagens e assim concluir que estasofreu inversão de polaridade, no entanto outros só consideram a estrutura semântica dasmensagens.

Assim, para testar o desempenho dos métodos em classificar os tweets (mensagens)negativos com e sem a presença das palavras-chave no formato de hashtags, e tambéma diferença de desempenho entre as três classes de polaridade, utilizou-se as seguintesestratégias:

1. Para o primeiro teste, a base de dados não rotulada (criada com os 1137 tweets dediferentes polaridades coletados e devidamente trados) foi submetida a classificaçãodos métodos implementados pelo sistema de análise de sentimentos iFeel. Nesta baseaqui denominada de “corpus A”, todos os tweets negativos continham em seu textohashtags de cunho sarcástico. Estas hashtags são as utilizadas para coletar os tweetsde teor sarcástico na seção 5.2 (Coleta dos Dados);

2. Para o segundo teste, todas as hashtags de cunho sarcástico foram descartadas docorpus A, assim nesta base os tweets classificados manualmente como negativospassaram a não possuir mas palavras-chave que os identificassem como textossarcásticos. E a base sem a presença das hashtags foi submetida novamente aferramenta iFeel.

Basicamente, em cada um dos testes a base de dados com suas devidas alteraçõesfoi carregada no iFeel, que por sua vez realizou internamente o processo de análise desentimentos, e disponibilizou como resultado a polaridade das mensagens classificadas porcada um dos 11 métodos, em um arquivo de saída no formato de planilha (.xlsx).

A planilha gerada pela iFeel é dividida por linhas e colunas, a primeira colunacorresponde as mensagens classificadas e as demais colunas aos métodos de classificação.Cada linha equivale a uma mensagem e as suas possíveis polaridades, classificadas deacordo com cada um dos métodos. A orientação da polaridade é representada por trêsvalores numéricos, onde 1 representa uma sentença positiva, -1 uma sentença negativa e 0uma sentença neutra (não foi identificado nenhum sentimento expresso). Este esquemapode ser melhor visualizado na Figura 14, que equivale a uma planilha gerada em um dosexperimentos realizados nesta pesquisa.

Page 71: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

70

Figura 13 – Exemplo de arquivo gerado pelo iFeel 2.0.

Fonte: Print screen de uma tabela gerada pelo iFeel.

Os resultados obtidos com os 11 métodos são apresentados no capítulo de resultadose análises, através de tabelas e gráficos.

Vale ressaltar que foram realizados seis testes no iFeel com a mesma base de teste,a fim de identificar se a ferramenta geraria resultados diferentes para cada iteração. Noentanto, identificou-se que independentemente da quantidade de iterações os resultadosserão os mesmo para cada método.

5.5.2 Experimentos Usando o Algoritmo SVM

Afim de avaliar outro método de análise de sentimento que não estivesse imple-mentado no sistema iFeel, testou-se também o algoritmo SVM. Sendo assim, o segundoexperimento consistiu na classificação do conjunto de tweets com e sem a presença dehashtags de cunho sarcástico, pelo algoritmo baseado em aprendizagem de máquinasSupport Vector Machine (SVM). O segundo motivo para a escolha deste algoritmo base-ado em aprendizado de máquina, se deu em grande parte por sua baixa sensitividade adesbalanceamento entre classes, uma vez que a base de dados resultante das etapas decoleta e pré-processamento dos dados, contém muitos casos de tweets negativos (786) secomparados aos casos de positivos (120).

Assim, como no primeiro experimento realizado com os métodos disponibilizadospelo sistema Web iFeel, no experimento com o algoritmo SVM o objeto também foi o detestar o desempenho deste método em classificar a polaridade de dados não estruturados.Este experimento também foi divido em duas tarefas: classificação dos tweets com apresença de hashtags de cunho sarcástico e sem a presença destas.

Para a classificação baseada no SVM utilizou-se a ferramenta libSVM5, que consisteem uma biblioteca integrada (escrita na linguagem de programação Java). O motivo dessaescolha deu-se pelo fato da referida ferramenta possuir uma implementação mais recente erobusta do algoritmo, além de possibilitar sua integração ao software de mineração de dadosWeka. Visto que, este software permitiu a geração automática das matrizes de confusão edas métricas de avaliação de desempenho da classificação, o que facilitou o andamento do5 https://www.csie.ntu.edu.tw/∼cjlin/libsvm/

Page 72: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

71

trabalho, já que não foi necessário criar as matrizes de confusão para encontrar as métricasde avaliação e nem mesmo calculá-las manualmente para os resultados do SVM.

Uma observação importante diz respeito ao fato de que, para os experimentos como algoritmo SVM os tweets neutros precisaram ser descartados, pois o referido algoritmopor padrão desconsidera textos objetivos (polaridade neutra), pois a saída padrão geradapor ele é binária, o que significa que, um texto tem a probabilidade de pertencer apenasa uma de duas classes - negativa (0) ou positiva (1). Então, após a desconsideração dostweets neutros do conjunto de 1137 tweets, a base de dados resultou em um total de 906tweets para os experimentos a serem realizados com o algoritmo.

Afim de classificar utilizando a ferramenta Weka foi necessário colocar o tweetsrotulados manualmente no formato .arff (extensão padrão da ferramenta). Com issocriou-se um único arquivo chamado “corpus B”, formado pelo texto de cada tweet, e aclasse (categoria) a que cada um pertencia – positivo ou negativo. Como mencionadoanteriormente os tweets classificados como negativos correspondem as mensagens quepossuem sarcasmo e por isso sofrem inversão de polaridade. Parte do arquivo da base dedados denominada aqui de corpus B pode ser observada na Figura 15.

Figura 14 – Trecho de um arquivo ARFF.

Fonte: Elaborado pela autora.

Um arquivo em ARFF é dividido em quatro partes, como mostra a Figura 14:

• @RELATION SVM: indica o título do arquivo;

• @ATTRIBUTE mensagens: é a lista de atributos e seu tipo de valor (STRING,INTEGER, entre outros);

• @ATTRIBUTE classe: são as classes (categorias) que os tweets representam;

Page 73: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

72

• @DATA: indica o início da lista de valores (mensagens que compõem o corpus B),separados por vírgulas e aspas duplas, ao final de cada linha deve constar a classeque o tweet representa.

Para classificar dados não estruturados como tweets, geralmente é preciso pri-meiramente convertê-los em vetores de palavras (uma das maneiras mais fáceis de seprocessar texto), antes de aplicar sobre eles algum algoritmo de classificação. Basicamenteum vetor de palavras é uma representação vetorial do texto original, que identifica aspalavras e a frequência com que ocorrem no texto. Esta representação possibilita quealgoritmos tradicionais de classificação de dados estruturados classifiquem também dadosnão estruturados.

Com o auxílio do Weka foi aplicado o filtro não supervisionado StringToWordVectorsobre o corpus B, para converter os tweets que são atributos do tipo string (dados nãoestruturados), em um conjunto de atributos que representassem a ocorrência das palavrasna mensagem. O referido filtro foi aplicado sobre o atributo “mensagens”, já que esteaponta as mensagens a serem classificadas. Na configuração do filtro foram incluídos osseguintes parâmetros:

• Tokenizer : é um processo que transforma o texto em tokens, ou seja, em palavras outermos a serem analisadas isoladamente;

• MinTermFreq: define a frequência mínima que cada palavra ou termo deve aparecerna base de dados para ser considerado como um atributo do vetor de palavras.Utilizamos como padrão o valor 3, assim somente as palavras que apareceram maisde três vezes na base de dados fariam parte do vetor, ou seja, consideradas comoum atributo do vetor;

• Remoção de stopwords: estas são aquelas palavras tão frequentes em cada línguaque normalmente não trazem nenhuma informação relevante para a classificação. Alista de stopwords6 utilizada contém um conjunto de 183 palavras, contendo artigos,preposições e pronomes em inglês;

• lowerCaseTokens: converte todas as palavras para letras minúsculas;

• ID-TF Transform: este parâmetro escolhe as palavras que serão os atributos do vetorde palavras, de acordo com a frequência que aparecem no conjunto de dados (quantomaior for a frequência, mais relevante é a palavra para descrever o conjunto). Istoé, termos que aparecem pouco na base de dados ou que não ajudam na distinçãodas mensagens recebem um peso menor e termos que ajudam na distinção entre asmensagens e classe ganham um peso de cálculo maior.

6 Neste trabalho, foi utilizada a lista de stopwords disponíbilizada em <http://migre.me/tmjvC>.

Page 74: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

73

O vetor de palavras gerado com a aplicação do filtro sobre o conjunto de tweetsé apresentado na Figura 16. Os atributos do vetor correspondem as palavras com maiorfrequência em todo o conjunto de dados, as linhas equivalem as mensagens que foramquebradas em termos menores e os valores de cada célula são os pesos que cada termorecebeu no vetor.

Figura 15 – Vetor de Palavaras do corpus B.

Fonte: Print screen da ferramenta Weka.

Após o processo de limpeza, configuração e representação dos dados não estruturadosna forma de vetor através do filtro StringToWordVector, a tarefa seguinte foi classificarestes dados com o algoritmo SVM, implementado no Weka através da biblioteca LibSVM.

O algoritmo SVM é capaz de associar entradas de dados as suas respectivasclasses. Para isso realiza treinamento e testes com os dados. O treinamento tem comoobjetivo apresentar ao algoritmo exemplos que o farão conhecer e aprender sobre os tweetsselecionados, e a aplicação de testes possibilita a avaliação do desempenho do classificador.

Para realizar a tarefa de classificação, o Weka utiliza por padrão a metodologiaCross Validation k-fold (Validação Cruzada). Nesse método, a base de dados é inicialmentedividida randomicamente (isto é, aleatoriamente) em k partes iguais (ou de tamanhoparecido) com aproximadamente a mesma distribuição de classes em cada parte. Feitoisso, são executados k turnos de treinamento e validação, onde, em cada turno, umaparte diferente é escolhida para validação enquanto as outras k = 1 partes são utilizadas

Page 75: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

74

para treinamento (aprendizado). Dessa maneira, uma medida final para a performance doclassificador pode ser obtida pela média calculada sobre os k testes.

A última fase deste experimento foi a aplicação do algoritmo SVM sobre o corpusB já transformado em um vetor de palavras, e com a metodologia de classificação CrossValidation k-fold previamente configurada. Após o processo de classificação o algoritmogerou como resultado uma matriz de confusão com os erros e acertos e as métricas deavaliação de desempenho (precison, recall, F-measure e accuracy).

As tarefas descritas acima como a aplicação do filtroStringToWordVector, seleçãoda metodologia de treinamento e teste, assim como a aplicação do algoritmo sobre o vetorde palavras, foram executadas duas vezes: uma para a base de dados corpus B com apresença das hashtags de cunho sarcástico nos tweets negativos e outra para a mesma base,no entanto sem a presença das hashtags.

Os resultados obtidos são apresentados no capítulo de resultados, através de tabelase gráficos.

Vale ressaltar que foram realizados seis testes com o SVM através da mesma basede teste, a fim de identificar se diferentes iterações acarretariam em diferentes resultados.No entanto, identificou-se que independentemente da quantidade de iterações os resultadosgerados pelo algoritmo foram os mesmos.

5.6 Métricas de Avaliação

Um aspecto chave na avaliação dos métodos para a análise de sentimentos dizrespeito às métricas utilizadas. Neste contexto, quatro métricas principais são comumenteempregadas para validar a eficiência de um método, são elas: precisão, revocação, F-measure e acurácia. Especificamente na área de análise de sentimentos estas métricas sãoutilizadas na literatura para avaliação de métodos e algoritmos de detecção ou classificaçãode polaridade dos sentimentos (SOKOLOVA; LAPALME, 2009; GONÇALVES et al., 2015;RIBEIRO, 2015).

Para calcular estas métricas é necessário primeiramente a utilização de informaçõesadvindas de uma estrutura chamada de Matriz de Confusão, que consiste em uma tabelapara traçar a relação entre o valor efetivamente calculado pelos classificadores (ou seja,os métodos e algoritmos de classificação de sentimento) e o valor real dos elementosclassificados (rotulagem manual dos dados). Um exemplo do modelo de matriz utilizadanesta pesquisa para encontrar os resultados das métricas de todos os métodos e algoritmotestados é apresentado na Tabela 2. Esta consiste de uma matriz multiclasse 3x3, ou seja,três tipos de classes de elementos.

A seguir são apresentados quatro conceitos fundamentais para a criação de uma

Page 76: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

75

matriz de confusão. Os valores encontrados são utilizados para calcular as métricas deavaliação de desempenho (SANTOS, 2013).

• True positive (TP): é o número total de verdadeiros positivos, ou seja, o somatóriode classificações feitas como sendo de uma determinada classe, e a amostra querealmente faz parte dessa classe. Por exemplo, tweets classificados como negativos eque realmente expressam uma polaridade negativa;

• True negative (TN): número total de verdadeiros negativos, isto é, somatório declassificações realizadas como não sendo de uma determinada classe, e está amostraverdadeiramente não pertence a determinada classe. Por exemplo, tweets negativos,não classificados como negativos.

• False positive (FP): total de falsos positivos, ou seja, o total de classificaçõesrealizadas como sendo de uma determinada classe, porém a amostra não faz partedesta classe. Por exemplo, tweets classificados como positivos, mas que na verdadeexpressam uma polaridade negativa;

• False negative (FN): número de falsos negativos, isto é, total de classificaçõesrealizadas erroneamente como não sendo de uma determinada classe, mas a amostrana realidade pertence a esta classe. Por exemplo, tweets não classificados comopositivos, mas que na verdade são positivos.

Com estas definições é possível entender que os casos TP e TN são as classificaçõesrealizadas corretamente, enquanto FP e FN são as classificações equivocadas.

Figura 16 – Exemplo de matriz de confusão Multiclasse 3x3.

Fonte: Adaptado de Cleverdon e Keen (1966).

Tomando a classe Positivo como exemplo, na matriz apresentada pela Figura 17, ovalor TP é o número de mensagens classificadas corretamente na classe Positivo, FP é onúmero de mensagens classificadas erroneamente na classe Positivo. Estes conceitos sãoutilizados igualmente para as outras classes de polaridade (Negativo e Neutro).

O número de acertos para cada classe de polaridade se localiza na diagonal principalda matriz, e as demais posições representam os erros de classificação. Assim, para a classe

Page 77: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

76

Positivo são separadas as mensagens corretamente classificadas (TP) pelo método, dasincorretamente classificadas (FP) e das incorretamente não classificadas (FN). O mesmose repete nas outras colunas para as classes Negativo e Neutro.

Cada posição da matriz representa o número de mensagens em cada classe desentimento (i.e. a classe real das mensagens), e como essas mensagens foram julgadas(classificadas) pelo método utilizado (i.e. classificação do método). A soma de uma colunaé o número total de mensagens que compõem determinada classe, enquanto a soma deuma linha é o número total de mensagens classificadas automaticamente pelo método paradeterminada classe. Dessa maneira é possível cruzar o número de classificações reais contrao número de classificações sugeridas pelo método em cada classe. Dessa maneira é possívelsaber quanto o método acertou ou errou.

A seguir são descritas as métricas utilizadas para avaliação de desempenho dosmétodos testados.

5.6.1 Precisão

A precisão (P) do inglês precision, mede a porção de amostras de uma classe quefoi corretamente classificada, ou seja, evidência o percentual de mensagens pertencentesa determinada classe de polaridade que foram corretamente classificadas pelo método,levando-se em consideração os acertos e erros dele para esta classe. Para encontrar aprecisão de uma classe X deve-se dividir o número de mensagens classificadas corretamentepelo total de mensagens classificados como pertencendo a classe X. Conforme apresentadopela equação “Precision” (SOKOLOVA; LAPALME, 2009).

Precision = TP/(TP + FP )

TP é o total de verdadeiros positivos da classe que está se calculando e FP o totalde falsos positivos da classe em questão.

Aplicado ao escopo deste trabalho, a precisão consiste na porcentagem de tweetsde determinada classe de polaridade que foram corretamente classificados, dentre todos ostweets que foram classificados corretamente e incorretamente pelo método como expressandoa determinada polaridade.

5.6.2 Revocação

A medida de revocação (R) do inglês recall, mede a proporção de amostras classifi-cadas como sendo de uma classe em relação ao total de amostras da classe, ou seja, é aporcentagem de mensagens de determinada classe de polaridade que foram classificadascorretamente pelo método dentre o total de mensagens que compõem a determinada classe.Seu percentual evidência a capacidade de acerto do método para o total de mensagens

Page 78: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

77

que pertencem a determinada classe de polaridade. Este percentual é calculado de acordocom a equação “Recall” (SOKOLOVA; LAPALME, 2009).

Recall = TP/(TP + FN)

TP é o total de verdadeiros positivos da classe que está se calculando e FN o totalde falsos negativos da classe em questão.

Aplicado ao escopo deste trabalho, a revocação consiste na capacidade do métodoem classificar corretamente os tweets de determinada classe de sentimento, dentre aquantidade de tweets que realmente pertencem a esta classe.

5.6.3 F-measure

As medidas precisão e revocação podem ser enganosas quando examinadas separa-damente, pois uma precisão elevada geralmente significa sacrificar a revocação e vice-versa.Quando as medidas de revocação e precisão são sintonizadas para obter o mesmo valor,então este valor é denominado de ponto de equilíbrio (do inglês break-even) do sistema.Segundo Fragos et al. (2005), esse aspecto vem sendo bastante utilizado para avaliação desistemas de classificação de texto.

O F-measure no entanto, nada mais é do que a média harmônica ou de equilíbrio en-tre precisão e revocação. Comumente utilizada na área de análise de sentimentos paraavaliar a capacidade de classificação de um método para determinada classe de polaridade.Seu resultado fornece uma medida única, que permite a comparação da capacidade declassificação entre diferentes métodos.

Dessa forma, quanto melhor o método avaliado mais próximo de 1 será o valor damétrica, e caso o método tenha uma capacidade de classificação reduzida ele irá possuium valor mais próximo a 0 (SOKOLOVA; LAPALME, 2009).

A métrica F-measure é calculada para cada classe de polaridade do problema apartir da equação abaixo.

F −measure = 2 ∗ ((P ∗R)/(P + R))

Aplicado ao escopo deste trabalho, esta métrica serviu para comparar diretamenteo desempenho geral de classificação entre os diferentes métodos e algoritmo testados.

5.6.4 Acurácia

A medida de acurácia (A) do inglês accuracy, denota a proporção (percentual)total de acertos do método independentemente da classe de polaridade, ou seja, é a soma

Page 79: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

78

dos acertos de todas as classes de polaridade dividido pelo número total de mensagensclassificadas (SOKOLOVA; LAPALME, 2009). É calculada conforme a equação “Accuracy”.

Accuracy = TP/(TP + FP + FN)

Para este trabalho a acurácia será utilizada na comparação do desempenho dosmétodos globalmente, sobre todas as classes de polaridade do problema.

Para melhor exemplificar a utilização das métricas abordadas acima, tomemos porexemplo a matriz de confusão apresentada na Figura 17, que representa um problema declassificação multiclasse 3x3, realizada por um método X, sobre uma amostra com 300mensagens divididas em três classes de polaridade (positivo, negativo e neutro), sendo quecada classe possui um total de 100 mensagens extraídas do Twitter, processadas e prontaspara classificação. Com a matriz de confusão montada, tem-se então todos os valoresnecessários para a aplicação das métricas sobre as múltiplas classes. E o calculo realizadopara encontrar a porcentagem da performance do método X para classe dos “Negativos”,por exemplo, deve ser realizado conforme apresentado na Figura 18. Os mesmos cálculossão aplicados nas demais classes.

Figura 17 – Exemplo de como calcular as métricas de avaliação.

Fonte: Elaborado pela autora.

No presente trabalho as medidas de precisão, revocação, F-measure e acurácia,foram calculadas para cada experimento realizado na seção 5.5, isto é, para os seguintesresultados:

• Os resultados dos métodos para o experimento sobre o corpus A (com as hashtagsde cunho sarcásticos);

Page 80: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

79

• Os resultados do experimento sobre o corpus A (sem as hashtags);

• Estas métricas foram calculadas automaticamente pela ferramenta Weka, paraa classificação realizada com o algoritmo SVM sobre o corpus B, gerando comoresultado uma matriz de confusão 2x2 e as métricas de avaliação - precisão, revocação,F-measure e acurácia. Uma matriz 2x2 é calculada igualmente a uma matriz 3x3,apenas retirou-se a classedos Neutros.

Como uma forma de permitir a comparação geral de desempenho entre os métodospara cada classe de polaridade existente na base de dados testada, foi utilizado um critériode comparação baseado na porcentagem de F-measure alcançado por cada método, dessaforma quanto maior a porcentagem melhor a performance do método em classificara determinada polaridade, no entanto quanto menor pior. Como esta métrica avalia aperformance do método para cada classe separadamente, foi possível avaliar especificamenteo desempenho dos métodos em classificarem a polaridade das mensagens com teor sarcástico,definidas na base de dados como negativas, bem como identificar também a performancedestes para a classificação de mensagens positivas e mensagens que não expressam nenhumsentimento (neutras).

Outra comparação relevante realizada foi a performance global de classificação dosmétodos, ou seja, o desempenho dos métodos em acertar a classificação das três classesde polaridade existentes na base de dados. O critério para medir este desempenho foi aporcentagem da métrica de acurácia.

Page 81: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

80

6 Resultados

Nesta seção são apresentadas as avaliações dos resultados obtidos com os experi-mentos realizados sobre os métodos da ferramenta iFeel e o algoritmo SVM, assim comoa comparação dos resultados. Objetivando mostrar quais métodos obtiveram melhor e opior desempenho.

Basicamente quatro resultados precisaram ser avaliados: precisão, revocação, F-measure e acurácia. Destes, o de maior relevância para esta pesquisa foi o F-measure, poisé medida que permite a comparação direta entre o desempenho de classificação alcançadopelos diferentes métodos de AS. Todos os resultados apresentados nesta seção, foramencontrados através dos cálculos das matrizes de confusão e das métricas de avaliação. Aototal foram calculadas 24 matrizes, conforme apresentado no Apêndice A.

Para simplificar a compressão dos resultados obtidos através das matrizes e doscálculos das métricas de avaliação, além de evitar que a leitura destes seja demasiadamentecansativa, os resultados são apresentados no formato de tabelas e gráficos mostrandoapenas os valores relevantes.

A análise dos resultados é dividida em dois momentos: os resultados dos métodosimplementados pelo iFeel e os resultados do algoritmo SVM. Está divisão se deve ao fatoque, como apresentado na seção 5.5.1, os cálculos de precisão, revocação, F-measure eacurácia dos métodos disponibilizados no iFeel foram realizados sobre o corpus A (como total de 1137 tweets), enquanto para o SVM essas métricas foram calculadas sobre ocorpus B (com o total de 906 tweets). Entretanto, independentemente da diferença entrea quantidade de dados classificados no pelo métodos do iFeel e pelo Algoritmo, como oproposito desta pesquisa é também comparar o desempenho dos diferentes métodos deanálise de sentimentos (que inclui o algoritmo), a nível de conhecimento a performance doalgoritmo e dos métodos serão comparados em termos de F-measure e acurácia.

6.1 Resultados dos Métodos do iFeel

Nesta seção são apresentados os resultados quantitativos em forma de porcentagemda classificação de polaridade realizada pelos 11 métodos implementados no sistema WebiFeel. Estes resultados são: a revocação, a precisão e o F-measure, alcançados por cadamétodo para cada classe.

Vale enfatizar que a revocação é a capacidade do método de classificar corretamenteos tweets de uma classe de polaridade especifica, enquanto a precisão equivale a assertivi-dade do método em classificar corretamente tweets de determinada classe levando-se emconsideração todos os tweets classificados corretamente e incorretamente para tal classe.

Page 82: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

81

Já o F-measure é a medida ponderada entre precisão e revocação, utilizada para medir acapacidade geral de classificação do método para determinada classe.

Cada tabela apresentada a seguir, exibe os valores da precisão, revocação e F-measure alcançados por cada um dos métodos, de acordo com os dois testes realizadossobre o corpus A: o primeiro teste foi a classificação dos tweets com a presença das hashtagsde cunho sarcástico e o segundo teste foi a classificação sem a presença das hashtags. Paracada tabela há um gráfico corresponde, permitindo uma melhor visualização e comparaçãodos resultados.

Em relação aos gráficos, o eixo y (representado por uma escala de 0 a 100) equivalea porcentagem alcançada por determinado método para cada métrica de avaliação (istoé, o desempenho de classificação do método), enquanto o eixo x representa o método deanálise de sentimento testado.

Tabela 5 – Classificação dos tweets Positivos para o teste com hashtags.

Método Precision Recall F-measure

SentiWordnet 14,80% 91,67% 25,49%

Panas-t 30% 17,50% 22,11%

Sentistrength 46,30% 83,33% 59,52%

Emolex 13,56% 46,67% 21,01%

NRChashtag 13,52% 44,17% 20,70%

Opinion Lexicon 16,91% 58,33% 26,22%

Pattern.en 15,75% 83,33% 26,49%

AFINN 15,70% 63,33% 25,17%

Vader 17,43% 60% 27,02%

Sentiment140 16,97% 55% 25,93%

Combined Method 25,60% 97,50% 40,55%

Elaborado pela autora.

Tabela 6 – Classificação dos tweets Positivos para o teste sem hashtags.

Método Precision Recall F-measure

SentiWordnet 14,65% 91,67% 25,26%

Panas-t 30% 17,50% 22,11%

Page 83: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

82

Método Precision Recall F-measure

Sentistrength 18,21% 83,33% 29,90%

Emolex 13,53% 46,67% 20,97%

NRChashtag 14,60% 44,17% 21,95%

Opinion Lexicon 14,49% 58,33% 23,22%

Pattern.en 15,72% 83,33% 26,46%

AFINN 15,70% 63,33% 25,17%

Vader 17,48% 60% 27,07%

Sentiment140 17,01% 55,% 25,98%

Combined Method 15,06% 97,50% 26,09%

Elaborado pela autora.

Figura 18 – Comparação dos resultados do teste com hashtags (tweets Positivos).

Fonte: Elaborado pela autora.

Page 84: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

83

Figura 19 – Comparação dos resultados do teste sem hashtags (tweets Positivos).

Fonte: Elaborado pela autora.

Levando-se em consideração o total de 120 tweets classificados manualmente comopositivos, de acordo com as tabelas e gráficos apresentados acima, para o teste com apresença das hashtags de cunho sarcástico, o método que obteve maior precisão foi oSentistrength com uma taxa 46,30% de acerto. Enquanto o método com maior revocação foio Combined Method com o percentual de 97,50% de acerto. Já em termos de desempenhogeral (F-measure) para a classe de tweets positivos, o método com maior desempenhodentre todos os outros foi o Sentistrength com uma porcentagem de 59,52%.

Para o teste sem a presença das hashtags, o PANAS-t (30%) foi quem obteve amaior precisão, o Combined Method (97,50%) a maior taxa de revocação, e o Sentistrength(29,90%) a maior porcentagem de para F-measure.

Inversamente a estes resultados, os métodos com menores porcentagens foram:

• Precisão: NRChashtag (13,52%) para o teste com hashtags e Emolox (13,53%) parao teste sem hashtags;

• Revocação: PANAS-t (17,50%) para ambos os testes;

• F-measure: NRChashtag (20,70%) para o teste com hashtags, e Emolex (20,97%)sem hashtags.

Page 85: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

84

Tabela 7 – Classificação dos tweets Negativos para o teste com hashtags.

Método Precision Recall F-measure

SentiWordnet 73,58% 27,99% 40,55%

Panas-t 76,19% 2,04% 3,97%

Sentistrength 85,64% 65,27% 74,08%

Emolex 66,31% 15,78% 25,49%

NRChashtag 72,67% 63,61% 67,84%

Opinion Lexicon 63,55% 16,41% 26,09%

Pattern.en 73,09% 23,16% 35,17%

AFINN 61,33% 14,12% 22,96%

Vader 59,81% 8,14% 14,33%

Sentiment140 75,68% 63,74% 69,20%

Combined Method 82,69% 71,12% 76,47%

Elaborado pela autora.

Tabela 8 – Classificação dos tweets Negativos para o teste sem hashtags.

Método Precision Recall F-measure

SentiWordnet 73,22% 27,48% 39,96%

Panas-t 76,19% 2,04% 3,97%

Sentistrength 64,61% 19,97% 30,52%

Emolex 66,31% 15,78% 25,49%

NRChashtag 73,41% 66,03% 69,52%

Opinion Lexicon 63,55% 16,41% 26,09%

Pattern.en 73,31% 23,41% 35,49%

AFINN 61,33% 14,12% 22,96%

Vader 60,19% 8,27% 14,54%

Sentiment140 75,68% 63,74% 69,20%

Combined Method 66,95% 30,15% 41,58%

Elaborado pela autora.

Page 86: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

85

Figura 20 – Comparação dos resultados do teste com hashtags (tweets Negativos).

Fonte: Elaborado pela autora.

Figura 21 – Comparação dos resultados do teste sem hashtags (tweets Negativos).

Fonte: Elaborado pela autora.

Na classificação dos 786 tweets negativos que possuíam teor sarcástico, em ralaçãoao primeiro teste (tweets negativos com a presença das hashtags de cunho sarcástico) esobre o segundo teste (tweets negativos sem as hashtags), os resultados foram os seguintes:

• Precisão: no primeiro teste o método Sentistrength (85,64%) obteve a maior taxa deprecisão. Já para o segundo teste o melhor foi o Pattern.en com 76,19%. O métodoVader obteve a pior taxa nos dois testes - 59,81% (com hashtags) e 60,19% (semhashtags);

Page 87: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

86

• Revocação: para o primeiro teste o Combined Method (71,12%) atingiu melhorrevocação, já no segundo teste o NRChashtag (66,03%) foi o melhor. O método comopior revocação em ambos os testes foi o PANAS-t com a taxa de 2,04%;

• F-measure: Com uma porcentagem de 76,47% o Combined Method foi o métodocom melhor desempenho em classificar a classe dos tweets negativos, no entanto parao segundo teste o melhor foi NRChashtag com 69,52%. O pior desempenho ficoucom o PANA-t (3,97%) em ambos os testes.

Tabela 9 – Classificação dos tweets Neutros para o teste com hashtags.

Método Precision Recall F-measure

SentiWordnet 17,89% 7,36% 10,43%

Panas-t 21,22% 96,10% 34,77%

Sentistrength 33,85% 47,19% 39,42%

Emolex 16,95% 39,39% 23,70%

NRChashtag 35,09% 8,66% 13,89%

Opinion Lexicon 21,92% 49,35% 30,36%

Pattern.en 34,78% 38,10% 36,36%

AFINN 23,09% 47,19% 31,01%

Vader 26,09% 69,70% 37,97%

Sentiment140 24,42% 9,09% 13,25%

Combined Method 25% 0,43% 0,85%

Elaborado pela autora.

Tabela 10 – Classificação dos tweets Neutros para o teste semhashtags.

Método Precision Recall F-measure

SentiWordnet 18,68% 7,36% 10,56%

Panas-t 21,22% 96,10% 34,77%

Sentistrength 31,59% 47,19% 37,85%

Emolex 16,98% 39,39% 23,73%

NRChashtag 29,85% 8,66% 13,42%

Opinion Lexicon 10,20% 19,91% 13,49%

Pattern.en 35,20% 38,10% 36,59%

Page 88: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

87

Método Precision Recall F-measure

AFINN 23,09% 47,19% 31,01%

Vader 26,09% 69,70% 37,97%

Sentiment140 24,14% 9,09% 13,21%

Combined Method 16,67% 0,43% 0,84%

Elaborado pela autora.

Figura 22 – Comparação dos resultados do teste com hashtags (tweets neutros).

Elaborado pela autora.

Figura 23 – Comparação dos resultados do teste sem hashtags (tweets neutros).

Elaborado pela autora.

Page 89: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

88

Levando se em consideração o total de 231 tweets rotulados como neutros, emconformidade com as tabelas e gráficos apresentados acima:

• O método com maior precisão no teste com hashtags foi NRChashtag com a taxade 35,09%, já no teste sem as hashtags a maior taxa foi alcançada pelo Pattern.en(35,20%);

• O PANAS-t obteve a maior revocação em ambos os testes (96,10%), e o CombinedMethod a pior em ambos os testes (0,43%);

• A maior porcentagem de F-measure para o teste com hashtags foi atingida peloSentistrength (39,42%) , já no teste sem hashtags o Vader se saiu melhor com 37,97%.O pior resultado de F-measure foi do método Combined Method (0.85% e 0.84%).

Dentre os resultados alcançados pelos métodos para as três classes de polaridade épossível observar que:

1. A maioria dos métodos conseguiu maiores porcentagens de revocação na classificaçãodos tweets positivos, do que dos negativos e neutros e;

2. O métodos alcançaram maiores porcentagens de precisão e F-measure para os tweetsnegativos.

6.2 Resultados do Algoritmo SVM

O gráfico da Figura 25 apresenta os resultados das classificações realizadas peloalgoritmo SVM.

Page 90: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

89

Figura 24 – Resultados obtidos pelo algoritmo SVM.

Fonte: Elaborado pela autora.

Comparando as classificações a pior precisão, revocação, F-measure e acuráciaforam:

• Precisão: 50,31% (tweets positivos teste sem hashtags) e 94,65% (tweets negativosteste sem hashtags);

• Revocação: positivos teste sem hashtags (66,67%), e negativos teste sem hashtags(89,95%);

• F-measure: 57,35% para os tweets positivos sem hashtags, e 92,24% para os tweetscom teor sarcástico (negativos) sem as hashtags;

• Acurácia: 86,87% teste sem hashtags.

Verifica-se com os resultados que a presença das hashtags possibilitaram ao algoritmouma melhor performance de classificação em todas as métricas, tal como ocorreu com amaioria dos métodos implementados no sistema iFeel. E a ausência destas, uma diminuiçãoda performance. Este aumento de desempenho se deve ao fato de que, alguns métodosconseguem identificar a inversão de polaridade de determinada sentença, através dapresença de hashtags de cunho sarcásticos bem como através de termos existente nasentença como sarcasm, irony, notcool e moresarcasm, que identificam a sentença comosarcástica.

Page 91: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

90

6.3 Comparação de Desempenho entre os Métodos

Na intenção de realizar um comparativo que mostre em especial a performancegeral dos métodos e do algoritmo ao classificarem a polaridade de mensagens negativasmarcadas pela presença do sarcasmo, apresenta-se o gráfico da Figura 26 para ilustrar talcomparação. Esta comparação leva em consideração os dois tipos de testes realizados nametodologia - teste com e sem hashtags de cunho sarcástico. Vale reforçar que a métricaadota no presente trabalho para fazer a comparação geral e direta entre os método foi oF-measure.

No gráfico a seguir, as barras cinzas equivalem a porcentagem de desempenho dosmétodos para o experimento com a presença das hashtags e as barras azuis a porcentagemalcançada no experimento sem a presença das hashtags.

Figura 25 – Comparação de desempenho entre os métodos.

Fonte: Elaborado pela autora.

De acordo com o ranking apresentado no gráfico nota-se que:

• Dentre os métodos disponibilizado pela ferramenta iFeel, o com maior desempenhoao classificar a polaridade de tweets negativos na presença das hashtags de cunhosarcástico foi o método híbrido “Combined Method” com uma porcentagem de 76,47%.E o método com pior desempenho foi o baseado em dicionário léxico “PANAS-t”com a performance de 3,96% .

• Já na classificação realizada pelos métodos do iFeel, no teste sem a presença dashashtags de cunho sarcástico, o método com melhor performance passou a ser obaseado em dicionário léxico “NRCHashtag” com 69,52% de desempenho. E o

Page 92: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

91

método com pior desempenho continuou sendo o “PANAS-t” com o valor igual a3,97%.

• Quando comparado os resultados dos 12 métodos (ou seja, tanto os métodos daferramenta iFeel quanto o algoritmo SVM), é possível observar que nos dois testesde classificação o SVM foi melhor. Com uma vantagem de 22,98% sobre o métodoNRCHashtag para a classificação das mensagens sem a presença das hashtags decunho sarcástico (92,94%), e uma taxa de (95,30%) para a classificação com hashtags.

Para um maior enriquecimento deste trabalho, também foi realizada a comparaçãodo desempenho dos métodos em termos de acurácia, que equivale a taxa de acertos sobreas três classes de sentimento, para o experimento com hashtags (Figura 27) e sem hashtags(Figura 28).

Figura 26 – Acurácia do experimento com hashtags.

Fonte: Elaborado pela autora.

Page 93: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

92

Figura 27 – Acurácia do experimento sem hashtags.

Fonte: Elaborado pela autora.

Conforme o gráfico 27, dentre os métodos implementados no sistema iFeel para oteste realizado com a presenças das hashtags. O método com maior porcentagem de acertofoi o Sentistrength (63,50%), já a menor porcentagem de acertos ficou com o métodoPANAS-T (22,78% de desempenho). Para o teste sobre os tweets após a remoção dashashtags, o método NRChashtags foi o melhor com uma porcentagem de 52,07% , enquantoo Opinion Lexicon (21,55%) conseguiu a pior porcentagem.

Entretanto ao comparar o algoritmo SVM com os demais métodos implementadosno iFeel, observa-se que o SVM obteve maior desempenho de classificação, com umavantagem de 34,08% sobre o método NRChashtags na classificação sem as hashtags.

Analisando os resultados percebe-se também que a maior taxa de acurácia alcançadafoi quando os métodos classificaram os tweets ainda com as hashtags.

Page 94: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

93

7 Considerações Finais

Neste trabalho buscou-se avaliar 12 diferentes métodos de análise de sentimentosexistentes na literatura, quanto as diferentes performances que apresentariam ao classifica-rem a polaridade de mensagens com teor sarcástico retiradas do Twitter. A abordagemadotada visou identificar quantitativamente o desempenho destes métodos no contexto dosarcasmo.

Através dos resultados obtidos para a métrica F-measure, foi possível constatar quedentre os 12 métodos de análise de sentimentos avaliados, o que obteve maior capacidadede classificação das mensagens (tweets) com teor sarcástico na presença ou não de hashtasde cunho sarcástico foi o “Support Vector Machine” (SVM), com os fatores de confiançade 95,35% e 92,94% (gráfico da Figura 25). O que caracteriza que ele classificou melhoras mensagens mesmo sem o auxilio das hashtags que ajudam na identificação de sarcasmo.Enquanto o que obteve pior desempenho de classificação foi o método PANAS-t com umaporcentagem de 3,97% de desempenho (Tabelas 7 e 8)

Outro ponto importante observado a partir dos resultados encontrados que for-taleceu a ideia de impacto causado pelo sarcasmo, foi o fato dos métodos Sentistrength,Combined Method e SVM terem apresentado em seus resultados uma redução considerávelde desempenho, ao classificarem os tweets com teor sarcástico (tweets negativos) sema presença das hashtags de cunho sarcástico. Pois conforme apresentado na Tabela 7 eFigura 25, os três métodos citados obtiveram respectivamente os seguintes desempenhoao classificarem tweets negativos com a presença das hashtags: 74,08%, 76,47% e 95,35%.Porém após realizarem novamente a classificação sobre os mesmos tweets desta vez sema presença das hashtags, alcançaram respectivamente apenas as seguintes taxas de F-measure: 30,52%, 41,58% e 92,24% (Tabela 8 e Figura 25). De acordo com estes resultadosé possível concluir que o Sentistrength sofreu uma queda de 43,56% em seu desempenhode classificação, o Combined Method uma redução 34,89% e o SVM uma queda de 3,11%.

Outra constatação importante, foi o baixo desempenho da maioria dos métodos aoclassificarem tweets positivos, levando-se em consideração que eles expressam de fato apolaridade na qual foram escritos. Essas taxas podem ser observadas nas Tabelas 5 e 6.

Tais fenômenos observados dentro do escopo desta pesquisa, revelam que algunsmétodos testados apresentaram resultados de classificação inconsistentes se comparadosa base de dados classificada (rotulada) manualmente por humanos. Remetendo assim,que possivelmente diferentes métodos de análise de sentimentos encontrados na literaturapodem apresentar resultados inconsistentes, devido a inversão de polaridade causadapela presença do sarcasmo em mensagens compartilhadas nas mídias sociais e outros

Page 95: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

94

canais da Web. Essa queda de desempenho ocorreu principalmente quando os métodosclassificaram as mensagens sem a presença das hashtags de cunho sarcástico, que sãoetiquetas com palavras que auxiliam alguns métodos na identificação da inversão depolaridade presente nas mensagens. Mostrando assim, a complexidade em se realizar aidentificação e classificação de polaridade em mensagens com teor sarcástico.

Apesar de não ser o foco desta pesquisa, vale ressaltar que um comportamentoinesperado foi observado durante a avaliação dos resultados. Notou-se que o métodoNRChashtag obteve um aumento de 1,68% em sua taxa de desempenho ao classificartweets de teor sarcástico sem a presença das hashtags de cunho sarcástico, levando-seem consideração o fato deste método ser baseado em um dicionário léxico composto porhashtags, e que define a polaridade de uma mensagem através da comparação destas comas hashtags existentes na mensagem classificada. Essa informação pode ser visualiza nasTabelas 7 e 8.

Por fim, ressalta-se que a identificação dessas alterações no desempenho dos métodos,são de elevada importância quando se trata de organizações e empresas que se utilizamdos resultados gerados por métodos de análise de sentimentos para orientar suas tomadasde decisão.

Como trabalhos futuros, pretende-se estudar a estrutura semântica e sintática detweets com teor sarcástico, afim de encontrar um padrão que possa identificar o sarcasmoe outras figuras de linguagem, comumente utilizadas em mensagens curtas postadas nasredes sociais. Além de realizar a avaliação e comparação de desempenho de um númeromaior de métodos de análise de sentimentos.

Pretende-se também realizar testes com uma base de dados maior e equalizada, ouseja, uma base na qual a quantidade de amostras para cada classe de polaridade seja igual.

Page 96: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

95

REFERÊNCIAS

ABDUL-MAGEED, M.; DIAB, M. Linguistically-motivated subjectivity and sentimentannotation and tagging of modern standard arabic. International Journal on Social Media MMM:Monitoring, Measurement, and Mining, p. 19, 2011. Disponível em: <http://migre.me/tiJhD>.Acesso em: 22 set. 2015.

AGUIAR, R. F.; RODRIGUEZ, W. F. G. SOMTOOLS: Sentiment and Opinion Mining toolfor Twitter Data Stream. 112 p. Monografia (Graduação) — Universidade de Federal do Sul eSudeste do Pará, Marabá, 2014.

AIMOLA, V. N. Empresas que criam as próprias redes de relacionamento. LAS CASAS,Alexandre L. (Org) Marketing Interativo, São Paulo, p. 77–91, 2015. Acesso em: 03 mar. 2015.

ANGULAKSHMI, G.; CHEZIAN, R. International Journal of Advanced Research in Computerand Communication Engineering, v. 3, n. 7, p. 5, 2014. ISSN 2278-1021. Disponível em:<http://migre.me/tiGs9>. Acesso em: 02 jan. 2015.

ARAUJO, M. et al. ifeel: A system that compares and combines sentiment analysis methods. In:WWW (Companion Volume). [S.l.]: International World Wide Web Conference (WWW’14),2014.

BALL, D. W. Sarcasm as Sociation: The Rhetoric of Interaction*. Canadian Review ofSociology/Revue canadienne de sociologie, Blackwell Publishing Ltd, v. 2, n. 4, p. 190–198,1965. ISSN 1755-618X. Disponível em: <http://migre.me/thZzB>. Acesso em: 02 fev. 2015.

BARBIERI, F.; SAGGION, H.; RONZANO, F. Modelling sarcasm in twitter, a novel approach.WASSA, ACL 2014, p. 50, 2014.

BBC. US Secret Service seeks Twitter sarcasm detector. EUA, 2014. Disponível em:<http://www.bbc.com/news/technology-27711109>. Acesso em: 02 jan. 2015.

BECKER, K.; TUMITAN, D. Introdução à mineração de opiniões: Conceitos, aplicações edesafios. In: Lectures of the 28th Brazilian Symposium on Databases. [S.l.: s.n.], 2013.

BENEVENUTO, F.; RIBEIRO, F.; ARAúJO, M. Métodos para análise de sentimentos em mídiassociais. In: Brazilian Symposium on Multimedia and the Web (Webmedia). Brasil: [s.n.], 2015.

BERRY, M.; KOGAN, J. Text Mining: Applications and Theory. Wiley, 2010. (WileyInterScience). ISBN 9780470689653. Disponível em: <http://migre.me/thZO9>. Acesso em: 02fev. 2015.

BOIY, E.; MOENS, M.-F. A machine learning approach to sentiment analysis in multilingualweb texts. Inf. Retr., Kluwer Academic Publishers, Hingham, MA, USA, v. 12, n. 5, p. 526–558,out. 2009. ISSN 1386-4564. Disponível em: <http://migre.me/thZFZ>. Acesso em: 02 fev. 2015.

BOSER, B. E.; GUYON, I. M.; VAPNIK, V. N. A training algorithm for optimal marginclassifiers. In: Proceedings of the Fifth Annual Workshop on Computational Learning Theory.New York, NY, USA: ACM, 1992. (COLT ’92), p. 144–152. ISBN 0-89791-497-X. Disponívelem: <http://doi.acm.org/10.1145/130385.130401>. Acesso em: 08 fev. 2015.

Page 97: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

96

BRADLE, M. M.; LANG, P. J. Affective Norms for English Words (ANEW): Instruction manualand affective ratings. Florida: Technical Report C-1, The Center for Research, 1999. Disponívelem: <http://migre.me/tkQZj>.

BUSCHMEIER, K.; CIMIANO, P.; KLINGER, R. An impact analysis of features in aclassification approach to irony detection in product reviews. Proceedings of the 5th Workshopon Computational Approaches to Subjectivity, Sentiment and Social Media Analysis , p. 42–49,2014.

CAMBRIA, E. et al. New avenues in opinion mining and sentiment analysis. IEEE IntelligentSystems, v. 28, n. 2, p. 15–21, March 2013. ISSN 1541-1672.

CARVALHO FILHO, J. A. Mineração de Textos: Análise de Sentimentos Utilizando o TweetsReferentes a Copa do Mundo. 46 p. Dissertação (Dissertação de Mestrado) — UniversidadeNova de Lisboa, Quixadá, nov. 2014.

CHEANG, H. S.; PELL, M. D. Recognizing sarcasm without language: A cross-linguistic studyof english and cantonese. Pragmatics Cognition, v. 19, n. 2, p. 203–223, 2011. Disponível em:<http://migre.me/thZDf>. Acesso em: 02 março. 2015.

CHEN, H.; ZIMBRA, D. Ai and opinion mining. IEEE Intelligent Systems, v. 25, n. 3, p. 74–80,May 2010. ISSN 1541-1672.

CLEVERDON, C. W.; KEEN, M. Cranfield CERES: Aslib Cranfield research project - Factorsdetermining the performance of indexing systems; Volume 2, Test results. 1996. Disponível em:<http://migre.me/tmApn>.

CONZ, J. IRONIA VERBAL: Teorias e Considerações. 50 p. Monografia (Graduação emLetras) — Universidade Federal do Rio Grande do Sul, Porto Alegre, 2010. Disponível em:<http://migre.me/tjHjb>. Acesso em: 14 fev. 2015.

CRESPO, D. M. Analise de Sentimentos e Mineração de Opinião. 49 p. Monografia(Graduação) — Universidade Etadual de Londrina, Londrina, fev. 2015. Disponível em:<http://migre.me/tiEaz>. Acesso em: 17 abr. 2015.

DODDS, P. S.; DANFORTH, C. M. Measuring the happiness of large-scale written expression:Songs, blogs, and presidents. Journal of Happiness Studies, v. 11, n. 4, p. 441–456, 2009. ISSN1573-7780. Disponível em: <http://migre.me/tkQjL>.

DRAGUT, E. et al. Stop word and related problems in web interface integration. Proc. VLDBEndow., VLDB Endowment, v. 2, n. 1, p. 349–360, ago. 2009. ISSN 2150-8097. Disponível em:<http://migre.me/tiL2t>. Acesso em: 24 nov. 2015.

ESULI, A.; SEBASTIANI, F. SentiWordNet: a high-coverage lexical resource for opinionmining. [S.l.], 2006. Disponível em: <http://migre.me/tkeRG>. Acesso em: 13 mai. 2015.

FRAGOS, K.; MAISTROS, Y.; SKOURLAS, C. A weighted maximum entropy language modelfor text classification. p. 55–67, 2015. Disponível em: <http://migre.me/tqji7>. Acesso em: 25mar. 2015.

GHOSH, A. et al. Semeval-2015 task 11: Sentiment analysis of figurative language in twitter.In: Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015).Denver, Colorado: Association for Computational Linguistics, 2015. p. 470–478. Disponível em:<http://migre.me/tkeTp>. Acesso em: 2 dez. 2015.

Page 98: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

97

GIL, A. C. Como Elaborar Projetos de Pesquisa. 4. ed. São Paulo: Atlas S.A, 2002. ISBN85-224-3169-8. Disponível em: <http://migre.me/tnUaq>. Acesso em: 23 ago. 2015.

GONÇALVES, M. A. Abordagens para Avaliação Automática da Qualidade de Conferênciascientificas: um estudo de caso em ciência da computação. 77 p. Dissertação (Dissertação deMestrado) — Universidade Federal de Minas Gerais, Belo Horizonte, jan. 2010. Disponível em:<http://migre.me/thZvT>. Acesso em: 01 fev. 2015.

GONÇALVES, P. et al. Comparing and combining sentiment analysis methods. In:Proceedings of the First ACM Conference on Online Social Networks (COSN ’13). NewYork, NY, USA: ACM, 2013a. p. 27–38. ISBN 978-1-4503-2084-9. Disponível em:<http://doi.acm.org/10.1145/2512938.2512951>.

GONÇALVES, P.; BENEVENUTO, F.; ALMEIDA, V. O que tweets contendo emoticons podemrevelar sobre sentimentos coletivos? In: . Proceedings of the Brazilian Workshop on SocialNetwork Analysis and Mining (BraSNAM), 2013b. Disponível em: <http://migre.me/tkKjS>.Acesso em: 26 jul. 2015.

GONÇALVES, P.; DORES, W.; BENEVENUTO, F. Panas-t: Uma escala psicométrica paramedição de sentimentos no twitter. In: Proceedings of the Brazilian Workshop on Social NetworkAnalysis and Mining (BraSNAM). [S.l.: s.n.], 2012.

GROOT, R. d. Data mining for tweet sentiment classification. p. 1–63, 2012. Disponível em:<http://migre.me/thZNQ>. Acesso em: 01 fev. 2015.

HAMESTER, M. A. Métodos de Reconhecimento de Gestos Aplicado em Smarthphones . 41 p.Dissertação (Mestrado) — Universidade Federal do Rio Grande do Sul, Porto Alegre, jun. 2013.Disponível em: <http://migre.me/thZwC>. Acesso em: 01 fev. 2015.

HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The elements of statistical learning:data mining, inference and prediction. 2. ed. Springer, 2008. 241–248 p. Disponível em:<http://migre.me/thZNu>. Acesso em: 20 out. 2015.

HATZIVASSILOGLOU, V.; WIEBE, J. M. Effects of adjective orientation and gradabilityon sentence subjectivity. In: Proceedings of the 18th Conference on ComputationalLinguistics - Volume 1. Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2000. (COLING ’00), p. 299–305. ISBN 1-55860-717-X. Disponível em:<http://dx.doi.org/10.3115/990820.990864>.

HERNANDEZ FARIAS, D. I. et al. Valento: Sentiment analysis of figurative language tweetswith irony and sarcasm. In: Proceedings of the 9th International Workshop on SemanticEvaluation (SemEval 2015). Denver, Colorado: Association for Computational Linguistics, 2015.p. 694–698. Disponível em: <http://migre.me/tkeT9>. Acesso em: 23 nov. 2015.

HU, M.; LIU, B. Mining opinion features in customer reviews. In: Proceedings of the 19thNational Conference on Artifical Intelligence. AAAI Press, 2004. (AAAI’04), p. 755–760. ISBN0-262-51183-5. Disponível em: <http://migre.me/tkeRo>. Acesso em: 20 jul. 2015.

HUTTO, C. J.; GILBERT, E. Vader: A parsimonious rule-based model for sentiment analysis ofsocial media text. In: Eighth International AAAI Conference on Weblogs and Social Media. [S.l.:s.n.], 2014.

INGLE, A. et al. Sentiment analysis: Sarcasm detection of tweets. Nagpur, p. 35, mai. 2014.

Page 99: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

98

KALAMKAR, P. N.; PHAKATKAR, A. G. Opinion mining in figures of speech in text.International Journal of Scientific Engineering Research, Issue 10, v. 4, p. 1132–1134, 2013.ISSN 2229-5518. Disponível em: <http://www.ijser.org/>.

KREUZ, R. J.; CAUCCI, G. M. Lexical influences on the perception of sarcasm. In: Proceedingsof the Workshop on Computational Approaches to Figurative Language. Stroudsburg, PA, USA:Association for Computational Linguistics, 2007. (FigLanguages ’07), p. 1–4. Disponível em:<http://migre.me/tkeSN>. Acesso em: 19 nov. 2015.

LIDDY, E. D. Natural language processing for text extraction applications. keynote speaker.2003.

LIU, B. Sentiment analysis and subjectivity. Handbook of natural language processing, v. 2, p.627–666, 2010a.

LIU, B. Sentiment analysis: A multi-faceted problem. IEEE Intelligent Systems, v. 25, n. 3, p.76–80, 2010b.

LIU, B. Sentiment Analysis and Opinion Mining. Morgan & Claypool, 2012. (Synthesisdigital library of engineering and computer science). ISBN 9781608458844. Disponível em:<http://migre.me/thZQh>. Acesso em: 01 mai. 2015.

LIU, K.; HOGAN, W. R.; CROWLEYA, R. S. Natural language processing methods and systemsfor biomedical ontology learning. Journal of Biomedical Informatics, v. 44, n. 1, p. 163–179,2011. ISSN 1532-0464. Disponível em: <http://migre.me/thZEQ>. Acesso em: 05 mar. 2015.

LUNANDO, E.; PURWARIANTI, A. Indonesian social media sentiment analysis withsarcasm detection. In: Advanced Computer Science and Information Systems (ICACSIS), 2013International Conference on. [S.l.: s.n.], 2013. p. 195–198.

MAYNARD, D.; GREENWOOD, M. A. Who cares about sarcastic tweets? investigating theimpact of sarcasm on sentiment analysis. In: LREC. [S.l.: s.n.], 2014. p. 4238–4243.

MILLER, G. A. Wordnet: A lexical database for english. Commun. ACM, ACM, NewYork, NY, USA, v. 38, n. 11, p. 39–41, nov. 1995. ISSN 0001-0782. Disponível em:<http://migre.me/tkeSw>. Acesso em: 6 mai. 2015.

MITCHELL, T. The discipline of machine learning. [S.l.], 2006. Disponível em:<http://migre.me/tjKZG>.

MOHAMMAD, S. #emotional tweets. In: *SEM 2012: The First Joint Conference on Lexicaland Computational Semantics – Volume 1: Proceedings of the main conference and the sharedtask, and Volume 2: Proceedings of the Sixth International Workshop on Semantic Evaluation(SemEval 2012). Montréal, Canada: Association for Computational Linguistics, 2012. p.246–255. Disponível em: <http://migre.me/ti0Bm>. Acesso em: 01 set. 2015.

MOHAMMAD, S. M.; KIRITCHENKO, S.; ZHU, X. Nrc-canada: Building the state-of-the-artin sentiment analysis of tweets. 2013b.

MOHAMMAD, S. M.; TURNEY, P. D. Crowdsourcing a word-emotion association lexicon.v. 29, n. 3, p. 436–465, 2013a. Disponível em: <http://migre.me/tin03>. Acesso em: 01 set.2015.

Page 100: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

99

NIELSEN, F. AFINN. Richard Petersens Plads, Building 321, DK-2800 Kgs. Lyngby:Informatics and Mathematical Modelling, Technical University of Denmark, 2011. Disponívelem: <http://migre.me/tkSrR>.

PAK, A.; PAROUBEK, P. Twitter as a corpus for sentiment analysis and opinion mining.In: CHAIR), N. C. C. et al. (Ed.). Proceedings of the Seventh International Conference onLanguage Resources and Evaluation (LREC’10). Valletta, Malta: European Language ResourcesAssociation (ELRA), 2010. ISBN 2-9517408-6-7.

PANG, B.; LEE, L. A sentimental education: Sentiment analysis using subjectivitysummarization based on minimum cuts. In: Proceedings of the ACL. [S.l.: s.n.], 2004. p.271–278.

PANG, B.; LEE, L. Opinion mining and sentiment analysis. Foundations and trends ininformation retrieval, Now Publishers Inc., v. 2, n. 1-2, p. 1–135, 2008.

REYES, A.; ROSSO, P.; VEALE, T. A multidimensional approach for detecting irony in twitter.Language Resources and Evaluation, Springer Netherlands, p. 1–30, 2013.

RIBEIRO, L. B. Analise de sentimento em comentários sobre aplicativos para dispositivosmóveis: Estudo do impacto do pré-processamento. 83 p. Monografia (Graduação) —Universidade de Brasilia, Brasília, 2015. Disponível em: <http://migre.me/tm8qz>. Acesso em:30 ago. 2015.

RILOFF, E. et al. Sarcasm as contrast between a positive sentiment and negative situation. In:EMNLP. [S.l.: s.n.], 2013. p. 704–714.

RILOFF, E.; WIEBE, J.; PHILLIPS, W. Exploiting subjectivity classification to improveinformation extraction. In: Proceedings of the 20th National Conference on Artificial Intelligence- Volume 3. AAAI Press, 2005. (AAAI’05), p. 1106–1111. ISBN 1-57735-236-x. Disponível em:<http://migre.me/tkilq>.

RO, V. Wordnet-affect: an affective extension of wordnet. In: In Proceedings of the 4thInternational Conference on Language Resources and Evaluation. [S.l.: s.n.], 2004. p.1083–1086.

RUSSELL, S.; NORVIG, P. Artificial Intelligence: A Modern Approach. 3rd. ed. Upper SaddleRiver, NJ, USA: Prentice Hall Press, 2009. ISBN 0136042597, 9780136042594.

SANTOS, F. Mineracão de Opinião em Textos Opinativos Utilizando Algoritmos deClassificação. 71 p. Monografia (Graduação) — Universidade de Brasilia, Brasilia, dez. 2013.Disponível em: <http://migre.me/thZvn>. Acesso em: 01 fev. 2015.

SANTOS, L. M. Protótipo para Mineração de Opinião em Redes Sociais: estudo de casosselecionados usando o twitter. 103 p. Monografia (Graduação) — Universidade de Federal deLavras, Lavras, 2010. Disponível em: <http://migre.me/tiKjr>. Acesso em: 01 fev. 2015.

SAUSEN, F. J. Projeto de Desenvolvimento de um Sistema para Definição de Aspectos e Analisede Sentimentos em Textos. 76 p. Monografia (Bacharel) — Centro Universitario UNIVATES,Lajedo, nov. 2015. Disponível em: <http://migre.me/thKsp>. Acesso em: 07 fev. 2015.

SILVA, N. G. R. da. PairClassif - Um Método para Classificação de Sentimentos Baseado emPares. 80 p. Monografia (Pos Graduação) — Universidade Federal de Pernabuco, Recife, jan.2013. Disponível em: <http://migre.me/thZyc>. Acesso em: 03 fev. 2015.

Page 101: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

100

SIMON, H. A. Machine learning: An artificial intelligence approach. In: . Berlin,Heidelberg: Springer Berlin Heidelberg, 1983. cap. Why Should Machines Learn?, p. 25–37.ISBN 978-3-662-12405-5. Disponível em: <http://migre.me/thZOJ>. Acesso em: 02 agu. 2015.

SINGH, R. K. Humour, irony and satire in literature. v. 3, n. 4, p. 65–72, out. 2012. ISSN2249-6912. Disponível em: <http://migre.me/tjHI5>. Acesso em: 25 mar. 2015.

SMED, T. D.; NIJS, L.; DAELEMANS, W. Creative Web Service with Pattern. Ljubljana,Slovenia: [s.n.], 2014. 344–346 p. Disponível em: <http://migre.me/tkSFL>.

SOKOLOVA, M.; LAPALME, G. A systematic analysis of performance measuresfor classification tasks. Inf. Process. Manage., Pergamon Press, Inc., Tarrytown,NY, USA, v. 45, n. 4, p. 427–437, jul. 2009. ISSN 0306-4573. Disponível em:<http://dx.doi.org/10.1016/j.ipm.2009.03.002>. Acesso em: 14 mar. 2015.

SOUZA, M. V. S. Mineração de Opiniões Aplicada a Mídias Sociais. 76 p. Dissertação(Dissertação de Mestrado) — Universidade Católica do Rio Grande do Sul, Porto Alegre, mar.2012. Disponível em: <http://migre.me/thZxK>. Acesso em: 01 fev. 2015.

SPEARS, R.; GROUP, N. P. NTC’s American English learner’s dictionary: the essentialvocabulary of American language and culture. NTC Pub. Group, 1998. ISBN 9780844258591.Disponível em: <http://migre.me/thZFj>. Acesso em: 10 abr. 2015.

STEVENSON, R. A.; MIKELS, J. A.; JAMES, T. W. Characterization of the affective normsfor english words by discrete emotional categories. Behavior Research Methods, v. 39, n. 4, p.1020–1024. ISSN 1554-3528. Disponível em: <http://dx.doi.org/10.3758/BF03192999>.

SUTTLES, J.; IDE, N. Distant supervision for emotion classification with discrete binaryvalues. In: Proceedings of the 14th International Conference on Computational Linguistics andIntelligent Text Processing - Volume 2. Berlin, Heidelberg: Springer-Verlag, 2013. (CICLing’13),p. 121–136. ISBN 978-3-642-37255-1. Disponível em: <http://migre.me/tkSfE>.

TABOADA, M. et al. Lexicon-based methods for sentiment analysis. ComputationalLinguistics, MIT Press, Cambridge, MA, USA, v. 37, n. 34, p. 267–307, 2011. Disponível em:<http://migre.me/tonY3>.

TAUSCZIK, Y. R.; PENNEBAKER, J. W. The psychological meaning of words: Liwc andcomputerized text analysis methods. 2010. Disponível em: <http://migre.me/tkjUE>.

THELWALL, M. Heart and Soul:Sentiment Strength Detection in the SocialWebwithSentiStrength. 2013. Disponível em: <http://migre.me/tkCS4>. Acesso em: 26 jul. 2015.

TRAN, V. Encyclopedia of behavioral medicine. In: . Springer New York. New York,NY: [s.n.], 2013. cap. Positive Affect Negative Affect Scale (PANAS), p. 1508–1509. ISBN978-1-4419-1005-9. Disponível em: <http://migre.me/tkf04>.

TSYTSARAU, M.; PALPANAS, T. Survey on mining subjective data on the web. Data Miningand Knowledge Discovery, v. 24, n. 3, p. 478–514, 2011. ISSN 1573-756X. Disponível em:<http://migre.me/tiJsC>. Acesso em: 23 nov. 2015.

VAPNIK, V. N. The nature of statistical learning theory. New York, NY, USA: Springer-VerlagNew York, Inc., 1995. ISBN 0-387-94559-8.

Page 102: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

VEALE, T.; HAO, Y. Detecting ironic intent in creative comparisons. ECAI, v. 215, p. 765–770,2010.

WATSON, D.; CLARK, L. A.; TELLEGEN, A. Development and validation of brief measuresof positive and negative affect: the panas scales. Journal of Personality and Social Psychology ,v. 54, p. 1063–1070, 1988.

WEITZEL, L. et al. How do medical authorities express their sentiment in twitter messages? In:Information Systems and Technologies (CISTI), 2014 9th Iberian Conference on. [S.l.: s.n.],2014. p. 1–6.

101

Page 103: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

102

APÊNDICE A – Matrizes de Confusão

A tabela Matriz de Confusão é formadas por linhas e colunas onde:

• As colunas “Positivo”, “Negativo” e “Neutro” representam individualmente o total detweets rotulados manualmente para cada classe de polaridade, a soma de cada colunaé igual ao total de tweets que expressam a determinada polaridade representado pelalinha “Total de tweets”;

• As linhas “Positivo”, “Negativo” e “Neutro”, representam o número de tweets que ométodo jugou (classificou) como pertencente a uma das três classes de polaridadepossiveis;

A seguir não apresenta-se as matriz do SVM pois estás foram geradas automáica-mente pela ferramenta Weka.

A tabela Resultados é um apanhado geral dos valores encontrados atravás da matrizde confusão, para cada tipo de polaridade - positivo, neagtivo e neutro, onde:

• Total da Amostra: total de tweets que a base de dados contém, de acordo com cadapolaridade de sentimento - positivo, negativo e neutro;

• TP: total de true positive;

• FP: total e false positive;

• FN:total de false negative;

• TN: total de true negative;

• Precison: a taxa precisão do método para cada classe de polaridade;

• Recall: a taxa revocação do método para cada classe de polaridade;

• F-measure: a taxa de F-measure para cada classe de polaridade e;

• Accuracy: Taxa de acurácia alcançada pela método.

As matrizes apresentadas a seguir são do teste com a presença das hashtags decunho sarcástico.

Page 104: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

103

Figura 28 – Matriz do método SentiWordNet (com#).

Fonte: Elaborado pela autora.

Figura 29 – Matriz do método PANAS-t (com#).

Fonte: Elaborado pela autora.

Page 105: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

104

Figura 30 – Matriz do método Sentistrenght (com#).

Fonte: Elaborado pela autora.

Figura 31 – Matriz do método Emolex (com#).

Fonte: Elaborado pela autora.

Page 106: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

105

Figura 32 – Matriz do método NRChashtag (com#).

Elaborado pela autora.

Figura 33 – Matriz do método Opinion Lexicon (com#).

Elaborado pela autora.

Page 107: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

106

Figura 34 – Matriz do método Pattern.en (com#).

Elaborado pela autora.

Figura 35 – Matriz do método AFINN (com#).

Elaborado pela autora.

Page 108: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

107

Figura 36 – Matriz do método Vader (com#).

Fonte: Elaborado pela autora.

Figura 37 – Matriz do método Sentiment140 (com#).

Fonte: Elaborado pela autora.

Page 109: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

108

Figura 38 – Matriz do método Combined Method (com#).

Fonte: Elaborado pela autora.

As matrizes apresentadas a seguir são do teste sem a presença das hashtags decunho sarcástico.

Page 110: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

109

Figura 39 – Matriz do método SentiWordNet (sem#).

Fonte: Elaborado pela autora.

Figura 40 – Matriz do método PANAS-t (sem#).

Fonte: Elaborado pela autora.

Page 111: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

110

Figura 41 – Matriz do método Sentistrenght (sem#).

Fonte: Elaborado pela autora.

Figura 42 – Matriz do método Emolex (sem#).

Fonte: Elaborado pela autora.

Page 112: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

111

Figura 43 – Matriz do método NRChashtag (sem#).

Fonte: Elaborado pela autora.

Figura 44 – Matriz do método Opinion Lexicon (sem#).

Fonte: Elaborado pela autora.

Page 113: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

112

Figura 45 – Matriz do método AFINN (sem#).

Fonte: Elaborado pela autora.

Figura 46 – Matriz do método Vader (sem#).

Fonte: Elaborado pela autora.

Page 114: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

113

Figura 47 – Matriz do método Sentiment140 (sem#).

Fonte: Elaborado pela autora.

Figura 48 – Matriz do método Combined Method (sem#).

Fonte: Elaborado pela autora.

Page 115: PRISCILLADESOUZASILVA · 2018. 2. 28. · e ironia / Priscilla d e Souza Silva ; orientador, José Santos , coorientadora, Leila Weitzel Coelho da Silva . ² 2016 . Trabalho de Conclusão

114

Figura 49 – Matriz do método Pattern.en (sem#).

Fonte: Elaborado pela autora.