Click here to load reader

Thales Felipe Costa Bertaglia - Computação Unioeste ... tcc/2015/TCC - Thales Bertaglia.pdf · PDF file... Campus de Cascavel, ... político em um fórum ou lendo relatos de viagem

  • View
    221

  • Download
    0

Embed Size (px)

Text of Thales Felipe Costa Bertaglia - Computação Unioeste ... tcc/2015/TCC - Thales...

  • Unioeste - Universidade Estadual do Oeste do ParanCENTRO DE CINCIAS EXATAS E TECNOLGICASColegiado de Cincia da ComputaoCurso de Bacharelado em Cincia da Computao

    Minerao de Opinio Baseada em Extrao de Aspectos

    Thales Felipe Costa Bertaglia

    CASCAVEL2015

  • Thales Felipe Costa Bertaglia

    Minerao de Opinio Baseada em Extrao de Aspectos

    Monografia apresentada como requisito parcialpara obteno do grau de Bacharel em Cincia daComputao, do Centro de Cincias Exatas e Tec-nolgicas da Universidade Estadual do Oeste doParan - Campus de Cascavel

    Orientador: Prof. Dr. Clodis Boscarioli

    CASCAVEL2015

  • Thales Felipe Costa Bertaglia

    MINERAO DE OPINIO BASEADA EM EXTRAO DE ASPECTOS

    Monografia apresentada como requisito parcial para obteno do Ttulo de Bacharel emCincia da Computao, pela Universidade Estadual do Oeste do Paran, Campus de Cascavel,

    aprovada pela Comisso formada pelos professores:

    Prof. Dr. Clodis BoscarioliColegiado de Cincia da Computao,

    UNIOESTE

    Prof. Dr. Marcio Seiji OyamadaColegiado de Cincia da Computao,

    UNIOESTE

    Prof. Dra. Sarajane Marques PeresEscola de Artes, Cincias e Humanidades, USP

    Cascavel, 12 de fevereiro de 2016

  • DEDICATRIA

    Ao meu av Enelvo Bertaglia, in memoriam.

  • Lista de Figuras

    2.1 Exemplo de um nmero elevado de avaliaes feitas sobre um produto . . . . . 6

    2.2 Ferramenta Twitrratr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3 Ferramenta Tweetfeel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.4 Ferramenta Sentiment140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.5 Exemplo de uma avaliao de consumidor sobre um tablet . . . . . . . . . . . 12

    2.6 Exemplo de uma avaliao de consumidor sobre uma cmera fotogrfica . . . . 17

    3.1 Ilustrao do modelo LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    4.1 Ilustrao da estrutura utilizada para calcular o p-suporte . . . . . . . . . . . . 38

    v

  • Lista de Tabelas

    2.1 Porcentagem de usurios que identificou que as avaliaes tiveram impacto sig-

    nificativo em sua compra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    3.1 Padro semntico das palavras a serem extradas . . . . . . . . . . . . . . . . . 24

    5.1 Avaliao da Influncia dos Taggers na Preciso do Algoritmo . . . . . . . . . 44

    5.2 Porcentagens de Precision Resultantes do Algoritmo . . . . . . . . . . . . . . 45

    5.3 Porcentagens de Recall Resultantes do Algoritmo . . . . . . . . . . . . . . . . 45

    5.4 Comparao de Resultados de Precision com

    [Pavlopoulos e Androutsopoulos 2014] . . . . . . . . . . . . . . . . . . . . . . 46

    5.5 Comparao de Resultados de Precision com [Hu e Liu 2004] . . . . . . . . . 47

    5.6 Comparao de Resultados de Recall com [Hu e Liu 2004] . . . . . . . . . . . 47

    vi

  • Lista de Abreviaturas e Siglas

    API Application Programming InterfacePLN Processamento de Linguagem NaturalNER Named-Entity RecognitionMD Minerao de DadosSVM Support Vector MachinePMI Pointwise Mutual InformationHMM Hidden Markov ModelpLSA Probabilistic Latent Semantic AnalysisLDA Latent Dirichlet AllocationNLTK Natural Language ToolkitXML Extensible Markup LanguagePOS Part-of-speech

    vii

  • Sumrio

    Lista de Figuras v

    Lista de Tabelas vi

    Lista de Abreviaturas e Siglas vii

    Sumrio viii

    Resumo x

    1 Introduo 1

    2 Minerao de Opinio e Anlise de Sentimentos 4

    2.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2.1.1 Minerao de Opinio para Consumidores . . . . . . . . . . . . . . . . 5

    2.1.2 Minerao de Opinio para Organizaes . . . . . . . . . . . . . . . . 7

    2.1.3 Minerao de Opinio para Aplicaes de PLN . . . . . . . . . . . . . 10

    2.2 Conceitos de Anlise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.1 Definio de Opinio . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.2 Tipos de Opinio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2.3 Tarefas da Anlise de Sentimentos . . . . . . . . . . . . . . . . . . . . 15

    2.2.4 Dificuldades na Anlise de Sentimentos . . . . . . . . . . . . . . . . . 18

    3 O Processo de Minerao de Opinio 20

    3.1 Classificao de Sentimentos a Nvel de Documento . . . . . . . . . . . . . . . 21

    3.1.1 Classificao por Tcnicas Supervisionadas . . . . . . . . . . . . . . . 21

    3.1.2 Classificao por Tcnicas No-Supervisionadas . . . . . . . . . . . . 23

    3.2 Classificao de Sentimentos a Nvel de Sentena . . . . . . . . . . . . . . . . 25

    3.2.1 Classificao de Subjetividade . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.2 Classificao de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 26

    viii

  • 3.3 Anlise em Nvel de Entidade-Aspecto . . . . . . . . . . . . . . . . . . . . . . 27

    3.3.1 Extrao de Aspectos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.4 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4 O Sistema Proposto 33

    4.1 Mdulo de Pr-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    4.2 Mdulo de Extrao de Aspectos . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.3 Mdulo de Extrao de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 41

    4.4 Mdulo de Sumarizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    5 Avaliao Experimental 43

    6 Concluses e Perspectivas 48

    6.1 Principais Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    6.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    Referncias Bibliogrficas 50

    ix

  • Resumo

    Anlise de sentimentos, ou minerao de opinio, o estudo computacional de opinies,

    sentimentos, avaliaes e atitudes em relao a entidades expressadas em documentos textuais.

    O principal objetivo da anlise de sentimentos extrair opinies e sentimentos relacionados a

    elas de fontes como avaliaes de consumidores, blogs e fruns de discusso. Neste trabalho

    so apresentados e discutidos os principais conceitos, tcnicas e abordagens computacionais da

    rea. Tambm especificado um sistema com o objetivo de extrair opinies sobre caractersti-

    cas de produtos dadas em avaliaes de consumidores. O sistema composto pelos mdulos

    de pr-processamento, extrao de aspectos, extrao de sentimentos e sumarizao. Cada um

    dos mdulos discutido, assim como os algoritmos implementados. O algoritmo de extrao

    de aspectos avaliado experimentalmente visando mensurar sua preciso. Cada etapa que o

    constitui avaliada separadamente de modo a verificar seu impacto na sada final do algoritmo

    Por fim, o sistema analisado como um todo e os resultados obtidos so comparados aos j

    consolidados na literatura.

    Palavras-chave: Anlise de Sentimentos, Minerao de Opinio, Extrao de Aspectos.

    x

  • Captulo 1

    Introduo

    As opinies e as experincias de outras pessoas constituem uma importante fonte de infor-

    mao em nossa vida. comum buscar-se recomendaes de conhecidos sobre qual celular ou

    computador comprar, qual restaurante ir e at mesmo qual mdico consultar. Atualmente, avali-

    aes de consumidores (reviews) constituem-se em um recurso valioso para auxiliar na tomada

    de deciso [Bross 2013]. Alm de ajudar o consumidor a decidir na hora de efetuar compras,

    as reviews oferecem feedback gratuito e espontneo aos fabricantes e s empresas, visto que os

    clientes escrevem as avaliaes sem obrigao e podem exprimir opinies sem restrio.

    No entanto, o grande nmero de avaliaes disponveis online dificulta o processamento e a

    compreenso total das informaes. Podem existir milhares de reviews escritas sobre produtos

    populares uma quantia no muito vivel para humanos lerem. Desse modo, h uma tendncia

    em desenvolver sistemas que possam automaticamente extrair informaes em avaliaes de

    consumidores. Essa tarefa chamada de anlise de sentimentos ou minerao de opinio.

    A anlise de sentimentos no se restringe ao domnio de avaliaes de consumidores. Ela

    pode ser aplicada em vrios cenrios como debates polticos, sugestes de produtos e anlise

    de tendncias de mercado. Qualquer contexto que envolva opinies sendo expressadas pode ser

    uma aplicao. A anlise de sentimentos surge como uma alternativa para lidar com a grande

    quantia de opinies disponveis, visando facilitar a compreenso das informaes contidas ne-

    las. Seu principal objetivo identificar automaticamente opinies expressadas em textos e os

    sentimentos relacionados a elas. Sentimento, nesse contexto, o que o emissor da opinio

    pensa sobre a entidade avaliada. Um usurio que escreve uma avaliao dizendo que "a quali-

    dade desse celular pssima", por exemplo, demonstra um sentimento negativo em relao ao

    produto.

  • A identificao de opinies pode ser feita de diversas formas e em diferentes nveis de

    anlise. Pode-se considerar que a avaliao toda contm uma opinio, que cada frase do texto

    expressa um sentimento ou que cada caracterstica avaliada tem uma opinio relacionada. Do

    ponto de vista computacional, existem diferentes abordagens para a soluo do problema, sendo

    que elas podem ser basicamente divididas em tcnicas de aprendizado supervisionado e no-

    supervisionado.

    O objetivo desse trabalho apresentar os principais conceitos de anlise de sentimentos

    e algumas tcnicas utilizadas para efetu-la. O trabalho orientado a opinies expressas em

    avaliaes de consumidores