Click here to load reader
View
221
Download
0
Embed Size (px)
Unioeste - Universidade Estadual do Oeste do ParanCENTRO DE CINCIAS EXATAS E TECNOLGICASColegiado de Cincia da ComputaoCurso de Bacharelado em Cincia da Computao
Minerao de Opinio Baseada em Extrao de Aspectos
Thales Felipe Costa Bertaglia
CASCAVEL2015
Thales Felipe Costa Bertaglia
Minerao de Opinio Baseada em Extrao de Aspectos
Monografia apresentada como requisito parcialpara obteno do grau de Bacharel em Cincia daComputao, do Centro de Cincias Exatas e Tec-nolgicas da Universidade Estadual do Oeste doParan - Campus de Cascavel
Orientador: Prof. Dr. Clodis Boscarioli
CASCAVEL2015
Thales Felipe Costa Bertaglia
MINERAO DE OPINIO BASEADA EM EXTRAO DE ASPECTOS
Monografia apresentada como requisito parcial para obteno do Ttulo de Bacharel emCincia da Computao, pela Universidade Estadual do Oeste do Paran, Campus de Cascavel,
aprovada pela Comisso formada pelos professores:
Prof. Dr. Clodis BoscarioliColegiado de Cincia da Computao,
UNIOESTE
Prof. Dr. Marcio Seiji OyamadaColegiado de Cincia da Computao,
UNIOESTE
Prof. Dra. Sarajane Marques PeresEscola de Artes, Cincias e Humanidades, USP
Cascavel, 12 de fevereiro de 2016
DEDICATRIA
Ao meu av Enelvo Bertaglia, in memoriam.
Lista de Figuras
2.1 Exemplo de um nmero elevado de avaliaes feitas sobre um produto . . . . . 6
2.2 Ferramenta Twitrratr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Ferramenta Tweetfeel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.4 Ferramenta Sentiment140 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.5 Exemplo de uma avaliao de consumidor sobre um tablet . . . . . . . . . . . 12
2.6 Exemplo de uma avaliao de consumidor sobre uma cmera fotogrfica . . . . 17
3.1 Ilustrao do modelo LDA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.1 Ilustrao da estrutura utilizada para calcular o p-suporte . . . . . . . . . . . . 38
v
Lista de Tabelas
2.1 Porcentagem de usurios que identificou que as avaliaes tiveram impacto sig-
nificativo em sua compra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.1 Padro semntico das palavras a serem extradas . . . . . . . . . . . . . . . . . 24
5.1 Avaliao da Influncia dos Taggers na Preciso do Algoritmo . . . . . . . . . 44
5.2 Porcentagens de Precision Resultantes do Algoritmo . . . . . . . . . . . . . . 45
5.3 Porcentagens de Recall Resultantes do Algoritmo . . . . . . . . . . . . . . . . 45
5.4 Comparao de Resultados de Precision com
[Pavlopoulos e Androutsopoulos 2014] . . . . . . . . . . . . . . . . . . . . . . 46
5.5 Comparao de Resultados de Precision com [Hu e Liu 2004] . . . . . . . . . 47
5.6 Comparao de Resultados de Recall com [Hu e Liu 2004] . . . . . . . . . . . 47
vi
Lista de Abreviaturas e Siglas
API Application Programming InterfacePLN Processamento de Linguagem NaturalNER Named-Entity RecognitionMD Minerao de DadosSVM Support Vector MachinePMI Pointwise Mutual InformationHMM Hidden Markov ModelpLSA Probabilistic Latent Semantic AnalysisLDA Latent Dirichlet AllocationNLTK Natural Language ToolkitXML Extensible Markup LanguagePOS Part-of-speech
vii
Sumrio
Lista de Figuras v
Lista de Tabelas vi
Lista de Abreviaturas e Siglas vii
Sumrio viii
Resumo x
1 Introduo 1
2 Minerao de Opinio e Anlise de Sentimentos 4
2.1 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Minerao de Opinio para Consumidores . . . . . . . . . . . . . . . . 5
2.1.2 Minerao de Opinio para Organizaes . . . . . . . . . . . . . . . . 7
2.1.3 Minerao de Opinio para Aplicaes de PLN . . . . . . . . . . . . . 10
2.2 Conceitos de Anlise de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Definio de Opinio . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Tipos de Opinio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.3 Tarefas da Anlise de Sentimentos . . . . . . . . . . . . . . . . . . . . 15
2.2.4 Dificuldades na Anlise de Sentimentos . . . . . . . . . . . . . . . . . 18
3 O Processo de Minerao de Opinio 20
3.1 Classificao de Sentimentos a Nvel de Documento . . . . . . . . . . . . . . . 21
3.1.1 Classificao por Tcnicas Supervisionadas . . . . . . . . . . . . . . . 21
3.1.2 Classificao por Tcnicas No-Supervisionadas . . . . . . . . . . . . 23
3.2 Classificao de Sentimentos a Nvel de Sentena . . . . . . . . . . . . . . . . 25
3.2.1 Classificao de Subjetividade . . . . . . . . . . . . . . . . . . . . . . 25
3.2.2 Classificao de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 26
viii
3.3 Anlise em Nvel de Entidade-Aspecto . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Extrao de Aspectos . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Trabalhos Correlatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4 O Sistema Proposto 33
4.1 Mdulo de Pr-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.2 Mdulo de Extrao de Aspectos . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Mdulo de Extrao de Sentimentos . . . . . . . . . . . . . . . . . . . . . . . 41
4.4 Mdulo de Sumarizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5 Avaliao Experimental 43
6 Concluses e Perspectivas 48
6.1 Principais Consideraes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.2 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Referncias Bibliogrficas 50
ix
Resumo
Anlise de sentimentos, ou minerao de opinio, o estudo computacional de opinies,
sentimentos, avaliaes e atitudes em relao a entidades expressadas em documentos textuais.
O principal objetivo da anlise de sentimentos extrair opinies e sentimentos relacionados a
elas de fontes como avaliaes de consumidores, blogs e fruns de discusso. Neste trabalho
so apresentados e discutidos os principais conceitos, tcnicas e abordagens computacionais da
rea. Tambm especificado um sistema com o objetivo de extrair opinies sobre caractersti-
cas de produtos dadas em avaliaes de consumidores. O sistema composto pelos mdulos
de pr-processamento, extrao de aspectos, extrao de sentimentos e sumarizao. Cada um
dos mdulos discutido, assim como os algoritmos implementados. O algoritmo de extrao
de aspectos avaliado experimentalmente visando mensurar sua preciso. Cada etapa que o
constitui avaliada separadamente de modo a verificar seu impacto na sada final do algoritmo
Por fim, o sistema analisado como um todo e os resultados obtidos so comparados aos j
consolidados na literatura.
Palavras-chave: Anlise de Sentimentos, Minerao de Opinio, Extrao de Aspectos.
x
Captulo 1
Introduo
As opinies e as experincias de outras pessoas constituem uma importante fonte de infor-
mao em nossa vida. comum buscar-se recomendaes de conhecidos sobre qual celular ou
computador comprar, qual restaurante ir e at mesmo qual mdico consultar. Atualmente, avali-
aes de consumidores (reviews) constituem-se em um recurso valioso para auxiliar na tomada
de deciso [Bross 2013]. Alm de ajudar o consumidor a decidir na hora de efetuar compras,
as reviews oferecem feedback gratuito e espontneo aos fabricantes e s empresas, visto que os
clientes escrevem as avaliaes sem obrigao e podem exprimir opinies sem restrio.
No entanto, o grande nmero de avaliaes disponveis online dificulta o processamento e a
compreenso total das informaes. Podem existir milhares de reviews escritas sobre produtos
populares uma quantia no muito vivel para humanos lerem. Desse modo, h uma tendncia
em desenvolver sistemas que possam automaticamente extrair informaes em avaliaes de
consumidores. Essa tarefa chamada de anlise de sentimentos ou minerao de opinio.
A anlise de sentimentos no se restringe ao domnio de avaliaes de consumidores. Ela
pode ser aplicada em vrios cenrios como debates polticos, sugestes de produtos e anlise
de tendncias de mercado. Qualquer contexto que envolva opinies sendo expressadas pode ser
uma aplicao. A anlise de sentimentos surge como uma alternativa para lidar com a grande
quantia de opinies disponveis, visando facilitar a compreenso das informaes contidas ne-
las. Seu principal objetivo identificar automaticamente opinies expressadas em textos e os
sentimentos relacionados a elas. Sentimento, nesse contexto, o que o emissor da opinio
pensa sobre a entidade avaliada. Um usurio que escreve uma avaliao dizendo que "a quali-
dade desse celular pssima", por exemplo, demonstra um sentimento negativo em relao ao
produto.
A identificao de opinies pode ser feita de diversas formas e em diferentes nveis de
anlise. Pode-se considerar que a avaliao toda contm uma opinio, que cada frase do texto
expressa um sentimento ou que cada caracterstica avaliada tem uma opinio relacionada. Do
ponto de vista computacional, existem diferentes abordagens para a soluo do problema, sendo
que elas podem ser basicamente divididas em tcnicas de aprendizado supervisionado e no-
supervisionado.
O objetivo desse trabalho apresentar os principais conceitos de anlise de sentimentos
e algumas tcnicas utilizadas para efetu-la. O trabalho orientado a opinies expressas em
avaliaes de consumidores