Upload
osmar-maciel-rehbein
View
138
Download
3
Embed Size (px)
DESCRIPTION
Trabalho de conclusão de Curso sobre MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES desenvolvido por Osmar maciel Rehbein
Citation preview
CURSO DE CIÊNCIA DA COMPUTAÇÃO
Osmar Maciel Rehbein
Trabalho de Conclusão II
MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES
Santa Cruz do Sul, dezembro de 2012
Osmar Maciel Rehbein
MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES
Trabalho de conclusão apresentado ao Curso de Ciência da computação da Universidade de Santa Cruz do Sul para obtenção do título de Bacharel em Ciência da Computação.
Orientadora: Profª. Drª. Rejane Frozza
Santa Cruz do Sul, dezembro de 2012
RESUMO
Este trabalho apresenta a utilização de técnicas de mineração de texto para
análise de uma carteira de ações, auxiliando investidores na escolha de compra e
venda de ações de empresas de capital aberto. Analisou-se profundamente o
histórico, a estrutura e o funcionamento de uma Bolsa de Valores, observando o que
faz os preços das ações oscilarem. Foram estudadas técnicas de mineração de texto
observando os tipos de abordagem de dados e tomando como foco as três fases da
mineração: Preparação dos dados, Processamento dos dados e Pós-
processamento. Com o estudo desses dois assuntos distintos, objetivou-se a
elaboração de um sistema capaz de coletar informações textuais sobre as empresas
que compõem uma carteira de ações diretamente de notícias publicadas na Internet
e comentários do Twitter, no momento em que elas ocorrem. Os textos coletados
passam por um processamento abstraindo a orientação semântica da notícia,
classificando-a como positiva, neutra ou negativa. A sumarização dessas
classificações irá representar a tendência de subida ou descida do valor das ações
da empresa analisada. O objetivo principal do sistema é disponibilizar um ambiente
simplificado, onde os investidores possam analisar os dados coletados e
processados, observando os gráficos com valores atuais da bolsa e a sua tendência,
auxiliando em uma decisão segura e criando confiança no sistema.
Palavra-Chave: Mineração de texto; Extração de informação; Mercado de
Capitais; Análise de investimento.
ABSTRACT
This paper presents the use of text mining techniques to analyze a stock
portfolio, helping investors in the choice of buying and selling shares of publicly
traded companies. The history, structure and functioning of a stock exchange were
deeply analyzed, noting what makes stock prices fluctuate. We studied text mining
techniques observing the types of data approach and focusing three stages of
mining: data preparation, data processing and post analysis. From the study of these
two different issues, we aimed at the elaboration of a system that can collect textual
information about the companies that comprise a portfolio of shares directly from
news published on the Internet and / or Twitter comments at the moment they occur.
The texts collected will undergo an orientation process abstracting the semantics of
the news, classifying them in positive, neutral or negative. The summarization of
these classifications will represent the trend of increase or decrease of the value of
the shares of the analyzed company. The main objective of the system is to provide a
simplified environment where investors can analyze the data collected and
processed, looking at the graphs with current values of the stock market and tables
that show the current trend, making a good decision and building confidence in the
system.
Key-words: Text Mining, Extraction of Information, Market Capital, Investment
Analysis.
LISTA DE TABELAS
Tabela 1 – Tipos de opções. ..................................................................................... 15
Tabela 2 - Passos de execução do método Portuguese Stemmer ............................ 41
Tabela 3 - Tabela de relacionamento em um thesaurus ........................................... 44
Tabela 4 - Tabela de Stop Words .............................................................................. 58
Tabela 5 - Tabela de Palavras com sua respectiva orientação ................................. 60
Tabela 6 – Tabela de empresas monitoradas ........................................................... 74
Tabela 7 – Número de textos coletadas .................................................................... 75
Tabela 8 – Quantidade palavras Classificadas ......................................................... 75
Tabela 9 – Exemplificação do cálculo PMI ................................................................ 77
Tabela 10 – Resultados obtidos da empresa OGX ................................................... 78
Tabela 11 – Resultados obtidos da empresa Marfrig ................................................ 79
LISTA DE FIGURAS
Figura 1 - Exemplo de página da Mega Bolsa........................................................... 21
Figura 2 - Modelo Genérico das Etapas de Mineração de Textos. ............................ 35
Figura 3 - Passos do algoritmo de radicalização ....................................................... 42
Figura 4 - Tabela de conversão dos termos em atributos ......................................... 44
Figura 5 - Sistema de mineração proposto ............................................................... 51
Figura 6 – Base de um arquivo RSS Feed – Google Notícias .................................. 55
Figura 7 – Endereço dinâmico, passando “PETROBRAS” como parâmetro. ............ 56
Figura 8 – Destaque do texto de uma página coletado através do “Parser HTML”. .. 57
Figura 9 – Diagrama 1 da base de dados utilizada. .................................................. 62
Figura 10 – Diagrama dois da base de dados utilizada. ............................................ 63
Figura 11 – Diagrama três da base de dados utilizada. ............................................ 64
Figura 12 – SMPreview, mostrando os radicais identificados. .................................. 65
Figura 13 – SMPreview, mostrando os radicais com o valor da orientação: -1.95. ... 66
Figura 14 – SMPreview, mostrando a arquitetura e tecnologias envolvidas ............. 67
Figura 15 – SMPreview, interface exibindo os gráficos. ............................................ 67
Figura 16 – SMPreview, interface exibindo os gráficos. ............................................ 68
Figura 17 – SMPreview, Oscilação Bolsa X Oscilação Notícias. ............................... 70
Figura 18 – SMPreview, interface com tabela de textos. .......................................... 70
Figura 19 – SMPreview, interface exibindo o texto coletado. .................................... 71
Figura 20 – SMPreview, interface exibindo o texto processado. ............................... 72
Figura 21 – Gráfico sem deslocamento da orientação (14 acertos). ......................... 80
Figura 22 – Gráfico com 1 dia de deslocamento da orientação (10 acertos). ........... 81
Figura 23 – Gráfico com 2 dia de deslocamento da orientação (9 acertos). ............. 81
LISTA DE ABREVIATURAS
ON Ordinária Nominativa
PN Preferenciais Nominativas
CATS Computer Assisted Trading System
ABO Agência Bovespa de Operações
BOVESPA Bolsa de Valores do Estado de São Paulo
BM&FBOVESPA Bolsa de Valores, Mercadorias e Futuros
CVM Comissão de Valores Mobiliários
IFR Índice de força relativa
MT Mineração de texto
PLN
PMI
Processamento de Linguagem Natural
Pointwise mutual information
RI Recuperação de Informação
VSM Vectorial Space Model
SRI Sistema de Recuperação de Informação
EC Extração de Características
FD Frequência de documentos
API Application programming interface
HTML Hyper Text Markup Language
XML eXtensible Markup Language
SUMÁRIO
RESUMO .......................................................................................................... 3
ABSTRACT ....................................................................................................... 4
LISTA DE TABELAS ......................................................................................... 5
LISTA DE FIGURAS ......................................................................................... 6
LISTA DE ABREVIATURAS ............................................................................. 7
SUMÁRIO ......................................................................................................... 8
1 INTRODUÇÃO ............................................................................................. 11
2 MERCADO DE CAPITAIS ........................................................................... 14
2.1 Ações .................................................................................................... 14
2.1.1 Tipos de ações ................................................................................... 14
2.1.2 Motivos da existência da Bolsa de Valores ........................................ 16
2.2 Bolsa de Valores ................................................................................... 16
2.2.1 Necessidades à Bolsa de Valores ...................................................... 17
2.2.2 Objetivos ............................................................................................ 18
2.2.3 Estrutura organizacional ..................................................................... 18
2.2.3.1 Pregão ............................................................................................. 18
2.2.3.2 Tipos de Negociação ....................................................................... 19
2.2.3.3 Modalidades de Operações ............................................................ 22
2.2.4 Corretoras .......................................................................................... 24
2.2.4.1 Atividades Básicas .......................................................................... 25
2.2.5 Home broker....................................................................................... 26
2.3 Índices ................................................................................................... 27
2.3.1 Índice Ibovespa .................................................................................. 27
2.3.2 Índice de força relativa (IFR) .............................................................. 28
2.3.3 Volume ............................................................................................... 28
2.3.4 Ibovespa futuro................................................................................... 28
2.3.5 IBX – Índice Brasil .............................................................................. 29
2.3.6 Dow Jones ......................................................................................... 29
2.4 Análises ................................................................................................. 29
2.4.1 Oscilação da bolsa ............................................................................. 30
2.4.2 Análise Fundamentalista .................................................................... 30
2.4.3 Análise Técnica .................................................................................. 31
2.4.3 Considerações ................................................................................... 31
3 MINERAÇÃO DE TEXTO ............................................................................ 32
3.1 Tipos de Abordagens dos Dados .......................................................... 33
3.1.1 Análise Semântica .............................................................................. 33
3.1.2 Análise Estatística .............................................................................. 34
3.2 Visão Geral da Mineração de Textos .................................................... 34
3.3 Preparação dos dados .......................................................................... 36
3.3.1 Recuperação de Informação (RI) ....................................................... 36
3.3.1.1 Modelo Booleano ............................................................................ 37
3.3.1.2 Modelo de Espaço Vetorial (VSM – Vectorial Space Model ) .......... 38
3.3.1.3 Recuperação associada à indexação. ............................................. 38
3.3.2 Análise dos dados .............................................................................. 39
3.3.2.1 Stemming (Radicalização) .............................................................. 39
3.3.2.2 Stopwords ....................................................................................... 42
3.3.2.3 Dicionário ou Enciclopédia (thesaurus) ........................................... 43
3.3.2.3.1 Termos Compostos ...................................................................... 43
3.3.2.3.2 Relacionamento entre termos ...................................................... 43
3.3.3 Transformação dos dados em tabelas ............................................... 44
3.4 Processamento dos dados .................................................................... 45
3.4.1 Indexação ........................................................................................... 45
3.4.2 Extração de Características (EC) ....................................................... 46
3.4.3 Sumarização ...................................................................................... 47
3.5 Pós-Processamento .............................................................................. 47
3.6 Mineração de opinião ............................................................................ 48
3.7 Trabalhos Relacionados ........................................................................ 49
3.8 Considerações ...................................................................................... 50
4 MINERAÇÃO DE TEXTO APLICADA À ANÁLISE DE CARTEIRA DE
AÇÕES ...................................................................................................................... 51
4.1 Metodologia ........................................................................................... 51
4.2 Aspectos de implementação ................................................................. 53
4.3 Desenvolvimento do sistema ................................................................ 54
4.3.1 Fonte de dados .................................................................................. 54
4.3.2 Coletando os Dicionários (Thesaurus) ............................................... 58
4.3.3 Coletando Informações sobre as empresas e cotações ..................... 60
4.3.4 Cálculo da orientação semântica ....................................................... 64
4.3.5 Sistema SMPreview ........................................................................... 66
4.4 Testes e Resultados .............................................................................. 73
4.4.1 Testes ................................................................................................ 74
4.4.2 Resultados ......................................................................................... 77
5 CONCLUSÃO .............................................................................................. 82
REFERÊNCIAS .............................................................................................. 85
11
1 INTRODUÇÃO
Prever o mercado acionário mudaria a história econômica e social, e por esse
motivo, esta área acaba atraindo muito a atenção do meio acadêmico e dos
negócios, levando à seguinte questão: Será possível criar algum algoritmo ou
alguma fórmula para prever o período de aplicar seu dinheiro em alguma ação
específica e o momento de vendê-la visando os melhores lucros?
“Toda a informação relevante está contida no preço”, afirma Matsura (2006),
falando da influência da informação no preço das ações. Essa citação será a base
do trabalho, coletando informação e aplicando a análise da tendência. Em todas as
ordens de compra e venda de ações da bolsa existe o envolvimento de pessoas,
com expectativas e motivações singulares influenciando na decisão. Somando cada
investidor, tem-se uma quantidade enorme de pessoas apostando e isso acaba
sendo a soma das decisões do todo, resultando padrões comportamentais, como
ganância e medo, euforia e pânico. Os padrões podem ser detectados, a fim de
sugerir situações mais previsíveis do mercado de ações. Segundo um estudo
realizado por Charles Dow (co-fundador da Dow Jones & Company), no século XX,
através do estudo dos índices, foi identificado que o mercado segue tendências
existindo uma lógica nas oscilações (MATSURA, 2006), (SANVICENTE e FILHO,
1988).
A todo o momento, novas páginas contendo textos são disponibilizadas na
internet e, até pouco tempo, essas informações não eram usadas para estabelecer
vantagens competitivas ou mesmo como suporte à tomada de decisões, ou ainda,
como indicador de sucesso ou fracasso. Com a chegada da mineração de textos, a
extração de informação em textos tornou-se possível e necessária diante da grande
quantidade de informações despejada no mundo virtual (REZENDE, 2003).
12
Quando os preços de uma empresa dão um salto pode ser em resposta a
uma notícia de algum pronunciamento público sobre as possibilidades futuras da
empresa. Como, por exemplo, quando uma empresa do ramo farmacêutico declara
que acaba de descobrir uma droga para a cura de resfriado comum, tão logo os
preços subirão baseando-se na recente boa notícia. Nesses casos, diz-se que o
mercado está reagindo à informação. Os investidores e ou analistas estão atentos
aos fatores fundamentais que influenciam no valor da ação e, quando esses fatores
mudam, logicamente muda o valor da ação. Caso essa mudança de valor não
ocorra, pressupõe-se que a informação da notícia já estava contida no preço da
ação, a chamada hipótese do mercado eficiente (BODIE e MERTON, 2001).
A mineração de texto se encaixa perfeitamente na análise de notícias
publicadas na internet já que ela é a descoberta e extração do que é interessante, o
conhecimento não trivial de texto livre ou não estruturado. Este engloba, desde a
recuperação da informação (recuperação em documento ou recuperação em site)
para categorização de texto ou agrupamento de texto (KAO e POTEET, 2007).
Com o aumento de despejo de informações na Web e o surgimento de
ferramentas de trocas de mensagem como o Twitter, criam-se oportunidades do
desenvolvimento de sistemas com soluções automáticas para ajudar os usuários.
Utilizar essas informações de forma a obter vantagens é a motivação principal deste
trabalho.
A escolha das ações a serem investidas é uma decisão complicada para
quem quer investir na bolsa, pois envolve muitas variáveis que implicam na mudança
dos preços, o que acaba sendo de difícil previsão para um investidor comum ou
iniciante. Como exemplo, a instabilidade política é um fator sistemático que
influencia negativamente os preços das ações (CAVALCANTE, 2005). Uma análise
dos fundamentos do valor de um ativo será interessante e essencial nesse trabalho,
já que essa análise fundamentalista consiste em uma conversão de todas as
informações que determinam o valor de uma ação (SANVICENTE e FILHO, 1988).
13
A mineração de texto é um conjunto de técnicas e processos que descobrem
conhecimento inovador nos textos, estão aplicadas em diversas áreas como
genética, marketing e o mundo dos negócios (REZENDE, 2003).
Como a informação textual está na Web e em sistemas de informação local
como as intranets, a mineração de texto é cada vez mais importante decorrente de
vantagens competitivas. Um fator crítico para aplicações de mineração de texto bem
sucedido é a capacidade de encontrar termos significativos para descobrir padrões
interessantes ou relacionamentos (SONG e WU, 2009).
Desta forma, a mineração de texto é uma área nova e interessante, que utiliza
integração de técnicas e métodos de mineração de dados, aprendizagem de
máquina, processamento de linguagem natural, recuperação de informação e gestão
do conhecimento.
O objetivo deste trabalho é apresentar uma metodologia utilizando mineração
de texto para análise fundamentalista de carteira de ações, possibilitando ao
investidor uma melhora na escolha de sua decisão de compra e venda de um ativo,
a fim de maximizar seus lucros.
O presente trabalho está organizado da seguinte forma: Segundo capítulo
apresenta-se um estudo detalhado sobre a Bolsa de Valores, abordando o histórico,
a estrutura e o funcionamento, observando o que faz os preços das ações oscilarem
e as possíveis análises: técnica e fundamentalista. No terceiro capítulo ressaltam-se
os tipos de abordagem de dados, descrevem-se os conceitos e as bases teóricas
sobre Mineração de texto, detalhando as três fases que a compõe: Preparação dos
dados, Processamento dos dados e Pós-processamento. Além disso, buscou-se
uma técnica de pós-processamento (Mineração de Opinião) dentro da mineração de
texto como aquisição do conhecimento dos textos minerados. Ainda no terceiro
capítulo destacam-se os trabalhos estudados e relacionados no escopo do presente
trabalho, dando uma visão geral de cada um. No quarto capítulo são descritas a
metodologia utilizada, a arquitetura proposta e os resultados do desenvolvimento do
presente trabalho. Por fim, apresenta-se a conclusão.
14
2 MERCADO DE CAPITAIS
O mercado de capitais é um ambiente em que se pode negociar o capital das
empresas. Nesse mercado, pode-se negociar tanto as ações como seus derivativos,
que são títulos derivados de ações, como, por exemplo, opção de compra e venda e
contrato futuro (DEBASTIANI, 2011).
Os principais títulos negociados nesse mercado são os representativos do
capital de empresas que são as ações ou de empréstimos tomados por essas
empresas, via mercado, servindo para custear o desenvolvimento econômico.
Assim, a empresa não fica presa a sua geração de lucros, mas também aos
investimentos de seus novos investidores (CAVALCANTE, MISUMI E RUDGE,
2009).
2.1 Ações
Uma ação é a menor parcela do capital social de uma empresa, podendo a
empresa ser sociedade anônima, sociedade por ações ou uma companhia. Quem
possui ações dessas empresas detém o direito na participação dos lucros em
quantia proporcional à quantidade de ações em seu poder. Uma ação não tem prazo
para ser resgatada e pode ser negociada em mercados organizados como as bolsas
de valores. Sendo uma ação negociada diariamente, esta tem um alto nível de
oscilação no preço. Os preços das ações podem aumentar se o interesse de compra
aumentar, ou diminuir caso o contrário (CAVALCANTE, MISUMI E RUDGE, 2009).
2.1.1 Tipos de ações
Os códigos, apresentados na tabela1, complementam a identificação de uma
ação para os investidores.
15
Tabela 1 – Tipos de opções.
O =
Ordinárias
Ações com direito a voto.
P =
Preferenciais
Ações com preferências na distribuição dos resultados.
N =
Nominais
Presume-se a propriedade para aquele que constar no Livro
Registro das Ações Nominativas; transferência é feita mediante
registro no Livro de transferências das Ações Nominativas.
E =
Escriturais
Dispensam a emissão de títulos de propriedade. Circulam e se
transferem mediante extrato dos bancos depositários.
Fonte: CAVALCANTE, MISUMI E RUDGE, 2009.
No Brasil, as empresas podem ser encontradas em dois tipos de ações à
venda na bolsa de valores:
Ações ON (Ordinárias Nominativas): são ações que dão direito de voto aos
seus proprietários nas assembleias de acionistas, ou seja, permitindo ao que tem
posse das ações, que possa opinar sobre o rumo dos negócios da empresa. A
opinião será equivalente à quantidade de ações da empresa em sua posse.
(DEBASTIANI, 2011) e (CERBASI, 2009).
Ações PN (Preferenciais Nominativas): ao contrário das ações ordinárias, são
ações que não dão direito de voto nas assembleias de acionistas aos donos dessas
ações, mas dão prioridade (preferenciais) nos pagamentos de proventos de
dividendos e juros. Os donos das ações PN ganham mais lucros por ação em
relação aos que apenas possuem ações do tipo ON (DEBASTIANI, 2011) e
(CERBASI, 2009).
Existem diferenças de preço entre ações PN e ON, isso se refletindo a
preferência dos investidores às ações PN por elas pagarem proventos.
16
2.1.2 Motivos da existência da Bolsa de Valores
Se a empresa precisa de capital para aplicar no crescimento e na
modernização a médio e longo prazo, correr para empréstimos bancários não seria
uma boa solução, já que os juros cobrados por esses bancos são muito elevados,
tornando-se uma solução de alto custo (PIAZZA, 2007).
Lançar uma empresa na Bolsa de Valores é uma boa estratégia e alternativa
para arrecadar fartos fundos e é a maneira pela qual a empresa fica livre dos altos
juros dos bancos e financeiras. O comprador dessas ações se torna um pequeno
novo sócio da empresa, já que está investindo dinheiro próprio em sua estruturação.
Conforme a empresa de capital aberto vai dando lucro, este acaba sendo repassado
para o investidor proporcionalmente à porcentagem das ações sobre a empresa.
Nesse processo, por um lado às empresas ganham, pois elas se expandem,
conquistam novos mercados e aumentam seu faturamento e, por outro lado, os
acionistas lucram com a empresa.
2.2 Bolsa de Valores
Não existe uma definição clara sobre o surgimento da bolsa. O que se sabe é
que a origem é bastante remota, sendo que alguns escritores relatam que a origem
são os emporium dos gregos e outros nos collegium mercatorum dos romanos
(OLIVEIRA, SOARES E LOPES, 1986).
A Bolsa de Valores surgiu naturalmente com o agrupamento de oferta e
compra de produtos com valores comerciais. Já para o nome “bolsa” no sentido
comercial e financeiro existe uma hipótese que tenha vindo do nome de um senhor
nobre “Van der Burse” da cidade flamenca de Bruges, que em seu escudo de armas
estampado no alto da casa apresentava três bolsas desenhadas. A palavra “burse”
ficou conhecida a partir daquela época (século XIII) como reunião e local onde uma
reunião acontece, pois nessa casa realizavam-se assembleias de comerciantes
(BARRETO FILHO, 1959), (OLIVEIRA, SOARES E LOPES, 1986).
17
Outra hipótese é a origem a partir de uma tradição em Firenze, cidade da
Itália, onde se escolhia um líder colocando os votos em um saco “borsa dei cittadini"
(MENDONÇA, 1961).
A primeira Bolsa de Londres que se tornou a mais importante do mundo no
século 16 foi baseada na bolsa de Antuérpia de 1531. No Brasil, as bolsas de
valores foram criadas no século 19, já com o trabalho de corretoras e controladas
pelo Estado (EIZIRIK, 1987).
A Bolsa de Valores do Rio de Janeiro teve sua origem em 1848 com a criação
da Junta dos Corretores de Fundos Públicos da Corte. A bolsa de Fundos Públicos
de São Paulo e de Santos foi criado em 24 de dezembro de 1896 (MENDONÇA,
1961).
Foi a partir das reformas que institucionalizaram o sistema financeiro nacional,
iniciadas em 1964, que as Bolsas de Valores assumiram as características que hoje
possuem (OLIVEIRA, SOARES E LOPES, 1986).
Na evolução, as bolsas sempre foram comerciantes ou associações de
corretores, tendo como função a negociação de mercadorias e títulos.
2.2.1 Necessidades à Bolsa de Valores
O motivo ao surgimento do mercado de capitais se deu pela necessidade de
gerir negociações de sociedade, pois os que investiam nas empresas em certa altura
não tinham mais a mesma opinião sobre esta empresa que possuíam, ou viam
possibilidades melhores em outras empresas, ou até mesmo precisavam do dinheiro
investido (DEBASTIANI, 2011).
Ao decidirem que não queriam mais possuir uma fração de uma empresa
específica, decidindo abandonar a sociedade, os investidores não podiam
simplesmente entregar essa fração e pedir o dinheiro de volta para a empresa. Para
18
tanto, necessitavam encontrar outro sócio ou investidor que estivesse interessado
em aumentar a sociedade na empresa e vender a sua parte correspondente ao novo
investidor. Torna-se complicado fazer transações de mercado dessa forma. Com
essas negociações é que surgiu o mercado de ações e as bolsas de valores
suprindo necessidades de compra e venda de ações.
2.2.2 Objetivos
É de competência da Bolsa de Valores garantir aos investidores a
manutenção das seguintes atividades (MELLAGI FILHO, 1998):
Manter um local adequado para que os investidores possam negociar
seus títulos e valores imobiliários, fornecendo a eles toda a estrutura
administrativa para que as transações de compra e venda possam se
realizar.
Fiscalizar o cumprimento das normas e disposições legais que regem o
mercado de ações.
Toda a atividade da bolsa é monitorada pela Comissão de Valores
Imobiliários, tendo como objetivo principal o bom funcionamento do
mercado de capitais, além de zelar pela lisura das negociações com
ações e disseminar as informações mais relevantes a maior parte dos
investidores que for possível.
2.2.3 Estrutura organizacional
Nesta seção será abordado o que uma Bolsa de Valores deve suportar,
citando desde a sua estrutura física até os tipos de serviços que ela deve suportar.
2.2.3.1 Pregão
Como já foi citado anteriormente, a principal função da Bolsa de Valores é
garantir um local adequado, onde acontecem as negociações de compra e venda de
ações. Este local é conhecido como Pregão (MELLAGI FILHO, 1998).
19
Seria o lugar físico e/ou virtual em que as negociações de ações são
concretizadas por vendedores e compradores fechando a ação em um determinado
preço. Neste local, é que todos os investidores ficam sabendo ao mesmo instante
das informações que podem influenciar o preço da ação.
A preocupação principal do pregão é referente à partilha das informações.
Essa preocupação é para não favorecer pessoas que estão mais bem informadas
em relação às menos informadas, não levando vantagem sobre as negociações.
Pode-se destacar que esse cuidado faz com que a manipulação diminua
consideravelmente e também que a formação de preço nesse mercado é definida
pela lei da oferta e da procura.
2.2.3.2 Tipos de Negociação
Nesta seção, serão citadas as três formas existentes para realizar um
negócio, ou seja, a maneira como um investidor pode interagir na Bolsa de Valores:
Viva – Voz: É o pregão que sempre deu charme para as bolsas e que deu
para as pessoas (público) uma imagem de que investir na Bolsa de Valores era uma
louca jogatina. Mas segundo SMARRITO (2007), essa prática teve fim em 30 de
setembro de 2005 quando foi tocada a última vez a campainha que todo dia indicava
o início e o fim do pregão viva-voz. Já naquela época as operações desse tipo
correspondiam a menos de 0,2% de todas as operações da bolsa.
A Bovespa, por exemplo, já teve mais de 1000 operadores comprando e
vendendo ações através do “viva-voz” e quando este sistema foi aposentado, os
operadores que atuavam ao vivo não passavam de 40. Dessa forma, foi introduzido
um sistema com negociações totalmente centralizadas, denominado de Mega Bolsa
eliminando o pregão viva-voz (SMARRITO, 2007).
Pregão Eletrônico – Mega Bolsa: Teve início em 1990 pelo CATS
(Computer Assisted Trading System) que trabalhava paralelamente ao pregão viva
20
voz desde 1997. O Mega Bolsa foi implantado e é utilizado pela Bolsa de Valores de
São Paulo, consolidando a bolsa como um centro de referência de negócios de
mercado em toda a América Latina (DESCHATRE, 2009).
A Mega Bolsa gerencia as negociações realizadas pelas intermediárias
atuantes na Bovespa, no pregão de viva-voz e através dos terminais remotos,
operados diretamente de seus escritórios (CAVALCANTE, MISUMI E RUDGE,
2009).
Nesse sistema eletrônico, todas as ofertas de compra e venda são feitas por
terminais de um computador. A efetivação do negócio é feita automaticamente pelos
computadores da Bovespa.
A Mega Bolsa foi planejada para atender o aumento do mercado acionário
brasileiro e as exigências da globalização. Sistemas como a Mega Bolsa são usadas
pelas maiores bolsas do mundo controlando em torno de 60% de negociações
mundiais.
Todas as negociações hoje são realizadas na Mega Bolsa. A realização de
negociações de compra e venda não pode ocorrer diretamente por um cliente, uma
vez que este deve estar cadastrado em uma corretora credenciada (DESCHATRE,
2009). Na figura 1, pode-se observar a página da Mega Bolsa, trazendo cotações
em tempo real das empresas de mercado aberto, sendo possível efetivar
negociações das ações.
21
Figura 1 - Exemplo de página da Mega Bolsa
Fonte: DESCHATRE, 2009
After-Market: É a sessão noturna de negociação eletrônica depois que o
pregão principal fecha (SMARRITO, 2007). Para ampliar o acesso, a Bovespa criou
o After-Market. Com isso, ela conseguiu aumentar o horário das negociações do
pregão eletrônico, que passou a funcionar após das 18 horas até 22 horas com a
finalidade de atender o Home Broker (CAVALCANTE, MISUMI E RUDGE, 2009).
Para garantir o fluxo das informações e a segurança das informações, foram
adotadas as seguintes regras:
As ações são negociadas pelo sistema Mega Bolsa.
Só podem ser negociadas ações no mercado à vista.
Somente ações com base de preço estabelecido no horário regular de
negociação (pregão diurno) no período After-Market (princípio de
liquidez).
22
O limite de ordens é de R$ 100.000 por investidor.
Pode variar apenas 2% o preço das ordens de compra comparado ao
valor de fechamento das ações no horário de mercado aberto.
De 15 em 15 minutos é controlado o limite operacional de cada
corretora.
As transações realizadas no After-Market são agrupadas em dois segmentos
para controlar o limite máximo de quantidade de negócio. Isso é informado
diariamente pela Bovespa, indicando as ações autorizadas em cada grupo sendo
feito através da ABO – Agência Bovespa de Operações.
Os papeis mais líquidos tem um limite de quantidade por negócio fixado como
um percentual da média diária registrada nos últimos 30 pregões. Os demais têm um
limite de quantidade por negócio determinado em 50%. Os índices da Bovespa são
calculados com base nos índices de fechamento do dia anterior.
2.2.3.3 Modalidades de Operações
A Bolsa de Valores, Mercadorias e Futuros (BM&FBOVESPA) nasceu em
maio de 2008 com a junção da Bolsa de Mercadorias & Futuros e da Bovespa
Holding, com essa junção se tornaram uma das maiores bolsas do mundo em valor
de mercado oferecendo negociação de ações, contratos futuros, de opções, a termo
e de swaps referenciados em índices, taxas de juro e câmbio, e commodities
agropecuárias e de energia, além de operações no mercado à vista, como ouro,
dólar pronto e títulos públicos federais (BOVESPA, 2011).
As negociações podem acontecer de diversas maneiras na Bolsa de Valores:
À Vista: Nesta modalidade, tem-se a compra e a venda de lotes
padronizados de ações (lotes de unidade, 100, 1000, 10000 e 100000 ações)
executadas a um preço estabelecido em um determinado instante da sessão de
pregão ou através de um sistema eletrônico de pregão.
23
Quando uma negociação acontece em seu segundo dia a corretora do
vendedor entrega as ações (Liquidação Física) e no terceiro dia a corretora do
comprador paga o valor e recebe as ações.
Quando uma negociação tende a não acontecer, no terceiro e quarto dia em
que a entrega está atrasada, paga-se uma multa. No quinto dia a bolsa autoriza a
corretora do comprador a recomprar a ação. Do quinto ao sétimo dia é o prazo para
a corretora do comprador recomprar as ações em pregão com o valor debitado à
corretora do vendedor. No oitavo dia é o prazo final para a corretora que compra as
ações confirmar a execução da recompra. E no nono dia, se não tiver sido feito a
compra, reverte-se a operação (CAVALCANTE, MISUMI E RUDGE, 2009).
Segundo BOVESPA (2011), a liquidação física (entrega de títulos vendidos)
se processa no 3º dia útil após a realização do negócio na Bolsa e a liquidação
financeira (pagamento e recebimento do valor da operação). Também se dá no
terceiro dia útil posterior à negociação, e somente mediante a efetiva liquidação
física.
À Termo: O preço de compra ou venda da ação é fixado com a data de
liquidação variada. Por exemplo, entre dois investidores, eles negociam o preço da
ação e o prazo limite de quando vão trocar efetivamente o dinheiro pelas ações
resultando um contrato. Essa liquidação tende a acontecer entre 30 e 180 dias
segundo (CAVALCANTE, MISUMI E RUDGE, 2009), sendo sempre dias múltiplos
de 30; já BOVESPA (2011), diz que operações com prazos de liquidação diferidos
ocorrem entre 16 e 999 dias corridos.
Para fazer negociações no mercado a termo, deve haver registro na
BM&FBOVESPA. Além disso, o comprador e vendedor devem ter
independentemente um limite mínimo para transação e depósito de valores na
BM&FBOVESPA. Esse limite é utilizado como margem de garantia da operação a
qual podem ser liquidada antes do vencimento.
24
Operação a prazo: O mercado a prazo é um mecanismo de crédito operado
pelos clientes e suas corretoras. Isso é na verdade uma operação extra bolsa, já que
é a corretora que empresta dinheiro ao cliente para que ele possa comprar ações ou
emprestar ações para serem vendidas. Essas ações ou dinheiro que são usadas
nessas operações podem ser da própria corretora como podem ser de outros
clientes da corretora ou de bancos. Como garantia o cliente que pega o empréstimo
deve ter depositado na corretora 140% do valor do financiamento.
Opções: Nesse mercado não existe negociação de ações, mas os direitos
sobre compra e venda. Existe a opção, o direito de uma parte comprar ou vender a
outra parte, até determinada data.
2.2.4 Corretoras
Sua origem se deu na antiguidade em que cada cidade ou estado possuía
uma moeda, sendo que trabalhavam como cambistas trocando as moedas entre as
cidades/estados. Como existiam viajantes e a vida deles era complexa, já que
existiam tantos tipos de moeda, os mesmos procuravam os cambistas para efetuar
as trocas. Os cambistas por sua vez tiravam uma pequena margem de lucro através
dessa troca (CAVALCANTE, MISUMI E RUDGE, 2009).
No Brasil, o corretor de fundos públicos já havia sido reconhecido desde os
tempos de império. Na república, o corretor de pessoa física com caráter ofício
público vitalício era nomeado pelo Presidente da República e referenciado pelo
Ministério da Fazenda tendo que ter condições especiais para exercer o cargo.
Membros da Bolsa de Valores, constituídas por sociedades anônimas ou por
quotas de responsabilidade limitada, as sociedades corretoras como também as
instituições financeiras foram instituídas pela Lei número 4.728 extinguindo a figura
do corretor de fundos públicos (OLIVEIRA, SOARES E LOPES, 1986). Os objetivos
dessas transformações foram diversos:
Terminar a vinculação do corretor ao Estado, em termos de
serventuário.
25
Submetê-lo ao regime da lei comercial.
Permitir uma fiscalização direta das atividades das corretoras
estaduais.
Igualdade de condições legais para todo território de títulos nacional, o
que não acontecia no sistema antigo.
Dessa forma, federalizaram-se as atividades de corretoras, assim como houve
federalização da Bolsa de Valores. Essa ampliação das atividades trouxe uma
compensação financeira às corporações corretoras bem mais vantajosa. As
sociedades estão sujeitas às normas do Conselho Monetário, Banco central e CVM1.
2.2.4.1 Atividades Básicas
Objetivos e atividades das corretoras são (OLIVEIRA, SOARES E LOPES,
1986):
Ter exclusividade para operar a Bolsa de Valores em todas as
Modalidades de Operações citadas nesse trabalho.
Comprar, vender, distribuir títulos e valores mobiliários por conta de
terceiros.
Formar e gerir, como líder ou participante, consórcios para oferta
pública, como também a compra ou revenda de títulos e valores
mobiliários e ainda fazer a distribuição desses títulos no mercado de
capitais.
Administrar as carteiras de valores e da custódia de títulos e valores
mobiliários.
Transferir e autenticar endossos, desdobramentos de cautelas,
recebimento e pagamento de resgates, juros ou dividendos de títulos e
valores mobiliários.
Subscrever títulos e valores mobiliários, prestando serviços técnicos
para estes. Por motivação de terceiros, executar funções de agente
fiduciário.
1 CVM - Comissão de Valores Mobiliários. Em http://www.cvm.gov.br/
26
Operar em contas correntes juntamente com os acionistas, não
movimentáveis por cheques, administrar os recursos de terceiros que
são destinados a operações mobiliárias e financiar a liquidação das
operações realizadas por conta dos seus comitentes.
Realizar o lançamento de títulos e valores imobiliários tanto públicos
como privados.
Administrar fundos mútuos de investimento sob a forma de condomínio
aberto, bem como clube de investimento, com a finalidade de coletar e
aplicar dinheiro em títulos e valores mobiliários.
Administrar fundos de investimento em forma de sociedade anônima
de capital autorizado, para a aplicação em títulos e valores mobiliários.
Intermediar operações de câmbio e negociação das respectivas letras.
Operar em open market2 e overnight3, desde que especificamente
credenciada pelo Banco Central do Brasil. intermediar operações no
mercado de commodities4.
2.2.5 Home broker
Basicamente é um canal de relacionamento entre corretoras e investidores
por meio da internet. Seria como se o corretor estivesse na casa do investidor.
A Bovespa criou esse sistema para baratear os custos para o investidor e a
corretora. Apesar dessa recente tecnologia a maioria das corretoras está aderindo à
nova forma de comunicação. Nesse sistema, as ordens de compra e venda são
emitidas diretamente à Bolsa de Valores via internet, sem a necessidade de um
funcionário da corretora intervir. Dessa forma, mesmo que as aplicações sejam de
pouco valor, a corretora vê interesse já que o custo é baixíssimo. Esse novo sistema
2 Qualquer mercado sem local físico determinado e com livre acesso à negociação
(http://www.cescapi.com/guia/glossario_mercado.htm)
3 Operações realizadas no open market por prazo mínimo de um dia, restritas a instituições
financeiras (http://www.bmfbovespa.com.br/pt-br/a-bmfbovespa/download/merccap.pdf)
4 Mercadorias, no sentido de grandes produtos, produtos primários, como café, algodão,
açúcar, metais não ferrosos, e outros, geralmente transacionado em bolsa
(http://economia.uol.com.br/glossario/index-c.jhtm)
27
está possibilitando que investidores de pequeno e médio porte possam entrar no
mundo das ações, pois, em função do baixo custo, compensa a corretora abrir
mercado para os pequenos investimentos. Antes era restrito a eles porque o custo a
se fazer transações era muito alto não compensando para a corretora os pequenos
investidores O valor mínimo para se investir na bolsa é R$ 100,00. Isso foi
possibilitado através da inserção dos Homebroker (LUQUET, 2008).
2.3 Índices
Segundo PIAZZA (2007), assim como o piloto de avião necessita saber a
direção dos ventos para pilotar tranquilamente, o investidor necessita saber as
condições reais do mercado antes de tomar qualquer iniciativa de compra ou venda.
Uma das formas de fazê-lo é observar os índices e indicadores, atentando para os
mecanismos que servem para sugerir um caminho de subida ou descida da bolsa,
aumentando as chances do investidor acertara aplicação.
Os índices cumprem três objetivos principais (CAVALCANTE, MISUMI E
RUDGE, 2009):
São indicadores de variação de preços do mercado.
Servem de parâmetros para avaliação de performance de portfólios.
São instrumentos de negociação no mercado futuro.
Existem diversos indicadores de mercado, cada um expressando um ângulo
particular e cada investidor tendo preferência por um ou outro, conforme a confiança
sobre o indicador, com a possibilidade de mesclar mais de um índice para reforçar
os resultados.
2.3.1 Índice Ibovespa
É o índice da Bolsa de Valores de São Paulo que nada mais é que uma
carteira imaginária de ações e mede a lucratividade se um investidor possuísse tais
papeis na carteira (LUQUET, 2008) e (PIAZZA, 2007). Esse índice teve início em 2
28
de janeiro de 1968, com o valor definido em 100 pontos e o aumento ou diminuição
desses pontos significa a tendência geral dos preços das ações negociadas na
bolsa.
A carteira fictícia é composta por mais de 50 papeis e cada ação integrante
recebe um peso em pontos que varia conforme a liquidez (grau de facilidade que
uma ação ou imóvel vira dinheiro vivo novamente). De quatro em quatro meses os
papeis da Ibovespa são trocados para melhor representar o mercado de ações, e é
por este motivo que vem sendo usado como indicador. Atualmente vem funcionando
como referência para o mercado financeiro brasileiro.
2.3.2 Índice de força relativa (IFR)
O IFR é usado na análise técnica, acreditando-se que indica quando o
mercado tende a trocar de tendência. Esse índice mede a aceleração dos
movimentos. Utiliza-se uma escala de 0 a 100, e se a escala estiver acima de 80 o
mercado está próximo de um topo e tende a cair. Já quando abaixo de 20 está perto
do fim da queda e tende a subir novamente. Segundo PIAZZA (2007), isso é muito
fácil de observar na prática e que a maioria dos gráficos de ações já vem com esse
índice visível.
2.3.3 Volume
É também um importante indicador de mercado. Se os movimentos do
mercado estiverem em aclive, o volume indica a permanência ou força dessa
tendência. O contrário, ou seja, a diminuição do volume indica que a inversão da
tendência pode estar próxima ao fim.
2.3.4 Ibovespa futuro
Segundo Piazza, (2007) o Ibovespa futuro é um dos índices vistos como mais
confiáveis pelos investidores, pois ele “sente” primeiro os impactos das notícias e
antecipa o que se espera para o mercado à vista.
29
2.3.5 IBX – Índice Brasil
O IBX é um índice de lucratividade que é calculado pela Bovespa. Criado em
28 de dezembro de 1995 e divulgado em 02 de janeiro de 1997 tem seu re-
balanceamento atualizado de quatro em quatro meses.
O critério de entrada na IBX são as ações mais negociadas que é o número
de negócios e o volume financeiro apurados nos 12 meses anteriores à reavaliação.
O índice é calculado conforme a quantidade de ações disponíveis no mercado para
serem negociadas. Outro ponto em que o índice sofre atualização é na distribuição
de proventos, isso não apenas reflite nas variações das cotações, mas na
distribuição dos proventos. O IBX avalia o retorno do total das ações que compõem
uma carteira (CAVALCANTE, MISUMI E RUDGE, 2009).
2.3.6 Dow Jones
Conforme Piazza (2007), Dow Jones é o índice americano e ele representa
para o mundo o que o Ibovespa representa para o Brasil. Uma movimentação
considerável nesse índice também reflete nos índices mundiais. Uma dica é analisar
com frequência esse índice para diminuir os riscos de investimento.
Dow Jones foi iniciado por Charles Henry Dow (1851-1902) e hoje se fala de
uma teoria (teoria Dow) que nunca foi escrita academicamente, mas serviu para
descobrir que as cotações não seguem uma trajetória aleatória, mas obedece a
tendências gerais estabelecidas pelo mercado acionário como um todo (LEITE,
1995).
2.4 Análises
Nesta seção, serão apresentadas as bases para fazer um investimento,
tentando descobrir o que faz um ativo oscilar abordando as técnicas usadas para
30
fazer a análise de nossos investimentos. O que será tratado nessa seção será de
suma importância para o decorrer da evolução desse trabalho.
2.4.1 Oscilação da bolsa
Observando-se afundo o mecanismo de compra e venda de papeis na Bolsa
de Valores, nota-se que o que realmente faz os preços oscilarem (volatilidade) é a
alta ou a baixa da quantidade de compradores e vendedores, respectivamente, ou
seja, se muitas pessoas estiverem interessadas em comprar ações da EMBRAER
(Empresa Brasileira de Aeronáutica S.A.), consequentemente o número de
compradores será maior que os vendedores. Os poucos vendedores, observando
que a procura por seus papeis é alta, acabam só vendendo por preços mais altos e
isso vai alavancando o valor da ação. O contrário também acaba acontecendo,
sendo que se a procura for menor o preço acaba caindo (PIAZZA, 2007).
O movimento citado acima vai sendo observado durante todo um pregão em
que os preços vão oscilando tentando chegar num ponto de equilíbrio. Para tentar
explicar o que faz um investidor aplicar em uma determinada ação, será abordado
dois modelos de análise: fundamentalista e técnico.
2.4.2 Análise Fundamentalista
Para Piazza (2007), este tipo de análise nos diz que os papeis devem ser
analisados conforme os fundamentos da empresa, como por exemplo, a relação
preço/lucro, lucro líquido, grau de endividamento, o patrimônio líquido, o pagamento
de endividamentos, entre outros. Estes fatores são capazes de dar um “diagnóstico”
sobre a “saúde” financeira da empresa. Costumam afetar fortemente os investidores
fundamentalistas as notícias sobre possíveis fusões ou venda da empresa.
A visão para o analista fundamentalista é a que se der para visualizar um
futuro próspero para a empresa, então as ações sobem; caso contrário o papel
tende a desvalorizar.
31
2.4.3 Análise Técnica
É o estudo das oscilações de preços passados para prever o futuro dos
movimentos dos preços. Através das análises gráficas que são tomadas as decisões
de compra e venda das ações. Esse tipo de análise do comportamento de preço e
de volume negociado é bastante utilizado no mercado de ações e futuros sendo que
o analista não se preocupa com os fatores externos, apenas confia na tendência do
mercado demonstrada no gráfico (MELLAGI FILHO, 1998).
2.4.3 Considerações
Como no escopo desse trabalho tem-se a intenção de auxiliar investidores
nas negociações do mercado de capitais, um estudo detalhado sobre este mercado
se torna fundamental para a obtenção de resultados satisfatórios na elaboração do
presente projeto.
Neste capítulo, estudou-se detalhadamente a Bolsa de Valores abordando o
histórico, compreendendo o porquê de sua existência e como as empresas a utilizam
para obter recursos financeiros quando estão com projeções de crescimento, já que
não recorrem a um banco, o que seria uma solução óbvia para muitos. Estudou-se a
estrutura e o funcionamento, observando o que faz os preços das ações oscilarem,
já que essa é a questão essencial para a elaboração da solução proposta através
deste trabalho. Com as análises fundamentalista e técnica, compreendeu-se como
os especialistas de investimento se apoiam para tomar uma decisão de negociação
na Bolsa de Valores. A análise fundamentalista se encaixa perfeitamente no projeto
do presente trabalho, já que as notícias sobre a empresa da carteira de ações
influenciam os preços e isso é observado nessa análise.
32
3 MINERAÇÃO DE TEXTO
Os mais diversos textos que são produzidos por empresas e pessoas são
gravados em meios eletrônicos e muitas dessas informações são disponibilizadas na
internet. Até recentemente essas informações em texto não eram utilizadas para
provocar vantagem sobre concorrentes ou até mesmo auxiliar nas tomadas de
decisão, ou ainda, como indicador de sucesso e fracasso. As mudanças começaram
a aparecer com surgimento e crescimento da Mineração de Texto, já que isso torna
possível a extração de informação em meio ao imenso e crescente mundo dos
textos (REZENDE, 2003).
Considerada uma área da mineração de dados, conforme Feldmann e
Sanger, (2007), comparando a funcionalidade com a mineração de dados, a
mineração de textos também tende a abstrair conhecimento útil utilizando textos
explorando textos e identificando padrões usando de meios computacionais.
Com o crescimento do volume de textos eletrônicos, as técnicas
automatizadas de extração de conhecimento fazem-se necessárias para valorizar
essa imensa quantidade de dados. Como a Mineração de Dados possui técnicas
específicas para dados estruturados, a Mineração de Texto vem propor técnicas
específicas para dados não estruturados.
A mineração de texto refere-se a técnicas e processos que descobrem
conhecimento inovador nos textos. Essas técnicas estão sendo empregadas em
diversas áreas, como por exemplo, para descobrir fatos da genética e na pesquisa
de proteínas e também no mundo de negócios com aplicações não tão pretensiosas,
como a categorização automática de mensagens de correio eletrônico em bancos de
investimento e a extração automática de resumos a partir de documentos
33
pesquisados, realizada por alguns mecanismos de busca na internet (REZENDE
2003).
3.1 Tipos de Abordagens dos Dados
Existem duas formas principais de abordagem de dados, análise semântica
que tem a base na funcionalidade dos termos nos textos, e a análise estatística que
é baseada na frequência. Segundo Rezende (2003) essas abordagens podem ser
usadas sozinhas ou em conjunto parta fins de análise.
3.1.1 Análise Semântica
Possui fundamentos da PLN (Processamento de Linguagem Natural) e
emprega técnicas que avaliam a sequência dos termos no contexto da frase, para a
correta identificação da função de cada termo permitindo compreensão da
linguagem natural. A utilização dessa análise se dá pela melhora da qualidade de
Mineração de texto. Dentro das técnicas de PLN, podem ser destacadas (RICH,
KNIGTH, 1993):
Análise Morfológica: Palavras isoladas são analisadas em termos de
seus componentes, e os sinais, como a pontuação, é separada das
palavras.
Análise Sintática: Sequências lineares de palavras são transformadas
em estruturas que mostram como as palavras estão relacionadas entre
si. Algumas sequências de palavras podem ser rejeitadas se violarem
as regras da linguagem sobre como as palavras podem ser
combinadas. Por exemplo, o analisador sintático do português rejeitaria
a frase: “Menino o vai loja à”.
Análise Semântica: As estruturas criadas pelo analisador sintático
recebem significado. Em outras palavras, um mapeamento é feito entre
as estruturas sintáticas e os objetos no domínio da tarefa. As estruturas
para as quais não seja possível um mapeamento podem ser rejeitadas.
Por exemplo, na maioria dos universos, a frase “Ideias verdes sem cor
34
dormem furiosamente” seria rejeitada considerada semanticamente
anômala.
Integração de discurso: O significado de uma frase isolada pode
depender das frases que a antecedem e pode influenciar os
significados das frases que vêm depois dela. Por exemplo, a palavra
“aquilo” na frase “João queria aquilo” depende do contexto do discurso
anterior, enquanto a palavra “João” pode influenciar o significado de
frases posteriores (como: “Ele sempre quis”).
Análise Pragmática: A estrutura que representa o que foi dito é
reinterpretada para determinar o que realmente se quis dizer. Por
exemplo, a frase “Você sabe que horas são?” deve ser interpretada
como uma solicitação para que sejam informadas as horas.
3.1.2 Análise Estatística
A frequência dos termos é considerada nessa análise, sendo que com
o uso dessa técnica fica-se livre do idioma, ou seja, tem como princípio a verificação
da ocorrência do termo no texto, onde, o grau de significância do termo analisado é
calculado com base apenas na contagem dentro do documento, o que possibilita a
análise independentemente do idioma (REZENDE, 2003).
3.2 Visão Geral da Mineração de Textos
Nesta seção, apresenta-se o processo de mineração de texto dando uma
visão geral sobre o assunto, com objetivo de facilitar e orientar na compreensão do
processo. Não haverá aprofundando em cada tarefa, sendo que isso será feito na
seção 3.3 deste trabalho.
Existem diversas formas para se realizar mineração de texto, mas
basicamente essas formas seguem etapas comuns. Para SULLIVAN, (2001) e
REZENDE, (2003) as etapas para promover mineração de texto abrangem
atividades de pré-processamento de dados, processamento de dados e então a
análise dos resultados.
35
Figura 2 - Modelo Genérico das Etapas de Mineração de Textos.
Fonte: SULLIVAN, 2001
Observando-se a figura 2, é possível compreender todo o procedimento.
Começando com disponibilização de documentos nos mais diversos meios
eletrônicos.
Para REZENDE (2003), o processo de preparação dos dados, que é o pré-
processamento, envolve três tarefas. Primeiramente, acontece RI (Recuperação de
Informação), após, Análise dos Dados e por fim Transformação dos Dados.
Na fase de pré-processamento a recuperação de informação é a primeira
tarefa a ser executada, já que filtram inicialmente as coleções de documentos que
vão ser utilizados na mineração através de técnicas como o modelo booleano e do
espaço vetorial e probabilístico, que serão detalhados na seção 3.3.1.
Na próxima etapa, acontece a análise dos dados com a finalidade de facilitar
o reconhecimento de similaridades das palavras. Sendo assim, dentro dessa etapa
pode-se reconhecer e eliminar as stopwords (palavras não necessárias ou com
pouca relevância para serem analisadas nos textos). Nesse conjunto, pode-se
encontrar as preposições, pronomes, artigos, entre outros. Outro processo que pode
acontecer nessa etapa é o de stemming (identificação da raiz de palavras) com o
objetivo de realizar posteriormente análise semântica. É possível a utilização de um
thesaurus (enciclopédia) como um vocabulário controlado que representa
36
sinônimos, hierarquias e relacionamentos associativos entre termos para ajudar a
descobrir conhecimento.
Na etapa de processamento dos dados, são realizadas as tarefas de
descoberta de conhecimento. A última etapa da mineração de textos é o pós-
processamento ou avaliação de resultados, que pode ser feita com base em
métricas, processos de visualização e análise qualitativa dos resultados por
especialistas (PINTO, 2007).
3.3 Preparação dos dados
Esta etapa, além de reduzir o tamanho dimensional dos dados, tem a função
de identificar similaridades a partir da morfologia ou dos significados dos termos. A
primeira etapa para descobrir conhecimento em textos é a preparação dos textos.
Neste processo serão selecionados os textos que satisfazem e interessam. É o
trabalho inicial para tentar escolher o núcleo que melhor expressa o conteúdo dos
textos. Pode-se descartar nesta etapa o conteúdo que não se considera importante
(REZENDE, 2003).
3.3.1 Recuperação de Informação (RI)
Essa área desenvolveu modelos para representar grandes coleções de textos
que são identificados através de tópicos específicos. Sendo que RI é o primeiro
passo para executar uma mineração de texto se tornando um grande filtro sobre um
conjunto de documentos, se tornando bastante útil, pois traz apenas os resultados
de uma consulta específica (REZENDE, 2003).
Existem dois modelos principais de recuperação que possuem estratégias de
busca de documentos importantes para efetuar uma consulta (query): booleano e
vetorial, sendo que, dentro de cada um existem características próprias com o
objetivo de melhorar o desempenho e o alcance de seus objetivos.
37
Os textos que formam a coleção que vai ser pesquisada, bem como a
consulta que foi feita pelo usuário, são representados pelos seus termos. Sendo
assim, cada documento é representado por um conjunto de palavras-chave,
denominadas de termo de indexação e não são todos os termos que representam
um documento em seu conteúdo. Os termos que têm menor frequência podem
identificar conjuntos mais restritos. Os pesos associados a um índice é que dão a
importância a ele. Considerando que ki é um índice e dj é um documento, wij é o
peso associado a (ki,dj) que soma a quantidade de relevância do índice na descrição
do conteúdo do documento, conforme especificado por BAEZA-YATES E RIBEIRO-
NETO (1999).
3.3.1.1 Modelo Booleano
Nesse modelo define-se uma consulta como uma expressão booleana, ou
seja, a recuperação de um documento é representada por um conjunto de termo
índice formando uma query, os termos são ligados através dos operadores lógicos
de Boole (OU, E, NÃO). Considera-se um documento como relevante
correspondendo à consulta ou não correspondendo a uma consulta, não podendo
ocorrer resultado parcial e, também, não existe ordenação nos resultados das
consultas (PINTO, 2007).
Problemas comuns a esse modelo são citados por BAEZA-YATES E
RIBEIRO-NETO (1999):
Formulação de uma query adequada, isto é, construir uma query
selecionando os termos se o domínio não é bem conhecido.
O tamanho da saída não pode ser controlado. O resultado pode conter
milhares de itens bem como nenhum. Além disso, não se sabe o que
foi deixado de fora da query, pois não existe o conceito comparação
parcial.
Não é possível ordenar os resultados da busca, pois não existe grau de
comparação.
38
Segundo PINTO (2007) é possível obter resultados melhores com esse
modelo utilizando conjuntos difusos, atribuindo pesos aos termos, dividindo a
consulta em classes e conceitos, trabalhando com proximidades dos termos entre si
no documento e identificando mais precisamente que termos são melhores para
definir uma consulta.
3.3.1.2 Modelo de Espaço Vetorial (VSM – Vectorial Space Model)
Segundo REZENDE (2003), tal modelo surgiu em função de resolver
problemas de representação de documentos utilizando representação geométrica.
Também utilizado para retornar documentos que irão satisfazer algum critério. Já
para SALTON E MCGILL (1983), foi criado em função da utilização em um modelo
de SRI (Sistema de Recuperação de Informação) chamado de SMART.
Nesse modelo o documento tem sua representação por um vetor de termos,
sendo que o termo está associado a um valor, significando o quanto aquele termo é
importante para o documento. O termo também pode estar associado à quantidade
de vezes que se repete no documento. Cada vetor representando um documento
está disposto como um ponto em um espaço euclidiano “termo dimensional” sendo
que cada palavra representa uma dimensão (REZENDE, 2003), (PINTO, 2007).
A similaridade entre dois documentos é definida como a distância entre os
documentos representados como pontos no espaço euclidiano ou como o ângulo
entre os vetores. Documentos semelhantes tendem a se agrupar no modelo
proposto (REZENDE, 2003).
3.3.1.3 Recuperação associada à indexação
A maioria das ferramentas de RI utiliza técnicas de indexação, tendo a
capacidade de retornar textos mapeados com alta eficiência em meios a uma base
de textos. Dentro dessas técnicas de RI podem-se citar dois tipos de indexação
(REZENDE, 2003) que serão mais bem abordados na seção 3.4.1:
39
Indexação de texto completo.
Indexação por tags.
3.3.2 Análise dos dados
Técnicas conhecidas em Processamento de Linguagem Natural (PLN), como
normalização de variações linguísticas, é uma ferramenta muito útil e importante
para trabalhar a linguagem natural possibilitando abstrair os termos de um
documento aos termos origens e, com isso, agrupar por similaridade variações
ortográficas das palavras que se não tratadas seriam consideradas diferentes (DIAS,
MALHEIROS, 2005).
Sabendo-se então que uma palavra tem variantes morfológicas, a análise dos
dados vem para facilitar a identificação de palavras similares. Como exemplo disso,
cita-se a variação de um termo que pode possuir sufixos diferentes tratado pela
técnica de stemming. Outro exemplo que é tratado nessa fase são as palavras
sinônimas, sendo que morfologicamente são diferentes, mas o significado é o
mesmo (REZENDE, 2003).
3.3.2.1 Stemming (Radicalização)
Radicalização ou stemming é a técnica de associar as variações de um termo
para uma representação única que é o radical (stem) (ORENGO, 2001). Já DIAS,
MALHEIROS (2005) destacam que não é igual à raiz linguística, mas permite que
sejam tratadas variações diferentes de uma palavra da mesma forma. Por exemplo,
conector e conectores são basicamente iguais, mas sem passarem pelo tratamento
de stemming irão ser tratados como palavras diferentes.
A maioria dos métodos de radicalização é para língua inglesa, mas é possível
encontrar adaptações para o português. DIAS, MALHEIROS (2005) diz que
tradicionalmente se utiliza o radicalizador de Porter5, específico para língua inglesa.
Mas por não apresentar bons resultados para a língua portuguesa, apresenta
5 http://snowball.tartarus.org/algorithms/porter/stemmer.html
40
Portuguese Stemmer de Viviane Orengo e Christian Huyck em (ORENGO, 2011)
como solução do problema. A seguir são apresentadas algumas técnicas com suas
características (REZENDE, 2003):
Lovis: Executa em único passo, removendo o sufixo mais longo
encontrado na palavra dentro do passo. Sensível ao contexto e que
remove a combinação de 250 sufixos diferentes. Vários sufixos, no
entanto, não são contemplados nesse método.
Porter: Consiste na identificação das diferentes inflexões referentes à
mesma palavra e sua substituição por um radical comum. Nesse
método tenta-se dar importância a um termo pela identificação de suas
variações. Termos comuns com o mesmo radical tendem a ter o
significado semelhante. Como exemplo disso, tem-se as palavras
“CONSIDERAR”, “CONSIDERADO”, “CONSIDERAÇÃO”,
“CONSIDERANDO”, em que removendo seus sufixos obtém-se o
radical “CONSIDER”. No algoritmo de Porter remove-se 60 sufixos
diferentes em uma abordagem multifásica, sendo que cada fase
remove sucessivamente sufixos e promove alguma transformação no
radical.
Stemmer S: É um stemming mais simplificado sendo que apenas uns
poucos finais de palavras são removidos: IES, ES, e S (com exceções),
mesmo que esse tipo de radicalização não descobre muitas fusões,
mas certos sistemas o utilizam por ser conservador.
Portuguese Stemmer: Método adaptado à língua portuguesa,
parecido com o método de Porter, que considera as classes
morfológicas dos termos. Observando a figura 3, o método executa os
“passos” da tabela 2 e em ordem de listagem dentro do quadro para a
remoção de sufixos. Cada passo representa um conjunto de regras,
sendo que apenas uma dessas regras é escolhida e usada. A regra
eleita dentro do passo é aquela que mais letras removem do termo. Por
41
exemplo, a remoção do sufixo de plural “ES” deve ser executada antes
do sufixo de plural “S”. Na especificação do método em ORENGO
(2001), são definidas cento e noventa e nove regras, sendo que cada
regra determina qual sufixo deve ser removido, o tamanho mínimo do
radical restante e a expressão que substitui o sufixo eliminado. Além
disso, define-se uma lista de palavras em que as regras não se aplicam
(Exceção). Por exemplo, para “inho”: padrinho, vizinho. Nesse caso,
“inho” não representa sufixo diminutivo.
1 Redução do plural
2 Redução do feminino
3 Redução do advérbio
4 Redução do aumentativo e do diminutivo
5 Redução das formas nominais
6 Redução das terminações verbais
7 Redução da vogal temática
8 Remoção dos acentos
Tabela 2 - Passos de execução do método Portuguese Stemmer
Fonte: ORENGO, 2001
42
Figura 3 - Passos do algoritmo de radicalização
Fonte: ORENGO, 2011
3.3.2.2 Stopwords
São termos encontrados em textos e não possuem informação relevante,
servem apenas para fazer ligação entre os termos importantes. Segundo Dias,
Malheiros (2005), esses termos são compostos pelas seguintes classes gramaticais:
artigos, preposições, conjunções, pronomes e advérbios.
O objetivo principal da remoção de stopwords é eliminar palavras que não têm
importância para o texto, sendo considerada uma técnica de compressão de texto,
pois diminui a quantidade de palavras a serem processadas, bem como reduz a
quantidade de armazenamento na base de dados.
43
3.3.2.3 Dicionário ou Enciclopédia (thesaurus)
É um vocabulário controlado representando sinônimos, hierarquias e
relacionamentos associativos entre palavras que ajudam o usuário a encontrar o que
está procurando.
Esse método vem ao encontro dos problemas referentes à forma como os
usuários montam uma query de busca em índices de linguagem natural, em que
montam a mesma query com palavras ou termos diferentes. Para tanto, um
dicionário ou enciclopédia mapeia para um termo distinto os termos variantes,
podendo ser sinônimos, abreviações, acrônimos e ortografias alternativas. Para
processos de indexação de documentos, o thesaurus informa que termos-índices
devem ser usados reforçando a importância da indexação.
Com esse método, pode-se representar a riqueza dos relacionamentos
associativos e hierárquicos. Os usuários podem expressar a necessidade de
informação a um nível de especificidade mais restrito ou mais amplo que o usado
pelo indexador para descrever os documentos. Os mapeamentos de
relacionamentos hierárquicos endereçam esse problema (REZENDE, 2003).
3.3.2.3.1 Termos Compostos
Existem dicionários que utilizam termos compostos nos casos de palavras que
estão sempre juntas expressando um conceito único. São termos que ao estarem
unidos possuem um significado diferente que cada termo possui quando estão
separados (LOPES, 2004). Como exemplo de termo composto, é a expressão
“cadeira de rodas”.
3.3.2.3.2 Relacionamento entre termos
Observando a tabela 3, dentro de um dicionário é possível encontrar
relacionamento de hierarquia, equivalência e associação.
44
O relacionamento hierárquico, é baseado em graus ou níveis de
superordenarão, representando uma classe ou um todo, sendo denotado como
Termo Amplo e sub-ordenação e referindo-se aos membros ou partes de uma
classe, sendo denotado como termo restrito.
Relacionamento Indicador
Equivalência Sinônimos
Hierarquia Termo Amplo e Restrito
Associação Termo relacionado
Tabela 3 - Tabela de relacionamento em um thesaurus
Fonte: LOPES, 2004
3.3.3 Transformação dos dados em tabelas
Para se utilizar os dados vindos dos textos é comum à distribuição do texto
em tabelas, permitindo a aplicação em diversas técnicas de desenvolvimento para
dados estruturados.
Após a aplicação das técnicas de análise dos dados, tem-se um conjunto de
dados reduzido (bag of words, ou melhor: saco de palavras), formado pelos termos
escolhidos para análise e pode ser convertido em tabelas. Observa-se na figura 4,
há exemplo de tabela onde cada célula expressa à relação termk com o documento
dj. Sendo que a relação de peso (pode ser quantidade de ocorrências do termo no
documento) é dada por ajk
Figura 4 - Tabela de conversão dos termos em atributos
Fonte: LOPES, 2004
45
3.4 Processamento dos dados
Os objetivos do processo já devem ser definidos nessa etapa, sendo que há
muitas tarefas com diferentes finalidades para extrair conhecimentos dos
documentos. Algumas das tarefas de mineração que podem ser executadas são
clustering, categorização, sumarização, indexação temática, entre outras.
(GOLDSCHIMIDT E PASSOS, 2005). A seguir, cada uma dessas técnicas será
abordada.
3.4.1 Indexação
Este método aumenta o desempenho do sistema, sendo o processo que tem
por função organizar os termos, partindo de uma fonte de dados, propiciando o
acesso e recuperação mais eficientemente com estruturação de índices, assim como
funciona o índice de um livro. (CARRILHO JUNIOR, 2007). Dentro da indexação há
(REZENDE, 2003):
Indexação do Texto Completo: Índices gravam a localização dos
termos dentro do texto, permitindo que consultas possam localizar o
documento fazendo buscas booleanas (E, OU, NÃO) e de proximidade
(PRÓXIMO, DENTRO).
Indexação Temática: Nesse modo faz-se necessário o uso de
dicionário onde se encontra um conjunto de termos que define um
vocabulário montado usando relacionamentos. Com isso, permite-se
buscar com eficiência generalizações e especializações de termos
específicos.
Indexação por Tag: São selecionadas algumas partes do texto por
métodos automáticos que irão compor o índice. O uso de parsers e
expressões regulares são comuns para o reconhecimento das tags.
Sendo que as tags reconhecidas definem a palavra chave que vai ao
índice.
Indexação Semântica Latente: Cria a identificação de conceitos nos
documentos separadamente dos termos que representam o
documento. Permitindo localizar uma estrutura semântica ligada a um
46
determinado grupo de textos. Existindo diferenças sintáticas em
palavras que possuem a mesma ideia, essa indexação permite
detectar tais ideias, identificando-as (PINTO, 2007).
3.4.2 Extração de Características (EC)
Com extração de características pode-se abstrair palavras relevantes para um
sistema conforme predefinição de objetivos do documento. Exemplo de tais objetivos
são a busca de nomes próprios, nomes de cidades e empresas. Essa área pode ser
considerada uma subárea da Extração de Informação com a finalidade de fazer uma
extração de característica desejada do texto (TICON, 2007).
Técnicas encontradas nesta seção são de extrema importância para a
evolução do projeto, já que é através dessas técnicas que se permite extrair termos
relevantes que impõem, por exemplo, a opinião do texto. Conforme REZENDE
(2003) a extração de características pode ser decomposta em dois passos
diferentes.
Informação Linguística: Nesse passo identificam-se nomes (podendo
determinar se o nome é de lugares ou empresas). Podem-se utilizar dicionários para
se definir alguns termos e padrões linguísticos para definir outros. Como exemplo, o
nome de uma empresa não precisa estar num dicionário de termos, mas através de
algoritmos de EC pode-se determinar se aquele nome é relevante e é de empresa.
Os padrões linguísticos são definidos conforme sua estrutura morfossintática
permitindo o reconhecimento de termos significativos. Por exemplo: para o padrão
“Substantivo–Preposição–Substantivo” pode-se reconhecer, por exemplo, “celular de
Maria”.
Métrica: Dentro de métricas serão citados alguns métodos que dão
importância a um termo do texto, destacando-o dos demais:
Frequência de documentos (FD): Essa métrica dá importância ao
termo que mais aparece em documentos. A ideia é que se o termo é
47
bastante citado, então significa que ele é bastante informativo para
predizer a categoria.
Correlação de entidades (PMI): Também conhecida como informação
mútua é uma métrica que tem como objetivo medir quanta informação
se pode obter de um termo através da medida de co-relacionamento a
outro termo (LOPES, 2008). Em outras palavras é a probabilidade (Pr)
de duas palavras aparecerem mais frequentemente do que
apareceriam separadamente. Considerando t e c termos a serem
analisados, tem-se, a equação:
Equação 1-Índice de relacionamento entre as palavras
Fonte: REZENDE, 2003
3.4.3 Sumarização
Esse processo tem a intenção de reduzir o texto tanto quanto for possível sem
perder o real significado imposto anteriormente. Sentenças inteiras ou todo o
parágrafo são copiados para um documento menor mantendo a ideia chave do
documento original. A sumarização por extração é baseada na medida da
importância relativa dos termos em um documento, sendo essa medida determinada
pela redução do termo ao seu radical de menor tamanho via stemming (ver seção
3.3.2.1) e, então, o contabilizando no documento. Quanto maior a quantidade mais
importância tem o termo (REZENDE, 2003).
3.5 Pós-Processamento
Nesta fase acontece a visualização dos dados e validação das descobertas
efetuadas da fase anterior de processamento dos dados.
Pode-se utilizar métricas para medir a qualidade dos dados como exemplo,
avaliar quanto um sistema acerta dado pela divisão de itens relevantes recuperados
pelo total de itens recuperados.
48
Em Rezende (2003), cita-se a utilização de meios gráficos como pontos,
linhas e símbolos, palavras, cores e intensidade de sombreamento para
representação da informação coletada.
3.6 Mineração de opinião
Atualmente, se alguém quer comprar um produto, já não se limita a pedir
opiniões a conhecidos, como em tempos remotos. Assim, ele vai além procurando
várias informações na internet, como em fóruns, notícias, entre outros. Isso se deve
há muitos comentários do produto na web. Esta seção apresenta um pouco da
mineração dessas opiniões que indica sentimentos positivos ou negativos do texto.
A proposta é desafiadora tecnicamente, mas muito útil, pois as empresas, por
exemplo, necessitam saber a opinião pública ou do consumidor sobre os produtos
que vendem ou os serviços prestados. Por outro lado, potenciais clientes da
empresa também querem saber as opiniões dos atuais clientes antes de utilizar um
serviço ou comprar um produto (BING, 2011).
A classificação de sentimento tem como meta principal, dentro de um
documento, a definição da orientação semântica sobre algum determinado objeto,
definindo se aquele documento representa uma opinião positiva, negativa, ou neutra
(PANG, LEE AND VAITHYANATHAN, 2002). Nesse sentido, difere dos estudos de
categorização visto nesse trabalho em processamento de texto, em que a finalidade
é organizar e ordenar textos conforme o seu assunto mais importante.
Segundo Bing (2011), esta área denomina-se de mineração de opinião ou
análise de sentimento, pois ela analisa a opinião das pessoas, avaliações, atitudes e
sentimento sobre seres (empresas, pessoas, problemas, eventos, temas). As
opiniões influenciam nossas decisões, por isso elas são consideradas muito
importantes.
49
Tal abordagem será perfeita para o presente trabalho (em que a finalidade é
auxiliar na compra e venda de ações da bolsa), já que será uma boa metodologia
em coletar a orientação semântica nos textos advindos através da mineração de
texto.
3.7 Trabalhos Relacionados
Pesquisadores da computação já realizaram diversas pesquisas na área com
várias teorias aplicadas chegando até na elaboração de algumas ferramentas com o
intuito de recomendar nas aplicações da Bolsa de Valores:
O artigo publicado por Johan Bollen, “Twitter mood predicts the stock market”
ou o “Humor do Twitter prevê o mercado de ações” sendo bastante comentado em
portais de negócios recentemente. Bollen instiga que o humor aplicado em
mensagem do twitter está relacionado com o sobe e desce da bolsa de Dow Jones.
O pesquisador usou cerca de 10 milhões de tweets do mundo inteiro que continham
declarações explícitas de seus estados de humor do autor, ou seja, aqueles que
correspondem às expressões "eu sinto", "estou me sentindo", "eu não sinto", "eu
sou", e "me faz"... com a intenção de evitar mensagens de spam. Essa coleta das
mensagens ocorreu entre março e dezembro de 2008, classificando o sentimento
que cada postagem expressava. Johan concluiu que postagens que se classificavam
com humor de fator “calmo” predizia em até 87% as flutuações da bolsa (BOLLEN,
2010).
Outro exemplo bastante interessante é a ferramenta web opSys criada por
Thomas Jefferson P. Lopes, em que possui sua essência explicada em seu próprio
artigo: “Mineração de Opiniões aplicada à Análise de Investimentos” (LOPES, 2009).
O autor usa mensagens basicamente vindas de feeds de notícias e postagens no
twitter e seu objetivo é apresentar um processo que permita contabilizar opiniões
sobre uma empresa com seu capital aberto, criando uma visualização dentro de um
período de tempo, identificando dentro das mensagens as opiniões relacionadas
com as empresas analisadas, ou seja, contando se a frase analisada é positiva ou
negativa. Para isso ele utiliza técnicas de mineração de opiniões (extrair informação
50
relevante de um montante de dados) que é uma disciplina da área da linguística
computacional, onde a preocupação é definir a opinião que um documento expressa
sobre tal tópico ou produto ao qual se refere. Para extrair uma orientação semântica
do texto, como positivo, negativo ou neutro, o autor do artigo explica que a primeira
técnica utilizada para compor o cálculo dessa orientação será o PMI que é um índice
calculado usado para medir a relação entre palavras.
3.8 Considerações
Neste capítulo, primeiramente observou-se a abordagem dos dados, podendo
assumir dois caminhos distintos: semanticamente e estatisticamente. Após estudou-
se os três passos de mineração de texto (preparação dos dados, processamento e
análise dos resultados) compreendendo cada um deles.
Para a elaboração do sistema, cada passo será utilizado, desde a
recuperação dos textos na web até a representação da informação adquirida no
processamento. Também nesse capítulo estudou-se dentro da área de mineração de
texto uma forma de adquirir o conhecimento, em que a mineração de opinião
emergiu espontaneamente sendo uma abordagem adequada para a aquisição de
conhecimento sobre um ativo na carteira de ações.
51
4 MINERAÇÃO DE TEXTO APLICADA À ANÁLISE DE CARTEIRA DE
AÇÕES
O objetivo deste capítulo é apresentar a metodologia utilizada como solução
proposta para análise fundamentalista de carteira de ações, possibilitando ao
investidor uma melhora na escolha de sua decisão de compra e venda de um ativo,
a fim de maximizar seus lucros. A figura 5 auxiliará na explanação da metodologia.
Figura 5 - Sistema de mineração proposto
Fonte: do autor.
4.1 Metodologia
O produto final deste trabalho é um sistema de análise de textos selecionados
como, por exemplo, notícias disponibilizadas na internet e postagens no twitter. O
sistema será disponibilizado através de um portal que será utilizado como base de
52
consulta para investidores. Por exemplo, observando-se a figura 5, o investidor “A”
vai consultar o sistema com o objetivo de saber como vai ser a tendência dos
preços, baseado na opinião de outras pessoas sobre a GERDAU, e o sistema
instintivamente retorna um gráfico apontando esta tendência.
Os links dos possíveis textos serão coletados por intermédio de motores de
busca como Google, Bing, Yahoo. Após, abstrai-se o texto das páginas HTML
referenciadas no link. Textos também serão retornados através de busca por
postagem diretamente no twitter. Todos os aspectos de acesso ao texto serão feitos
utilizando respectivos APIs6 ou adaptações desta para uma promissora coleta de
textos. Esse processo é representado na descrição “2 – Acesso a motores de
busca/API” da figura 5.
O filtro passado pelo sistema às APIs de acesso aos motores de busca, é
intimamente relacionado ao nome da empresa ou as suas práticas, observado na
descrição “1 – query” da figura 5.
Após dados dos textos serem coletados e processados, o sistema mostrará
em forma de gráficos as possibilidades de um papel, presumindo a tendência de
subida ou queda da ação e contabilizando a opinião minerada do texto coletado (+1
= opinião positiva, -1 = opinião negativa e 0 = opinião neutra), conforme visto em
(LOPES E HIRATINI, 2008).
Juntamente ao gráfico de tendência, é apresentado o gráfico com o histórico
de preço da ação, possibilitando ao investidor fazer uma análise comparativa,
objetivando confiança no sistema. Estes gráficos serão apresentados nas próximas
seções.
Para a análise e processamento dos dados coletados foram exploradas
técnicas de Mineração de Texto (Text Mining), portanto, o texto coletado passa pelas
três fases (Preparação dos dados, processamento e pós-processamento) estudadas
no terceiro capítulo, focando também na mineração de opinião que possibilitará a
6API – Application programming interface = Uma interface entre aplicativo e programação.
53
contabilização da opinião. Na figura 5 está representado pela descrição “5 –
Processos de mineração de texto, descoberta de opinião”.
Observando a figura 5, de uma forma geral, o sistema proposto coletará
textos na internet sobre as empresas da Bolsa de Valores e, então, aplicando
mineração de texto extrairá informação útil, gerando um indicador de orientação
semântica para o texto. Esse indicador será quantificado, gerando gráficos para
análise.
4.2 Aspectos de implementação
Para a construção do sistema foram utilizadas as seguintes tecnologias:
Java7: Utilizada como a linguagem de programação. A escolha dessa
linguagem justifica-se pela independência de plataforma e pela
facilidade de uso, além de ser gratuita.
Apache Tomcat8: Será o servidor Web, compatível com a linguagem
utilizada.
jQuery9: Para criar as interfaces visuais do sistema, sendo uma
biblioteca JavaScript que simplifica a construçao de documentos
HTML, permitindo manipulação de eventos, animação e interações
Ajax para um desenvolvimento web mais rápido. A interface de
comunicação do cliente (browser do usuário) com o servidor Web
utiliza Ajax10.
jQueryUser Interface11: Utilizada para a construção da interface do
sistema. Fornecem abstrações de baixo nível de interação e animação,
efeitos avançados e de alto nível, widgets personalizáveis, construído
em cima da biblioteca JavaScriptjQuery.
7JAVA - http://www.java.com/pt_BR/
8 http://tomcat.apache.org/
9jQuery - http://jquery.com/
10Ajax - acrônimo de AsynchronousJavascriptand XML, sendo o uso metodológico de
tecnologias como Javascript e XML.
11jQuery UI - http://jqueryui.com/
54
Banco de dados Microsoft SQL Server Express Edition12: Por ser
um banco de dados consolidado e de baixa manutenção é uma ótima
opção para o desenvolvimento deste trabalho.
4.3 Desenvolvimento do sistema
Nesta seção, será apresentado o desenvolvimento do projeto, respeitando a
ordem das três etapas da mineração de texto, citadas no capítulo 3.
O projeto foi denominado SMPreview, acrônimo em inglês de “Stock Market
Preview” (Previsão do Mercado de Ações) .
4.3.1 Fonte de dados
Como visto na Seção 3.3, na página 36 deste trabalho, a primeira etapa para
descobrir conhecimento útil em textos é feita com a Recuperação de Informação
(RI). Para tanto, para qualquer um dos caminhos de RI que foram seguidos, usou-se
o mesmo mecanismo: montar uma query e a executá-la, retornando uma lista de
dados. No escopo do trabalho, query podem ser endereços dinâmicos na internet
como “http://br.bing.com/news/search?q=ambev&go=&qs=n&form=QBNT”
considera-se uma query.
Foram utilizadas feeds de notícias quando coletadas diretamente em sites de
busca como Google13, Yahoo14, Bing15 e uma API específica de coleta de postagens
quando se tratando do Twitter16. A seguir, aborda-se como foi feita a coleta de dados
explicando detalhadamente cada tecnologia envolvida.
12
SQL Server 2008 - http://www.microsoft.com/sqlserver/en/us/editions/express.aspx
13 https://www.google.com.br/
14 http://br.yahoo.com/
15 http://br.bing.com/
16 https://twitter.com/
55
Pesquisou-se uma forma rápida, fácil e automática de coletar notícias pela
internet e sites de busca apresentaram uma boa solução para recuperar a
informação. Isto ocorre através da disponibilização do resultado da consulta da
query, em formato de feeds de notícias, que é um padrão bem conhecido
atualmente.
Os feeds RSS contêm conteúdo Web e resumos de conteúdo, juntamente
com os links para as páginas completas, entre outros metadados. Estas informações
são entregues em formato de arquivo XML, denominado "RSS Feed", como pode ser
visualizado na figura 6. O formato atualmente é a 2.0 e pode ser consultado na web
site http://www.rssboard.org/rss-specification (SAMPAIO, 2007).
Figura 6 – Base de um arquivo RSS Feed – Google Notícias
Fonte: do autor
Podem-se encontrar vários elementos dentro da RSS Feed (RSS ADVISORY
BOARD, 2012). O elemento principal de um arquivo RSS é “<rss>” que possui o
atributo “version”. Para o projeto interessa apenas os elementos ancorados ao
elemento “<item>”, sendo que, para cada página da web recuperada como
resultado, é descrita por um elemento “<item>”. Portanto, em uma busca vários
elementos desse tipo são retornados. Gravam-se os elementos encontrados no
elemento “<item>” no banco de dados. A seguir, descreve-se o que contem em cada
56
elemento ancorado ao item e que foi utilizado, lembrando sempre que cada
elemento <item> representa uma página:
Título: O título da página.
Link: O endereço da página.
Descrição: Sinopse da página.
Guid: Uma sequência única que identifica o item.
PubDate: Indica quando o item foi publicado.
Os três mecanismos de busca (Google, Yahoo e Bing) apresentam
semelhantemente, um atalho gerador de RSS Feed, a partir da consulta na seção de
notícias, disponibilizando um endereço dinâmico no navegador que, para este
trabalho será reconhecido como a query de consulta, como pode ser observado na
figura 7. Para efetuar a consulta de outras empresas é necessário apenas acessar a
página do feed e alterar a empresa pesquisada.
Figura 7 – Endereço dinâmico, passando “PETROBRAS” como parâmetro.
Fonte: do autor
Acessando a página da RSS Feed gerada pelo motor de busca, através do
link query montado dinamicamente no projeto, é facilmente possível percorrer os
links de conteúdo de cada página com a API ROME17, um parser RSS Feed que
possibilita percorrer cada elemento internamente.
17
http://rometools.org/
57
Cada link é visitado utilizando API “Parser HTML”18 que é uma biblioteca Java
utilizada para analisar HTML em qualquer forma, linear ou aninhado. Usado
principalmente para a transformação ou extração possui filtros e Java Beans fáceis
de usar. É um pacote rápido, robusto e bem testado.
No projeto o “Parser HTML” foi essencial, pois extraiu apenas o texto da
página da notícia. Tags, que representam a formatação e objetos HTML são
removidas. Esse conteúdo extraído da página da notícia é armazenado em formato
de texto puro. Na figura 8, destacou-se apenas o texto extraído na pagina sendo o
que interessa ao escopo do projeto ignorando imagens, links para paginas externas
e scripts.
Figura 8 – Destaque do texto de uma página coletado através do “Parser HTML”.
Fonte: do autor
Semelhante à forma como ocorre com a busca por notícias, é montada uma
query contendo apenas o nome da empresa e utilizando a biblioteca Twitter4J19,
para integrar a aplicação Java com o serviço Twitter, permitindo fazer buscas por
postagens recentes. A resposta após executar a query é uma lista de postagens
onde aparece o termo pesquisado. Por exemplo, se pesquisar a empresa Petrobras
18
http://htmlparser.sourceforge.net/
19 http://twitter4j.org
58
com a query “Petrobras” um dos retornos poderia ser o seguinte: “$PETR3 - Ambev
(AMBV3) Petrobras (PETR3) é a mais forte das bolsas latinas http://t.co/rZI0Bnwt”
4.3.2 Coletando os Dicionários (Thesaurus)
Nessa seção, será demonstrado como foram desenvolvidos os diversos
dicionários utilizados como suporte para promover a mineração de texto.
(a) Dicionários de Stop Words
Primeiramente, houve a necessidade de um dicionário que pudesse eliminar
as Stop Word na etapa de pré-processamento, especificamente na análise dos
dados. São palavras como artigos e preposições e com grande número de
ocorrências, mas com pouco significado semântico. Uma amostra dessas palavras
pode ser conferida na tabela 4. Essa lista pode ser feita manualmente, mas neste
trabalho é baseada na lista sugerida para o português através do projeto Snowball20
e eliminada pelo projeto Apache Lucene21.
Tabela 4 - Tabela de Stop Words
de Nos
a Me
o aqueles
quem aquelas
Fonte: do autor.
(b) Dicionários de sentimentos
Para promover o cálculo de orientação semântica, que cruza palavras
identificadoras com palavras de opinião positiva e negativa, foi necessário criar
inicialmente um dicionário, com palavras de orientação positiva e negativa extraídas
20
http://snowball.tartarus.org - Snowball é um pequeno processador texto projetada para criar
algoritmos de stemming para uso na recuperação de informação.
21 http://lucene.apache.org/core/ - Apache Lucene é uma tecnologia adequada para quase
qualquer aplicação que requer pesquisa de texto completo.
59
do dicionário de sentimento financeiro, elaborado pelo professor de finanças da
Universidade de Notre Dame, Bill McDonald22. Segundo o autor, uma crescente
literatura aborda relações significativas entre as reações de preços de ações com as
informações de sentimento, medidos por classificações de texto. No site do
professor, podem ser encontradas diversas ferramentas que auxiliam a análise
textual de aplicações financeiras, e onde se encontrou os léxicos de opinião usados
no trabalho. Na tabela 5, pode-se visualizar a palavra classificada em uma
orientação.
(c) Dicionários de Sinônimos
A ideia de dicionários de sinônimos surgiu na seção 3.3.2.3, na página 43 da
etapa de pré-processamento, em que foi possível visualizar a possibilidade de inter-
relacionar as palavras para obter um número maior de termos com a mesma
orientação semântica, partindo-se de apenas uma palavra. Assim, se uma palavra
estiver no grupo de palavras positivas e estiver relacionada à outra por sinônimo,
esta também será considerada positiva, mesmo sendo morfologicamente diferente.
Tendo essa possibilidade na fundamentação teórica, pesquisou-se um
dicionário aberto na web e encontrou-se o DicSin (http://www.dicsin.com.br), sendo
referenciado pelo famoso projeto LibreOffice23.
Na geração do gráfico de resultados de previsão, preservou-se a
possibilidade de ver duas linhas geradas, uma apenas com o dicionário e com a
orientação semântica catalogada diretamente, e outra linha juntando com dados
processados, utilizando o DicSin. Pretende-se, com isso, obter uma melhora nos
resultados já que abrange um número maior de palavras supostamente com a
orientação semântica trazida por seu sinônimo. Na tabela 5, pode-se visualizar a
palavra classificada em sua orientação e também com seu sinônimo.
22
http://www.nd.edu/~mcdonald/
23 http://www.libreoffice.org.br/
60
Tabela 5 - Tabela de Palavras com sua respectiva orientação
Palavra Orientação Sinônimo
Otimismo Positiva Otimismo, Ótimo
Subir Positiva Subiam, Subindo
Queda Negativa Cair, Caiu
Perda Negativa Extraviar
Fonte: do autor
4.3.3 Coletando Informações sobre as empresas e cotações
As empresas da bolsa utilizadas no sistema proposto foram coletadas
automaticamente no portal BM&F Bovespa24, onde consta uma listagem completa de
informações das empresas incluindo seus respectivos códigos de negociação em
formato compactado.
Para o escopo do trabalho, as seguintes informações são importantes, pois
são todas usadas para filtrar as notícias e calcular a orientação semântica:
Nome reduzido da Empresa.
Lista Código de ativos mais comuns (um código de ativo é um código
composto por quatro letras seguidas de um identificador numérico
inteiro de um ou dois dígitos. Exemplos: VALE5, USIM4).
Com base nas informações coletadas na BM&F Bovespa, desenvolveu-se um
mecanismo que, de tempo em tempo, consulta no Yahoo Finanças25 o preço de um
determinado ativo, passando como parâmetro na consulta o código de negociação
da empresa. Conseguiram-se os seguintes dados:
Preço atual da ação.
Variação: quanto, em porcentagem, a ação variou em relação ao
fechamento anterior.
Valor de Abertura: Valor do primeiro negócio realizado no pregão.
24
http://www.bmfbovespa.com.br/suplemento
25 http://br.financas.yahoo.com/
61
Mínimo e Máximo: Os valores, respectivamente alcançados durante o
tempo de negociação do pregão.
Os dados que interessam nesta pesquisa são apenas a variação diária do
ativo, pois o que se busca é identificar a relação entre a opinião agregada nos textos
coletados em relação ao sobe-e-desce da bolsa.
Os dados são automaticamente obtidos através de um arquivo no formato
Csv26, fornecido na página de consulta da Interface do Yahoo. Os dados são
automaticamente inseridos na base de dados. Assim, para obter o Csv, efetua-se a
consulta do ativo e, após, baixa-se o Csv para extração dos dados.
Para armazenar os dados coletados e gerados em todo o processo, foi
utilizado o banco de dados SQL Server. Para conectar ao banco, utilizando a
linguagem Java, utilizou-se uma biblioteca facilitadora chamada jTDS27, que torna a
interação com o SGBD ainda mais fácil e é uma fonte aberta 100% Java, sendo um
Driver JDBC 3.0 para Microsoft SQL Server (6.5, 7, 2000, 2005, 2008 e 2012).
Nas figuras 9, 10 e 11 é apresentado o diagrama da base de dados com suas
respectivas explanações, possibilitando uma visão geral do Banco de Dados
utilizado ao longo da implementação.
26
O formato CSV (Comma Separated values) ou valores separados por vírgula, é um formato
de arquivo muito utilizado para a exportação de dados de forma universal. Este tipo de arquivo pode
ser aberto por vários programas, entre eles o Microsoft Excel e até mesmo o bloco de notas.
27 http://jtds.sourceforge.net/
62
Figura 9 – Diagrama 1 da base de dados utilizada.
Fonte: do autor
Na figura 9, o diagrama foi segmentado em três partes para facilitar a
explicação.
Na parte A, constam as tabelas smp_coleta e smp_coleta_trecho, sendo as
tabelas que armazenam cada item (notícia) do Feed RSS ou postagem do twitter.
Título, Descrição, Data de publicação e links são mapeados para as colunas da
tabela smp_coleta. Seu conteúdo HTML processado para extrair somente o texto é
armazenado na tabela smp_coleta_trecho.
Na parte B, é armazenado o radical da palavra de cada coleta, sendo que o
radical é primeiramente mapeado e armazenado em smp_radical e a relação “texto
coletado por radical” é armazenado em smp_coleta_radical na ordem em que foi
reconhecido no texto. Situando-se nas três etapas da mineração de texto, pode-se
dizer que os dados armazenados na parte B são os dados provenientes do final da
etapa de pré-processamento, em que cada termo é mapeado em uma tabela
“documento x termo”.
63
Na parte C, é armazenada na tabela smp_coleta_radical_empresa a
orientação semântica de cada sentença identificada no texto através do cálculo do
PMI. Foi adicionada a chave para smp_empresa, refletindo a ocorrência de mais de
uma citação de empresa por sentença. Situando-se nas etapas de mineração de
dados, a etapa de processamento do texto evidencia-se, já que os valores da
orientação semântica das sentenças são gravados nesse conjunto de tabelas.
Figura 10 – Diagrama dois da base de dados utilizada.
Fonte: do autor
Na figura 10, observa-se como estão dispostas as tabelas que servirão de
apoio para efetuar a mineração. Dentro de smp_dicionario são catalogadas todas as
palavras envolvidas, juntamente com seu radical mapeado. As palavras podem
pertencer aos seguintes grupos: Grupo de palavras positivas, Grupo de Palavras
Negativas, Grupo de palavras Neutras, Grupo de Sinônimos e Grupo de StopWords.
O relacionamento é armazenado na tabela smp_dicionario_agrupamento e cada
palavra pode pertencer a um ou vários grupos. Cada palavra será cadastrada com
seu radical associado, pois é com o radical do dicionário que se associa o radical
dos textos.
A tabela smp_dicionario_sinonimo é utilizada para armazenar
relacionamentos de palavras sinônimas, importados de um dicionário conhecido
64
como DicSin28 utilizado inicialmente e depois alterado conforme as análises. Esse
dicionário controla sinônimos via web. É um dicionário colaborativo em que se pode
adicionar ou corrigir palavras/sinônimos.
Figura 11 – Diagrama três da base de dados utilizada.
Fonte: do autor
Na figura 11, constam os diagramas onde são armazenados dados como as
variações reais da bolsa para cada código de negociação das empresas nos dias do
período analisado. Os preços das cotações são fornecidos pela Yahoo Finanças.
Esses dados são utilizados no SMPreview para gerar o gráfico de cotações reais.
4.3.4 Cálculo da orientação semântica
Nessa seção, será apresentada a metodologia utilizada para calcular a
orientação semântica das sentenças dos textos coletados.
Ainda na fase de pré-processamento, a radicalização reduz a palavra a sua
menor representação linguística, permitindo que sejam tratadas variações
morfológicas de uma palavra. Assim, se no dicionário a palavra “aumento” estiver no
dicionário especifico de finanças no grupo de palavras positivas e no texto coletado
aparecer à palavra “aumentar”, então essa também será tratada como se estivesse
28
http://www.dicsin.com.br
65
no grupo de palavras positivas. Isso permite, com o dicionário de sinônimos, ampliar
as possibilidades de identificar palavras com alguma orientação semântica.
No SMPreview, foi utilizado o projeto Snowball29 que faz a radicalização da
palavra usando Portuguese Stemmer, abordado na seção 3.3.2.1 na página 39,
juntamente com o projeto Apache Lucene30 que permite uma melhor iteração com o
texto coletado.
A etapa de identificação de termos nos textos coletados significa o início do
processamento de texto, após ter sido finalizada a etapa de pré-processamento.
A identificação dos radicais é feita com os radicais das palavras no texto
através de marcação apenas, separando radicais identificadores de empresas dos
radicais com orientação opinativa, sendo a prévia para efetuar o cálculo de
orientação. Além disso, foram mantidas estruturas para sentença, com a ordem dos
radicais, onde são armazenados também os valores de peso para cada estrutura,
calculados em seguida. Na figura 12, pode-se visualizar o SMPreview, exibindo os
termos radicalizados e identificados. Adotou-se a cor vermelha para representar
termos negativos e o verde para positivos. Já a cor azul representa o termo
identificador da empresa.
Figura 12 – SMPreview, mostrando os radicais identificados.
Fonte: do autor
Tomando como base as ideias expostas por LIU (2006), a partir desse ponto
é calculada a orientação das notícias utilizando o intervalo de sentença (trecho do
texto separado por ponto ou parágrafos).
29
http://snowball.tartarus.org
30 http://lucene.apache.org/core/
66
Identificadas as entidades no conjunto de textos, aplica-se a cada uma delas
o cálculo descrito pela equação 1 (Correlação de entidades) da seção 3.4.2 na
página 46. Assim, tem-se dentro de um conjunto de notícias a orientação semântica
de sentimento para cada notícia, para cada empresa em nível de sentença.
Quantificando-se o PMI de palavras positivas menos o PMI de palavras negativas de
todos os textos coletados em um determinado dia, obtém-se um índice diário positivo
ou negativo, representando o sentimento que se tem sobre uma determinada
empresa. Esse índice será comparado diretamente com o desempenho diário das
ações na bolsa durante a etapa de pós-processamento. Na figura 13, observa-se
que o resultado do cálculo PMI fica em 1.95 negativo para a primeira sentença da
notícia coletada.
Figura 13 – SMPreview, mostrando os radicais com o valor da orientação: -1.95.
Fonte: do autor
4.3.5 Sistema SMPreview
Nesta seção, será apresentado o sistema desenvolvido, detalhando os
processos e tecnologias envolvidas.
Como se pode ver na figura 14, o SMPreview está estruturado da seguinte
forma: interface, núcleo e banco de dados. As tecnologias utilizadas nas estruturas
também são ilustradas.
Entre Interface e núcleo, a comunicação é totalmente via Ajax, utilizando Json
e XML. Já na comunicação do núcleo com a base de dados, a comunicação é via
jTDS.
67
Figura 14 – SMPreview, mostrando a arquitetura e tecnologias envolvidas
Fonte: do autor
A interface é composta por bibliotecas JavaScript como o framework jQuery e
plug-in jQueryUI que permite criar facilmente efeitos visuais agradáveis. Também foi
incorporado a biblioteca JScharts31 responsável pela renderização dos gráficos.
Para formular a interface do SMPreview sempre se optou por manter uma
forma simples, porém robusta, de pesquisar dados coletados para eventual análise.
Observando a figura 15 temos a interface inicial do sistema antes de aplicar os
filtros.
Figura 15 – SMPreview, interface inicial.
Fonte: do autor
Dentro da aba principal “Resultados” disponibilizaram-se dois filtros principais:
Empresa e Período. Quando se aplica o filtro, passando como parâmetro o código
da empresa e o período de análise, o sistema responderá com resultados via
31
http://www.jscharts.com/
68
gráficos na aba “Gráficos”, como pode ser visualizado na figura 16. Também
resultará uma tabela contendo os textos na aba “Notícias”, visto na figura 18.
Também existe o filtro “Dicionário” que especifica qual dicionário será
utilizado: “dicionário direto”, que utiliza apenas palavras cadastradas em sua
respectiva orientação, ou o dicionário DicSin, que amplifica a quantidade de palavras
com orientação baseado em sinônimos.
Figura 16 – SMPreview, interface exibindo os gráficos.
Fonte: do autor
Na aba “Gráficos”, tem-se quatro gráficos:
Cotação real: Representa a situação da cotação da empresa
pesquisada na Bolsa de Valores. Este gráfico servirá de base para
investidores compararem com os resultados apresentados pelo
sistema. O valor da cotação vem diretamente do Yahoo Finanças.
Orientação Diária: Representa o somatório diário das orientações.
Possuem duas linhas, a verde representa as orientações calculadas
apenas com base nas palavras cadastradas diretamente nos
dicionários positivos e negativos, e a linha azul representa o cálculo
considerando a associação ao dicionário DicSin. Na figura 16 retrata
69
apenas a linha azul, pois o filtro está configurado para filtrar apenas
resultados do DicSin.
Tendência: Representa o acumulado diário da orientação das notícias.
É com esse gráfico que se observa a tendência do ativo. Dependendo
da configuração do filtro de dicionários, pode possuir duas linhas, a
verde representa as orientações calculadas apenas com base nas
palavras cadastradas diretamente nos dicionários positivos e
negativos, e a linha azul representa o cálculo considerando a
associação ao dicionário DicSin.
% Oscilação: Como se pode ver na figura 17, esse é o gráfico principal,
pois exibe a eficiência do sistema. Mede a oscilação diária da empresa
filtrada na bolsa e também a oscilação diária da orientação das notícias
processadas cruzando as duas oscilações. Por exemplo, no caso da
linha do gráfico que mede a oscilação da bolsa (% Real OGXP3 do
gráfico) ficar acima da margem do zero (0) em um determinado dia,
representa que as ações do ativo subiram. Caso fiquem abaixo de zero
(0), representam queda. Da mesma forma, é feito com a linha do
gráfico (Índice DicSin) que mede a orientação semântica. Se a linha
estiver acima da margem zero (0) representa mais notícias boas, caso
contrário, é sinal que notícias negativas prevalecem. Essas duas linhas
são então cruzadas e se em cada dia a linha da orientação semântica
estiver no mesmo lado da margem que a linha da cotação real,
representa um acerto do programa. Mais detalhes serão expostos na
seção de testes e resultados. Na legenda da linha “Indice DicSin”
mostra os acertos feito pelo sistema, sendo que na figura 17 são 12
acertos de 17 possibilidades.
70
Figura 17 – SMPreview, Oscilação Bolsa X Oscilação Notícias.
Fonte: do autor
Figura 18 – SMPreview, interface com tabela de textos.
Fonte: do autor
A tabela da aba “Notícias” possui:
Primeira coluna: Destacando a orientação semântica para cada texto
com setas para cima indicando positividade, seta para baixo indicando
negatividade. Existe também uma legenda abaixo dessa tabela,
mostrando todas as possibilidades que um registro da tabela possa
assumir, conforme ilustrado na figura 18.
Segunda coluna: Identificador da coleta do texto.
Terceira coluna: Título do texto coletado.
Quarta coluna: O link do texto coletado.
71
Quinta coluna: A data do texto coletado.
Sexta coluna: O valor da orientação atribuído a cada texto.
Sétima coluna: Dois botões, sendo que o primeiro exibe o texto (figura
19) e o segundo mostra o texto processado apenas com os radicais já
com o valor da orientação, quando uma correlação verdadeira for
identificada (figura 20).
Vale ressaltar que cada texto pode se referir a mais de uma empresa, então,
o mesmo texto pode aparecer em mais de uma pesquisa por empresa com valor de
orientação semântica diferente, tendo uma orientação para cada empresa em um
mesmo texto. Na figura 19 observa-se uma notícia (texto) sobre a empresa OGX. Na
figura 20 destaca-se o mesmo texto já processado com o valor de orientação
calculado.
Figura 19 – SMPreview, interface exibindo o texto coletado.
Fonte: do autor
72
Figura 20 – SMPreview, interface exibindo o texto processado.
Fonte: do autor
O núcleo se refere à lógica do sistema, módulo onde acontecem todas as
coletas de dados, preparação e armazenamento dos dados e processamento de
dados.
A seguir, serão descritas as tarefas que o núcleo do SMPreview deve
proceder para efetivar uma mineração de texto eficiente:
1. Coleta de notícias e postagens do Twitter: Utilizou-se RSS Feeds para
extrair notícias da internet e API para coleta de postagens no twitter.
Utilizou-se além das tecnologias comuns as respectivas bibliotecas
“ROME” para ler os resultados de busca advindos do RSS Feeds;
“Parser HTML” para extrair o texto em páginas web advindos de
pesquisa nos motores de busca; e Twitter4J para ler postagens no
Twitter.
2. Remoção de StopWords: A finalidade é reduzir o número de termos
para processamento. Uma pré-lista de palavras sem muito significado
semântico no texto é utilizada para fazer a filtragem no texto coletado e
eliminar tais palavras. Essa operação ocorre através da biblioteca
73
Apache Lucene, que permite uma filtragem rápida e eficiente de
palavras.
3. Radicalização de palavras: A fim de reduzir o número de palavras para
processamento, ocorre a radicalização para eliminar sufixos e prefixos.
Essa operação melhora o resultado do processamento, já que abrange
um número maior de termos na associação ao dicionário de
sentimentos. Usam-se duas tecnologias em conjunto nessa tarefa:
Apache Lucene e o projeto Snowball.
4. Transformação de texto em tokens e etiquetagem: Necessário para
transformar dados desestruturados em dados para processamento.
Após a coleta e radicalização, cada termo é mapeado e associado a
um identificador único (etiquetado), que permite identificar termos
únicos nos textos.
5. Cálculo de Orientação Semântica: Processo que efetua o cálculo para
chegar a um índice que mostre o quanto um texto expressa
positividade ou negatividade.
6. Acesso à base de dados: Todos os dados processados e coletados
devem ser armazenados e depois lidos novamente para serem
fornecidos à interface do sistema. O núcleo do SMPreview é capaz de
fornecer acesso à base de dados, tanto para gravação como para
leitura através do driver JDBC apara Microsoft SQL Server 2008.
4.4 Testes e Resultados
Esta seção será subdividida em duas: a primeira é responsável por explicar
as técnicas utilizadas para efetuar os testes e, a segunda, responsável por fazer a
análise dos resultados. Em geral, é descrita toda a metodologia empregada para
efetuar testes, com a finalidade de obter resultados satisfatórios, demonstrando a
eficiência do SMPreview.
74
O conjunto de textos coletados para o projeto depende da publicação de
notícias na internet ou postagens no twitter, e como essa publicação ocorre
diariamente em diversos canais, de maneira e horários aleatórios, não seguindo um
padrão, esse conjunto é totalmente dinâmico. Desta forma, coletou-se um montante
de textos em um determinado intervalo significativo de tempo. A quantificação
desses textos e dados processados será demonstrado nas subseções a seguir.
4.4.1 Testes
Para fazer os testes selecionaram-se duas empresas de setores distintos e o
único critério de escolha foi da empresa possuir apenas um código de negociação, já
que com dois ou mais seria necessário repetir os testes para cada código. Na tabela
6 estão listadas as empresas escolhidas.
Tabela 6 – Tabela de empresas monitoradas
Empresa Classificação
Setorial
Códigos
Negociação
OGX Petróleo. Gás e Biocombustíveis / Petróleo. Gás e Biocombustíveis / Exploração e/ou Refino
OGXP3
MARFRIG Consumo não Cíclico / Alimentos Processados / Carnes e Derivados
MRFG3
FONTE: BMFBOVESPA, 2012
Os testes foram aplicados num montante de textos coletados diariamente,
sendo que o monitoramento foi feito intermitentemente pelas APIs do sistema. No
intervalo de 01 de Outubro a 31 de Outubro de 2012, independentemente de horário
e dias da semana. Para cada dia nesse intervalo, foram processadas as notícias
conforme elas eram coletadas da internet. Na tabela 7, é possível visualizar alguns
exemplos da quantidade de informação diária processada, que está na média de 19
textos diários para OGX e sete textos diários para Marfrig. Observou-se que a
maioria dos textos coletados era em dias úteis, ou seja, em feriados e finais de
semana o número de coletas é menor ou nula em relação aos dias em que há
pregões.
75
Tabela 7 – Número de textos coletadas
Empresa Período Coleta Nº Textos Nº Textos/Dia
OGX 01/10/2012 até 31/10/2012 609 19
MARFRIG 01/10/2012 até 31/10/2012 219 7
Fonte: do autor
Para efetuar a mineração, calculando a orientação dos textos, utilizaram-se
dois dicionário de sentimentos (Positivo e Negativo) e, também, o dicionário de
sinônimos (DicSin). A análise dos dados é representada em duas formas:
Direta: O sistema faz o processamento utilizando diretamente o
dicionário de sentimentos, não utilizando outra palavra que não esteja
classificada como palavra positiva ou palavra negativa.
DicSin: Através do uso do dicionário DicSin o leque de palavras
positivas e negativas aumenta, pois para cada palavra positiva seus
sinônimos também são considerados positivos. Parte-se do princípio de
que se uma palavra é classificada como positiva, então os seus
sinônimos também serão positivos. O sistema utiliza, além das
palavras cadastradas diretamente como positivas e negativas, o
dicionário de sinônimos para efetuar o processamento.
Na tabela 8, pode-se observar o aumento expressivo de palavras com
orientação através do uso de dicionários como o DicSin. Espera-se, com isso,
aumentar a eficiência do SMPreview.
Tabela 8 – Quantidade palavras Classificadas
Orientação Nº de palavras “Direto” Nº de palavras “DicSin” Total
Positiva 335 1312 1647
Negativa 1891 4191 6082
Fonte: do autor
76
A escolha dos termos a serem avaliados (processados) nos textos ocorreu
através do dicionário de orientação e pela entidade, que nos dois casos foram o
próprio nome: “ogx” e “marfrig”.
Para exemplificar melhor como ocorre o cálculo da orientação semântica nos
testes e a forma como o SMPreview trabalha, selecionou-se um trecho de texto
publicado e coletado em 30/10/2012 que cita a empresa OGX no canal “Uol
Economia” 32.
A seguir, serão demonstrados os passos de processamento do texto que o
SMPreview realiza até chegar ao valor da orientação do texto.
Primeiro passo, coleta do texto original:
“Entre as ações mais negociadas, Vale PNA ganha 0,66%, para R$
36,33; Petrobras PN sobe 0,98%, para R$ 21,56; OGX ON avança
2,81%, para R$ 4,74; Itaú PN tem valorização de 0,50%, para R$
29,75; e Bradesco PN sobe 0,24%, para R$ 32,10.”
Segundo passo, texto pré-processado, eliminação de Stop Words,
radicalização e mapeamento de tokens. De 43 termos iniciais, passou-
se para apenas 25 termos:
“aco negoc val pn a ganh par r petrobr pn par r ogx on avanc par r itau
pn valoriz par r bradesc pn par r”
Terceiro Passo, identificação dos radicais das entidades (Empresas) e
termos com alguma orientação semântica. Neste caso, foram
identificados a entidade “OGX” e dois termos com orientação positiva
“ganha” e “avança”:
“aco negoc val pn a ganh par r petrobr pn par r ogx on avanc par r itau
pn valoriz par r bradesc pn par r”
32
http://economia.uol.com.br/ultimas-notícias/valor/2012/10/30/bovespa-sobe-em-mais-um-
dia-sem-referencia-dos-eua.jhtm
77
Quarto passo, execução do cálculo da equação 1. Consideram-se
apenas radicais “ogx” e “avanc” para realizar o cálculo, já que são os
únicos que aparecem juntos. Com isso, se pretende identificar uma
relação verdadeira entre os dois termos dentro do trecho coletado.
Observa-se na tabela 9 as variáveis que fazem parte da equação,
gerando o valor de PMI. Considere “c”=característica, “e”=entidade e
“Pr”=Probabilidade, sendo que a característica para o PMI são palavras
positivas ou negativas e a entidade é a empresa.
Tabela 9 – Exemplificação do cálculo PMI
Equação PMI(e,c) = log( Pr(e^c) / ( Pr(e) * Pr(c) ) )
Quantidade.termos 25
Quantidade.e^c (Junto) 1
Quantidade.e 1
Quantidade.c 1
Calculando PMI(ogx,avanc) = log( (1/25) / ( (1/25) * (1/25) ) )
Calculando PMI(ogx,avanc) = log( 0,04 / (0,04* 0,04) )
Calculando PMI(ogx,avanc) = log( 0,04 / 0,0016)
Calculando PMI(ogx,avanc) = log( 25 ) = 1,4
Encontrou-se “1,4” no cálculo de PMI através de uma palavra positiva, assim,
o valor permanece positivo. Caso fosse através de uma palavra negativa, então
ainda seria necessário fazer uma multiplicação por “-1” gerando um valor negativo,
por exemplo “-1,4”.
4.4.2 Resultados
Inicia-se a fase de pós-processamento, descrito na seção 3.5 na página 47
deste trabalho.
Com base nas duas empresas utilizadas nos testes da seção anterior, nas
tabelas 10 e 11 onde consta um demonstrativo diário dos resultados do cálculo de
orientação para cada empresa. Juntamente adicionou-se o percentual de oscilação
da empresa naquele dia.
78
As tabelas comparam a oscilação da empresa na bolsa com o valor obtido,
variando os dicionários de co-ocorrência Direto e Total (Direto + DicSin) de
entidades/palavras. Valores positivos indicam que a entidade tem maior relação com
palavras positivas, enquanto valores negativos indicam maior relação com palavras
negativas.
Tabela 10 – Resultados obtidos da empresa OGX
Dia Direto DicSin Oscilação
Bolsa %
Direto
Acerto
DicSin
Acerto
01/10/2012 8.26 0.62 -2.6 0 0
02/10/2012 1.38 -2.36 -3.17 0 1
03/10/2012 -7.25 -16.76 1.03 0 0
04/10/2012 -1.16 -13.76 -1.71 1 1
05/10/2012 7.06 -29.89 -3.65 0 1
06/10/2012 1.26 -3.38 - - -
07/10/2012 0 0 - - -
08/10/2012 2.66 3.7 2.88 1 1
09/10/2012 -1.72 -3.2 0.88 0 0
10/10/2012 -1.41 -1.4 -2.95 1 1
11/10/2012 9.07 11.08 1.25 1 1
12/10/2012 -1.08 -0.75 - - -
13/10/2012 0 0 - - -
14/10/2012 0 0 - - -
15/10/2012 -0.44 -4.53 0.88 0 0
16/10/2012 0.3 -5.99 -4.2 0 1
17/10/2012 -3.72 -5.18 1.83 0 0
18/10/2012 -
10.73
-25.78 -5.92 1 1
19/10/2012 -8.96 -13.96 0.57 0 0
20/10/2012 -2.1 -3.55 - - -
21/10/2012 0 2.12 - - -
22/10/2012 -4.29 -17.17 -4.17 1 1
23/10/2012 -
13.03
-32.65 -0.59 1 1
24/10/2012 6.46 -5.7 -7.77 0 1
25/10/2012 15.4
9
-5.64 2.59 1 0
26/10/2012 -8.55 -14.79 -5.47 1 1
27/10/2012 -4.81 -6.1 - - -
28/10/2012 -1.32 -0.91 - - -
29/10/2012 -3.14 -11.35 2.67 0 0
79
30/10/2012 6.98 0.28 3.69 1 1
31/10/2012 10.8
7
-8.96 -1.46 0 1
Fonte: do autor
Tabela 11 – Resultados obtidos da empresa Marfrig
Dia Direto DicSin Oscilação
Bolsa %
Direto
Acerto
DicSin
Acerto
01/10/2012 0.4 -1.59 -1.27 0 1
02/10/2012 8.71 11.81 3.86 1 1
03/10/2012 -0.45 -0.1 -1.74 1 1
04/10/2012 4.08 1.25 3.78 1 1
05/10/2012 15.7
4
15.19 -2.51 0 0
06/10/2012 3.92 2.84 - - -
07/10/2012 4.15 -0.01 - - -
08/10/2012 -1.42 -1.42 0.83 0 0
09/10/2012 -0.95 -1.08 -1.24 1 1
10/10/2012 1.16 0.08 -3.59 0 0
11/10/2012 -1.8 -1.8 0.09 0 0
12/10/2012 0 0 - - -
13/10/2012 0 0 - - -
14/10/2012 0 -5.8 - - -
15/10/2012 -2.07 -5.44 5.1 0 0
16/10/2012 -7.88 -11.03 0 0 0
17/10/2012 3.58 5.03 -1.23 0 0
18/10/2012 -1.23 -4.12 0 0 0
19/10/2012 0.85 0.85 0.83 1 1
20/10/2012 0 0 - - -
21/10/2012 -0.95 -0.95 - - -
22/10/2012 -1.16 -3.35 -4.3 1 1
23/10/2012 -
17.28
-24.06 -9.76 1 1
24/10/2012 24.7
6
16.92 -1.63 0 0
25/10/2012 7.05 3.4 -1.17 0 0
26/10/2012 5.28 13.13 3.44 1 1
27/10/2012 2.6 2.6 - - -
28/10/2012 7.85 6.82 - - -
29/10/2012 -0.99 2.49 1.81 0 1
30/10/2012 -0.82 0.51 -0.84 1 0
31/10/2012 -2.48 -11.19 -1.04 1 1
Fonte: do autor
80
Considerando-se as tabelas 10 e 11, é possível desfrutar de alguns
indicadores de eficiência do sistema. Nota-se que, de 31 dias do mês apenas em 22
dias ocorreram negociação, portanto:
Para a empresa OGX, de 22 dias, o sistema acertou 14 utilizando o
dicionário de sinônimos (DicSin) e 10 acertos utilizando apenas o
dicionário de orientação semântica.
Para a empresa Marfrig, de 22 dias, o sistema acertou 11 utilizando o
dicionário de sinônimos (DicSin) e 10 acertos utilizando apenas o
dicionário de orientação semântica.
Com base nesses resultados, é possível observar um acerto de 63% na
empresa OGX e 50% na Marfrig, considerando o dicionário de sinônimos.
Analisando-se visualmente os resultados, pode-se comparar o desempenho
da orientação semântica numa série histórica, em relação ao movimento do ativo na
bolsa. Nas figuras 21 a 23 traz-se os gráficos gerados pelo SMPreview para a
empresa OGX. A ideia desses três gráficos é manter a linha da oscilação da
empresa na Bolsa de Valores estática, enquanto se desloca a oscilação da
orientação semântica da notícia sempre 1 dia para frente.
Figura 21 – Gráfico sem deslocamento da orientação (14 acertos).
Fonte: do autor
81
Figura 22 – Gráfico com 1 dia de deslocamento da orientação (10 acertos).
Fonte: do autor
Figura 23 – Gráfico com 2 dia de deslocamento da orientação (9 acertos).
Fonte: do autor
O que se pode observar no gráfico da figura 21 são os valores das
orientações acompanhando o valor da variação do ativo, às vezes precedendo o
movimento, e em outras sendo arrastado por ele. Essa percepção parece que vai se
perdendo ao se deslocar a linha da orientação semântica.
4.5 Considerações
Neste capítulo, apresentou-se toda a construção, testes e resultados
realizados com base na metodologia proposta. Com os resultados gerados, pode-se
verificar o grau de eficiência e, consequentemente, a importância do sistema.
82
5 CONCLUSÃO
Este trabalho apresentou uma proposta, baseada em técnicas de mineração
de texto, para quantificar opiniões encontradas em textos na Internet, a fim de
auxiliar investidores em suas negociações. Para tanto, foi necessário: capturar
informações relevantes sobre ativos financeiros na Internet, identificar opiniões
relacionadas com os ativos analisados, e quantificar essas opiniões, definindo um
índice que represente a orientação semântica dos textos.
Com um estudo aprofundado do mercado de ações e da mineração de texto,
observou-se que tais assuntos tão distintos estão intimamente ligados, pois,
conforme apresentado, na análise fundamentalista faz-se uso de informações
textuais como notícias para elaborar negociações sobre ações de uma determinada
empresa.
Após o estudo das técnicas de mineração de texto, a forma como se vê um
texto muda, pois agora se vê a possibilidade de mergulhar nesse mar de letras e
conseguir extrair informações importantes que possam auxiliar em várias áreas, não
somente em carteira de ações.
O sistema desenvolvido realiza a análise automaticamente da carteira de
ações, possibilitando verificar os resultados que emergem. Se notícias expressando
opiniões realmente conseguem manter um vínculo com o valor das ações, e é o que
indica ser possível quando observados os trabalhos citados e já realizados, então é
possível se obter bons resultados. Além disso, e muito mais importante, é quando
este trabalho é visualizado do ponto de vista de um entusiasta da computação.
Após os testes e os resultados analisados, chegaram-se às seguintes
conclusões:
83
Uso do PMI (Pointwise mutual information) para calcular a orientação
semântica, analisando a opinião nos textos coletados em nível de
sentença, revelou resultados interessantes quando comparados com o
aspecto da orientação real do texto. O cálculo de correlação utilizado
nos testes não retornou valores conclusivos, mas consideráveis para
algumas entidades, demonstrando que realmente há um nível
relevante de correlação entre a variação do ativo e os valores obtidos
no cálculo de orientação.
O uso de dicionário com palavras com orientação semântica deve ser
revisado cuidadosamente para que não haja erros ao utilizar palavras
com orientação diferente da sua orientação real. Sendo um dicionário
dinâmico, em que se adiciona e remove palavras, conforme o escopo
do projeto, a prática de calibrá-lo adicionando e removendo palavras
deve ser constante, a fim de melhorar os resultados.
Utilizar um dicionário de sinônimos, na maioria dos casos, e favorável à
identificação de uma orientação semântica válida, melhor até que usar
o dicionário diretamente. Porém, houve muitos casos em que
sinônimos cadastrados errados ou que representavam uma associação
com um significado semanticamente distante gerou erros no resultado
do processamento do texto. Para esses casos houve a necessidade de
destruir relações de sinônimos para que o sistema realizasse os
cálculos corretamente.
Para trabalhos futuros, considerando-se o interesse de continuar a pesquisa
com o mesmo escopo, citam-se as seguintes possibilidades:
Fazer testes analisando intervalos maiores como um ano inteiro ao
invés de apenas um mês. Também existe a possibilidade de trabalhar
com uma granularidade menor para fazer análises em intervalos
menores dentro do dia, como, por exemplo, a “hora” e não apenas a
84
granularidade de “dia”. Isto possibilitaria cruzar a hora da notícia com a
oscilação da bolsa.
Melhorar os léxicos dos dicionários, calibrando as palavras para refletir
uma melhora nos resultados. Por exemplo, adicionar ou remover
palavras do dicionário de orientação para que melhor indiquem a
oscilação da bolsa.
Utilizar métodos para encontrar termos comuns e/ou relevantes, como
o método TF-IDF (term frequency, inverse document frequency), que
mapeia termos que têm alto índice de ocorrência no texto. Os termos
mapeados podem ser candidatos a compor algum dos dicionários
utilizados.
Desenvolver outras técnicas de mineração de texto como, por exemplo,
abordagens baseadas em aprendizagem de máquina em que se treina
um conjunto de textos, permitindo que próximos textos sejam
classificados ou produzam um índice estatístico automaticamente.
Dentre as tarefas realizadas, algumas dificuldades foram encontradas, como
processar textos com uma estrutura complexa ou com a utilização de um vocabulário
muitas vezes informal.
Conforme o objetivo do trabalho e com o desenvolvimento da ferramenta
proposta para o mercado de capitais, uma nova maneira de prever a Bolsa de
Valores foi aplicada, auxiliando analistas do mercado de capitais.
85
REFERÊNCIAS
Como investir no Mercado a termo. Disponível em: <http://www.bmfbovespa.com.br/Pdf/termo.pdf>, acessado 10 de outubro de 2011. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. New York: ACM Press, 1999. BARRETO FILHO, Oscar. Natureza jurídica das bolsas de valores, no direito brasileiro. Revista dos Tribunais. São Paulo, Revista dos Tribunais, 1959. BARRETO J. M. Inteligência Artificial no Limiar do Século XXI. Rô Rô Rô Edições, Florianópolis, 2001. BARTH, I. G. Ipo – Inicial Public Offering (Oferta Pública Inicial): Um Instrumento De Financiamento. Monografia (Curso de Economia) – Faculdade de Economia e Ciências Contábeis, Universidade Metodista de São Paulo, São Bernardo do Campo, 2007. BING, LIU. Web Data Mining, Exploring Hyperlinks, Contents and Usage Data. 2. ed. Springer, 2011. BM&FBOVESPA, Bolsa de Valores, Mercadoria e Futuros. Introdução ao mercado de capitais. Disponível em: <http://www.bmfbovespa.com.br/pt-br/a-bmfbovespa/download/merccap.pdf>, acessado 01 de outubro de 2011. BODIE, Zvi; MERTON, Roberto C. Merton. Finanças. 2. ed. Revisada e Ampliada. São Paulo: Art ed Editora SA, 2001. BOLLEN, Johan. Twitter mood predicts the stock market. Artigo – 2010. CARRILHO JUNIOR, João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado (Engenharia Elétrica) - PUC-Rio, Rio de Janeiro, 2007. CAVALCANTE, Francisco. Mercado de Capitais – o que é, como funciona. 6. ed., Revisada e Atualizada. Rio de Janeiro: Elsevier Editora Ltda, 2005. CAVALCANTE, Francisco; MISUMI, Jorge Yoshio; RUDGE, Luiz Fernando. Mercado de capitais: o que é, como funciona. 7. ed., ver. e atual. Rio de Janeiro: Elsevier, 2009. CERBASI, Gustavo. Investimentos Inteligentes. 1 ed. São Paulo: Thomas Nelson, 2009.
86
CHEN, H. Knowledge management systems: a text mining perspective. University of Arizona (Knowledge Computing Corporation), Tucson, Arizona. 2001 DEBASTIANI, Carlos Alberto. Encare o mercado de ações sem temor! Disponível em:<http://www.marketweapon.com.br/download/Encare_o_mercado_de_acoes_sem_temor.pdf>, acessado 02 de outubro de 2011. DESCHATRE, Gil Ari. Investimento em ações. Rio de Janeiro: Thomas Nelson Brasil, 2009. DIAS, M. A. L., MALHEIROS, M. G.; Extração Automática de Palavras-chave de Textos da Língua Portuguesa. Centro Universitário UNIVATES. 2005. EIZIRIK, Nelson. Questões de direito societário e mercado de capitais. Rio de Janeiro: Forense, 1987. FELDMAN, R; SANGER, J.The Text Mining Hand book. New York: Cambridge University Press, 2007. FORTUNA, E. Mercado Financeiro: Produtos e Serviços – Rio de Janeiro: Quality mark, 2005. GOLDSCHMIDT, R., PASSOS, E. Data Mining: Um Guia Prático. Rio de Janeiro: Elsevier. 2005. KAO, Anne; POTEET, Stephen R. Natural Language Processing and Text Mining. Springer, 2007. LEITE, Helio de Paula. Índice Bovespa: Um padrão para os investimentos Brasileiros. São Paulo: Ed. Atlas, 1995. LIU, B. Web data mining: Exploring Hyperlinks, Contents and Usage Data. Chicago - Usa: Springer, 532 p. 2006. LOPES, M. C. S., Mineração de dados textuais utilizando técnicas de clustering, para o idioma português. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil. 2004. LOPES, Thomas Jefferson P. Mineração de Opiniões aplicada à Análise de Investimentos. Artigo – Centro Universitário Senac, 2009. LOPES, Thomas Jefferson Pereira; HIRATINI. Mineração de Opiniões aplicada à Análise de Investimentos. Trabalho de conclusão de curso – Centro Universitário SENAC – Campus Santo Amaro, São Paulo, 2008. LUQUET, Mara. Guia Valor Econômico de finanças pessoais. 2. ed. Revisada e Atualizada. São Paulo: Ed. Globo, 2008. MAGALHAES, Teresinha Moreira de. Uma metodologia de mineração de opiniões na web. Tese de Doutorado (Engenharia Civil) - COPPE/UFRJ, 2009.
87
MATSURA, Eduardo. Comprar ou vender? Como Investir na bolsa utilizando análise gráfica. Editora Saraiva, 2006. ISBN: 9788502065963 MELLAGI FILHO, Armando. Mercado Financeiro e de Capitais. 3. ed. São Paulo: Atlas, 1998. MENDONÇA, José Xavier Carvalho de. Tratado de direito comercial brasileiro. São Paulo: Livraria Freitas Bastos S.A., 1961. MÜLLER, Lucas. Processo de tomada de decisão usando redes neurais artificiais e agentes inteligentes no domínio da predição do mercado de capitais. Trabalho de Conclusão, Universidade de Santa Cruz do Sul, 2010. OLIVEIRA, Ingrid Martins de. Estudo de uma metodologia de mineração de textos científicos em língua portuguesa. Tese de Mestrado (Engenharia Civil) - COPPE/UFRJ, 2009. OLIVEIRA, Miguel Delmar de; SOARES, Ademir Gargiullo; LOPES, Marco Aurélio. Introdução ao mercado de ações. Edição 1986. Comissão Nacional de Bolsa de Valores. Rio de Janeiro, 1986. ORENGO, V. M.; HUYCK, C. R.A Stemming Algorithm for The Portuguese Language. In: Proceedings of the SPIRE Conference. Laguna de San Raphael, 2001. PANG, Bo; LEE, Lilian; VAITHYANATHAN, Shivakumar. Thumbs up? Sentiment Classification Using Machine Learning Techniques, In Proceedings Of Emnlp, 2002. PIAZZA, Marcelo C. Bem-vindo à Bolsa de Valores. 7. ed. Revista e ampliada. Editora Novo Conceito, 2007. PINTO, André Moreira. Mineração De Textos E Gestão Do Conhecimento: Aplicação Na Experiência Operacional Em Geração De Energia Nuclear Nas Usinas De Angra I E Ii. Pós-Graduação (Ciência da Informação da UFMG) – Belo Horizonte, 2007. REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. Barueri: Editora Manole, 2003. 525 p. RICH, Elaine; KNIGTH Kevin. Inteligência Artificial. 2. ed. São Paulo: Editora. McGraw-Hill Ltda. 1993. RSS ADVISORY BOARD, Really simple syndication specifications, tutorial and discussion. RSS 2.0 Specification. Disponível em: < http://www.rssboard.org/rss-specification>, acessado 20 de outubro de 2012. SAMPAIO, Cleuton. Web 2.0 e mashups: reinventando a internet. 1. ed. São Paulo: Brasport, 2007.GD
88
SANVICENTE, Antônio Zoratto; FILHO, Armando Mellagi. Mercado de Capitais e Estratégias de Investimento. São Paulo: Editora Atlas SA, 1988. SMARRITO, Marcelo. Desmistificando a Bolsa de Valores – Quem disse que ela não é para você? 3. ed. São Paulo: Elsevier, 2007. SONG, Min; WU, Yi-fang Brook. Handbook of Research on Text and Web Mining Technologies, 2009. SULLIVAN, Dan. Document Warehousing and Text Mining: techniques for improving business operations, marketing and sales. New York, Wiley, 2001.
TICOM, Antônio Alexandre Mello. Aplicação de mineração de textos e sistemas
especialistas na liquidação de processos trabalhistas. Dissertação de Mestrado
(Engenharia Civil) - COPPE/UFRJ, 2007.