MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES

CURSO DE CIÊNCIA DA COMPUTAÇÃO

Osmar Maciel Rehbein

Trabalho de Conclusão II

MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES

Santa Cruz do Sul, dezembro de 2012

Osmar Maciel Rehbein

MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES

Trabalho de conclusão apresentado ao Curso de Ciência da computação da Universidade de Santa Cruz do Sul para obtenção do título de Bacharel em Ciência da Computação.

Orientadora: Profª. Drª. Rejane Frozza

Santa Cruz do Sul, dezembro de 2012

RESUMO

Este trabalho apresenta a utilização de técnicas de mineração de texto para

análise de uma carteira de ações, auxiliando investidores na escolha de compra e

venda de ações de empresas de capital aberto. Analisou-se profundamente o

histórico, a estrutura e o funcionamento de uma Bolsa de Valores, observando o que

faz os preços das ações oscilarem. Foram estudadas técnicas de mineração de texto

observando os tipos de abordagem de dados e tomando como foco as três fases da

mineração: Preparação dos dados, Processamento dos dados e Pós-

processamento. Com o estudo desses dois assuntos distintos, objetivou-se a

elaboração de um sistema capaz de coletar informações textuais sobre as empresas

que compõem uma carteira de ações diretamente de notícias publicadas na Internet

e comentários do Twitter, no momento em que elas ocorrem. Os textos coletados

passam por um processamento abstraindo a orientação semântica da notícia,

classificando-a como positiva, neutra ou negativa. A sumarização dessas

classificações irá representar a tendência de subida ou descida do valor das ações

da empresa analisada. O objetivo principal do sistema é disponibilizar um ambiente

simplificado, onde os investidores possam analisar os dados coletados e

processados, observando os gráficos com valores atuais da bolsa e a sua tendência,

auxiliando em uma decisão segura e criando confiança no sistema.

Palavra-Chave: Mineração de texto; Extração de informação; Mercado de

Capitais; Análise de investimento.

ABSTRACT

This paper presents the use of text mining techniques to analyze a stock

portfolio, helping investors in the choice of buying and selling shares of publicly

traded companies. The history, structure and functioning of a stock exchange were

deeply analyzed, noting what makes stock prices fluctuate. We studied text mining

techniques observing the types of data approach and focusing three stages of

mining: data preparation, data processing and post analysis. From the study of these

two different issues, we aimed at the elaboration of a system that can collect textual

information about the companies that comprise a portfolio of shares directly from

news published on the Internet and / or Twitter comments at the moment they occur.

The texts collected will undergo an orientation process abstracting the semantics of

the news, classifying them in positive, neutral or negative. The summarization of

these classifications will represent the trend of increase or decrease of the value of

the shares of the analyzed company. The main objective of the system is to provide a

simplified environment where investors can analyze the data collected and

processed, looking at the graphs with current values of the stock market and tables

that show the current trend, making a good decision and building confidence in the

system.

Key-words: Text Mining, Extraction of Information, Market Capital, Investment

Analysis.

LISTA DE TABELAS

Tabela 1 – Tipos de opções. ..................................................................................... 15

Tabela 2 - Passos de execução do método Portuguese Stemmer ............................ 41

Tabela 3 - Tabela de relacionamento em um thesaurus ........................................... 44

Tabela 4 - Tabela de Stop Words .............................................................................. 58

Tabela 5 - Tabela de Palavras com sua respectiva orientação ................................. 60

Tabela 6 – Tabela de empresas monitoradas ........................................................... 74

Tabela 7 – Número de textos coletadas .................................................................... 75

Tabela 8 – Quantidade palavras Classificadas ......................................................... 75

Tabela 9 – Exemplificação do cálculo PMI ................................................................ 77

Tabela 10 – Resultados obtidos da empresa OGX ................................................... 78

Tabela 11 – Resultados obtidos da empresa Marfrig ................................................ 79

LISTA DE FIGURAS

Figura 1 - Exemplo de página da Mega Bolsa........................................................... 21

Figura 2 - Modelo Genérico das Etapas de Mineração de Textos. ............................ 35

Figura 3 - Passos do algoritmo de radicalização ....................................................... 42

Figura 4 - Tabela de conversão dos termos em atributos ......................................... 44

Figura 5 - Sistema de mineração proposto ............................................................... 51

Figura 6 – Base de um arquivo RSS Feed – Google Notícias .................................. 55

Figura 7 – Endereço dinâmico, passando “PETROBRAS” como parâmetro. ............ 56

Figura 8 – Destaque do texto de uma página coletado através do “Parser HTML”. .. 57

Figura 9 – Diagrama 1 da base de dados utilizada. .................................................. 62

Figura 10 – Diagrama dois da base de dados utilizada. ............................................ 63

Figura 11 – Diagrama três da base de dados utilizada. ............................................ 64

Figura 12 – SMPreview, mostrando os radicais identificados. .................................. 65

Figura 13 – SMPreview, mostrando os radicais com o valor da orientação: -1.95. ... 66

Figura 14 – SMPreview, mostrando a arquitetura e tecnologias envolvidas ............. 67

Figura 15 – SMPreview, interface exibindo os gráficos. ............................................ 67

Figura 16 – SMPreview, interface exibindo os gráficos. ............................................ 68

Figura 17 – SMPreview, Oscilação Bolsa X Oscilação Notícias. ............................... 70

Figura 18 – SMPreview, interface com tabela de textos. .......................................... 70

Figura 19 – SMPreview, interface exibindo o texto coletado. .................................... 71

Figura 20 – SMPreview, interface exibindo o texto processado. ............................... 72

Figura 21 – Gráfico sem deslocamento da orientação (14 acertos). ......................... 80

Figura 22 – Gráfico com 1 dia de deslocamento da orientação (10 acertos). ........... 81

Figura 23 – Gráfico com 2 dia de deslocamento da orientação (9 acertos). ............. 81

LISTA DE ABREVIATURAS

ON Ordinária Nominativa

PN Preferenciais Nominativas

CATS Computer Assisted Trading System

ABO Agência Bovespa de Operações

BOVESPA Bolsa de Valores do Estado de São Paulo

BM&FBOVESPA Bolsa de Valores, Mercadorias e Futuros

CVM Comissão de Valores Mobiliários

IFR Índice de força relativa

MT Mineração de texto

PLN

PMI

Processamento de Linguagem Natural

Pointwise mutual information

RI Recuperação de Informação

VSM Vectorial Space Model

SRI Sistema de Recuperação de Informação

EC Extração de Características

FD Frequência de documentos

API Application programming interface

HTML Hyper Text Markup Language

XML eXtensible Markup Language

SUMÁRIO

RESUMO .......................................................................................................... 3

ABSTRACT ....................................................................................................... 4

LISTA DE TABELAS ......................................................................................... 5

LISTA DE FIGURAS ......................................................................................... 6

LISTA DE ABREVIATURAS ............................................................................. 7

SUMÁRIO ......................................................................................................... 8

1 INTRODUÇÃO ............................................................................................. 11

2 MERCADO DE CAPITAIS ........................................................................... 14

2.1 Ações .................................................................................................... 14

2.1.1 Tipos de ações ................................................................................... 14

2.1.2 Motivos da existência da Bolsa de Valores ........................................ 16

2.2 Bolsa de Valores ................................................................................... 16

2.2.1 Necessidades à Bolsa de Valores ...................................................... 17

2.2.2 Objetivos ............................................................................................ 18

2.2.3 Estrutura organizacional ..................................................................... 18

2.2.3.1 Pregão ............................................................................................. 18

2.2.3.2 Tipos de Negociação ....................................................................... 19

2.2.3.3 Modalidades de Operações ............................................................ 22

2.2.4 Corretoras .......................................................................................... 24

2.2.4.1 Atividades Básicas .......................................................................... 25

2.2.5 Home broker....................................................................................... 26

2.3 Índices ................................................................................................... 27

2.3.1 Índice Ibovespa .................................................................................. 27

2.3.2 Índice de força relativa (IFR) .............................................................. 28

2.3.3 Volume ............................................................................................... 28

2.3.4 Ibovespa futuro................................................................................... 28

2.3.5 IBX – Índice Brasil .............................................................................. 29

2.3.6 Dow Jones ......................................................................................... 29

2.4 Análises ................................................................................................. 29

2.4.1 Oscilação da bolsa ............................................................................. 30

2.4.2 Análise Fundamentalista .................................................................... 30

2.4.3 Análise Técnica .................................................................................. 31

2.4.3 Considerações ................................................................................... 31

3 MINERAÇÃO DE TEXTO ............................................................................ 32

3.1 Tipos de Abordagens dos Dados .......................................................... 33

3.1.1 Análise Semântica .............................................................................. 33

3.1.2 Análise Estatística .............................................................................. 34

3.2 Visão Geral da Mineração de Textos .................................................... 34

3.3 Preparação dos dados .......................................................................... 36

3.3.1 Recuperação de Informação (RI) ....................................................... 36

3.3.1.1 Modelo Booleano ............................................................................ 37

3.3.1.2 Modelo de Espaço Vetorial (VSM – Vectorial Space Model ) .......... 38

3.3.1.3 Recuperação associada à indexação. ............................................. 38

3.3.2 Análise dos dados .............................................................................. 39

3.3.2.1 Stemming (Radicalização) .............................................................. 39

3.3.2.2 Stopwords ....................................................................................... 42

3.3.2.3 Dicionário ou Enciclopédia (thesaurus) ........................................... 43

3.3.2.3.1 Termos Compostos ...................................................................... 43

3.3.2.3.2 Relacionamento entre termos ...................................................... 43

3.3.3 Transformação dos dados em tabelas ............................................... 44

3.4 Processamento dos dados .................................................................... 45

3.4.1 Indexação ........................................................................................... 45

3.4.2 Extração de Características (EC) ....................................................... 46

3.4.3 Sumarização ...................................................................................... 47

3.5 Pós-Processamento .............................................................................. 47

3.6 Mineração de opinião ............................................................................ 48

3.7 Trabalhos Relacionados ........................................................................ 49

3.8 Considerações ...................................................................................... 50

4 MINERAÇÃO DE TEXTO APLICADA À ANÁLISE DE CARTEIRA DE

AÇÕES ...................................................................................................................... 51

4.1 Metodologia ........................................................................................... 51

4.2 Aspectos de implementação ................................................................. 53

4.3 Desenvolvimento do sistema ................................................................ 54

4.3.1 Fonte de dados .................................................................................. 54

4.3.2 Coletando os Dicionários (Thesaurus) ............................................... 58

4.3.3 Coletando Informações sobre as empresas e cotações ..................... 60

4.3.4 Cálculo da orientação semântica ....................................................... 64

4.3.5 Sistema SMPreview ........................................................................... 66

4.4 Testes e Resultados .............................................................................. 73

4.4.1 Testes ................................................................................................ 74

4.4.2 Resultados ......................................................................................... 77

5 CONCLUSÃO .............................................................................................. 82

REFERÊNCIAS .............................................................................................. 85

11

1 INTRODUÇÃO

Prever o mercado acionário mudaria a história econômica e social, e por esse

motivo, esta área acaba atraindo muito a atenção do meio acadêmico e dos

negócios, levando à seguinte questão: Será possível criar algum algoritmo ou

alguma fórmula para prever o período de aplicar seu dinheiro em alguma ação

específica e o momento de vendê-la visando os melhores lucros?

“Toda a informação relevante está contida no preço”, afirma Matsura (2006),

falando da influência da informação no preço das ações. Essa citação será a base

do trabalho, coletando informação e aplicando a análise da tendência. Em todas as

ordens de compra e venda de ações da bolsa existe o envolvimento de pessoas,

com expectativas e motivações singulares influenciando na decisão. Somando cada

investidor, tem-se uma quantidade enorme de pessoas apostando e isso acaba

sendo a soma das decisões do todo, resultando padrões comportamentais, como

ganância e medo, euforia e pânico. Os padrões podem ser detectados, a fim de

sugerir situações mais previsíveis do mercado de ações. Segundo um estudo

realizado por Charles Dow (co-fundador da Dow Jones & Company), no século XX,

através do estudo dos índices, foi identificado que o mercado segue tendências

existindo uma lógica nas oscilações (MATSURA, 2006), (SANVICENTE e FILHO,

1988).

A todo o momento, novas páginas contendo textos são disponibilizadas na

internet e, até pouco tempo, essas informações não eram usadas para estabelecer

vantagens competitivas ou mesmo como suporte à tomada de decisões, ou ainda,

como indicador de sucesso ou fracasso. Com a chegada da mineração de textos, a

extração de informação em textos tornou-se possível e necessária diante da grande

quantidade de informações despejada no mundo virtual (REZENDE, 2003).

12

Quando os preços de uma empresa dão um salto pode ser em resposta a

uma notícia de algum pronunciamento público sobre as possibilidades futuras da

empresa. Como, por exemplo, quando uma empresa do ramo farmacêutico declara

que acaba de descobrir uma droga para a cura de resfriado comum, tão logo os

preços subirão baseando-se na recente boa notícia. Nesses casos, diz-se que o

mercado está reagindo à informação. Os investidores e ou analistas estão atentos

aos fatores fundamentais que influenciam no valor da ação e, quando esses fatores

mudam, logicamente muda o valor da ação. Caso essa mudança de valor não

ocorra, pressupõe-se que a informação da notícia já estava contida no preço da

ação, a chamada hipótese do mercado eficiente (BODIE e MERTON, 2001).

A mineração de texto se encaixa perfeitamente na análise de notícias

publicadas na internet já que ela é a descoberta e extração do que é interessante, o

conhecimento não trivial de texto livre ou não estruturado. Este engloba, desde a

recuperação da informação (recuperação em documento ou recuperação em site)

para categorização de texto ou agrupamento de texto (KAO e POTEET, 2007).

Com o aumento de despejo de informações na Web e o surgimento de

ferramentas de trocas de mensagem como o Twitter, criam-se oportunidades do

desenvolvimento de sistemas com soluções automáticas para ajudar os usuários.

Utilizar essas informações de forma a obter vantagens é a motivação principal deste

trabalho.

A escolha das ações a serem investidas é uma decisão complicada para

quem quer investir na bolsa, pois envolve muitas variáveis que implicam na mudança

dos preços, o que acaba sendo de difícil previsão para um investidor comum ou

iniciante. Como exemplo, a instabilidade política é um fator sistemático que

influencia negativamente os preços das ações (CAVALCANTE, 2005). Uma análise

dos fundamentos do valor de um ativo será interessante e essencial nesse trabalho,

já que essa análise fundamentalista consiste em uma conversão de todas as

informações que determinam o valor de uma ação (SANVICENTE e FILHO, 1988).

13

A mineração de texto é um conjunto de técnicas e processos que descobrem

conhecimento inovador nos textos, estão aplicadas em diversas áreas como

genética, marketing e o mundo dos negócios (REZENDE, 2003).

Como a informação textual está na Web e em sistemas de informação local

como as intranets, a mineração de texto é cada vez mais importante decorrente de

vantagens competitivas. Um fator crítico para aplicações de mineração de texto bem

sucedido é a capacidade de encontrar termos significativos para descobrir padrões

interessantes ou relacionamentos (SONG e WU, 2009).

Desta forma, a mineração de texto é uma área nova e interessante, que utiliza

integração de técnicas e métodos de mineração de dados, aprendizagem de

máquina, processamento de linguagem natural, recuperação de informação e gestão

do conhecimento.

O objetivo deste trabalho é apresentar uma metodologia utilizando mineração

de texto para análise fundamentalista de carteira de ações, possibilitando ao

investidor uma melhora na escolha de sua decisão de compra e venda de um ativo,

a fim de maximizar seus lucros.

O presente trabalho está organizado da seguinte forma: Segundo capítulo

apresenta-se um estudo detalhado sobre a Bolsa de Valores, abordando o histórico,

a estrutura e o funcionamento, observando o que faz os preços das ações oscilarem

e as possíveis análises: técnica e fundamentalista. No terceiro capítulo ressaltam-se

os tipos de abordagem de dados, descrevem-se os conceitos e as bases teóricas

sobre Mineração de texto, detalhando as três fases que a compõe: Preparação dos

dados, Processamento dos dados e Pós-processamento. Além disso, buscou-se

uma técnica de pós-processamento (Mineração de Opinião) dentro da mineração de

texto como aquisição do conhecimento dos textos minerados. Ainda no terceiro

capítulo destacam-se os trabalhos estudados e relacionados no escopo do presente

trabalho, dando uma visão geral de cada um. No quarto capítulo são descritas a

metodologia utilizada, a arquitetura proposta e os resultados do desenvolvimento do

presente trabalho. Por fim, apresenta-se a conclusão.

14

2 MERCADO DE CAPITAIS

O mercado de capitais é um ambiente em que se pode negociar o capital das

empresas. Nesse mercado, pode-se negociar tanto as ações como seus derivativos,

que são títulos derivados de ações, como, por exemplo, opção de compra e venda e

contrato futuro (DEBASTIANI, 2011).

Os principais títulos negociados nesse mercado são os representativos do

capital de empresas que são as ações ou de empréstimos tomados por essas

empresas, via mercado, servindo para custear o desenvolvimento econômico.

Assim, a empresa não fica presa a sua geração de lucros, mas também aos

investimentos de seus novos investidores (CAVALCANTE, MISUMI E RUDGE,

2009).

2.1 Ações

Uma ação é a menor parcela do capital social de uma empresa, podendo a

empresa ser sociedade anônima, sociedade por ações ou uma companhia. Quem

possui ações dessas empresas detém o direito na participação dos lucros em

quantia proporcional à quantidade de ações em seu poder. Uma ação não tem prazo

para ser resgatada e pode ser negociada em mercados organizados como as bolsas

de valores. Sendo uma ação negociada diariamente, esta tem um alto nível de

oscilação no preço. Os preços das ações podem aumentar se o interesse de compra

aumentar, ou diminuir caso o contrário (CAVALCANTE, MISUMI E RUDGE, 2009).

2.1.1 Tipos de ações

Os códigos, apresentados na tabela1, complementam a identificação de uma

ação para os investidores.

15

Tabela 1 – Tipos de opções.

O =

Ordinárias

Ações com direito a voto.

P =

Preferenciais

Ações com preferências na distribuição dos resultados.

N =

Nominais

Presume-se a propriedade para aquele que constar no Livro

Registro das Ações Nominativas; transferência é feita mediante

registro no Livro de transferências das Ações Nominativas.

E =

Escriturais

Dispensam a emissão de títulos de propriedade. Circulam e se

transferem mediante extrato dos bancos depositários.

Fonte: CAVALCANTE, MISUMI E RUDGE, 2009.

No Brasil, as empresas podem ser encontradas em dois tipos de ações à

venda na bolsa de valores:

Ações ON (Ordinárias Nominativas): são ações que dão direito de voto aos

seus proprietários nas assembleias de acionistas, ou seja, permitindo ao que tem

posse das ações, que possa opinar sobre o rumo dos negócios da empresa. A

opinião será equivalente à quantidade de ações da empresa em sua posse.

(DEBASTIANI, 2011) e (CERBASI, 2009).

Ações PN (Preferenciais Nominativas): ao contrário das ações ordinárias, são

ações que não dão direito de voto nas assembleias de acionistas aos donos dessas

ações, mas dão prioridade (preferenciais) nos pagamentos de proventos de

dividendos e juros. Os donos das ações PN ganham mais lucros por ação em

relação aos que apenas possuem ações do tipo ON (DEBASTIANI, 2011) e

(CERBASI, 2009).

Existem diferenças de preço entre ações PN e ON, isso se refletindo a

preferência dos investidores às ações PN por elas pagarem proventos.

16

2.1.2 Motivos da existência da Bolsa de Valores

Se a empresa precisa de capital para aplicar no crescimento e na

modernização a médio e longo prazo, correr para empréstimos bancários não seria

uma boa solução, já que os juros cobrados por esses bancos são muito elevados,

tornando-se uma solução de alto custo (PIAZZA, 2007).

Lançar uma empresa na Bolsa de Valores é uma boa estratégia e alternativa

para arrecadar fartos fundos e é a maneira pela qual a empresa fica livre dos altos

juros dos bancos e financeiras. O comprador dessas ações se torna um pequeno

novo sócio da empresa, já que está investindo dinheiro próprio em sua estruturação.

Conforme a empresa de capital aberto vai dando lucro, este acaba sendo repassado

para o investidor proporcionalmente à porcentagem das ações sobre a empresa.

Nesse processo, por um lado às empresas ganham, pois elas se expandem,

conquistam novos mercados e aumentam seu faturamento e, por outro lado, os

acionistas lucram com a empresa.

2.2 Bolsa de Valores

Não existe uma definição clara sobre o surgimento da bolsa. O que se sabe é

que a origem é bastante remota, sendo que alguns escritores relatam que a origem

são os emporium dos gregos e outros nos collegium mercatorum dos romanos

(OLIVEIRA, SOARES E LOPES, 1986).

A Bolsa de Valores surgiu naturalmente com o agrupamento de oferta e

compra de produtos com valores comerciais. Já para o nome “bolsa” no sentido

comercial e financeiro existe uma hipótese que tenha vindo do nome de um senhor

nobre “Van der Burse” da cidade flamenca de Bruges, que em seu escudo de armas

estampado no alto da casa apresentava três bolsas desenhadas. A palavra “burse”

ficou conhecida a partir daquela época (século XIII) como reunião e local onde uma

reunião acontece, pois nessa casa realizavam-se assembleias de comerciantes

(BARRETO FILHO, 1959), (OLIVEIRA, SOARES E LOPES, 1986).

17

Outra hipótese é a origem a partir de uma tradição em Firenze, cidade da

Itália, onde se escolhia um líder colocando os votos em um saco “borsa dei cittadini"

(MENDONÇA, 1961).

A primeira Bolsa de Londres que se tornou a mais importante do mundo no

século 16 foi baseada na bolsa de Antuérpia de 1531. No Brasil, as bolsas de

valores foram criadas no século 19, já com o trabalho de corretoras e controladas

pelo Estado (EIZIRIK, 1987).

A Bolsa de Valores do Rio de Janeiro teve sua origem em 1848 com a criação

da Junta dos Corretores de Fundos Públicos da Corte. A bolsa de Fundos Públicos

de São Paulo e de Santos foi criado em 24 de dezembro de 1896 (MENDONÇA,

1961).

Foi a partir das reformas que institucionalizaram o sistema financeiro nacional,

iniciadas em 1964, que as Bolsas de Valores assumiram as características que hoje

possuem (OLIVEIRA, SOARES E LOPES, 1986).

Na evolução, as bolsas sempre foram comerciantes ou associações de

corretores, tendo como função a negociação de mercadorias e títulos.

2.2.1 Necessidades à Bolsa de Valores

O motivo ao surgimento do mercado de capitais se deu pela necessidade de

gerir negociações de sociedade, pois os que investiam nas empresas em certa altura

não tinham mais a mesma opinião sobre esta empresa que possuíam, ou viam

possibilidades melhores em outras empresas, ou até mesmo precisavam do dinheiro

investido (DEBASTIANI, 2011).

Ao decidirem que não queriam mais possuir uma fração de uma empresa

específica, decidindo abandonar a sociedade, os investidores não podiam

simplesmente entregar essa fração e pedir o dinheiro de volta para a empresa. Para

18

tanto, necessitavam encontrar outro sócio ou investidor que estivesse interessado

em aumentar a sociedade na empresa e vender a sua parte correspondente ao novo

investidor. Torna-se complicado fazer transações de mercado dessa forma. Com

essas negociações é que surgiu o mercado de ações e as bolsas de valores

suprindo necessidades de compra e venda de ações.

2.2.2 Objetivos

É de competência da Bolsa de Valores garantir aos investidores a

manutenção das seguintes atividades (MELLAGI FILHO, 1998):

Manter um local adequado para que os investidores possam negociar

seus títulos e valores imobiliários, fornecendo a eles toda a estrutura

administrativa para que as transações de compra e venda possam se

realizar.

Fiscalizar o cumprimento das normas e disposições legais que regem o

mercado de ações.

Toda a atividade da bolsa é monitorada pela Comissão de Valores

Imobiliários, tendo como objetivo principal o bom funcionamento do

mercado de capitais, além de zelar pela lisura das negociações com

ações e disseminar as informações mais relevantes a maior parte dos

investidores que for possível.

2.2.3 Estrutura organizacional

Nesta seção será abordado o que uma Bolsa de Valores deve suportar,

citando desde a sua estrutura física até os tipos de serviços que ela deve suportar.

2.2.3.1 Pregão

Como já foi citado anteriormente, a principal função da Bolsa de Valores é

garantir um local adequado, onde acontecem as negociações de compra e venda de

ações. Este local é conhecido como Pregão (MELLAGI FILHO, 1998).

19

Seria o lugar físico e/ou virtual em que as negociações de ações são

concretizadas por vendedores e compradores fechando a ação em um determinado

preço. Neste local, é que todos os investidores ficam sabendo ao mesmo instante

das informações que podem influenciar o preço da ação.

A preocupação principal do pregão é referente à partilha das informações.

Essa preocupação é para não favorecer pessoas que estão mais bem informadas

em relação às menos informadas, não levando vantagem sobre as negociações.

Pode-se destacar que esse cuidado faz com que a manipulação diminua

consideravelmente e também que a formação de preço nesse mercado é definida

pela lei da oferta e da procura.

2.2.3.2 Tipos de Negociação

Nesta seção, serão citadas as três formas existentes para realizar um

negócio, ou seja, a maneira como um investidor pode interagir na Bolsa de Valores:

Viva – Voz: É o pregão que sempre deu charme para as bolsas e que deu

para as pessoas (público) uma imagem de que investir na Bolsa de Valores era uma

louca jogatina. Mas segundo SMARRITO (2007), essa prática teve fim em 30 de

setembro de 2005 quando foi tocada a última vez a campainha que todo dia indicava

o início e o fim do pregão viva-voz. Já naquela época as operações desse tipo

correspondiam a menos de 0,2% de todas as operações da bolsa.

A Bovespa, por exemplo, já teve mais de 1000 operadores comprando e

vendendo ações através do “viva-voz” e quando este sistema foi aposentado, os

operadores que atuavam ao vivo não passavam de 40. Dessa forma, foi introduzido

um sistema com negociações totalmente centralizadas, denominado de Mega Bolsa

eliminando o pregão viva-voz (SMARRITO, 2007).

Pregão Eletrônico – Mega Bolsa: Teve início em 1990 pelo CATS

(Computer Assisted Trading System) que trabalhava paralelamente ao pregão viva

20

voz desde 1997. O Mega Bolsa foi implantado e é utilizado pela Bolsa de Valores de

São Paulo, consolidando a bolsa como um centro de referência de negócios de

mercado em toda a América Latina (DESCHATRE, 2009).

A Mega Bolsa gerencia as negociações realizadas pelas intermediárias

atuantes na Bovespa, no pregão de viva-voz e através dos terminais remotos,

operados diretamente de seus escritórios (CAVALCANTE, MISUMI E RUDGE,

2009).

Nesse sistema eletrônico, todas as ofertas de compra e venda são feitas por

terminais de um computador. A efetivação do negócio é feita automaticamente pelos

computadores da Bovespa.

A Mega Bolsa foi planejada para atender o aumento do mercado acionário

brasileiro e as exigências da globalização. Sistemas como a Mega Bolsa são usadas

pelas maiores bolsas do mundo controlando em torno de 60% de negociações

mundiais.

Todas as negociações hoje são realizadas na Mega Bolsa. A realização de

negociações de compra e venda não pode ocorrer diretamente por um cliente, uma

vez que este deve estar cadastrado em uma corretora credenciada (DESCHATRE,

2009). Na figura 1, pode-se observar a página da Mega Bolsa, trazendo cotações

em tempo real das empresas de mercado aberto, sendo possível efetivar

negociações das ações.

21

Figura 1 - Exemplo de página da Mega Bolsa

Fonte: DESCHATRE, 2009

After-Market: É a sessão noturna de negociação eletrônica depois que o

pregão principal fecha (SMARRITO, 2007). Para ampliar o acesso, a Bovespa criou

o After-Market. Com isso, ela conseguiu aumentar o horário das negociações do

pregão eletrônico, que passou a funcionar após das 18 horas até 22 horas com a

finalidade de atender o Home Broker (CAVALCANTE, MISUMI E RUDGE, 2009).

Para garantir o fluxo das informações e a segurança das informações, foram

adotadas as seguintes regras:

As ações são negociadas pelo sistema Mega Bolsa.

Só podem ser negociadas ações no mercado à vista.

Somente ações com base de preço estabelecido no horário regular de

negociação (pregão diurno) no período After-Market (princípio de

liquidez).

22

O limite de ordens é de R$ 100.000 por investidor.

Pode variar apenas 2% o preço das ordens de compra comparado ao

valor de fechamento das ações no horário de mercado aberto.

De 15 em 15 minutos é controlado o limite operacional de cada

corretora.

As transações realizadas no After-Market são agrupadas em dois segmentos

para controlar o limite máximo de quantidade de negócio. Isso é informado

diariamente pela Bovespa, indicando as ações autorizadas em cada grupo sendo

feito através da ABO – Agência Bovespa de Operações.

Os papeis mais líquidos tem um limite de quantidade por negócio fixado como

um percentual da média diária registrada nos últimos 30 pregões. Os demais têm um

limite de quantidade por negócio determinado em 50%. Os índices da Bovespa são

calculados com base nos índices de fechamento do dia anterior.

2.2.3.3 Modalidades de Operações

A Bolsa de Valores, Mercadorias e Futuros (BM&FBOVESPA) nasceu em

maio de 2008 com a junção da Bolsa de Mercadorias & Futuros e da Bovespa

Holding, com essa junção se tornaram uma das maiores bolsas do mundo em valor

de mercado oferecendo negociação de ações, contratos futuros, de opções, a termo

e de swaps referenciados em índices, taxas de juro e câmbio, e commodities

agropecuárias e de energia, além de operações no mercado à vista, como ouro,

dólar pronto e títulos públicos federais (BOVESPA, 2011).

As negociações podem acontecer de diversas maneiras na Bolsa de Valores:

À Vista: Nesta modalidade, tem-se a compra e a venda de lotes

padronizados de ações (lotes de unidade, 100, 1000, 10000 e 100000 ações)

executadas a um preço estabelecido em um determinado instante da sessão de

pregão ou através de um sistema eletrônico de pregão.

23

Quando uma negociação acontece em seu segundo dia a corretora do

vendedor entrega as ações (Liquidação Física) e no terceiro dia a corretora do

comprador paga o valor e recebe as ações.

Quando uma negociação tende a não acontecer, no terceiro e quarto dia em

que a entrega está atrasada, paga-se uma multa. No quinto dia a bolsa autoriza a

corretora do comprador a recomprar a ação. Do quinto ao sétimo dia é o prazo para

a corretora do comprador recomprar as ações em pregão com o valor debitado à

corretora do vendedor. No oitavo dia é o prazo final para a corretora que compra as

ações confirmar a execução da recompra. E no nono dia, se não tiver sido feito a

compra, reverte-se a operação (CAVALCANTE, MISUMI E RUDGE, 2009).

Segundo BOVESPA (2011), a liquidação física (entrega de títulos vendidos)

se processa no 3º dia útil após a realização do negócio na Bolsa e a liquidação

financeira (pagamento e recebimento do valor da operação). Também se dá no

terceiro dia útil posterior à negociação, e somente mediante a efetiva liquidação

física.

À Termo: O preço de compra ou venda da ação é fixado com a data de

liquidação variada. Por exemplo, entre dois investidores, eles negociam o preço da

ação e o prazo limite de quando vão trocar efetivamente o dinheiro pelas ações

resultando um contrato. Essa liquidação tende a acontecer entre 30 e 180 dias

segundo (CAVALCANTE, MISUMI E RUDGE, 2009), sendo sempre dias múltiplos

de 30; já BOVESPA (2011), diz que operações com prazos de liquidação diferidos

ocorrem entre 16 e 999 dias corridos.

Para fazer negociações no mercado a termo, deve haver registro na

BM&FBOVESPA. Além disso, o comprador e vendedor devem ter

independentemente um limite mínimo para transação e depósito de valores na

BM&FBOVESPA. Esse limite é utilizado como margem de garantia da operação a

qual podem ser liquidada antes do vencimento.

24

Operação a prazo: O mercado a prazo é um mecanismo de crédito operado

pelos clientes e suas corretoras. Isso é na verdade uma operação extra bolsa, já que

é a corretora que empresta dinheiro ao cliente para que ele possa comprar ações ou

emprestar ações para serem vendidas. Essas ações ou dinheiro que são usadas

nessas operações podem ser da própria corretora como podem ser de outros

clientes da corretora ou de bancos. Como garantia o cliente que pega o empréstimo

deve ter depositado na corretora 140% do valor do financiamento.

Opções: Nesse mercado não existe negociação de ações, mas os direitos

sobre compra e venda. Existe a opção, o direito de uma parte comprar ou vender a

outra parte, até determinada data.

2.2.4 Corretoras

Sua origem se deu na antiguidade em que cada cidade ou estado possuía

uma moeda, sendo que trabalhavam como cambistas trocando as moedas entre as

cidades/estados. Como existiam viajantes e a vida deles era complexa, já que

existiam tantos tipos de moeda, os mesmos procuravam os cambistas para efetuar

as trocas. Os cambistas por sua vez tiravam uma pequena margem de lucro através

dessa troca (CAVALCANTE, MISUMI E RUDGE, 2009).

No Brasil, o corretor de fundos públicos já havia sido reconhecido desde os

tempos de império. Na república, o corretor de pessoa física com caráter ofício

público vitalício era nomeado pelo Presidente da República e referenciado pelo

Ministério da Fazenda tendo que ter condições especiais para exercer o cargo.

Membros da Bolsa de Valores, constituídas por sociedades anônimas ou por

quotas de responsabilidade limitada, as sociedades corretoras como também as

instituições financeiras foram instituídas pela Lei número 4.728 extinguindo a figura

do corretor de fundos públicos (OLIVEIRA, SOARES E LOPES, 1986). Os objetivos

dessas transformações foram diversos:

Terminar a vinculação do corretor ao Estado, em termos de

serventuário.

25

Submetê-lo ao regime da lei comercial.

Permitir uma fiscalização direta das atividades das corretoras

estaduais.

Igualdade de condições legais para todo território de títulos nacional, o

que não acontecia no sistema antigo.

Dessa forma, federalizaram-se as atividades de corretoras, assim como houve

federalização da Bolsa de Valores. Essa ampliação das atividades trouxe uma

compensação financeira às corporações corretoras bem mais vantajosa. As

sociedades estão sujeitas às normas do Conselho Monetário, Banco central e CVM1.

2.2.4.1 Atividades Básicas

Objetivos e atividades das corretoras são (OLIVEIRA, SOARES E LOPES,

1986):

Ter exclusividade para operar a Bolsa de Valores em todas as

Modalidades de Operações citadas nesse trabalho.

Comprar, vender, distribuir títulos e valores mobiliários por conta de

terceiros.

Formar e gerir, como líder ou participante, consórcios para oferta

pública, como também a compra ou revenda de títulos e valores

mobiliários e ainda fazer a distribuição desses títulos no mercado de

capitais.

Administrar as carteiras de valores e da custódia de títulos e valores

mobiliários.

Transferir e autenticar endossos, desdobramentos de cautelas,

recebimento e pagamento de resgates, juros ou dividendos de títulos e

valores mobiliários.

Subscrever títulos e valores mobiliários, prestando serviços técnicos

para estes. Por motivação de terceiros, executar funções de agente

fiduciário.

1 CVM - Comissão de Valores Mobiliários. Em http://www.cvm.gov.br/

26

Operar em contas correntes juntamente com os acionistas, não

movimentáveis por cheques, administrar os recursos de terceiros que

são destinados a operações mobiliárias e financiar a liquidação das

operações realizadas por conta dos seus comitentes.

Realizar o lançamento de títulos e valores imobiliários tanto públicos

como privados.

Administrar fundos mútuos de investimento sob a forma de condomínio

aberto, bem como clube de investimento, com a finalidade de coletar e

aplicar dinheiro em títulos e valores mobiliários.

Administrar fundos de investimento em forma de sociedade anônima

de capital autorizado, para a aplicação em títulos e valores mobiliários.

Intermediar operações de câmbio e negociação das respectivas letras.

Operar em open market2 e overnight3, desde que especificamente

credenciada pelo Banco Central do Brasil. intermediar operações no

mercado de commodities4.

2.2.5 Home broker

Basicamente é um canal de relacionamento entre corretoras e investidores

por meio da internet. Seria como se o corretor estivesse na casa do investidor.

A Bovespa criou esse sistema para baratear os custos para o investidor e a

corretora. Apesar dessa recente tecnologia a maioria das corretoras está aderindo à

nova forma de comunicação. Nesse sistema, as ordens de compra e venda são

emitidas diretamente à Bolsa de Valores via internet, sem a necessidade de um

funcionário da corretora intervir. Dessa forma, mesmo que as aplicações sejam de

pouco valor, a corretora vê interesse já que o custo é baixíssimo. Esse novo sistema

2 Qualquer mercado sem local físico determinado e com livre acesso à negociação

(http://www.cescapi.com/guia/glossario_mercado.htm)

3 Operações realizadas no open market por prazo mínimo de um dia, restritas a instituições

financeiras (http://www.bmfbovespa.com.br/pt-br/a-bmfbovespa/download/merccap.pdf)

4 Mercadorias, no sentido de grandes produtos, produtos primários, como café, algodão,

açúcar, metais não ferrosos, e outros, geralmente transacionado em bolsa

(http://economia.uol.com.br/glossario/index-c.jhtm)

27

está possibilitando que investidores de pequeno e médio porte possam entrar no

mundo das ações, pois, em função do baixo custo, compensa a corretora abrir

mercado para os pequenos investimentos. Antes era restrito a eles porque o custo a

se fazer transações era muito alto não compensando para a corretora os pequenos

investidores O valor mínimo para se investir na bolsa é R$ 100,00. Isso foi

possibilitado através da inserção dos Homebroker (LUQUET, 2008).

2.3 Índices

Segundo PIAZZA (2007), assim como o piloto de avião necessita saber a

direção dos ventos para pilotar tranquilamente, o investidor necessita saber as

condições reais do mercado antes de tomar qualquer iniciativa de compra ou venda.

Uma das formas de fazê-lo é observar os índices e indicadores, atentando para os

mecanismos que servem para sugerir um caminho de subida ou descida da bolsa,

aumentando as chances do investidor acertara aplicação.

Os índices cumprem três objetivos principais (CAVALCANTE, MISUMI E

RUDGE, 2009):

São indicadores de variação de preços do mercado.

Servem de parâmetros para avaliação de performance de portfólios.

São instrumentos de negociação no mercado futuro.

Existem diversos indicadores de mercado, cada um expressando um ângulo

particular e cada investidor tendo preferência por um ou outro, conforme a confiança

sobre o indicador, com a possibilidade de mesclar mais de um índice para reforçar

os resultados.

2.3.1 Índice Ibovespa

É o índice da Bolsa de Valores de São Paulo que nada mais é que uma

carteira imaginária de ações e mede a lucratividade se um investidor possuísse tais

papeis na carteira (LUQUET, 2008) e (PIAZZA, 2007). Esse índice teve início em 2

28

de janeiro de 1968, com o valor definido em 100 pontos e o aumento ou diminuição

desses pontos significa a tendência geral dos preços das ações negociadas na

bolsa.

A carteira fictícia é composta por mais de 50 papeis e cada ação integrante

recebe um peso em pontos que varia conforme a liquidez (grau de facilidade que

uma ação ou imóvel vira dinheiro vivo novamente). De quatro em quatro meses os

papeis da Ibovespa são trocados para melhor representar o mercado de ações, e é

por este motivo que vem sendo usado como indicador. Atualmente vem funcionando

como referência para o mercado financeiro brasileiro.

2.3.2 Índice de força relativa (IFR)

O IFR é usado na análise técnica, acreditando-se que indica quando o

mercado tende a trocar de tendência. Esse índice mede a aceleração dos

movimentos. Utiliza-se uma escala de 0 a 100, e se a escala estiver acima de 80 o

mercado está próximo de um topo e tende a cair. Já quando abaixo de 20 está perto

do fim da queda e tende a subir novamente. Segundo PIAZZA (2007), isso é muito

fácil de observar na prática e que a maioria dos gráficos de ações já vem com esse

índice visível.

2.3.3 Volume

É também um importante indicador de mercado. Se os movimentos do

mercado estiverem em aclive, o volume indica a permanência ou força dessa

tendência. O contrário, ou seja, a diminuição do volume indica que a inversão da

tendência pode estar próxima ao fim.

2.3.4 Ibovespa futuro

Segundo Piazza, (2007) o Ibovespa futuro é um dos índices vistos como mais

confiáveis pelos investidores, pois ele “sente” primeiro os impactos das notícias e

antecipa o que se espera para o mercado à vista.

29

2.3.5 IBX – Índice Brasil

O IBX é um índice de lucratividade que é calculado pela Bovespa. Criado em

28 de dezembro de 1995 e divulgado em 02 de janeiro de 1997 tem seu re-

balanceamento atualizado de quatro em quatro meses.

O critério de entrada na IBX são as ações mais negociadas que é o número

de negócios e o volume financeiro apurados nos 12 meses anteriores à reavaliação.

O índice é calculado conforme a quantidade de ações disponíveis no mercado para

serem negociadas. Outro ponto em que o índice sofre atualização é na distribuição

de proventos, isso não apenas reflite nas variações das cotações, mas na

distribuição dos proventos. O IBX avalia o retorno do total das ações que compõem

uma carteira (CAVALCANTE, MISUMI E RUDGE, 2009).

2.3.6 Dow Jones

Conforme Piazza (2007), Dow Jones é o índice americano e ele representa

para o mundo o que o Ibovespa representa para o Brasil. Uma movimentação

considerável nesse índice também reflete nos índices mundiais. Uma dica é analisar

com frequência esse índice para diminuir os riscos de investimento.

Dow Jones foi iniciado por Charles Henry Dow (1851-1902) e hoje se fala de

uma teoria (teoria Dow) que nunca foi escrita academicamente, mas serviu para

descobrir que as cotações não seguem uma trajetória aleatória, mas obedece a

tendências gerais estabelecidas pelo mercado acionário como um todo (LEITE,

1995).

2.4 Análises

Nesta seção, serão apresentadas as bases para fazer um investimento,

tentando descobrir o que faz um ativo oscilar abordando as técnicas usadas para

30

fazer a análise de nossos investimentos. O que será tratado nessa seção será de

suma importância para o decorrer da evolução desse trabalho.

2.4.1 Oscilação da bolsa

Observando-se afundo o mecanismo de compra e venda de papeis na Bolsa

de Valores, nota-se que o que realmente faz os preços oscilarem (volatilidade) é a

alta ou a baixa da quantidade de compradores e vendedores, respectivamente, ou

seja, se muitas pessoas estiverem interessadas em comprar ações da EMBRAER

(Empresa Brasileira de Aeronáutica S.A.), consequentemente o número de

compradores será maior que os vendedores. Os poucos vendedores, observando

que a procura por seus papeis é alta, acabam só vendendo por preços mais altos e

isso vai alavancando o valor da ação. O contrário também acaba acontecendo,

sendo que se a procura for menor o preço acaba caindo (PIAZZA, 2007).

O movimento citado acima vai sendo observado durante todo um pregão em

que os preços vão oscilando tentando chegar num ponto de equilíbrio. Para tentar

explicar o que faz um investidor aplicar em uma determinada ação, será abordado

dois modelos de análise: fundamentalista e técnico.

2.4.2 Análise Fundamentalista

Para Piazza (2007), este tipo de análise nos diz que os papeis devem ser

analisados conforme os fundamentos da empresa, como por exemplo, a relação

preço/lucro, lucro líquido, grau de endividamento, o patrimônio líquido, o pagamento

de endividamentos, entre outros. Estes fatores são capazes de dar um “diagnóstico”

sobre a “saúde” financeira da empresa. Costumam afetar fortemente os investidores

fundamentalistas as notícias sobre possíveis fusões ou venda da empresa.

A visão para o analista fundamentalista é a que se der para visualizar um

futuro próspero para a empresa, então as ações sobem; caso contrário o papel

tende a desvalorizar.

31

2.4.3 Análise Técnica

É o estudo das oscilações de preços passados para prever o futuro dos

movimentos dos preços. Através das análises gráficas que são tomadas as decisões

de compra e venda das ações. Esse tipo de análise do comportamento de preço e

de volume negociado é bastante utilizado no mercado de ações e futuros sendo que

o analista não se preocupa com os fatores externos, apenas confia na tendência do

mercado demonstrada no gráfico (MELLAGI FILHO, 1998).

2.4.3 Considerações

Como no escopo desse trabalho tem-se a intenção de auxiliar investidores

nas negociações do mercado de capitais, um estudo detalhado sobre este mercado

se torna fundamental para a obtenção de resultados satisfatórios na elaboração do

presente projeto.

Neste capítulo, estudou-se detalhadamente a Bolsa de Valores abordando o

histórico, compreendendo o porquê de sua existência e como as empresas a utilizam

para obter recursos financeiros quando estão com projeções de crescimento, já que

não recorrem a um banco, o que seria uma solução óbvia para muitos. Estudou-se a

estrutura e o funcionamento, observando o que faz os preços das ações oscilarem,

já que essa é a questão essencial para a elaboração da solução proposta através

deste trabalho. Com as análises fundamentalista e técnica, compreendeu-se como

os especialistas de investimento se apoiam para tomar uma decisão de negociação

na Bolsa de Valores. A análise fundamentalista se encaixa perfeitamente no projeto

do presente trabalho, já que as notícias sobre a empresa da carteira de ações

influenciam os preços e isso é observado nessa análise.

32

3 MINERAÇÃO DE TEXTO

Os mais diversos textos que são produzidos por empresas e pessoas são

gravados em meios eletrônicos e muitas dessas informações são disponibilizadas na

internet. Até recentemente essas informações em texto não eram utilizadas para

provocar vantagem sobre concorrentes ou até mesmo auxiliar nas tomadas de

decisão, ou ainda, como indicador de sucesso e fracasso. As mudanças começaram

a aparecer com surgimento e crescimento da Mineração de Texto, já que isso torna

possível a extração de informação em meio ao imenso e crescente mundo dos

textos (REZENDE, 2003).

Considerada uma área da mineração de dados, conforme Feldmann e

Sanger, (2007), comparando a funcionalidade com a mineração de dados, a

mineração de textos também tende a abstrair conhecimento útil utilizando textos

explorando textos e identificando padrões usando de meios computacionais.

Com o crescimento do volume de textos eletrônicos, as técnicas

automatizadas de extração de conhecimento fazem-se necessárias para valorizar

essa imensa quantidade de dados. Como a Mineração de Dados possui técnicas

específicas para dados estruturados, a Mineração de Texto vem propor técnicas

específicas para dados não estruturados.

A mineração de texto refere-se a técnicas e processos que descobrem

conhecimento inovador nos textos. Essas técnicas estão sendo empregadas em

diversas áreas, como por exemplo, para descobrir fatos da genética e na pesquisa

de proteínas e também no mundo de negócios com aplicações não tão pretensiosas,

como a categorização automática de mensagens de correio eletrônico em bancos de

investimento e a extração automática de resumos a partir de documentos

33

pesquisados, realizada por alguns mecanismos de busca na internet (REZENDE

2003).

3.1 Tipos de Abordagens dos Dados

Existem duas formas principais de abordagem de dados, análise semântica

que tem a base na funcionalidade dos termos nos textos, e a análise estatística que

é baseada na frequência. Segundo Rezende (2003) essas abordagens podem ser

usadas sozinhas ou em conjunto parta fins de análise.

3.1.1 Análise Semântica

Possui fundamentos da PLN (Processamento de Linguagem Natural) e

emprega técnicas que avaliam a sequência dos termos no contexto da frase, para a

correta identificação da função de cada termo permitindo compreensão da

linguagem natural. A utilização dessa análise se dá pela melhora da qualidade de

Mineração de texto. Dentro das técnicas de PLN, podem ser destacadas (RICH,

KNIGTH, 1993):

Análise Morfológica: Palavras isoladas são analisadas em termos de

seus componentes, e os sinais, como a pontuação, é separada das

palavras.

Análise Sintática: Sequências lineares de palavras são transformadas

em estruturas que mostram como as palavras estão relacionadas entre

si. Algumas sequências de palavras podem ser rejeitadas se violarem

as regras da linguagem sobre como as palavras podem ser

combinadas. Por exemplo, o analisador sintático do português rejeitaria

a frase: “Menino o vai loja à”.

Análise Semântica: As estruturas criadas pelo analisador sintático

recebem significado. Em outras palavras, um mapeamento é feito entre

as estruturas sintáticas e os objetos no domínio da tarefa. As estruturas

para as quais não seja possível um mapeamento podem ser rejeitadas.

Por exemplo, na maioria dos universos, a frase “Ideias verdes sem cor

34

dormem furiosamente” seria rejeitada considerada semanticamente

anômala.

Integração de discurso: O significado de uma frase isolada pode

depender das frases que a antecedem e pode influenciar os

significados das frases que vêm depois dela. Por exemplo, a palavra

“aquilo” na frase “João queria aquilo” depende do contexto do discurso

anterior, enquanto a palavra “João” pode influenciar o significado de

frases posteriores (como: “Ele sempre quis”).

Análise Pragmática: A estrutura que representa o que foi dito é

reinterpretada para determinar o que realmente se quis dizer. Por

exemplo, a frase “Você sabe que horas são?” deve ser interpretada

como uma solicitação para que sejam informadas as horas.

3.1.2 Análise Estatística

A frequência dos termos é considerada nessa análise, sendo que com

o uso dessa técnica fica-se livre do idioma, ou seja, tem como princípio a verificação

da ocorrência do termo no texto, onde, o grau de significância do termo analisado é

calculado com base apenas na contagem dentro do documento, o que possibilita a

análise independentemente do idioma (REZENDE, 2003).

3.2 Visão Geral da Mineração de Textos

Nesta seção, apresenta-se o processo de mineração de texto dando uma

visão geral sobre o assunto, com objetivo de facilitar e orientar na compreensão do

processo. Não haverá aprofundando em cada tarefa, sendo que isso será feito na

seção 3.3 deste trabalho.

Existem diversas formas para se realizar mineração de texto, mas

basicamente essas formas seguem etapas comuns. Para SULLIVAN, (2001) e

REZENDE, (2003) as etapas para promover mineração de texto abrangem

atividades de pré-processamento de dados, processamento de dados e então a

análise dos resultados.

35

Figura 2 - Modelo Genérico das Etapas de Mineração de Textos.

Fonte: SULLIVAN, 2001

Observando-se a figura 2, é possível compreender todo o procedimento.

Começando com disponibilização de documentos nos mais diversos meios

eletrônicos.

Para REZENDE (2003), o processo de preparação dos dados, que é o pré-

processamento, envolve três tarefas. Primeiramente, acontece RI (Recuperação de

Informação), após, Análise dos Dados e por fim Transformação dos Dados.

Na fase de pré-processamento a recuperação de informação é a primeira

tarefa a ser executada, já que filtram inicialmente as coleções de documentos que

vão ser utilizados na mineração através de técnicas como o modelo booleano e do

espaço vetorial e probabilístico, que serão detalhados na seção 3.3.1.

Na próxima etapa, acontece a análise dos dados com a finalidade de facilitar

o reconhecimento de similaridades das palavras. Sendo assim, dentro dessa etapa

pode-se reconhecer e eliminar as stopwords (palavras não necessárias ou com

pouca relevância para serem analisadas nos textos). Nesse conjunto, pode-se

encontrar as preposições, pronomes, artigos, entre outros. Outro processo que pode

acontecer nessa etapa é o de stemming (identificação da raiz de palavras) com o

objetivo de realizar posteriormente análise semântica. É possível a utilização de um

thesaurus (enciclopédia) como um vocabulário controlado que representa

36

sinônimos, hierarquias e relacionamentos associativos entre termos para ajudar a

descobrir conhecimento.

Na etapa de processamento dos dados, são realizadas as tarefas de

descoberta de conhecimento. A última etapa da mineração de textos é o pós-

processamento ou avaliação de resultados, que pode ser feita com base em

métricas, processos de visualização e análise qualitativa dos resultados por

especialistas (PINTO, 2007).

3.3 Preparação dos dados

Esta etapa, além de reduzir o tamanho dimensional dos dados, tem a função

de identificar similaridades a partir da morfologia ou dos significados dos termos. A

primeira etapa para descobrir conhecimento em textos é a preparação dos textos.

Neste processo serão selecionados os textos que satisfazem e interessam. É o

trabalho inicial para tentar escolher o núcleo que melhor expressa o conteúdo dos

textos. Pode-se descartar nesta etapa o conteúdo que não se considera importante

(REZENDE, 2003).

3.3.1 Recuperação de Informação (RI)

Essa área desenvolveu modelos para representar grandes coleções de textos

que são identificados através de tópicos específicos. Sendo que RI é o primeiro

passo para executar uma mineração de texto se tornando um grande filtro sobre um

conjunto de documentos, se tornando bastante útil, pois traz apenas os resultados

de uma consulta específica (REZENDE, 2003).

Existem dois modelos principais de recuperação que possuem estratégias de

busca de documentos importantes para efetuar uma consulta (query): booleano e

vetorial, sendo que, dentro de cada um existem características próprias com o

objetivo de melhorar o desempenho e o alcance de seus objetivos.

37

Os textos que formam a coleção que vai ser pesquisada, bem como a

consulta que foi feita pelo usuário, são representados pelos seus termos. Sendo

assim, cada documento é representado por um conjunto de palavras-chave,

denominadas de termo de indexação e não são todos os termos que representam

um documento em seu conteúdo. Os termos que têm menor frequência podem

identificar conjuntos mais restritos. Os pesos associados a um índice é que dão a

importância a ele. Considerando que ki é um índice e dj é um documento, wij é o

peso associado a (ki,dj) que soma a quantidade de relevância do índice na descrição

do conteúdo do documento, conforme especificado por BAEZA-YATES E RIBEIRO-

NETO (1999).

3.3.1.1 Modelo Booleano

Nesse modelo define-se uma consulta como uma expressão booleana, ou

seja, a recuperação de um documento é representada por um conjunto de termo

índice formando uma query, os termos são ligados através dos operadores lógicos

de Boole (OU, E, NÃO). Considera-se um documento como relevante

correspondendo à consulta ou não correspondendo a uma consulta, não podendo

ocorrer resultado parcial e, também, não existe ordenação nos resultados das

consultas (PINTO, 2007).

Problemas comuns a esse modelo são citados por BAEZA-YATES E

RIBEIRO-NETO (1999):

Formulação de uma query adequada, isto é, construir uma query

selecionando os termos se o domínio não é bem conhecido.

O tamanho da saída não pode ser controlado. O resultado pode conter

milhares de itens bem como nenhum. Além disso, não se sabe o que

foi deixado de fora da query, pois não existe o conceito comparação

parcial.

Não é possível ordenar os resultados da busca, pois não existe grau de

comparação.

38

Segundo PINTO (2007) é possível obter resultados melhores com esse

modelo utilizando conjuntos difusos, atribuindo pesos aos termos, dividindo a

consulta em classes e conceitos, trabalhando com proximidades dos termos entre si

no documento e identificando mais precisamente que termos são melhores para

definir uma consulta.

3.3.1.2 Modelo de Espaço Vetorial (VSM – Vectorial Space Model)

Segundo REZENDE (2003), tal modelo surgiu em função de resolver

problemas de representação de documentos utilizando representação geométrica.

Também utilizado para retornar documentos que irão satisfazer algum critério. Já

para SALTON E MCGILL (1983), foi criado em função da utilização em um modelo

de SRI (Sistema de Recuperação de Informação) chamado de SMART.

Nesse modelo o documento tem sua representação por um vetor de termos,

sendo que o termo está associado a um valor, significando o quanto aquele termo é

importante para o documento. O termo também pode estar associado à quantidade

de vezes que se repete no documento. Cada vetor representando um documento

está disposto como um ponto em um espaço euclidiano “termo dimensional” sendo

que cada palavra representa uma dimensão (REZENDE, 2003), (PINTO, 2007).

A similaridade entre dois documentos é definida como a distância entre os

documentos representados como pontos no espaço euclidiano ou como o ângulo

entre os vetores. Documentos semelhantes tendem a se agrupar no modelo

proposto (REZENDE, 2003).

3.3.1.3 Recuperação associada à indexação

A maioria das ferramentas de RI utiliza técnicas de indexação, tendo a

capacidade de retornar textos mapeados com alta eficiência em meios a uma base

de textos. Dentro dessas técnicas de RI podem-se citar dois tipos de indexação

(REZENDE, 2003) que serão mais bem abordados na seção 3.4.1:

39

Indexação de texto completo.

Indexação por tags.

3.3.2 Análise dos dados

Técnicas conhecidas em Processamento de Linguagem Natural (PLN), como

normalização de variações linguísticas, é uma ferramenta muito útil e importante

para trabalhar a linguagem natural possibilitando abstrair os termos de um

documento aos termos origens e, com isso, agrupar por similaridade variações

ortográficas das palavras que se não tratadas seriam consideradas diferentes (DIAS,

MALHEIROS, 2005).

Sabendo-se então que uma palavra tem variantes morfológicas, a análise dos

dados vem para facilitar a identificação de palavras similares. Como exemplo disso,

cita-se a variação de um termo que pode possuir sufixos diferentes tratado pela

técnica de stemming. Outro exemplo que é tratado nessa fase são as palavras

sinônimas, sendo que morfologicamente são diferentes, mas o significado é o

mesmo (REZENDE, 2003).

3.3.2.1 Stemming (Radicalização)

Radicalização ou stemming é a técnica de associar as variações de um termo

para uma representação única que é o radical (stem) (ORENGO, 2001). Já DIAS,

MALHEIROS (2005) destacam que não é igual à raiz linguística, mas permite que

sejam tratadas variações diferentes de uma palavra da mesma forma. Por exemplo,

conector e conectores são basicamente iguais, mas sem passarem pelo tratamento

de stemming irão ser tratados como palavras diferentes.

A maioria dos métodos de radicalização é para língua inglesa, mas é possível

encontrar adaptações para o português. DIAS, MALHEIROS (2005) diz que

tradicionalmente se utiliza o radicalizador de Porter5, específico para língua inglesa.

Mas por não apresentar bons resultados para a língua portuguesa, apresenta

5 http://snowball.tartarus.org/algorithms/porter/stemmer.html

40

Portuguese Stemmer de Viviane Orengo e Christian Huyck em (ORENGO, 2011)

como solução do problema. A seguir são apresentadas algumas técnicas com suas

características (REZENDE, 2003):

Lovis: Executa em único passo, removendo o sufixo mais longo

encontrado na palavra dentro do passo. Sensível ao contexto e que

remove a combinação de 250 sufixos diferentes. Vários sufixos, no

entanto, não são contemplados nesse método.

Porter: Consiste na identificação das diferentes inflexões referentes à

mesma palavra e sua substituição por um radical comum. Nesse

método tenta-se dar importância a um termo pela identificação de suas

variações. Termos comuns com o mesmo radical tendem a ter o

significado semelhante. Como exemplo disso, tem-se as palavras

“CONSIDERAR”, “CONSIDERADO”, “CONSIDERAÇÃO”,

“CONSIDERANDO”, em que removendo seus sufixos obtém-se o

radical “CONSIDER”. No algoritmo de Porter remove-se 60 sufixos

diferentes em uma abordagem multifásica, sendo que cada fase

remove sucessivamente sufixos e promove alguma transformação no

radical.

Stemmer S: É um stemming mais simplificado sendo que apenas uns

poucos finais de palavras são removidos: IES, ES, e S (com exceções),

mesmo que esse tipo de radicalização não descobre muitas fusões,

mas certos sistemas o utilizam por ser conservador.

Portuguese Stemmer: Método adaptado à língua portuguesa,

parecido com o método de Porter, que considera as classes

morfológicas dos termos. Observando a figura 3, o método executa os

“passos” da tabela 2 e em ordem de listagem dentro do quadro para a

remoção de sufixos. Cada passo representa um conjunto de regras,

sendo que apenas uma dessas regras é escolhida e usada. A regra

eleita dentro do passo é aquela que mais letras removem do termo. Por

41

exemplo, a remoção do sufixo de plural “ES” deve ser executada antes

do sufixo de plural “S”. Na especificação do método em ORENGO

(2001), são definidas cento e noventa e nove regras, sendo que cada

regra determina qual sufixo deve ser removido, o tamanho mínimo do

radical restante e a expressão que substitui o sufixo eliminado. Além

disso, define-se uma lista de palavras em que as regras não se aplicam

(Exceção). Por exemplo, para “inho”: padrinho, vizinho. Nesse caso,

“inho” não representa sufixo diminutivo.

1 Redução do plural

2 Redução do feminino

3 Redução do advérbio

4 Redução do aumentativo e do diminutivo

5 Redução das formas nominais

6 Redução das terminações verbais

7 Redução da vogal temática

8 Remoção dos acentos

Tabela 2 - Passos de execução do método Portuguese Stemmer

Fonte: ORENGO, 2001

42

Figura 3 - Passos do algoritmo de radicalização

Fonte: ORENGO, 2011

3.3.2.2 Stopwords

São termos encontrados em textos e não possuem informação relevante,

servem apenas para fazer ligação entre os termos importantes. Segundo Dias,

Malheiros (2005), esses termos são compostos pelas seguintes classes gramaticais:

artigos, preposições, conjunções, pronomes e advérbios.

O objetivo principal da remoção de stopwords é eliminar palavras que não têm

importância para o texto, sendo considerada uma técnica de compressão de texto,

pois diminui a quantidade de palavras a serem processadas, bem como reduz a

quantidade de armazenamento na base de dados.

43

3.3.2.3 Dicionário ou Enciclopédia (thesaurus)

É um vocabulário controlado representando sinônimos, hierarquias e

relacionamentos associativos entre palavras que ajudam o usuário a encontrar o que

está procurando.

Esse método vem ao encontro dos problemas referentes à forma como os

usuários montam uma query de busca em índices de linguagem natural, em que

montam a mesma query com palavras ou termos diferentes. Para tanto, um

dicionário ou enciclopédia mapeia para um termo distinto os termos variantes,

podendo ser sinônimos, abreviações, acrônimos e ortografias alternativas. Para

processos de indexação de documentos, o thesaurus informa que termos-índices

devem ser usados reforçando a importância da indexação.

Com esse método, pode-se representar a riqueza dos relacionamentos

associativos e hierárquicos. Os usuários podem expressar a necessidade de

informação a um nível de especificidade mais restrito ou mais amplo que o usado

pelo indexador para descrever os documentos. Os mapeamentos de

relacionamentos hierárquicos endereçam esse problema (REZENDE, 2003).

3.3.2.3.1 Termos Compostos

Existem dicionários que utilizam termos compostos nos casos de palavras que

estão sempre juntas expressando um conceito único. São termos que ao estarem

unidos possuem um significado diferente que cada termo possui quando estão

separados (LOPES, 2004). Como exemplo de termo composto, é a expressão

“cadeira de rodas”.

3.3.2.3.2 Relacionamento entre termos

Observando a tabela 3, dentro de um dicionário é possível encontrar

relacionamento de hierarquia, equivalência e associação.

44

O relacionamento hierárquico, é baseado em graus ou níveis de

superordenarão, representando uma classe ou um todo, sendo denotado como

Termo Amplo e sub-ordenação e referindo-se aos membros ou partes de uma

classe, sendo denotado como termo restrito.

Relacionamento Indicador

Equivalência Sinônimos

Hierarquia Termo Amplo e Restrito

Associação Termo relacionado

Tabela 3 - Tabela de relacionamento em um thesaurus

Fonte: LOPES, 2004

3.3.3 Transformação dos dados em tabelas

Para se utilizar os dados vindos dos textos é comum à distribuição do texto

em tabelas, permitindo a aplicação em diversas técnicas de desenvolvimento para

dados estruturados.

Após a aplicação das técnicas de análise dos dados, tem-se um conjunto de

dados reduzido (bag of words, ou melhor: saco de palavras), formado pelos termos

escolhidos para análise e pode ser convertido em tabelas. Observa-se na figura 4,

há exemplo de tabela onde cada célula expressa à relação termk com o documento

dj. Sendo que a relação de peso (pode ser quantidade de ocorrências do termo no

documento) é dada por ajk

Figura 4 - Tabela de conversão dos termos em atributos

Fonte: LOPES, 2004

45

3.4 Processamento dos dados

Os objetivos do processo já devem ser definidos nessa etapa, sendo que há

muitas tarefas com diferentes finalidades para extrair conhecimentos dos

documentos. Algumas das tarefas de mineração que podem ser executadas são

clustering, categorização, sumarização, indexação temática, entre outras.

(GOLDSCHIMIDT E PASSOS, 2005). A seguir, cada uma dessas técnicas será

abordada.

3.4.1 Indexação

Este método aumenta o desempenho do sistema, sendo o processo que tem

por função organizar os termos, partindo de uma fonte de dados, propiciando o

acesso e recuperação mais eficientemente com estruturação de índices, assim como

funciona o índice de um livro. (CARRILHO JUNIOR, 2007). Dentro da indexação há

(REZENDE, 2003):

Indexação do Texto Completo: Índices gravam a localização dos

termos dentro do texto, permitindo que consultas possam localizar o

documento fazendo buscas booleanas (E, OU, NÃO) e de proximidade

(PRÓXIMO, DENTRO).

Indexação Temática: Nesse modo faz-se necessário o uso de

dicionário onde se encontra um conjunto de termos que define um

vocabulário montado usando relacionamentos. Com isso, permite-se

buscar com eficiência generalizações e especializações de termos

específicos.

Indexação por Tag: São selecionadas algumas partes do texto por

métodos automáticos que irão compor o índice. O uso de parsers e

expressões regulares são comuns para o reconhecimento das tags.

Sendo que as tags reconhecidas definem a palavra chave que vai ao

índice.

Indexação Semântica Latente: Cria a identificação de conceitos nos

documentos separadamente dos termos que representam o

documento. Permitindo localizar uma estrutura semântica ligada a um

46

determinado grupo de textos. Existindo diferenças sintáticas em

palavras que possuem a mesma ideia, essa indexação permite

detectar tais ideias, identificando-as (PINTO, 2007).

3.4.2 Extração de Características (EC)

Com extração de características pode-se abstrair palavras relevantes para um

sistema conforme predefinição de objetivos do documento. Exemplo de tais objetivos

são a busca de nomes próprios, nomes de cidades e empresas. Essa área pode ser

considerada uma subárea da Extração de Informação com a finalidade de fazer uma

extração de característica desejada do texto (TICON, 2007).

Técnicas encontradas nesta seção são de extrema importância para a

evolução do projeto, já que é através dessas técnicas que se permite extrair termos

relevantes que impõem, por exemplo, a opinião do texto. Conforme REZENDE

(2003) a extração de características pode ser decomposta em dois passos

diferentes.

Informação Linguística: Nesse passo identificam-se nomes (podendo

determinar se o nome é de lugares ou empresas). Podem-se utilizar dicionários para

se definir alguns termos e padrões linguísticos para definir outros. Como exemplo, o

nome de uma empresa não precisa estar num dicionário de termos, mas através de

algoritmos de EC pode-se determinar se aquele nome é relevante e é de empresa.

Os padrões linguísticos são definidos conforme sua estrutura morfossintática

permitindo o reconhecimento de termos significativos. Por exemplo: para o padrão

“Substantivo–Preposição–Substantivo” pode-se reconhecer, por exemplo, “celular de

Maria”.

Métrica: Dentro de métricas serão citados alguns métodos que dão

importância a um termo do texto, destacando-o dos demais:

Frequência de documentos (FD): Essa métrica dá importância ao

termo que mais aparece em documentos. A ideia é que se o termo é

47

bastante citado, então significa que ele é bastante informativo para

predizer a categoria.

Correlação de entidades (PMI): Também conhecida como informação

mútua é uma métrica que tem como objetivo medir quanta informação

se pode obter de um termo através da medida de co-relacionamento a

outro termo (LOPES, 2008). Em outras palavras é a probabilidade (Pr)

de duas palavras aparecerem mais frequentemente do que

apareceriam separadamente. Considerando t e c termos a serem

analisados, tem-se, a equação:

Equação 1-Índice de relacionamento entre as palavras

Fonte: REZENDE, 2003

3.4.3 Sumarização

Esse processo tem a intenção de reduzir o texto tanto quanto for possível sem

perder o real significado imposto anteriormente. Sentenças inteiras ou todo o

parágrafo são copiados para um documento menor mantendo a ideia chave do

documento original. A sumarização por extração é baseada na medida da

importância relativa dos termos em um documento, sendo essa medida determinada

pela redução do termo ao seu radical de menor tamanho via stemming (ver seção

3.3.2.1) e, então, o contabilizando no documento. Quanto maior a quantidade mais

importância tem o termo (REZENDE, 2003).

3.5 Pós-Processamento

Nesta fase acontece a visualização dos dados e validação das descobertas

efetuadas da fase anterior de processamento dos dados.

Pode-se utilizar métricas para medir a qualidade dos dados como exemplo,

avaliar quanto um sistema acerta dado pela divisão de itens relevantes recuperados

pelo total de itens recuperados.

48

Em Rezende (2003), cita-se a utilização de meios gráficos como pontos,

linhas e símbolos, palavras, cores e intensidade de sombreamento para

representação da informação coletada.

3.6 Mineração de opinião

Atualmente, se alguém quer comprar um produto, já não se limita a pedir

opiniões a conhecidos, como em tempos remotos. Assim, ele vai além procurando

várias informações na internet, como em fóruns, notícias, entre outros. Isso se deve

há muitos comentários do produto na web. Esta seção apresenta um pouco da

mineração dessas opiniões que indica sentimentos positivos ou negativos do texto.

A proposta é desafiadora tecnicamente, mas muito útil, pois as empresas, por

exemplo, necessitam saber a opinião pública ou do consumidor sobre os produtos

que vendem ou os serviços prestados. Por outro lado, potenciais clientes da

empresa também querem saber as opiniões dos atuais clientes antes de utilizar um

serviço ou comprar um produto (BING, 2011).

A classificação de sentimento tem como meta principal, dentro de um

documento, a definição da orientação semântica sobre algum determinado objeto,

definindo se aquele documento representa uma opinião positiva, negativa, ou neutra

(PANG, LEE AND VAITHYANATHAN, 2002). Nesse sentido, difere dos estudos de

categorização visto nesse trabalho em processamento de texto, em que a finalidade

é organizar e ordenar textos conforme o seu assunto mais importante.

Segundo Bing (2011), esta área denomina-se de mineração de opinião ou

análise de sentimento, pois ela analisa a opinião das pessoas, avaliações, atitudes e

sentimento sobre seres (empresas, pessoas, problemas, eventos, temas). As

opiniões influenciam nossas decisões, por isso elas são consideradas muito

importantes.

49

Tal abordagem será perfeita para o presente trabalho (em que a finalidade é

auxiliar na compra e venda de ações da bolsa), já que será uma boa metodologia

em coletar a orientação semântica nos textos advindos através da mineração de

texto.

3.7 Trabalhos Relacionados

Pesquisadores da computação já realizaram diversas pesquisas na área com

várias teorias aplicadas chegando até na elaboração de algumas ferramentas com o

intuito de recomendar nas aplicações da Bolsa de Valores:

O artigo publicado por Johan Bollen, “Twitter mood predicts the stock market”

ou o “Humor do Twitter prevê o mercado de ações” sendo bastante comentado em

portais de negócios recentemente. Bollen instiga que o humor aplicado em

mensagem do twitter está relacionado com o sobe e desce da bolsa de Dow Jones.

O pesquisador usou cerca de 10 milhões de tweets do mundo inteiro que continham

declarações explícitas de seus estados de humor do autor, ou seja, aqueles que

correspondem às expressões "eu sinto", "estou me sentindo", "eu não sinto", "eu

sou", e "me faz"... com a intenção de evitar mensagens de spam. Essa coleta das

mensagens ocorreu entre março e dezembro de 2008, classificando o sentimento

que cada postagem expressava. Johan concluiu que postagens que se classificavam

com humor de fator “calmo” predizia em até 87% as flutuações da bolsa (BOLLEN,

2010).

Outro exemplo bastante interessante é a ferramenta web opSys criada por

Thomas Jefferson P. Lopes, em que possui sua essência explicada em seu próprio

artigo: “Mineração de Opiniões aplicada à Análise de Investimentos” (LOPES, 2009).

O autor usa mensagens basicamente vindas de feeds de notícias e postagens no

twitter e seu objetivo é apresentar um processo que permita contabilizar opiniões

sobre uma empresa com seu capital aberto, criando uma visualização dentro de um

período de tempo, identificando dentro das mensagens as opiniões relacionadas

com as empresas analisadas, ou seja, contando se a frase analisada é positiva ou

negativa. Para isso ele utiliza técnicas de mineração de opiniões (extrair informação

50

relevante de um montante de dados) que é uma disciplina da área da linguística

computacional, onde a preocupação é definir a opinião que um documento expressa

sobre tal tópico ou produto ao qual se refere. Para extrair uma orientação semântica

do texto, como positivo, negativo ou neutro, o autor do artigo explica que a primeira

técnica utilizada para compor o cálculo dessa orientação será o PMI que é um índice

calculado usado para medir a relação entre palavras.

3.8 Considerações

Neste capítulo, primeiramente observou-se a abordagem dos dados, podendo

assumir dois caminhos distintos: semanticamente e estatisticamente. Após estudou-

se os três passos de mineração de texto (preparação dos dados, processamento e

análise dos resultados) compreendendo cada um deles.

Para a elaboração do sistema, cada passo será utilizado, desde a

recuperação dos textos na web até a representação da informação adquirida no

processamento. Também nesse capítulo estudou-se dentro da área de mineração de

texto uma forma de adquirir o conhecimento, em que a mineração de opinião

emergiu espontaneamente sendo uma abordagem adequada para a aquisição de

conhecimento sobre um ativo na carteira de ações.

51

4 MINERAÇÃO DE TEXTO APLICADA À ANÁLISE DE CARTEIRA DE

AÇÕES

O objetivo deste capítulo é apresentar a metodologia utilizada como solução

proposta para análise fundamentalista de carteira de ações, possibilitando ao

investidor uma melhora na escolha de sua decisão de compra e venda de um ativo,

a fim de maximizar seus lucros. A figura 5 auxiliará na explanação da metodologia.

Figura 5 - Sistema de mineração proposto

Fonte: do autor.

4.1 Metodologia

O produto final deste trabalho é um sistema de análise de textos selecionados

como, por exemplo, notícias disponibilizadas na internet e postagens no twitter. O

sistema será disponibilizado através de um portal que será utilizado como base de

52

consulta para investidores. Por exemplo, observando-se a figura 5, o investidor “A”

vai consultar o sistema com o objetivo de saber como vai ser a tendência dos

preços, baseado na opinião de outras pessoas sobre a GERDAU, e o sistema

instintivamente retorna um gráfico apontando esta tendência.

Os links dos possíveis textos serão coletados por intermédio de motores de

busca como Google, Bing, Yahoo. Após, abstrai-se o texto das páginas HTML

referenciadas no link. Textos também serão retornados através de busca por

postagem diretamente no twitter. Todos os aspectos de acesso ao texto serão feitos

utilizando respectivos APIs6 ou adaptações desta para uma promissora coleta de

textos. Esse processo é representado na descrição “2 – Acesso a motores de

busca/API” da figura 5.

O filtro passado pelo sistema às APIs de acesso aos motores de busca, é

intimamente relacionado ao nome da empresa ou as suas práticas, observado na

descrição “1 – query” da figura 5.

Após dados dos textos serem coletados e processados, o sistema mostrará

em forma de gráficos as possibilidades de um papel, presumindo a tendência de

subida ou queda da ação e contabilizando a opinião minerada do texto coletado (+1

= opinião positiva, -1 = opinião negativa e 0 = opinião neutra), conforme visto em

(LOPES E HIRATINI, 2008).

Juntamente ao gráfico de tendência, é apresentado o gráfico com o histórico

de preço da ação, possibilitando ao investidor fazer uma análise comparativa,

objetivando confiança no sistema. Estes gráficos serão apresentados nas próximas

seções.

Para a análise e processamento dos dados coletados foram exploradas

técnicas de Mineração de Texto (Text Mining), portanto, o texto coletado passa pelas

três fases (Preparação dos dados, processamento e pós-processamento) estudadas

no terceiro capítulo, focando também na mineração de opinião que possibilitará a

6API – Application programming interface = Uma interface entre aplicativo e programação.

53

contabilização da opinião. Na figura 5 está representado pela descrição “5 –

Processos de mineração de texto, descoberta de opinião”.

Observando a figura 5, de uma forma geral, o sistema proposto coletará

textos na internet sobre as empresas da Bolsa de Valores e, então, aplicando

mineração de texto extrairá informação útil, gerando um indicador de orientação

semântica para o texto. Esse indicador será quantificado, gerando gráficos para

análise.

4.2 Aspectos de implementação

Para a construção do sistema foram utilizadas as seguintes tecnologias:

Java7: Utilizada como a linguagem de programação. A escolha dessa

linguagem justifica-se pela independência de plataforma e pela

facilidade de uso, além de ser gratuita.

Apache Tomcat8: Será o servidor Web, compatível com a linguagem

utilizada.

jQuery9: Para criar as interfaces visuais do sistema, sendo uma

biblioteca JavaScript que simplifica a construçao de documentos

HTML, permitindo manipulação de eventos, animação e interações

Ajax para um desenvolvimento web mais rápido. A interface de

comunicação do cliente (browser do usuário) com o servidor Web

utiliza Ajax10.

jQueryUser Interface11: Utilizada para a construção da interface do

sistema. Fornecem abstrações de baixo nível de interação e animação,

efeitos avançados e de alto nível, widgets personalizáveis, construído

em cima da biblioteca JavaScriptjQuery.

7JAVA - http://www.java.com/pt_BR/

8 http://tomcat.apache.org/

9jQuery - http://jquery.com/

10Ajax - acrônimo de AsynchronousJavascriptand XML, sendo o uso metodológico de

tecnologias como Javascript e XML.

11jQuery UI - http://jqueryui.com/

54

Banco de dados Microsoft SQL Server Express Edition12: Por ser

um banco de dados consolidado e de baixa manutenção é uma ótima

opção para o desenvolvimento deste trabalho.

4.3 Desenvolvimento do sistema

Nesta seção, será apresentado o desenvolvimento do projeto, respeitando a

ordem das três etapas da mineração de texto, citadas no capítulo 3.

O projeto foi denominado SMPreview, acrônimo em inglês de “Stock Market

Preview” (Previsão do Mercado de Ações) .

4.3.1 Fonte de dados

Como visto na Seção 3.3, na página 36 deste trabalho, a primeira etapa para

descobrir conhecimento útil em textos é feita com a Recuperação de Informação

(RI). Para tanto, para qualquer um dos caminhos de RI que foram seguidos, usou-se

o mesmo mecanismo: montar uma query e a executá-la, retornando uma lista de

dados. No escopo do trabalho, query podem ser endereços dinâmicos na internet

como “http://br.bing.com/news/search?q=ambev&go=&qs=n&form=QBNT”

considera-se uma query.

Foram utilizadas feeds de notícias quando coletadas diretamente em sites de

busca como Google13, Yahoo14, Bing15 e uma API específica de coleta de postagens

quando se tratando do Twitter16. A seguir, aborda-se como foi feita a coleta de dados

explicando detalhadamente cada tecnologia envolvida.

12

SQL Server 2008 - http://www.microsoft.com/sqlserver/en/us/editions/express.aspx

13 https://www.google.com.br/

14 http://br.yahoo.com/

15 http://br.bing.com/

16 https://twitter.com/

55

Pesquisou-se uma forma rápida, fácil e automática de coletar notícias pela

internet e sites de busca apresentaram uma boa solução para recuperar a

informação. Isto ocorre através da disponibilização do resultado da consulta da

query, em formato de feeds de notícias, que é um padrão bem conhecido

atualmente.

Os feeds RSS contêm conteúdo Web e resumos de conteúdo, juntamente

com os links para as páginas completas, entre outros metadados. Estas informações

são entregues em formato de arquivo XML, denominado "RSS Feed", como pode ser

visualizado na figura 6. O formato atualmente é a 2.0 e pode ser consultado na web

site http://www.rssboard.org/rss-specification (SAMPAIO, 2007).

Figura 6 – Base de um arquivo RSS Feed – Google Notícias

Fonte: do autor

Podem-se encontrar vários elementos dentro da RSS Feed (RSS ADVISORY

BOARD, 2012). O elemento principal de um arquivo RSS é “<rss>” que possui o

atributo “version”. Para o projeto interessa apenas os elementos ancorados ao

elemento “<item>”, sendo que, para cada página da web recuperada como

resultado, é descrita por um elemento “<item>”. Portanto, em uma busca vários

elementos desse tipo são retornados. Gravam-se os elementos encontrados no

elemento “<item>” no banco de dados. A seguir, descreve-se o que contem em cada

56

elemento ancorado ao item e que foi utilizado, lembrando sempre que cada

elemento <item> representa uma página:

Título: O título da página.

Link: O endereço da página.

Descrição: Sinopse da página.

Guid: Uma sequência única que identifica o item.

PubDate: Indica quando o item foi publicado.

Os três mecanismos de busca (Google, Yahoo e Bing) apresentam

semelhantemente, um atalho gerador de RSS Feed, a partir da consulta na seção de

notícias, disponibilizando um endereço dinâmico no navegador que, para este

trabalho será reconhecido como a query de consulta, como pode ser observado na

figura 7. Para efetuar a consulta de outras empresas é necessário apenas acessar a

página do feed e alterar a empresa pesquisada.

Figura 7 – Endereço dinâmico, passando “PETROBRAS” como parâmetro.

Fonte: do autor

Acessando a página da RSS Feed gerada pelo motor de busca, através do

link query montado dinamicamente no projeto, é facilmente possível percorrer os

links de conteúdo de cada página com a API ROME17, um parser RSS Feed que

possibilita percorrer cada elemento internamente.

17

http://rometools.org/

57

Cada link é visitado utilizando API “Parser HTML”18 que é uma biblioteca Java

utilizada para analisar HTML em qualquer forma, linear ou aninhado. Usado

principalmente para a transformação ou extração possui filtros e Java Beans fáceis

de usar. É um pacote rápido, robusto e bem testado.

No projeto o “Parser HTML” foi essencial, pois extraiu apenas o texto da

página da notícia. Tags, que representam a formatação e objetos HTML são

removidas. Esse conteúdo extraído da página da notícia é armazenado em formato

de texto puro. Na figura 8, destacou-se apenas o texto extraído na pagina sendo o

que interessa ao escopo do projeto ignorando imagens, links para paginas externas

e scripts.

Figura 8 – Destaque do texto de uma página coletado através do “Parser HTML”.

Fonte: do autor

Semelhante à forma como ocorre com a busca por notícias, é montada uma

query contendo apenas o nome da empresa e utilizando a biblioteca Twitter4J19,

para integrar a aplicação Java com o serviço Twitter, permitindo fazer buscas por

postagens recentes. A resposta após executar a query é uma lista de postagens

onde aparece o termo pesquisado. Por exemplo, se pesquisar a empresa Petrobras

18

http://htmlparser.sourceforge.net/

19 http://twitter4j.org

58

com a query “Petrobras” um dos retornos poderia ser o seguinte: “$PETR3 - Ambev

(AMBV3) Petrobras (PETR3) é a mais forte das bolsas latinas http://t.co/rZI0Bnwt”

4.3.2 Coletando os Dicionários (Thesaurus)

Nessa seção, será demonstrado como foram desenvolvidos os diversos

dicionários utilizados como suporte para promover a mineração de texto.

(a) Dicionários de Stop Words

Primeiramente, houve a necessidade de um dicionário que pudesse eliminar

as Stop Word na etapa de pré-processamento, especificamente na análise dos

dados. São palavras como artigos e preposições e com grande número de

ocorrências, mas com pouco significado semântico. Uma amostra dessas palavras

pode ser conferida na tabela 4. Essa lista pode ser feita manualmente, mas neste

trabalho é baseada na lista sugerida para o português através do projeto Snowball20

e eliminada pelo projeto Apache Lucene21.

Tabela 4 - Tabela de Stop Words

de Nos

a Me

o aqueles

quem aquelas

Fonte: do autor.

(b) Dicionários de sentimentos

Para promover o cálculo de orientação semântica, que cruza palavras

identificadoras com palavras de opinião positiva e negativa, foi necessário criar

inicialmente um dicionário, com palavras de orientação positiva e negativa extraídas

20

http://snowball.tartarus.org - Snowball é um pequeno processador texto projetada para criar

algoritmos de stemming para uso na recuperação de informação.

21 http://lucene.apache.org/core/ - Apache Lucene é uma tecnologia adequada para quase

qualquer aplicação que requer pesquisa de texto completo.

http://snowball.tartarus.org/

http://lucene.apache.org/core/

59

do dicionário de sentimento financeiro, elaborado pelo professor de finanças da

Universidade de Notre Dame, Bill McDonald22. Segundo o autor, uma crescente

literatura aborda relações significativas entre as reações de preços de ações com as

informações de sentimento, medidos por classificações de texto. No site do

professor, podem ser encontradas diversas ferramentas que auxiliam a análise

textual de aplicações financeiras, e onde se encontrou os léxicos de opinião usados

no trabalho. Na tabela 5, pode-se visualizar a palavra classificada em uma

orientação.

(c) Dicionários de Sinônimos

A ideia de dicionários de sinônimos surgiu na seção 3.3.2.3, na página 43 da

etapa de pré-processamento, em que foi possível visualizar a possibilidade de inter-

relacionar as palavras para obter um número maior de termos com a mesma

orientação semântica, partindo-se de apenas uma palavra. Assim, se uma palavra

estiver no grupo de palavras positivas e estiver relacionada à outra por sinônimo,

esta também será considerada positiva, mesmo sendo morfologicamente diferente.

Tendo essa possibilidade na fundamentação teórica, pesquisou-se um

dicionário aberto na web e encontrou-se o DicSin (http://www.dicsin.com.br), sendo

referenciado pelo famoso projeto LibreOffice23.

Na geração do gráfico de resultados de previsão, preservou-se a

possibilidade de ver duas linhas geradas, uma apenas com o dicionário e com a

orientação semântica catalogada diretamente, e outra linha juntando com dados

processados, utilizando o DicSin. Pretende-se, com isso, obter uma melhora nos

resultados já que abrange um número maior de palavras supostamente com a

orientação semântica trazida por seu sinônimo. Na tabela 5, pode-se visualizar a

palavra classificada em sua orientação e também com seu sinônimo.

22

http://www.nd.edu/~mcdonald/

23 http://www.libreoffice.org.br/

http://www.dicsin.com.br/

60

Tabela 5 - Tabela de Palavras com sua respectiva orientação

Palavra Orientação Sinônimo

Otimismo Positiva Otimismo, Ótimo

Subir Positiva Subiam, Subindo

Queda Negativa Cair, Caiu

Perda Negativa Extraviar

Fonte: do autor

4.3.3 Coletando Informações sobre as empresas e cotações

As empresas da bolsa utilizadas no sistema proposto foram coletadas

automaticamente no portal BM&F Bovespa24, onde consta uma listagem completa de

informações das empresas incluindo seus respectivos códigos de negociação em

formato compactado.

Para o escopo do trabalho, as seguintes informações são importantes, pois

são todas usadas para filtrar as notícias e calcular a orientação semântica:

Nome reduzido da Empresa.

Lista Código de ativos mais comuns (um código de ativo é um código

composto por quatro letras seguidas de um identificador numérico

inteiro de um ou dois dígitos. Exemplos: VALE5, USIM4).

Com base nas informações coletadas na BM&F Bovespa, desenvolveu-se um

mecanismo que, de tempo em tempo, consulta no Yahoo Finanças25 o preço de um

determinado ativo, passando como parâmetro na consulta o código de negociação

da empresa. Conseguiram-se os seguintes dados:

Preço atual da ação.

Variação: quanto, em porcentagem, a ação variou em relação ao

fechamento anterior.

Valor de Abertura: Valor do primeiro negócio realizado no pregão.

24

http://www.bmfbovespa.com.br/suplemento

25 http://br.financas.yahoo.com/

61

Mínimo e Máximo: Os valores, respectivamente alcançados durante o

tempo de negociação do pregão.

Os dados que interessam nesta pesquisa são apenas a variação diária do

ativo, pois o que se busca é identificar a relação entre a opinião agregada nos textos

coletados em relação ao sobe-e-desce da bolsa.

Os dados são automaticamente obtidos através de um arquivo no formato

Csv26, fornecido na página de consulta da Interface do Yahoo. Os dados são

automaticamente inseridos na base de dados. Assim, para obter o Csv, efetua-se a

consulta do ativo e, após, baixa-se o Csv para extração dos dados.

Para armazenar os dados coletados e gerados em todo o processo, foi

utilizado o banco de dados SQL Server. Para conectar ao banco, utilizando a

linguagem Java, utilizou-se uma biblioteca facilitadora chamada jTDS27, que torna a

interação com o SGBD ainda mais fácil e é uma fonte aberta 100% Java, sendo um

Driver JDBC 3.0 para Microsoft SQL Server (6.5, 7, 2000, 2005, 2008 e 2012).

Nas figuras 9, 10 e 11 é apresentado o diagrama da base de dados com suas

respectivas explanações, possibilitando uma visão geral do Banco de Dados

utilizado ao longo da implementação.

26

O formato CSV (Comma Separated values) ou valores separados por vírgula, é um formato

de arquivo muito utilizado para a exportação de dados de forma universal. Este tipo de arquivo pode

ser aberto por vários programas, entre eles o Microsoft Excel e até mesmo o bloco de notas.

27 http://jtds.sourceforge.net/

62

Figura 9 – Diagrama 1 da base de dados utilizada.

Fonte: do autor

Na figura 9, o diagrama foi segmentado em três partes para facilitar a

explicação.

Na parte A, constam as tabelas smp_coleta e smp_coleta_trecho, sendo as

tabelas que armazenam cada item (notícia) do Feed RSS ou postagem do twitter.

Título, Descrição, Data de publicação e links são mapeados para as colunas da

tabela smp_coleta. Seu conteúdo HTML processado para extrair somente o texto é

armazenado na tabela smp_coleta_trecho.

Na parte B, é armazenado o radical da palavra de cada coleta, sendo que o

radical é primeiramente mapeado e armazenado em smp_radical e a relação “texto

coletado por radical” é armazenado em smp_coleta_radical na ordem em que foi

reconhecido no texto. Situando-se nas três etapas da mineração de texto, pode-se

dizer que os dados armazenados na parte B são os dados provenientes do final da

etapa de pré-processamento, em que cada termo é mapeado em uma tabela

“documento x termo”.

63

Na parte C, é armazenada na tabela smp_coleta_radical_empresa a

orientação semântica de cada sentença identificada no texto através do cálculo do

PMI. Foi adicionada a chave para smp_empresa, refletindo a ocorrência de mais de

uma citação de empresa por sentença. Situando-se nas etapas de mineração de

dados, a etapa de processamento do texto evidencia-se, já que os valores da

orientação semântica das sentenças são gravados nesse conjunto de tabelas.

Figura 10 – Diagrama dois da base de dados utilizada.

Fonte: do autor

Na figura 10, observa-se como estão dispostas as tabelas que servirão de

apoio para efetuar a mineração. Dentro de smp_dicionario são catalogadas todas as

palavras envolvidas, juntamente com seu radical mapeado. As palavras podem

pertencer aos seguintes grupos: Grupo de palavras positivas, Grupo de Palavras

Negativas, Grupo de palavras Neutras, Grupo de Sinônimos e Grupo de StopWords.

O relacionamento é armazenado na tabela smp_dicionario_agrupamento e cada

palavra pode pertencer a um ou vários grupos. Cada palavra será cadastrada com

seu radical associado, pois é com o radical do dicionário que se associa o radical

dos textos.

A tabela smp_dicionario_sinonimo é utilizada para armazenar

relacionamentos de palavras sinônimas, importados de um dicionário conhecido

64

como DicSin28 utilizado inicialmente e depois alterado conforme as análises. Esse

dicionário controla sinônimos via web. É um dicionário colaborativo em que se pode

adicionar ou corrigir palavras/sinônimos.

Figura 11 – Diagrama três da base de dados utilizada.

Fonte: do autor

Na figura 11, constam os diagramas onde são armazenados dados como as

variações reais da bolsa para cada código de negociação das empresas nos dias do

período analisado. Os preços das cotações são fornecidos pela Yahoo Finanças.

Esses dados são utilizados no SMPreview para gerar o gráfico de cotações reais.

4.3.4 Cálculo da orientação semântica

Nessa seção, será apresentada a metodologia utilizada para calcular a

orientação semântica das sentenças dos textos coletados.

Ainda na fase de pré-processamento, a radicalização reduz a palavra a sua

menor representação linguística, permitindo que sejam tratadas variações

morfológicas de uma palavra. Assim, se no dicionário a palavra “aumento” estiver no

dicionário especifico de finanças no grupo de palavras positivas e no texto coletado

aparecer à palavra “aumentar”, então essa também será tratada como se estivesse

28

http://www.dicsin.com.br

65

no grupo de palavras positivas. Isso permite, com o dicionário de sinônimos, ampliar

as possibilidades de identificar palavras com alguma orientação semântica.

No SMPreview, foi utilizado o projeto Snowball29 que faz a radicalização da

palavra usando Portuguese Stemmer, abordado na seção 3.3.2.1 na página 39,

juntamente com o projeto Apache Lucene30 que permite uma melhor iteração com o

texto coletado.

A etapa de identificação de termos nos textos coletados significa o início do

processamento de texto, após ter sido finalizada a etapa de pré-processamento.

A identificação dos radicais é feita com os radicais das palavras no texto

através de marcação apenas, separando radicais identificadores de empresas dos

radicais com orientação opinativa, sendo a prévia para efetuar o cálculo de

orientação. Além disso, foram mantidas estruturas para sentença, com a ordem dos

radicais, onde são armazenados também os valores de peso para cada estrutura,

calculados em seguida. Na figura 12, pode-se visualizar o SMPreview, exibindo os

termos radicalizados e identificados. Adotou-se a cor vermelha para representar

termos negativos e o verde para positivos. Já a cor azul representa o termo

identificador da empresa.

Figura 12 – SMPreview, mostrando os radicais identificados.

Fonte: do autor

Tomando como base as ideias expostas por LIU (2006), a partir desse ponto

é calculada a orientação das notícias utilizando o intervalo de sentença (trecho do

texto separado por ponto ou parágrafos).

29

http://snowball.tartarus.org

30 http://lucene.apache.org/core/

66

Identificadas as entidades no conjunto de textos, aplica-se a cada uma delas

o cálculo descrito pela equação 1 (Correlação de entidades) da seção 3.4.2 na

página 46. Assim, tem-se dentro de um conjunto de notícias a orientação semântica

de sentimento para cada notícia, para cada empresa em nível de sentença.

Quantificando-se o PMI de palavras positivas menos o PMI de palavras negativas de

todos os textos coletados em um determinado dia, obtém-se um índice diário positivo

ou negativo, representando o sentimento que se tem sobre uma determinada

empresa. Esse índice será comparado diretamente com o desempenho diário das

ações na bolsa durante a etapa de pós-processamento. Na figura 13, observa-se

que o resultado do cálculo PMI fica em 1.95 negativo para a primeira sentença da

notícia coletada.

Figura 13 – SMPreview, mostrando os radicais com o valor da orientação: -1.95.

Fonte: do autor

4.3.5 Sistema SMPreview

Nesta seção, será apresentado o sistema desenvolvido, detalhando os

processos e tecnologias envolvidas.

Como se pode ver na figura 14, o SMPreview está estruturado da seguinte

forma: interface, núcleo e banco de dados. As tecnologias utilizadas nas estruturas

também são ilustradas.

Entre Interface e núcleo, a comunicação é totalmente via Ajax, utilizando Json

e XML. Já na comunicação do núcleo com a base de dados, a comunicação é via

jTDS.

67

Figura 14 – SMPreview, mostrando a arquitetura e tecnologias envolvidas

Fonte: do autor

A interface é composta por bibliotecas JavaScript como o framework jQuery e

plug-in jQueryUI que permite criar facilmente efeitos visuais agradáveis. Também foi

incorporado a biblioteca JScharts31 responsável pela renderização dos gráficos.

Para formular a interface do SMPreview sempre se optou por manter uma

forma simples, porém robusta, de pesquisar dados coletados para eventual análise.

Observando a figura 15 temos a interface inicial do sistema antes de aplicar os

filtros.

Figura 15 – SMPreview, interface inicial.

Fonte: do autor

Dentro da aba principal “Resultados” disponibilizaram-se dois filtros principais:

Empresa e Período. Quando se aplica o filtro, passando como parâmetro o código

da empresa e o período de análise, o sistema responderá com resultados via

31

http://www.jscharts.com/

68

gráficos na aba “Gráficos”, como pode ser visualizado na figura 16. Também

resultará uma tabela contendo os textos na aba “Notícias”, visto na figura 18.

Também existe o filtro “Dicionário” que especifica qual dicionário será

utilizado: “dicionário direto”, que utiliza apenas palavras cadastradas em sua

respectiva orientação, ou o dicionário DicSin, que amplifica a quantidade de palavras

com orientação baseado em sinônimos.

Figura 16 – SMPreview, interface exibindo os gráficos.

Fonte: do autor

Na aba “Gráficos”, tem-se quatro gráficos:

Cotação real: Representa a situação da cotação da empresa

pesquisada na Bolsa de Valores. Este gráfico servirá de base para

investidores compararem com os resultados apresentados pelo

sistema. O valor da cotação vem diretamente do Yahoo Finanças.

Orientação Diária: Representa o somatório diário das orientações.

Possuem duas linhas, a verde representa as orientações calculadas

apenas com base nas palavras cadastradas diretamente nos

dicionários positivos e negativos, e a linha azul representa o cálculo

considerando a associação ao dicionário DicSin. Na figura 16 retrata

69

apenas a linha azul, pois o filtro está configurado para filtrar apenas

resultados do DicSin.

Tendência: Representa o acumulado diário da orientação das notícias.

É com esse gráfico que se observa a tendência do ativo. Dependendo

da configuração do filtro de dicionários, pode possuir duas linhas, a

verde representa as orientações calculadas apenas com base nas

palavras cadastradas diretamente nos dicionários positivos e

negativos, e a linha azul representa o cálculo considerando a

associação ao dicionário DicSin.

% Oscilação: Como se pode ver na figura 17, esse é o gráfico principal,

pois exibe a eficiência do sistema. Mede a oscilação diária da empresa

filtrada na bolsa e também a oscilação diária da orientação das notícias

processadas cruzando as duas oscilações. Por exemplo, no caso da

linha do gráfico que mede a oscilação da bolsa (% Real OGXP3 do

gráfico) ficar acima da margem do zero (0) em um determinado dia,

representa que as ações do ativo subiram. Caso fiquem abaixo de zero

(0), representam queda. Da mesma forma, é feito com a linha do

gráfico (Índice DicSin) que mede a orientação semântica. Se a linha

estiver acima da margem zero (0) representa mais notícias boas, caso

contrário, é sinal que notícias negativas prevalecem. Essas duas linhas

são então cruzadas e se em cada dia a linha da orientação semântica

estiver no mesmo lado da margem que a linha da cotação real,

representa um acerto do programa. Mais detalhes serão expostos na

seção de testes e resultados. Na legenda da linha “Indice DicSin”

mostra os acertos feito pelo sistema, sendo que na figura 17 são 12

acertos de 17 possibilidades.

70

Figura 17 – SMPreview, Oscilação Bolsa X Oscilação Notícias.

Fonte: do autor

Figura 18 – SMPreview, interface com tabela de textos.

Fonte: do autor

A tabela da aba “Notícias” possui:

Primeira coluna: Destacando a orientação semântica para cada texto

com setas para cima indicando positividade, seta para baixo indicando

negatividade. Existe também uma legenda abaixo dessa tabela,

mostrando todas as possibilidades que um registro da tabela possa

assumir, conforme ilustrado na figura 18.

Segunda coluna: Identificador da coleta do texto.

Terceira coluna: Título do texto coletado.

Quarta coluna: O link do texto coletado.

71

Quinta coluna: A data do texto coletado.

Sexta coluna: O valor da orientação atribuído a cada texto.

Sétima coluna: Dois botões, sendo que o primeiro exibe o texto (figura

19) e o segundo mostra o texto processado apenas com os radicais já

com o valor da orientação, quando uma correlação verdadeira for

identificada (figura 20).

Vale ressaltar que cada texto pode se referir a mais de uma empresa, então,

o mesmo texto pode aparecer em mais de uma pesquisa por empresa com valor de

orientação semântica diferente, tendo uma orientação para cada empresa em um

mesmo texto. Na figura 19 observa-se uma notícia (texto) sobre a empresa OGX. Na

figura 20 destaca-se o mesmo texto já processado com o valor de orientação

calculado.

Figura 19 – SMPreview, interface exibindo o texto coletado.

Fonte: do autor

72

Figura 20 – SMPreview, interface exibindo o texto processado.

Fonte: do autor

O núcleo se refere à lógica do sistema, módulo onde acontecem todas as

coletas de dados, preparação e armazenamento dos dados e processamento de

dados.

A seguir, serão descritas as tarefas que o núcleo do SMPreview deve

proceder para efetivar uma mineração de texto eficiente:

1. Coleta de notícias e postagens do Twitter: Utilizou-se RSS Feeds para

extrair notícias da internet e API para coleta de postagens no twitter.

Utilizou-se além das tecnologias comuns as respectivas bibliotecas

“ROME” para ler os resultados de busca advindos do RSS Feeds;

“Parser HTML” para extrair o texto em páginas web advindos de

pesquisa nos motores de busca; e Twitter4J para ler postagens no

Twitter.

2. Remoção de StopWords: A finalidade é reduzir o número de termos

para processamento. Uma pré-lista de palavras sem muito significado

semântico no texto é utilizada para fazer a filtragem no texto coletado e

eliminar tais palavras. Essa operação ocorre através da biblioteca

73

Apache Lucene, que permite uma filtragem rápida e eficiente de

palavras.

3. Radicalização de palavras: A fim de reduzir o número de palavras para

processamento, ocorre a radicalização para eliminar sufixos e prefixos.

Essa operação melhora o resultado do processamento, já que abrange

um número maior de termos na associação ao dicionário de

sentimentos. Usam-se duas tecnologias em conjunto nessa tarefa:

Apache Lucene e o projeto Snowball.

4. Transformação de texto em tokens e etiquetagem: Necessário para

transformar dados desestruturados em dados para processamento.

Após a coleta e radicalização, cada termo é mapeado e associado a

um identificador único (etiquetado), que permite identificar termos

únicos nos textos.

5. Cálculo de Orientação Semântica: Processo que efetua o cálculo para

chegar a um índice que mostre o quanto um texto expressa

positividade ou negatividade.

6. Acesso à base de dados: Todos os dados processados e coletados

devem ser armazenados e depois lidos novamente para serem

fornecidos à interface do sistema. O núcleo do SMPreview é capaz de

fornecer acesso à base de dados, tanto para gravação como para

leitura através do driver JDBC apara Microsoft SQL Server 2008.

4.4 Testes e Resultados

Esta seção será subdividida em duas: a primeira é responsável por explicar

as técnicas utilizadas para efetuar os testes e, a segunda, responsável por fazer a

análise dos resultados. Em geral, é descrita toda a metodologia empregada para

efetuar testes, com a finalidade de obter resultados satisfatórios, demonstrando a

eficiência do SMPreview.

74

O conjunto de textos coletados para o projeto depende da publicação de

notícias na internet ou postagens no twitter, e como essa publicação ocorre

diariamente em diversos canais, de maneira e horários aleatórios, não seguindo um

padrão, esse conjunto é totalmente dinâmico. Desta forma, coletou-se um montante

de textos em um determinado intervalo significativo de tempo. A quantificação

desses textos e dados processados será demonstrado nas subseções a seguir.

4.4.1 Testes

Para fazer os testes selecionaram-se duas empresas de setores distintos e o

único critério de escolha foi da empresa possuir apenas um código de negociação, já

que com dois ou mais seria necessário repetir os testes para cada código. Na tabela

6 estão listadas as empresas escolhidas.

Tabela 6 – Tabela de empresas monitoradas

Empresa Classificação

Setorial

Códigos

Negociação

OGX Petróleo. Gás e Biocombustíveis / Petróleo. Gás e Biocombustíveis / Exploração e/ou Refino

OGXP3

MARFRIG Consumo não Cíclico / Alimentos Processados / Carnes e Derivados

MRFG3

FONTE: BMFBOVESPA, 2012

Os testes foram aplicados num montante de textos coletados diariamente,

sendo que o monitoramento foi feito intermitentemente pelas APIs do sistema. No

intervalo de 01 de Outubro a 31 de Outubro de 2012, independentemente de horário

e dias da semana. Para cada dia nesse intervalo, foram processadas as notícias

conforme elas eram coletadas da internet. Na tabela 7, é possível visualizar alguns

exemplos da quantidade de informação diária processada, que está na média de 19

textos diários para OGX e sete textos diários para Marfrig. Observou-se que a

maioria dos textos coletados era em dias úteis, ou seja, em feriados e finais de

semana o número de coletas é menor ou nula em relação aos dias em que há

pregões.

75

Tabela 7 – Número de textos coletadas

Empresa Período Coleta Nº Textos Nº Textos/Dia

OGX 01/10/2012 até 31/10/2012 609 19

MARFRIG 01/10/2012 até 31/10/2012 219 7

Fonte: do autor

Para efetuar a mineração, calculando a orientação dos textos, utilizaram-se

dois dicionário de sentimentos (Positivo e Negativo) e, também, o dicionário de

sinônimos (DicSin). A análise dos dados é representada em duas formas:

Direta: O sistema faz o processamento utilizando diretamente o

dicionário de sentimentos, não utilizando outra palavra que não esteja

classificada como palavra positiva ou palavra negativa.

DicSin: Através do uso do dicionário DicSin o leque de palavras

positivas e negativas aumenta, pois para cada palavra positiva seus

sinônimos também são considerados positivos. Parte-se do princípio de

que se uma palavra é classificada como positiva, então os seus

sinônimos também serão positivos. O sistema utiliza, além das

palavras cadastradas diretamente como positivas e negativas, o

dicionário de sinônimos para efetuar o processamento.

Na tabela 8, pode-se observar o aumento expressivo de palavras com

orientação através do uso de dicionários como o DicSin. Espera-se, com isso,

aumentar a eficiência do SMPreview.

Tabela 8 – Quantidade palavras Classificadas

Orientação Nº de palavras “Direto” Nº de palavras “DicSin” Total

Positiva 335 1312 1647

Negativa 1891 4191 6082

Fonte: do autor

76

A escolha dos termos a serem avaliados (processados) nos textos ocorreu

através do dicionário de orientação e pela entidade, que nos dois casos foram o

próprio nome: “ogx” e “marfrig”.

Para exemplificar melhor como ocorre o cálculo da orientação semântica nos

testes e a forma como o SMPreview trabalha, selecionou-se um trecho de texto

publicado e coletado em 30/10/2012 que cita a empresa OGX no canal “Uol

Economia” 32.

A seguir, serão demonstrados os passos de processamento do texto que o

SMPreview realiza até chegar ao valor da orientação do texto.

Primeiro passo, coleta do texto original:

“Entre as ações mais negociadas, Vale PNA ganha 0,66%, para R$

36,33; Petrobras PN sobe 0,98%, para R$ 21,56; OGX ON avança

2,81%, para R$ 4,74; Itaú PN tem valorização de 0,50%, para R$

29,75; e Bradesco PN sobe 0,24%, para R$ 32,10.”

Segundo passo, texto pré-processado, eliminação de Stop Words,

radicalização e mapeamento de tokens. De 43 termos iniciais, passou-

se para apenas 25 termos:

“aco negoc val pn a ganh par r petrobr pn par r ogx on avanc par r itau

pn valoriz par r bradesc pn par r”

Terceiro Passo, identificação dos radicais das entidades (Empresas) e

termos com alguma orientação semântica. Neste caso, foram

identificados a entidade “OGX” e dois termos com orientação positiva

“ganha” e “avança”:

“aco negoc val pn a ganh par r petrobr pn par r ogx on avanc par r itau

pn valoriz par r bradesc pn par r”

32

http://economia.uol.com.br/ultimas-notícias/valor/2012/10/30/bovespa-sobe-em-mais-um-

dia-sem-referencia-dos-eua.jhtm

77

Quarto passo, execução do cálculo da equação 1. Consideram-se

apenas radicais “ogx” e “avanc” para realizar o cálculo, já que são os

únicos que aparecem juntos. Com isso, se pretende identificar uma

relação verdadeira entre os dois termos dentro do trecho coletado.

Observa-se na tabela 9 as variáveis que fazem parte da equação,

gerando o valor de PMI. Considere “c”=característica, “e”=entidade e

“Pr”=Probabilidade, sendo que a característica para o PMI são palavras

positivas ou negativas e a entidade é a empresa.

Tabela 9 – Exemplificação do cálculo PMI

Equação PMI(e,c) = log( Pr(e^c) / ( Pr(e) * Pr(c) ) )

Quantidade.termos 25

Quantidade.e^c (Junto) 1

Quantidade.e 1

Quantidade.c 1

Calculando PMI(ogx,avanc) = log( (1/25) / ( (1/25) * (1/25) ) )

Calculando PMI(ogx,avanc) = log( 0,04 / (0,04* 0,04) )

Calculando PMI(ogx,avanc) = log( 0,04 / 0,0016)

Calculando PMI(ogx,avanc) = log( 25 ) = 1,4

Encontrou-se “1,4” no cálculo de PMI através de uma palavra positiva, assim,

o valor permanece positivo. Caso fosse através de uma palavra negativa, então

ainda seria necessário fazer uma multiplicação por “-1” gerando um valor negativo,

por exemplo “-1,4”.

4.4.2 Resultados

Inicia-se a fase de pós-processamento, descrito na seção 3.5 na página 47

deste trabalho.

Com base nas duas empresas utilizadas nos testes da seção anterior, nas

tabelas 10 e 11 onde consta um demonstrativo diário dos resultados do cálculo de

orientação para cada empresa. Juntamente adicionou-se o percentual de oscilação

da empresa naquele dia.

78

As tabelas comparam a oscilação da empresa na bolsa com o valor obtido,

variando os dicionários de co-ocorrência Direto e Total (Direto + DicSin) de

entidades/palavras. Valores positivos indicam que a entidade tem maior relação com

palavras positivas, enquanto valores negativos indicam maior relação com palavras

negativas.

Tabela 10 – Resultados obtidos da empresa OGX

Dia Direto DicSin Oscilação

Bolsa %

Direto

Acerto

DicSin

Acerto

01/10/2012 8.26 0.62 -2.6 0 0

02/10/2012 1.38 -2.36 -3.17 0 1

03/10/2012 -7.25 -16.76 1.03 0 0

04/10/2012 -1.16 -13.76 -1.71 1 1

05/10/2012 7.06 -29.89 -3.65 0 1

06/10/2012 1.26 -3.38 - - -

07/10/2012 0 0 - - -

08/10/2012 2.66 3.7 2.88 1 1

09/10/2012 -1.72 -3.2 0.88 0 0

10/10/2012 -1.41 -1.4 -2.95 1 1

11/10/2012 9.07 11.08 1.25 1 1

12/10/2012 -1.08 -0.75 - - -

13/10/2012 0 0 - - -

14/10/2012 0 0 - - -

15/10/2012 -0.44 -4.53 0.88 0 0

16/10/2012 0.3 -5.99 -4.2 0 1

17/10/2012 -3.72 -5.18 1.83 0 0

18/10/2012 -

10.73

-25.78 -5.92 1 1

19/10/2012 -8.96 -13.96 0.57 0 0

20/10/2012 -2.1 -3.55 - - -

21/10/2012 0 2.12 - - -

22/10/2012 -4.29 -17.17 -4.17 1 1

23/10/2012 -

13.03

-32.65 -0.59 1 1

24/10/2012 6.46 -5.7 -7.77 0 1

25/10/2012 15.4

9

-5.64 2.59 1 0

26/10/2012 -8.55 -14.79 -5.47 1 1

27/10/2012 -4.81 -6.1 - - -

28/10/2012 -1.32 -0.91 - - -

29/10/2012 -3.14 -11.35 2.67 0 0

79

30/10/2012 6.98 0.28 3.69 1 1

31/10/2012 10.8

7

-8.96 -1.46 0 1

Fonte: do autor

Tabela 11 – Resultados obtidos da empresa Marfrig

Dia Direto DicSin Oscilação

Bolsa %

Direto

Acerto

DicSin

Acerto

01/10/2012 0.4 -1.59 -1.27 0 1

02/10/2012 8.71 11.81 3.86 1 1

03/10/2012 -0.45 -0.1 -1.74 1 1

04/10/2012 4.08 1.25 3.78 1 1

05/10/2012 15.7

4

15.19 -2.51 0 0

06/10/2012 3.92 2.84 - - -

07/10/2012 4.15 -0.01 - - -

08/10/2012 -1.42 -1.42 0.83 0 0

09/10/2012 -0.95 -1.08 -1.24 1 1

10/10/2012 1.16 0.08 -3.59 0 0

11/10/2012 -1.8 -1.8 0.09 0 0

12/10/2012 0 0 - - -

13/10/2012 0 0 - - -

14/10/2012 0 -5.8 - - -

15/10/2012 -2.07 -5.44 5.1 0 0

16/10/2012 -7.88 -11.03 0 0 0

17/10/2012 3.58 5.03 -1.23 0 0

18/10/2012 -1.23 -4.12 0 0 0

19/10/2012 0.85 0.85 0.83 1 1

20/10/2012 0 0 - - -

21/10/2012 -0.95 -0.95 - - -

22/10/2012 -1.16 -3.35 -4.3 1 1

23/10/2012 -

17.28

-24.06 -9.76 1 1

24/10/2012 24.7

6

16.92 -1.63 0 0

25/10/2012 7.05 3.4 -1.17 0 0

26/10/2012 5.28 13.13 3.44 1 1

27/10/2012 2.6 2.6 - - -

28/10/2012 7.85 6.82 - - -

29/10/2012 -0.99 2.49 1.81 0 1

30/10/2012 -0.82 0.51 -0.84 1 0

31/10/2012 -2.48 -11.19 -1.04 1 1

Fonte: do autor

80

Considerando-se as tabelas 10 e 11, é possível desfrutar de alguns

indicadores de eficiência do sistema. Nota-se que, de 31 dias do mês apenas em 22

dias ocorreram negociação, portanto:

Para a empresa OGX, de 22 dias, o sistema acertou 14 utilizando o

dicionário de sinônimos (DicSin) e 10 acertos utilizando apenas o

dicionário de orientação semântica.

Para a empresa Marfrig, de 22 dias, o sistema acertou 11 utilizando o

dicionário de sinônimos (DicSin) e 10 acertos utilizando apenas o

dicionário de orientação semântica.

Com base nesses resultados, é possível observar um acerto de 63% na

empresa OGX e 50% na Marfrig, considerando o dicionário de sinônimos.

Analisando-se visualmente os resultados, pode-se comparar o desempenho

da orientação semântica numa série histórica, em relação ao movimento do ativo na

bolsa. Nas figuras 21 a 23 traz-se os gráficos gerados pelo SMPreview para a

empresa OGX. A ideia desses três gráficos é manter a linha da oscilação da

empresa na Bolsa de Valores estática, enquanto se desloca a oscilação da

orientação semântica da notícia sempre 1 dia para frente.

Figura 21 – Gráfico sem deslocamento da orientação (14 acertos).

Fonte: do autor

81

Figura 22 – Gráfico com 1 dia de deslocamento da orientação (10 acertos).

Fonte: do autor

Figura 23 – Gráfico com 2 dia de deslocamento da orientação (9 acertos).

Fonte: do autor

O que se pode observar no gráfico da figura 21 são os valores das

orientações acompanhando o valor da variação do ativo, às vezes precedendo o

movimento, e em outras sendo arrastado por ele. Essa percepção parece que vai se

perdendo ao se deslocar a linha da orientação semântica.

4.5 Considerações

Neste capítulo, apresentou-se toda a construção, testes e resultados

realizados com base na metodologia proposta. Com os resultados gerados, pode-se

verificar o grau de eficiência e, consequentemente, a importância do sistema.

82

5 CONCLUSÃO

Este trabalho apresentou uma proposta, baseada em técnicas de mineração

de texto, para quantificar opiniões encontradas em textos na Internet, a fim de

auxiliar investidores em suas negociações. Para tanto, foi necessário: capturar

informações relevantes sobre ativos financeiros na Internet, identificar opiniões

relacionadas com os ativos analisados, e quantificar essas opiniões, definindo um

índice que represente a orientação semântica dos textos.

Com um estudo aprofundado do mercado de ações e da mineração de texto,

observou-se que tais assuntos tão distintos estão intimamente ligados, pois,

conforme apresentado, na análise fundamentalista faz-se uso de informações

textuais como notícias para elaborar negociações sobre ações de uma determinada

empresa.

Após o estudo das técnicas de mineração de texto, a forma como se vê um

texto muda, pois agora se vê a possibilidade de mergulhar nesse mar de letras e

conseguir extrair informações importantes que possam auxiliar em várias áreas, não

somente em carteira de ações.

O sistema desenvolvido realiza a análise automaticamente da carteira de

ações, possibilitando verificar os resultados que emergem. Se notícias expressando

opiniões realmente conseguem manter um vínculo com o valor das ações, e é o que

indica ser possível quando observados os trabalhos citados e já realizados, então é

possível se obter bons resultados. Além disso, e muito mais importante, é quando

este trabalho é visualizado do ponto de vista de um entusiasta da computação.

Após os testes e os resultados analisados, chegaram-se às seguintes

conclusões:

83

Uso do PMI (Pointwise mutual information) para calcular a orientação

semântica, analisando a opinião nos textos coletados em nível de

sentença, revelou resultados interessantes quando comparados com o

aspecto da orientação real do texto. O cálculo de correlação utilizado

nos testes não retornou valores conclusivos, mas consideráveis para

algumas entidades, demonstrando que realmente há um nível

relevante de correlação entre a variação do ativo e os valores obtidos

no cálculo de orientação.

O uso de dicionário com palavras com orientação semântica deve ser

revisado cuidadosamente para que não haja erros ao utilizar palavras

com orientação diferente da sua orientação real. Sendo um dicionário

dinâmico, em que se adiciona e remove palavras, conforme o escopo

do projeto, a prática de calibrá-lo adicionando e removendo palavras

deve ser constante, a fim de melhorar os resultados.

Utilizar um dicionário de sinônimos, na maioria dos casos, e favorável à

identificação de uma orientação semântica válida, melhor até que usar

o dicionário diretamente. Porém, houve muitos casos em que

sinônimos cadastrados errados ou que representavam uma associação

com um significado semanticamente distante gerou erros no resultado

do processamento do texto. Para esses casos houve a necessidade de

destruir relações de sinônimos para que o sistema realizasse os

cálculos corretamente.

Para trabalhos futuros, considerando-se o interesse de continuar a pesquisa

com o mesmo escopo, citam-se as seguintes possibilidades:

Fazer testes analisando intervalos maiores como um ano inteiro ao

invés de apenas um mês. Também existe a possibilidade de trabalhar

com uma granularidade menor para fazer análises em intervalos

menores dentro do dia, como, por exemplo, a “hora” e não apenas a

84

granularidade de “dia”. Isto possibilitaria cruzar a hora da notícia com a

oscilação da bolsa.

Melhorar os léxicos dos dicionários, calibrando as palavras para refletir

uma melhora nos resultados. Por exemplo, adicionar ou remover

palavras do dicionário de orientação para que melhor indiquem a

oscilação da bolsa.

Utilizar métodos para encontrar termos comuns e/ou relevantes, como

o método TF-IDF (term frequency, inverse document frequency), que

mapeia termos que têm alto índice de ocorrência no texto. Os termos

mapeados podem ser candidatos a compor algum dos dicionários

utilizados.

Desenvolver outras técnicas de mineração de texto como, por exemplo,

abordagens baseadas em aprendizagem de máquina em que se treina

um conjunto de textos, permitindo que próximos textos sejam

classificados ou produzam um índice estatístico automaticamente.

Dentre as tarefas realizadas, algumas dificuldades foram encontradas, como

processar textos com uma estrutura complexa ou com a utilização de um vocabulário

muitas vezes informal.

Conforme o objetivo do trabalho e com o desenvolvimento da ferramenta

proposta para o mercado de capitais, uma nova maneira de prever a Bolsa de

Valores foi aplicada, auxiliando analistas do mercado de capitais.

85

REFERÊNCIAS

Como investir no Mercado a termo. Disponível em: <http://www.bmfbovespa.com.br/Pdf/termo.pdf>, acessado 10 de outubro de 2011. BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. New York: ACM Press, 1999. BARRETO FILHO, Oscar. Natureza jurídica das bolsas de valores, no direito brasileiro. Revista dos Tribunais. São Paulo, Revista dos Tribunais, 1959. BARRETO J. M. Inteligência Artificial no Limiar do Século XXI. Rô Rô Rô Edições, Florianópolis, 2001. BARTH, I. G. Ipo – Inicial Public Offering (Oferta Pública Inicial): Um Instrumento De Financiamento. Monografia (Curso de Economia) – Faculdade de Economia e Ciências Contábeis, Universidade Metodista de São Paulo, São Bernardo do Campo, 2007. BING, LIU. Web Data Mining, Exploring Hyperlinks, Contents and Usage Data. 2. ed. Springer, 2011. BM&FBOVESPA, Bolsa de Valores, Mercadoria e Futuros. Introdução ao mercado de capitais. Disponível em: <http://www.bmfbovespa.com.br/pt-br/a-bmfbovespa/download/merccap.pdf>, acessado 01 de outubro de 2011. BODIE, Zvi; MERTON, Roberto C. Merton. Finanças. 2. ed. Revisada e Ampliada. São Paulo: Art ed Editora SA, 2001. BOLLEN, Johan. Twitter mood predicts the stock market. Artigo – 2010. CARRILHO JUNIOR, João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado (Engenharia Elétrica) - PUC-Rio, Rio de Janeiro, 2007. CAVALCANTE, Francisco. Mercado de Capitais – o que é, como funciona. 6. ed., Revisada e Atualizada. Rio de Janeiro: Elsevier Editora Ltda, 2005. CAVALCANTE, Francisco; MISUMI, Jorge Yoshio; RUDGE, Luiz Fernando. Mercado de capitais: o que é, como funciona. 7. ed., ver. e atual. Rio de Janeiro: Elsevier, 2009. CERBASI, Gustavo. Investimentos Inteligentes. 1 ed. São Paulo: Thomas Nelson, 2009.

86

CHEN, H. Knowledge management systems: a text mining perspective. University of Arizona (Knowledge Computing Corporation), Tucson, Arizona. 2001 DEBASTIANI, Carlos Alberto. Encare o mercado de ações sem temor! Disponível em:<http://www.marketweapon.com.br/download/Encare_o_mercado_de_acoes_sem_temor.pdf>, acessado 02 de outubro de 2011. DESCHATRE, Gil Ari. Investimento em ações. Rio de Janeiro: Thomas Nelson Brasil, 2009. DIAS, M. A. L., MALHEIROS, M. G.; Extração Automática de Palavras-chave de Textos da Língua Portuguesa. Centro Universitário UNIVATES. 2005. EIZIRIK, Nelson. Questões de direito societário e mercado de capitais. Rio de Janeiro: Forense, 1987. FELDMAN, R; SANGER, J.The Text Mining Hand book. New York: Cambridge University Press, 2007. FORTUNA, E. Mercado Financeiro: Produtos e Serviços – Rio de Janeiro: Quality mark, 2005. GOLDSCHMIDT, R., PASSOS, E. Data Mining: Um Guia Prático. Rio de Janeiro: Elsevier. 2005. KAO, Anne; POTEET, Stephen R. Natural Language Processing and Text Mining. Springer, 2007. LEITE, Helio de Paula. Índice Bovespa: Um padrão para os investimentos Brasileiros. São Paulo: Ed. Atlas, 1995. LIU, B. Web data mining: Exploring Hyperlinks, Contents and Usage Data. Chicago - Usa: Springer, 532 p. 2006. LOPES, M. C. S., Mineração de dados textuais utilizando técnicas de clustering, para o idioma português. Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil. 2004. LOPES, Thomas Jefferson P. Mineração de Opiniões aplicada à Análise de Investimentos. Artigo – Centro Universitário Senac, 2009. LOPES, Thomas Jefferson Pereira; HIRATINI. Mineração de Opiniões aplicada à Análise de Investimentos. Trabalho de conclusão de curso – Centro Universitário SENAC – Campus Santo Amaro, São Paulo, 2008. LUQUET, Mara. Guia Valor Econômico de finanças pessoais. 2. ed. Revisada e Atualizada. São Paulo: Ed. Globo, 2008. MAGALHAES, Teresinha Moreira de. Uma metodologia de mineração de opiniões na web. Tese de Doutorado (Engenharia Civil) - COPPE/UFRJ, 2009.

87

MATSURA, Eduardo. Comprar ou vender? Como Investir na bolsa utilizando análise gráfica. Editora Saraiva, 2006. ISBN: 9788502065963 MELLAGI FILHO, Armando. Mercado Financeiro e de Capitais. 3. ed. São Paulo: Atlas, 1998. MENDONÇA, José Xavier Carvalho de. Tratado de direito comercial brasileiro. São Paulo: Livraria Freitas Bastos S.A., 1961. MÜLLER, Lucas. Processo de tomada de decisão usando redes neurais artificiais e agentes inteligentes no domínio da predição do mercado de capitais. Trabalho de Conclusão, Universidade de Santa Cruz do Sul, 2010. OLIVEIRA, Ingrid Martins de. Estudo de uma metodologia de mineração de textos científicos em língua portuguesa. Tese de Mestrado (Engenharia Civil) - COPPE/UFRJ, 2009. OLIVEIRA, Miguel Delmar de; SOARES, Ademir Gargiullo; LOPES, Marco Aurélio. Introdução ao mercado de ações. Edição 1986. Comissão Nacional de Bolsa de Valores. Rio de Janeiro, 1986. ORENGO, V. M.; HUYCK, C. R.A Stemming Algorithm for The Portuguese Language. In: Proceedings of the SPIRE Conference. Laguna de San Raphael, 2001. PANG, Bo; LEE, Lilian; VAITHYANATHAN, Shivakumar. Thumbs up? Sentiment Classification Using Machine Learning Techniques, In Proceedings Of Emnlp, 2002. PIAZZA, Marcelo C. Bem-vindo à Bolsa de Valores. 7. ed. Revista e ampliada. Editora Novo Conceito, 2007. PINTO, André Moreira. Mineração De Textos E Gestão Do Conhecimento: Aplicação Na Experiência Operacional Em Geração De Energia Nuclear Nas Usinas De Angra I E Ii. Pós-Graduação (Ciência da Informação da UFMG) – Belo Horizonte, 2007. REZENDE, Solange Oliveira. Sistemas Inteligentes: Fundamentos e Aplicações. Barueri: Editora Manole, 2003. 525 p. RICH, Elaine; KNIGTH Kevin. Inteligência Artificial. 2. ed. São Paulo: Editora. McGraw-Hill Ltda. 1993. RSS ADVISORY BOARD, Really simple syndication specifications, tutorial and discussion. RSS 2.0 Specification. Disponível em: < http://www.rssboard.org/rss-specification>, acessado 20 de outubro de 2012. SAMPAIO, Cleuton. Web 2.0 e mashups: reinventando a internet. 1. ed. São Paulo: Brasport, 2007.GD

88

SANVICENTE, Antônio Zoratto; FILHO, Armando Mellagi. Mercado de Capitais e Estratégias de Investimento. São Paulo: Editora Atlas SA, 1988. SMARRITO, Marcelo. Desmistificando a Bolsa de Valores – Quem disse que ela não é para você? 3. ed. São Paulo: Elsevier, 2007. SONG, Min; WU, Yi-fang Brook. Handbook of Research on Text and Web Mining Technologies, 2009. SULLIVAN, Dan. Document Warehousing and Text Mining: techniques for improving business operations, marketing and sales. New York, Wiley, 2001.

TICOM, Antônio Alexandre Mello. Aplicação de mineração de textos e sistemas

especialistas na liquidação de processos trabalhistas. Dissertação de Mestrado

(Engenharia Civil) - COPPE/UFRJ, 2007.

Documents

MINERAÇÃO DE TEXTO APLICADO À ANÁLISE DE CARTEIRA DE AÇÕES