Upload
hathien
View
216
Download
0
Embed Size (px)
Citation preview
Faculdade de Engenharia da Universidade do Porto
Data Mining
Sistemas Financeiros
Projeto FEUP 2016 - MIEGI :
José António Cabral Ana Maria Camanho
Equipa 01:
Supervisor: Luís Guimarães Monitor: Jorge Ferreira
Estudantes & Autores:
Bruno Levorato [email protected] Hélder Martins [email protected]
Natasha C. V. Santos [email protected] Rodrigo Carvalho [email protected]
Sara Dias [email protected]
1
Resumo
O presente trabalho foi realizado no âmbito do Projeto Feup 2016, disciplina do
primeiro ano do mestrado integrado em engenharia e gestão industrial da Faculdade de
Engenharia da Universidade do Porto. Tem como principais objetivos:
● Desenvolvimento de competências de natureza técnica e comunicacional,
essenciais no processo de investigação e redação de um relatório em grupo.
● Promover o domínio das normas estipuladas respeitantes à estrutura e rigor,
para a redação de relatórios técnicos.
Palavras-Chave
Data mining, mineração, dados, software, métodos, GQM, algoritmo, otimizar, objetivo, k-
means, clusters, agrupamento
2
Agradecimentos
Agradecemos ao monitor Jorge Ferreira pela atenção e disponibilidade em ajudar-nos
com as dúvidas que surgiram durante o desenvolvimento do trabalho.
3
Índice
Índice de Figuras
Índice de Tabelas
1. Introdução
2. Técnicas de Data Mining
3. Aplicação a sistemas financeiros
3.1. Introdução
3.2. Análise de crédito
4. Impacto da utilização
5. Empresas utilizadoras do Data Mining
6. Evidências qualitativas e quantitativas do uso do sistema
7. Conclusões
8. Referências bibliográficas
4
Índice de Figuras
Figura 1 - Informações referentes à amostra para o sistema ANC (“Análise de crédito
bancário por meio de redes neurais e árvores de decisão: uma aplicação simples de data
mining”. 2005)
Figura 2 - Estrutura do modelo GQM (Um Estudo Sobre Processos para Avaliação de
Algoritmos de Agrupamento de Dados, 2016)
Figura 3 - Distribuição de defeitos por criticidade”, (Análise de Custo e Benefício de
Mensuração Baseada em GQM, 2016)
Figura 4 - "Distribuição dos defeitos por função de sistema", (Análise de Custo e Benefício
de Mensuração Baseada em GQM, 2016)
Figura 5 - “Distribuição de defeitos descobertos por testes", (Análise de Custo e Benefício
de Mensuração Baseada em GQM, 2016)
Figura 6 - "Esforço por remoção de defeitos", (Análise de Custo e Benefício de
Mensuração Baseada em GQM, 2016)
Índice de Tabelas
Tabela 1 - "Modelo de definição de objetivos GQM Basili- 2002” (Um Estudo Sobre
Processos para Avaliação de Algoritmos de Agrupamento de Dados, 2016)
Tabela 2 - "Modelo do Plano GQM" (Um Estudo Sobre Processos para Avaliação de
Algoritmos de Agrupamento de Dados, 2016)
Tabela 3 - " Esforço relacionado à mensuração por fase (em pessoa-dia)”, (Análise de
Custo e Benefício de Mensuração Baseada em GQM.2016)
5
1. Introdução
A Mineração de Dados, ou data mining ficou em evidência após o surgimento do termo
Big Data, onde a mineração de dados é o elemento central responsável pela preparação e
análise das grandes massas de dados
A quantidade de dados gerada atualmente tem extrapolado a capacidade humana de
interpretação. O armazenamento de todo tipo de informação que antes era objeto de desejo
de grandes e até médias empresas, agora torna-se um desafio de como analisar essa
superabundância de dados. A este desafio em específico está o interesse em determinar
ações estratégicas, visando à descoberta de conhecimento em bases de dados para
aumentar vendas, definir perfis e sugerir produtos relacionados. A descoberta de
conhecimento constitui-se de um processo, cuja primeira etapa tem o objetivo de fazer um
pré-processamento na base de dados para entregar numa fase seguinte os dados limpos,
preparados e selecionados. A fase seguinte, que é principal, está a Mineração de Dados.
Nessa etapa, algoritmos de aprendizagem ou de redes neurais artificiais são executados
sobre os dados, a fim de criar um modelo que auxilie em tarefas como classificação,
agrupamento e associação de dados. Finalmente, como última etapa, os resultados da
mineração são interpretados e analisados qualitativamente e quantitativamente. Diante o
exposto, nota-se que é uma área interdisciplinar e exige uma grande diversidade de
experiências que envolvem, basicamente: banco de dados, álgebra linear, matemática
discreta e algoritmos. Nesse sentido, esta obra tem como objetivo a apresentação destes
assuntos de forma contextualizada, de modo a facilitar o entendimento de um problema e sua
resolução através de algoritmos escritos em pseudocódigos e executados passo a passo.
6
2. Data Mining
Data mining (mineralização de dados) representa um processo de análise de dados
que levanta informações acerca de algoritmos atentando a semelhanças ou diferenças a fim
de otimizar a qualidade (aumentar a receita e/ou reduzir os custos de certo serviço),
abrangendo diferentes perspetivas, resumindo a sua informação mais útil e indispensável,
sendo deste modo uma ferramenta que potencia a inovação e a lucratividade.
Técnicas de Data Mining
O software de data mining é apenas um de uma série de ferramentas de análise de
dados o que permite que os seus utilizadores não só analisem informações de diferentes
dimensões e ângulos distintos, mas que as categorizem e resumam. Deste modo, a
mineralização de dados retrata o processo de encontrar os padrões e relações entre os mais
diversos campos de bancos de dados. (adaptado de
http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.ht
m)
Assim sendo, o data mining pode ser divido em algumas etapas básicas como a
exploração, a construção de modelo, a definição de padrão e a validação e verificação. Deste
modo, esta prática recente utiliza técnicas de recuperação de informação, AI (“Artificial
intelligence” ), reconhecimento de padrões e correlações entre diferentes dados. Estas
técnicas permitem adquirir um conhecimento benéfico para um dado indivíduo ou grupo.
(adaptado de http://www.thearling.com/text/dmwhite/dmwhite.htm)
7
3. Aplicação a sistemas financeiros
3.1. Introdução
Perante o atual paradigma de resultados, qualquer empresa da área financeira vê-se
obrigada a recorrer a métodos que lhe assegure vantagens competitivas. É precisamente
neste contexto que surge a ferramenta de data mining.
No setor financeiro as aplicações são inúmeras e envolvem técnicas de associação,
classificação, agregação e também predição (como já supra-referido). Entre as várias
aplicações são de destacar a análise de crédito e a deteção de fraude.
3.2. Análise de crédito
Na área das empresas bancárias, as decisões corretas de concessão de crédito são
centrais no que toca à sua subsistência e êxito. Por outro lado, o erro é nestes casos severo
e implica perdas avultadas, porventura equivalentes a dezenas de ganhos de outras
concessões bem-sucedidas.
Por forma a minimizar as já referidas falhas de concessão, as empresas bancárias
recorrem à metodologia de data mining para categorizar os clientes segundo o risco de
solvência ou insolvência, conseguindo assim informação valiosa para auxílio no processo de
tomada de decisão.
O uso adequado de data mining na análise de crédito, implica uma série de vantagens
como:
● otimização dos recurso-humanos, em virtude da menor necessidade de
funcionários envolvidos no processo de análise de crédito;
● maior rapidez no processamento dos pedidos de crédito;
● menor subjetividade no processo;
● maior rentabilidade dos créditos concedidos
8
3.3. Deteção de fraude
A problemática da fraude é tema de grande preocupação para as organizações, em
resultado de abranger a generalidade dos setores de atividade.
No cerne da questão surgem fatores de natureza pessoal e externa dos quais se
destacam três considerados essenciais: pressões, oportunidade e atitudes.
A sua prevenção e deteção tornam-se, portanto, temas de primeira necessidade. As
estratégias preventivas implementadas contam com o contributo dos dados fornecidos pelo
Data Mining, designadamente no que respeita à definição e eventual identificação de
comportamentos considerados anómalos.
9
4. Impacto da utilização
Na área de finanças, podemos destacar um projeto cujo objetivo foi gerar um modelo
de classificação para caracterizar clientes que pagam em dia, clientes que pagam em atraso
e clientes que não pagam seus créditos. Para isso, considerou-se o histórico de pagamento
de clientes de uma financeira que haviam recebido crédito durante um período definido. O
modelo construído foi incorporado a um sistema de apoio à decisão, que passou a ser usado
na análise de novas solicitações de crédito recebidas pela central de atendimento da referida
financeira. Adicionalmente, este mesmo projeto procurou descobrir regras que mapeassem
as características de clientes (pessoas físicas) em faixas de limites de cartões de crédito
oferecidos a clientes.
Outro projeto nessa área teve como metas construir e avaliar modelos que pudessem
prever séries temporais a partir do histórico de cotações de ações na bolsa de valores.
Ainda na área de finanças, participamos do desenvolvimento de mecanismos de
deteção de fraudes em compras de cartão de crédito a partir do comportamento de compra
prévio de cada cliente. Diferentemente dos demais projetos de Data Mining em que se busca
por padrões que reflitam regularidade (repetição) de padrões entre os dados, neste buscava-
se por situações de compra cujos dados divergissem das características do padrão de compra
de cada cliente.
Com a adoção destas políticas otimizadas e orientadas ao Cliente, as organizações sentir-
se-ão preparadas para intervir em todo e qualquer momento do ciclo de vida do Cliente.
Poderão identificar e adquirir aqueles com menor risco de incumprimento e poderão identificar
e fidelizar/ reter aqueles com maiores níveis de rentabilidade e potencial.
10
5. Empresas utilizadoras do Data Mining
Os sistemas financeiros impactam pessoas de todo mundo. Após a exposição dos
conceitos relativos ao “Data Mining”, fica nítido o poder que a utilização correta desta
ferramenta possui. A tomada de decisão correta é extremamente importante para empresas
que tem o dinheiro como seu principal “produto”.
Através do Data Mining, as empresas dos sistemas financeiros são beneficiadas desde o
marketing otimizado até a detecção de fraudes. Por exemplo, segundo Fabris (1998), o uso
do “Data Mining” para analisar padrões e tendências confere a executivos de sistemas
financeiros a possibilidade de prever com precisão como os consumidores reagiriam a ajustes
de taxas, quais receberiam melhor a oferta de novos produtos, os que teriam maior risco em
não pagar um empréstimo e como fazer a relação com o mesmo mais rentável.
O mais antigo banco dos Estados Unidos, o BNY Mellon, utiliza o data mining para o
marketing. O chamado “cross selling” que, segundo Brown (2001), é a identificação de ofertas
complementares as necessidades dos clientes; é usado com base no banco de dados da
empresa. Um exemplo dado pelo artigo “Data Mining: A Competitive Weapon for Banking and
Retail Industries” (2006, Amir M. Hormozi & Stacy Giles) , que usa o “data mining” para
encontrar consumidores que tenham dinheiro em conta e que estejam interessados em um
empréstimo para a compra de uma casa própria. É feito um modelo com os clientes que
pedem empréstimos para casas e esse é usado para apontar outros clientes que possam ficar
interessados. Além disso, o Mellon Bank utiliza o “data mining” para deteção de fraudes.
O Bank of America é outra instituição financeira a utilizar o data mining. Assim como o
Mellon Bank, utiliza-o para o marketing, mais especificamente para a parte de Customer
Relationship Management, conhecido por “CRM”. Segundo o ARTIGO, o Bank of America
também segue as práticas de “cross-selling”. Na parte de gerenciamento de riscos em relação
a análise de crédito, a desenvolvedora do software utilizado, a SAS (Statistical Analysis
System), afirma que os 400.000(quatrocentos mil) orçamentos diários de empréstimos
passaram de 3 horas para 10 minutos. Além disso, reduziu o cálculo da probabilidade de
inadimplência de 96 horas para apenas 4 horas.
O JPMorgan Chase é a instituição líder na prestação de serviços financeiros. Uma das
aplicações do data mining nessa empresa é a de aumentar a retenção de clientes. Quando o
Chase Bank começou a perder clientes para seus concorrentes, foi utilizado um banco de
11
dados para analisar as contas bancárias destes e fazer alterações nas exigências de contas
para reter mais clientes (Fabris, 1998).
O Banco do Brasil utiliza uma ferramenta interna de data mining chamada ANC (Análise
de Crédito). A partir desse aplicativo, que contém as informações cadastrais e contábeis das
empresas (Figura 1), são tomadas as decisões pela gerência das agências na concessão dos
empréstimos. Segundo o artigo “Análise de crédito bancário por meio de redes neurais e
árvores de decisão: uma aplicação simples de data mining” (2005; Eliane Prezepiorski Lemos,
Maria Teresinha Arns Steiner e Júlio César Nievola), existem muitas vantagens com a
utilização do data mining nessa situação, como por exemplo: menos pessoas envolvidas com
a análise de crédito e maior rapidez em seu processamento.
O Fleet Bank , que foi vendido em 2004 para o Bank of America, também utilizava o data
mining para suas operações. O banco analisava os dados de seus clientes com base em
dados demográficos e a partir do histórico da conta relativa ao cliente. Dessa forma, estas
informações eram utilizadas para determinar quais deles teriam maior interesse em investir
em fundos de investimentos (Fabris, 1998).
12
Figura - Informações referentes à amostra para o sistema ANC (“Análise de crédito bancário por meio de redes neurais e árvores de decisão: uma aplicação simples de data mining”. 2005)
13
6. Evidências qualitativas e quantitativas do uso do sistema
Uma pesquisa de pós-graduação realizada através da Universidade Federal de Santa
Catarina a 17 anos atrás levantou dados que mostram a evolução de algumas empresas com
o uso da mensuração de dados baseada em GQM, um modelo de Data Mining.
O modelo GQM, abreviação de Goal, Question, Metric, é um dos modelos de mineração
de dados que visa com maior ênfase a definição de metas. Esse modelo foi a princípio criado
com a motivação em softwares, mas devido ao seu elevado custo-benefício foi disseminado
e ganhou popularidade
Esse modelo GQM conta com 4 fases:
1- Planeamento;
2- Definição das metas,
3- Coleta de Dados;
4- Interpretação dos dados coletados.
“O resultado da aplicação do método GQM é a especificação de um sistema de medição
visando um conjunto particular de problemas e um conjunto de regras para a interpretação
dos dados de medição Solingen e Berghout (1999). Desta forma pode-se analisar cada
objetivo e verificar se as métricas escolhidas respondem às questões.” (Aline M. M.
Kronbauer, Lisandra Manzoni Fontoura, Ana Trindade Winck; Um Estudo Sobre Processos
para Avaliação de Algoritmos de Agrupamento de Dados, Aline M. M. Kronbauer, Lisandra
Manzoni Fontoura, Ana Trindade Winck, 2016).
14
Figura 2 - Estrutura do modelo GQM (Um Estudo Sobre Processos para Avaliação de Algoritmos de Agrupamento de Dados, 2016)
Tabela 1 - "Modelo de definição de objetivos GQM Basili- 2002” (Um Estudo Sobre Processos para Avaliação de Algoritmos de Agrupamento de Dados, 2016)
Tabela 2 - "Modelo do Plano GQM" (Um Estudo Sobre Processos para Avaliação de Algoritmos de Agrupamento de Dados, 2016)
15
Através desta abordagem na pesquisa “Análise de Custo e Benefício de Mensuração
Baseada em GQM - Um estudo de caso replicado”, 2016, realizada por Chistiane Gresse von
Wangenheim e Gunther Ruhe pela UFSC-Brasil foi estudado os casos da Robert Bosch
GmBh, Cefriel, Digital SPA e Schlumberger RPS.
Segue então a avaliação quantitativa e qualitativa desta pesquisa que foi denominada
“Projeto CEMP”.
Tabela 3 - " Esforço relacionado à mensuração por fase (em pessoa-dia)”, (Análise de Custo e Benefício de Mensuração Baseada em GQM.2016)
“O esforço total para o planejamento e a execução de um programa de mensuração
diminuiu nos programas seguintes. No projeto CEMP, as empresas gastaram
aproximadamente 6 pessoas-mês nos primeiros projetos. A razão principal para a diminuição
é a disponibilidade de apoio de ferramenta para a tecnologia GQM, experiência aumentada
com a tecnologia GQM e reutilização de artefactos relacionados ao programa de mensuração”
(Análise de Custo e Benefício de Mensuração Baseada em GQM. Kronbauer, Aline M. M. ;
Fontoura, Lisandra Manzoni; Winck, Ana Trindade. 2016).
A Avaliação quantitativa aqui será mostrada de forma a comparar os custos, como
pode ser visto na Tabela 3, agora então entram os aspetos qualitativos, os pontos positivos
da escolha de usar o Data Mining.
O projeto CEMP relata como conclusão de benefícios a identificação de problemas
ocultos e a busca por relações e dependências, que no caso das empresas participantes
evidenciou uma demora de 5 vezes mais para localizar e consertar defeitos, atrasando a
produção do produto, a redução desse período causou uma melhoria no processo;
compreensão da parte de produção onde se concentravam mais erros fatais, as empresas
suponham que fosse nos primeiros 10% da produção e acabaram por descobrir que é nos
primeiros 25%, isso permitiu a implantação de um modelo correto relacionado às metas de
qualidade confiabilidade (Figura 2) (Análise de Custo e Benefício de Mensuração Baseada
16
em GQM, 2016).
Figura 3 - Distribuição de defeitos por criticidade”, (Análise de Custo e Benefício de Mensuração Baseada em GQM, 2016)
Outro aspecto mencionado como evidente com o uso da mensuração de dados foi o
potencial de melhoramento com impacto médio/alto.
Figura 4 - "Distribuição dos defeitos por função de sistema", (Análise de Custo e Benefício de Mensuração Baseada em GQM, 2016)
Também foi analisado os chamados “Testes por usuário” e uma nova identificação
permitiu que fossem trocados os usuários a analisarem e produtos de forma a obterem
melhores resultados.
17
Figura 5 - “Distribuição de defeitos descobertos por testes", (Análise de Custo e Benefício de Mensuração Baseada em GQM, 2016)
A “Análise de Custo e Benefício de Mensuração Baseada em GQM, 2016” concluiu sobre
o Projeto CEMP que “a tecnologia de infraestrutura GQM contribui de forma importante […]
para o melhoramento da qualidade e produtividade de processos e produtos de softwares.
Todas as organizações envolvidas no projeto atingiram um grau de maturidade mais alto
Figura - "Esforço por remoção de defeitos", (Análise de Custo e Benefício de Mensuração Baseada em GQM, 2016)
18
através do GQM e demonstraram avanços relativos às metas de melhoramento
selecionadas.”
19
7. Conclusões
Desde que a informática tomou conta de nossas vidas, imensos volumes de informação
têm sido sistematicamente coletados e armazenados. A simples armazenagem e recuperação
dessa informação já traz um grande benefício, pois agora já não é mais necessário procurar
informação em volumosos e ineficazes arquivos de papel. Contudo, apenas recuperar
informação não propicia todas as vantagens possíveis. O processo de Data Mining permite
que se investigue esses dados à procura de padrões que tenham valor para a empresa. Neste
pequeno artigo pretendemos expor alguns dos principais conceitos que estão por trás dessa
importante tecnologia.
No breve espaço deste artigo, a nossa principal missão foi introduzir um pouco do
pensamento que está por trás do Data Mining. Obviamente, ainda há muito a se falar sobre o
assunto (clustering, métodos genéticos, mineração em textos, roll up/drill down, etc), mas é
importante notar que em praticamente todos esses casos o que se deseja é descobrir padrões
em volumes de dados. É importante ressaltar também que o Data Mining não é o final da
atividade de descoberta de conhecimentos, mas é tão somente o início. É imprescindível (ao
menos com a tecnologia atual) dispor de analistas capacitados que saibam interagir com os
sistemas de forma a conduzi-los para uma extração de padrões úteis e relevantes.
20
8. Referências bibliográficas
Palace, Bill. 1996. “Technology Note prepared for Management 274A”. Diss., Anderson
Graduate School of Management at UCLA. Acedido a 20 de outubro de 2016.
http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.ht
m
Thearling. 2012. “An Introduction to Data Mining” . Acedido a 20 de outubro de 2016.
http://www.thearling.com/text/dmwhite/dmwhite.htm
ComputerWorld. 2016. “Data Mining: conceitos, técnicas, algoritmos, orientações e
aplicações, recém-lançado pela Editora Elsevier” (Goldschmidt, Ronaldo e Bezerra, Eduardo).
Acedido a 21 de outubro. http://computerworld.com.br/exemplos-de-aplicacoes-de-data-
mining-no-mercado-brasileiro.
Anacleto, Alessandra; Wangenheim, Christiane Gresse von. 2002. “Aplicando Mensuração
em Microempresas de Software para Suporte da Gerência de Projetos”. Diss., Universidade
Federal de Santa Catarina. Acedido a 1 de outubro de 2016.
http://www.inf.ufsc.br/~c.wangenheim/download/SBQS2002-vref.pdf
Kronbauer, Aline M. M. ; Fontoura, Lisandra Manzoni; Winck, Ana Trindade. 2016. “Um Estudo
Sobre Processos para Avaliação de Algoritmos de Agrupamento de Dados”. Diss., Grupo de
Pesquisa em Sistemas Inteligentes - Programa de Pós-graduação em Informática –
Universidade Federal de Santa Maria (UFSM). Acedido a 1 de outubro de 2016.
https://periodicos.ufsm.br/index.php/coming/article/viewFile/21136/pdf
SAS. 2015. “Bank of America avoids gridlock in credit risk scoring, forecasting”. Acedido a 19
de outubro de 2016. http://www.sas.com/pt_pt/customers/bank-of-america-credit-risk.html.
Lemos, Eliane Prezepiorski; Steiner,Maria Teresinha Arns e Nievola, Julio Cesar. 2005.
“Análise de crédito bancário por meio de redes neurais e árvores de decisão: uma aplicação
simples de data mining”. Revista de Administração (RaUSP). São Paulo: Universidade de São
Paulo.
21
Hormozi, Amir M. & Giles, Stacy. 2004. “Data Mining: A Competitive Weapon for Banking and
Retail Industries, Information Systems Management”. Volume 21, Caderno 2, 2004, Jornal
“Information Systems Management”.
http://www.tandfonline.com/doi/abs/10.1201/1078/44118.21.2.20040301/80423.9.
Mendes, Luciana. 2011. “Data Mining – Estudo de Técnicas e Aplicações na Área Bancária”.
São Paulo: FATEC-SP. Acedido a 20 de Outubro de 2016.
http://www.fatecsp.br/dti/tcc/tcc0031.pdf
Soares, Mariana. “Contributo do Data Mining na deteção e prevenção de fraude”. Lisboa:
Instituto Superior de Ciências do Trabalho e da Empresa. Acedido a 20 de Outubro de 2016.
http://docplayer.com.br/7965293-Contrubuto-do-data-mining-na-deteccao-e-prevencao-de-
fraude.html