Download pdf - R - Text Mining

Text Mining Descoberta de conhecimento

em um Service Desk

João G. Gutheil

Dezembro/2016

Text Mining

Resumidamente, ‘Processo de descoberta de conhecimento em textos’

“A análise de texto envolve a recuperação de informações e análise léxica a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, ..., extração de informações, ... , visualização e análise preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos.” https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_texto

https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_texto

https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_texto

Text Mining

Aplicabilidade

- Sistemas de recomendação

- Descoberta de padrões em teses jurídicas

- Reconhecimento de SPAM

- Análise de sentimentos

- Descoberta de padrões de comportamento

(Ex: Anamnese nutricional e a co-relação entre doenças e hábitos alimentar)

....

A oportunidade

~3200 chamados/mês ~2000 usuários

A oportunidade

• Quais as causas dos nossos chamados ?

• Qual o tipo de problema reportado pelas áreas de negócio ?

• Qual aplicação temos mais chamados ? E por quê?

• Existe alguma relação entre recorrência de defeitos ?

• Sem categorização, como obter conhecimento e identificar causa raiz dos problemas?

A partir de um sistema fracamente categorizado, como responder questões como:

A aplicação

Objetivo Aplicação que permita identificar - a partir dos textos nos chamados - padrões ou relações que levem a origem destes no Service Desk

Pacotes utilizados - TM: Funções para mineração de textos - Wordcloud: Criação de nuvem de termos - vizNetwork: Interface R para library vis.js - Sqldf: Manipulação de dataframes usando SQL - Shiny: Criação de aplicações WEB - Shinydashboard: Criação de dashboards interativos

Detalhes ₋ Amostra com ~3600 observações (corpus) ₋ Cada observação é um documento ₋ Desenvolvimento com Rstudio ₋ Shiny: Framework para aplicações WEB com R

A tecnologia (ou uma delas...)

Linguagem de programação e ambiente de desenvolvimento voltado para computação estatística e visualização de dados - Facilidade de manipulação de dados - Sem custo - Vasta biblioteca para mineração de dados/mineração de textos: séries temporais, agrupamento e classificação, redes Bayesianas... - In memory é a limitação - Integração com Hadoop e Spark

- ~ 8.000 pacotes - Comunidade ativa - Investimento de grandes players (Microsoft, Oracle, IBM)

Demo

Próximos passos

• Algoritmo Apriori Ex: {Termo X} {Termo Y, Termo N}

• Identificação de expressões ou sequencias de termos

• Filtro por área de negócio

• Acesso direto ao database do Service Desk

• Servidor Rstudio

Referências

https://cran.r-project.org/ https://www.rstudio.com/ https://shiny.rstudio.com/

https://cran.r-project.org/




https://www.rstudio.com/

https://www.rstudio.com/

https://shiny.rstudio.com/

https://shiny.rstudio.com/

Perguntas

João G. Gutheil [email protected] Ciência da Computação - Feevale

Especialização em Gestão do Conhecimento e Int. Estratégica - UCS

Analista de TI – AGCO

Analista de TI – Grupo RBS

Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS

Áreas de interesse

Ferramentas de Mineração de Dados

Ferramentas e aplicações de BI

Tecnologias NoSQL e Analytics

Yosemite

Apresentação

mailto:[email protected]