Text Mining Descoberta de conhecimento
em um Service Desk
João G. Gutheil
Dezembro/2016
Text Mining
Resumidamente, ‘Processo de descoberta de conhecimento em textos’
“A análise de texto envolve a recuperação de informações e análise léxica a fim de estudar a frequência de distribuição de palavras, reconhecimento de padrões, ..., extração de informações, ... , visualização e análise preditiva. O objetivo maior é transformar o texto em dados para análise, por meio da aplicação do processamento de linguagem natural (PLN) e de métodos analíticos.” https://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_texto
Text Mining
Aplicabilidade
- Sistemas de recomendação
- Descoberta de padrões em teses jurídicas
- Reconhecimento de SPAM
- Análise de sentimentos
- Descoberta de padrões de comportamento
(Ex: Anamnese nutricional e a co-relação entre doenças e hábitos alimentar)
....
A oportunidade
~3200 chamados/mês ~2000 usuários
A oportunidade
• Quais as causas dos nossos chamados ?
• Qual o tipo de problema reportado pelas áreas de negócio ?
• Qual aplicação temos mais chamados ? E por quê?
• Existe alguma relação entre recorrência de defeitos ?
• Sem categorização, como obter conhecimento e identificar causa raiz dos problemas?
A partir de um sistema fracamente categorizado, como responder questões como:
A aplicação
Objetivo Aplicação que permita identificar - a partir dos textos nos chamados - padrões ou relações que levem a origem destes no Service Desk
Pacotes utilizados - TM: Funções para mineração de textos - Wordcloud: Criação de nuvem de termos - vizNetwork: Interface R para library vis.js - Sqldf: Manipulação de dataframes usando SQL - Shiny: Criação de aplicações WEB - Shinydashboard: Criação de dashboards interativos
Detalhes ₋ Amostra com ~3600 observações (corpus) ₋ Cada observação é um documento ₋ Desenvolvimento com Rstudio ₋ Shiny: Framework para aplicações WEB com R
A tecnologia (ou uma delas...)
Linguagem de programação e ambiente de desenvolvimento voltado para computação estatística e visualização de dados - Facilidade de manipulação de dados - Sem custo - Vasta biblioteca para mineração de dados/mineração de textos: séries temporais, agrupamento e classificação, redes Bayesianas... - In memory é a limitação - Integração com Hadoop e Spark
- ~ 8.000 pacotes - Comunidade ativa - Investimento de grandes players (Microsoft, Oracle, IBM)
Demo
Próximos passos
• Algoritmo Apriori Ex: {Termo X} {Termo Y, Termo N}
• Identificação de expressões ou sequencias de termos
• Filtro por área de negócio
• Acesso direto ao database do Service Desk
• Servidor Rstudio
Referências
https://cran.r-project.org/ https://www.rstudio.com/ https://shiny.rstudio.com/
Perguntas
João G. Gutheil [email protected] Ciência da Computação - Feevale
Especialização em Gestão do Conhecimento e Int. Estratégica - UCS
Analista de TI – AGCO
Analista de TI – Grupo RBS
Vice-Coordenador do GUBI (Grupo de Usuários de BI) – Sucesu RS
Áreas de interesse
Ferramentas de Mineração de Dados
Ferramentas e aplicações de BI
Tecnologias NoSQL e Analytics
Yosemite
Apresentação