21
Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias

Painel 02 01 patrícia maia - Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de denúncias

Embed Size (px)

Citation preview

Page 1: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Uso de Técnicas de Mineração de Textos Aplicado à triagem automática de

denúncias

Page 2: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

TEXT MINING

Page 3: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

TRIAGEM DE DENÚNCIAS DA CGU

Denúncia: comunicação de prática de ato ilícito cuja solução dependa da atuação de órgão de controle interno ou externo.

Page 4: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Habilitadas

Inabilitadas

Denúncias

PROTOCOLO

Ouvidoria(35 mil)

Lixo Eletrônico(17 mil )

Fluxo da Triagem de DenúnciasDSSA

UDSEDU

DRDAG

91 diferentes áreas da

CGU...

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

Arquivadas...

Page 5: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Exemplo de Texto de Denúncia com Erros de Ortografia

Page 6: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Exemplo de Lixo Eletrônico

Page 7: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Porque a triagem manual é um problema?

O estoque de denúncias aumenta a cada diaPoucos servidoresProcesso de triagem baseado em palavras chaves

Denúncia é feita com campo texto em formato livre

91 áreas da CGU para as quais as denúncias devem ser encaminhadas

Page 8: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Objetivo

Propor um modelo de triagem eletrônica baseada em mineração de textos e aprendizagem de máquina.

Page 9: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAUDSEDU

DRDAG

91 diferentes áreas da

CGU...

Arquivadas

Elimina similares

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

...

Page 10: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Denúncias Repetidas – como tratar?

Similaridades de cossenos: encontra semelhanças através dos cossenos do ângulo formado entre 2 vetores.

Valida antes da triagem. 1 = denúncias idênticas!

Page 11: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Proposta de triagem eletrônica

Denúncias

PROTOCOLOo

Triagem eletrônica

Lixo Eletrônico

DSSAUDSEDU

DRDAG

91 diferentes áreas da

CGU...

Arquivadas

Elimina similares

Dados insuficient

esNão é

competência CGU

Já foi Ficalizada

...

Page 12: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Matriz termo documento

Remoção de StopWords

Remoção de Pontuação, números e espaços

Conversão de letras Maiúsculas para minúsculas

Uso de stemming

Base de dadosDenúncia

denunc escolc fraud ...

1 1 0 0

1 0 1 0

Classificador

Page 13: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias
Page 14: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Resultados

• POC com 4 categorias• Precisão de 0.82• 58 categorias – precisão de 0.554

Page 15: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Classificação multi-label

Resultados

Page 16: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Conclusões- POC com 58 categorias (unidades da CGU) e cerca

de 40 mil denúncias- Identificação automática de denúncias similares- A triagem pode ser feita de forma automática, em

menor tempo e sem perda de qualidade!- Triagem pode indicar mais de uma unidade da CGU- O processo é escalável e pode triar maior volume de

denúncias e menor tempo

Page 17: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

[email protected]

Artigo ENIAC 2014: Application of text mining techniques for classification of documents: a study of automation of complaints screening in a Brazilian Federal Agencyhttp://www.lbd.dcc.ufmg.br/colecoes/eniac/2014/0081.pdf

Obrigada!

Page 18: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Text mining

Mineração de textos é o processo de descoberta de conhecimento que utiliza técnicas de análise e extração de dados a partir de textos, frases ou palavras. É o processo de extrair padrões interessantes e não triviais ou conhecimento a partir de documentos em textos não estruturados.

Page 19: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Etapas da Mineração de Textos

Page 20: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Similaridade de CossenosA técnica de Similaridade de Cossenos pode ser utilizada para encontrar classes baseada na semelhança entre as mesmas. Calcula, através dos cossenos do ângulo formado entre dois vetores, a similaridades entre dois documentos. Assim, ao comparar dois documentos, o resultado será um número entre 0 e 1. Caso a taxa de similaridades seja próxima de 1, a mesma indicará que os documentos serão muito similares, pertencendo, provavelmente a mesma classe ou categoria. O resultado for próximo de 0, indicará que os documentos são pouco similares, não pertencendo a mesma classe. Resultados médios, nem próximos de 0 e nem próximos de 1, podem não ser conclusivos, não sendo capaz de identificar a classe a que o documento pertence.

Page 21: Painel 02   01 patrícia maia - Uso de Técnicas de Mineração de Textos  Aplicado à triagem automática de denúncias

Precisão

Precisão é a quantidade de itens selecionados que estão corretamente classificados. Mede, dentre todos os documentos julgados, a quantidade de documentos classificados corretamente como positivos, sendo portanto, a proporção entre o número de itens selecionados que foram recuperados corretamente. Em um contexto com um total de 1000 denúncias por exemplo, caso a precision seja igual a 0.87, quer dizer que 870 das 1000 denúncias foram classificadas corretamente e 130 foram classificadas incorretamente.