131
Extracção de Regras de Associação com Itens Raros e Frequentes Ricardo Miguel Oliveira Pires de Sousa Orientador: Doutora Maria de Fátima Coutinho Rodrigues 2009

DM RicardoSousa 2009 MEIasdasd

Embed Size (px)

DESCRIPTION

adsasdasda

Citation preview

  • Extraco de Regras de Associao comItens Raros e Frequentes

    Ricardo Miguel Oliveira Pires de Sousa

    Orientador: Doutora Maria de Ftima Coutinho Rodrigues

    2009

  • Instituto Superior de Engenharia do Porto

    Extraco de Regras de Associao com

    Itens Raros e Frequentes

    Ricardo Miguel Oliveira Pires de Sousa

    Dissertao para obteno do Grau de Mestre em

    Engenharia Informtica rea de Especializao em

    Tecnologias do Conhecimento e Deciso.

    Orientador: Doutora Maria de Ftima Coutinho Rodrigues 555

    Jri:

    Presidente:

    Doutor Jos Antnio Reis Tavares, Equiparado a Professor Adjunto do ISEP

    Vogais:

    Doutor Paulo Alexandre Ribeiro Cortez, Professor Auxiliar DSI/Universidade do Minho

    Doutora Maria de Ftima Coutinho Rodrigues, Professora Coordenadora do ISEP

    Porto, Outubro de 2009

  • Agradecimentos

    A concretizao deste trabalho s foi possvel devido ao contributo de algumas pes-

    soas. Desta forma, gostaria de expressar a minha gratido a todos aqueles que deram o

    seu apoio, uns mais presentes que outros, porm, todos se revelaram importantes para a

    sua concretizao.

    Em primeiro lugar, quero agradecer minha supervisora, Professora Doutora Ftima

    Rodrigues, pela oportunidade de desenvolver e explorar esta temtica. Obrigada pela

    sua permanente disponibilidade, motivao e pelas suas sugestes e comentrios que

    contriburam decisivamente para que fosse possvel atingir os objectivos desta dissertao.

    Aos meus pais, pelos exemplos de coragem e determinao em superar os problemas

    que tm surgido ao longo da vida e pelo incentivo dado em todos os momentos de

    realizao deste trabalho.

    minha irm, pela motivao e estmulo.

    Por fim, quero agradecer a uma pessoa muito especial, Cludia, pela compreenso,

    incentivo e carinho nos momentos mais importantes.

    iii

  • Resumo

    Ao longo dos ltimos anos, as regras de associao tm assumido um papel relevante

    na extraco de informao e de conhecimento em base de dados e vm com isso auxiliar

    o processo de tomada de deciso.

    A maioria dos trabalhos de investigao desenvolvidos sobre regras de associao

    tm por base o modelo de suporte e confiana. Este modelo permite obter regras de

    associao que envolvem particularmente conjuntos de itens frequentes.

    Contudo, nos ltimos anos, tem-se explorado conjuntos de itens que surgem com

    menor frequncia, designados de regras de associao raras ou infrequentes. Muitas das

    regras com base nestes itens tm particular interesse para o utilizador. Actualmente a

    investigao sobre regras de associao procuram incidir na gerao do maior nmero

    possvel de regras com interesse aglomerando itens raros e frequentes.

    Assim, este estudo foca, inicialmente, uma pesquisa sobre os principais algoritmos

    de data mining que abordam as regras de associao.

    A finalidade deste trabalho examinar as tcnicas e algoritmos de extraco de

    regras de associao j existentes, verificar as principais vantagens e desvantagens dos

    algoritmos na extraco de regras de associao e, por fim, desenvolver um algoritmo

    cujo objectivo gerar regras de associao que envolvem itens raros e frequentes.

    Palavras-chave: Regras de Associao, itens frequentes, itens raros

  • Abstract

    Over the past few years, association rules have taken an important paper in extracting

    information and knowledge from database, which helps the decision-making process.

    The most of the investigation works of in association rules is essentially based on

    the model of support and confidence. This model enables to extract association rules

    particularly related to frequent items.

    However, in recent years, the need to explore less frequent itemsets, called rare or

    unusual association rules, has increased. Many of these rules that involve infrequent

    items are considered to have particular interest for the user.

    Recently, efforts on the research of association rules have tried to generate the largest

    possible number of interest rules agglomerating rare and frequent items.

    This way, this study initially seals a research on the main algorithms of date mining

    that approach the association rules.

    An association rule is considered to be rare when it is formed by frequent and unusual

    items or unusual items only.

    The purpose of this study is to examine not only the techniques and algorithms

    for the extraction of association rules that already exist, but also the main advantages

    and disadvantages of the algorithms in the mining of association rules, and finally to

    develop an algorithm whose objective is to generate association rules that involve rare

    and frequent items.

    Key Words: Association Rules, frequent itemsets, rare itemsets

  • ndice

    Agradecimentos iii

    Resumo iv

    Abstract v

    Lista de Figuras x

    Lista de Tabelas xii

    Lista de Algoritmo xiv

    Abreviaturas xv

    Lista de Smbolos xvi

    1 Introduo 1

    1.1 Contextualizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 Processo de descoberta do conhecimento em base de dados . . . . . . . . . 2

    1.3 Operaes de Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.3.1 Classificao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3.2 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.3.3 Anlise de associaes . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.3.4 Anlise sequencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.3.5 Anlise de desvios . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.4 Metodologias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.5 Consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.6 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.7 Organizao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    vi

  • ndice vii

    2 Regras de Associao 10

    2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.2 Modelo formal das regras de associao . . . . . . . . . . . . . . . . . . . . 11

    2.2.1 Regras de associao . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.2 Suporte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.3 Confiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.4 Conjunto de itens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.5 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.6 Espao de pesquisa nos dados . . . . . . . . . . . . . . . . . . . . . 14

    2.2.7 Descoberta de regras de associao . . . . . . . . . . . . . . . . . . 16

    2.2.7.1 Descobrir os itens frequentes . . . . . . . . . . . . . . . . 16

    2.2.7.2 Gerao de regras . . . . . . . . . . . . . . . . . . . . . . 19

    2.2.7.3 Consideraes sobre o Suporte/Confiana . . . . . . . . . 22

    3 Medidas de Avaliao das Regras de Associao 23

    3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    3.2 Algumas medidas objectivas . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.2.1 Interesse (Lift, Interest) . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.2 Alavancagem (Leverage, PS) . . . . . . . . . . . . . . . . . . . . . 25

    3.2.3 Convico (Conviction) . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.2.4 Correlao (Correlation) . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.2.5 Teste qui-quadrado X2 (Chi-Square X2) . . . . . . . . . . . . . . . 27

    3.2.6 Co-Seno (Cosine) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.2.7 Gini index (G) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.2.8 CPIR (conditional-probability increment ratio) . . . . . . . . . . . . 28

    3.2.9 Outras Medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.2.10 Propriedades de medidas objectivas . . . . . . . . . . . . . . . . . . 30

    4 Algoritmos de Extraco de Regras de Associao com Itens Frequen-tes 31

    4.1 Algoritmo AIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.1.1 Modelo do Algoritmo AIS . . . . . . . . . . . . . . . . . . . . . . . 31

    4.2 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    4.2.1 Modelo do Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . 35

    4.2.2 Gerar regras de associao . . . . . . . . . . . . . . . . . . . . . . . 37

    4.3 Algoritmo AprioriTid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    4.4 O algoritmo AprioriHybrid . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.5 O algoritmo Predictive Apriori . . . . . . . . . . . . . . . . . . . . . . . . 40

    vii

  • ndice viii

    4.6 O algoritmo Partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    4.7 Algoritmo DIC (Dynamic Itemset Counting) . . . . . . . . . . . . . . . . . 42

    4.8 O algoritmo DHP (Direct Hashing and Pruning) . . . . . . . . . . . . . . 42

    4.9 Algoritmo FP-growth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.9.1 Construo de FP-Tree . . . . . . . . . . . . . . . . . . . . . . . . 44

    4.10 Outros Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    5 Algoritmos de Extraco de Regras de Associao com Itens Infrequen-tes 53

    5.1 Algoritmo MSapriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.2 Algoritmo Matrix-Based Scheme (MBS) . . . . . . . . . . . . . . . . . . . 57

    5.2.1 Processo de explorao entre itens infrequentes . . . . . . . . . . . 58

    5.2.2 Esquema baseado na Matriz (MBS) . . . . . . . . . . . . . . . . . 58

    5.2.3 Funcionamento do algoritmo MBS . . . . . . . . . . . . . . . . . . 60

    5.3 Algoritmo Hash-Based Scheme (HBS) . . . . . . . . . . . . . . . . . . . . 62

    5.4 IMSApriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    5.5 Aplicaes para extraco de regras de associao . . . . . . . . . . . . . . 65

    5.5.1 WEKA (Waikato Environment for Knowledge Analysis) . . . . . . 65

    5.5.2 IBM DB2 Intelligent Miner . . . . . . . . . . . . . . . . . . . . . . 65

    5.5.3 Microsoft SQL Server . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.5.4 Magnum Opus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.5.5 Clementine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.5.6 SAS Enterprise Miner . . . . . . . . . . . . . . . . . . . . . . . . . 66

    5.5.7 Outras ferramentas . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

    6 Soluo Desenvolvida 67

    6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    6.2 Parmetros de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6.2.1 Base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6.2.2 Definir margem relativa para a pesquisa dos itens . . . . . . . . . . 69

    6.2.2.1 Definir o suporte mnimo inicial com base no item maisfrequente . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.2.2.2 Definir o suporte mximo inicial com base no item menosfrequente . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    6.2.2.3 Actualizar o suporte em conjuntos com dois ou mais itens 73

    6.3 O Algoritmo WinMirf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    6.3.1 O Algoritmo WinMirf em detalhe . . . . . . . . . . . . . . . . . . . 76

    6.3.1.1 Transformao dos dados numa matriz binria . . . . . . 76

    viii

  • ndice ix

    6.3.1.2 Clculo do suporte dos itens de tamanho 1 . . . . . . . . 77

    6.3.1.3 Descobrir os conjuntos com base nos itens frequentes . . . 78

    6.3.1.4 Descobrir os conjuntos com base nos itens infrequentes . . 82

    6.3.1.5 Clculo do suporte mximo com base na mdia em 10%dos itens menos frequentes . . . . . . . . . . . . . . . . . 86

    6.3.2 Medida adoptada para identificao do conjunto de regras interes-santes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    6.3.3 Ps-processamento das regras de associao . . . . . . . . . . . . . 87

    6.4 Aplicao Desenvolvida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    6.4.1 Algoritmo Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

    6.4.2 Algoritmo WinMirf . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

    7 Avaliao da Soluo Apresentada 95

    7.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    7.2 Resultados obtidos com o algoritmo Apriori . . . . . . . . . . . . . . . . . 96

    7.3 Resultados obtidos com o algoritmo WinMirf . . . . . . . . . . . . . . . . 98

    7.3.1 Gerao de regras de associao com base nos itens frequentes . . . 98

    7.3.1.1 Processo de extraco de regras a partir dos itens fre-quentes na base de dados AdventureWorks . . . . . . . . 99

    7.3.2 Consideraes sobre a extraco com base nos itens frequentes . . . 101

    7.3.3 Gerao de regras de associao com base nos itens raros . . . . . 102

    7.3.3.1 Processo de extraco de regras a partir dos itens rarosna base de dados AdventureWorks . . . . . . . . . . . . . 102

    7.3.4 Consideraes sobre a extraco com base nos itens raros . . . . . 104

    7.3.4.1 Clculo do suporte mximo com base na mdia em 10%dos itens menos frequentes . . . . . . . . . . . . . . . . . 104

    8 Concluso 106

    8.1 Sntese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

    8.2 Consideraes finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    8.3 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    8.4 Limitaes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    8.5 Perspectivas de trabalho futuro . . . . . . . . . . . . . . . . . . . . . . . . 108

    Bibliografia 110

    ix

  • Lista de Figuras

    1.1 Uma viso geral dos passos que compem o processo de KDD. . . . . . . . 3

    1.2 A Metodologia CRISP-DM. . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1 Espao de pesquisa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2 Reduo do espao de pesquisa. . . . . . . . . . . . . . . . . . . . . . . . . 15

    4.1 Leitura da primeira transaco da base de dados . . . . . . . . . . . . . . 46

    4.2 Leitura da segunda transaco . . . . . . . . . . . . . . . . . . . . . . . . . 46

    4.3 Leitura da terceira transaco . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.4 Leitura da quarta transaco . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.5 Leitura da ltima transaco . . . . . . . . . . . . . . . . . . . . . . . . . 47

    6.1 Processo para definir as margens para a pesquisa dos itens. . . . . . . . . 69

    6.2 Clculo do suporte mnimo com base no item com suporte mximo. . . . . 70

    6.3 Clculo do suporte mnimo com diferentes percentagens. . . . . . . . . . . 71

    6.4 Clculo do suporte mximo com base no item com suporte mnimo. . . . . 73

    6.5 Processo actualizao clculo do suporte. . . . . . . . . . . . . . . . . . . . 74

    6.6 Extrao de itens frequentes. . . . . . . . . . . . . . . . . . . . . . . . . . 79

    6.7 Possveis conjuntos de dois itens. . . . . . . . . . . . . . . . . . . . . . . . 79

    6.8 Extrao de conjuntos de dois itens frequentes. . . . . . . . . . . . . . . . 80

    6.9 Possveis conjuntos de trs itens. . . . . . . . . . . . . . . . . . . . . . . . 81

    6.10 Extraco de itens raros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    6.11 Possveis conjuntos de dois itens infrequentes. . . . . . . . . . . . . . . . . 83

    6.12 Extraco de itens raros com conjuntos de dois itens. . . . . . . . . . . . . 84

    6.13 Possveis conjuntos de itens infrequentes. . . . . . . . . . . . . . . . . . . . 85

    6.14 Clculo do Suporte com base na mdia dos itens infrequentes. . . . . . . . 86

    6.15 Clculo do Suporte com base na mdia dos itens infrequentes. . . . . . . . 86

    6.16 Seleco das regras mais interessantes. . . . . . . . . . . . . . . . . . . . . 89

    6.17 Seleco das regras mais interessantes. . . . . . . . . . . . . . . . . . . . . 90

    x

  • Lista de Figuras xi

    6.18 Ecr principal da soluo desenvolvida. . . . . . . . . . . . . . . . . . . . . 92

    6.19 Utilizao do algoritmo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 93

    6.20 Utilizao do algoritmo Apriori. . . . . . . . . . . . . . . . . . . . . . . . . 94

    6.21 Utilizao do algoritmo WinMirf com base nos itens frequentes. . . . . . . 94

    7.1 Regras de Associao na base de dados AdventureWorks. . . . . . . . . . . 97

    7.2 Regras de Associao na base de dados BMS-WebView-1. . . . . . . . . . 97

    7.3 Regras de Associao na base de dados T10I4D100K . . . . . . . . . . . . 98

    7.4 Regras de Associao com o algoritmo WinMirf com base nos itens fre-quentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    7.5 Regras de Associao com o algoritmo WinMirf com base nos itens fre-quentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

    7.6 Regras de associao com o algoritmo WinMirf com base na mdia dositens infrequentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    xi

  • Lista de Tabelas

    2.1 Formato matriz binria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2 Organizao horizontal formato Market Basket. . . . . . . . . . . . . . . . 13

    2.3 Tabela relacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.4 Formato itens-transaco. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.5 Base de dados D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.6 Itens de tamanho 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.7 Conjuntos com dois itens. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    2.8 Conjuntos frequentes com trs itens. . . . . . . . . . . . . . . . . . . . . . 18

    2.9 Conjuntos frequentes com quatro itens. . . . . . . . . . . . . . . . . . . . . 18

    2.10 Regras de associao com conjuntos de dois itens. . . . . . . . . . . . . . . 19

    2.11 Regras de Associao com conjuntos de trs itens. . . . . . . . . . . . . . . 20

    2.12 Regras de associao com conjuntos de quatro itens. . . . . . . . . . . . . 21

    3.1 Medidas de avaliao de padres. . . . . . . . . . . . . . . . . . . . . . . . 29

    4.1 Notaes do Apriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.2 Padres Frequentes FP-Tree . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5.1 Matriz Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    5.2 Matriz Inf1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    5.3 Matriz Item . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    5.4 Matriz Inf2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    5.5 Matriz Inf3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

    6.1 Market basket. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6.2 Tabela relacional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6.3 Formato matriz binria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    6.4 Base Dados exemplo D. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

    6.5 Base Dados exemplo D no formato de uma matriz binria. . . . . . . . . . 76

    xii

  • Lista de Tabelas xiii

    6.6 Suporte para os items de tamanho 1. . . . . . . . . . . . . . . . . . . . . . 77

    6.7 Suporte dos itens de tamanho 1. . . . . . . . . . . . . . . . . . . . . . . . 78

    6.8 Conjunto de itens considerados frequentes. . . . . . . . . . . . . . . . . . . 81

    6.9 Conjunto de itens considerados infrequentes. . . . . . . . . . . . . . . . . . 85

    6.10 Regras de Associao obtidas partir dos itens frequentes. . . . . . . . . . . 88

    6.11 Regras de Associao mais interessantes geradas as partir dos itens maisfrequentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    6.12 Regras de associao obtidas a partir dos itens infrequentes. . . . . . . . . 91

    6.13 Regras de associao mais interessantes obtidas a partir dos itens menosfrequentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    7.1 Regras de associao com conjuntos de quatro itens . . . . . . . . . . . . . 96

    7.2 Regras de associao obtidos com o algoritmo Apriori. . . . . . . . . . . . 96

    7.3 Regras de Associao obtidos com o algoritmo WinMirf. . . . . . . . . . . 99

    7.4 Regras de associao com base em itens frequentes na AdventureWorks. . 101

    7.5 Regras de associao com conjuntos de dois itens. . . . . . . . . . . . . . . 102

    7.6 Regras de associao com base no item menos frequente. . . . . . . . . . . 103

    7.7 Regras de associao com base no item menos frequente. . . . . . . . . . . 105

    xiii

  • Lista de Algoritmos

    4.1.1 AIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    4.2.1 Apriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.2.2 apriori-gen() . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.2.3 Gerar Regras de Associao . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.3.1 Algoritmo AprioriTid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    4.9.1 Algoritmo para a Construo da FP-Tree . . . . . . . . . . . . . . . . . . . 44

    4.9.2 Algoritmo FP-growth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.1.1 Algoritmo MSApriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    5.1.2 MSapriori level2-candidate-gen() . . . . . . . . . . . . . . . . . . . . . . . . 56

    5.1.3 MSapriori candidate-gen() . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    5.2.1 Algoritmo MBS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    5.3.1 Algoritmo HBS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    5.4.1 Algoritmo IMSApriori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

    5.4.2 IMSApriori Calcula-MIS () . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.3.1 Algoritmo WinMirf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    6.3.2 Itens_Tamanho_1 () . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    6.3.3 Escolher_a_Melhor_Regras () . . . . . . . . . . . . . . . . . . . . . . . . . 89

    xiv

  • Abreviaturas

    BI Business Intelligence

    DM Data Mining

    DCBD Descoberta Conhecimento Base Dados

    Sup Suporte

    SupMin Suporte Mnimo

    SupMax Suporte Mximo

    Conf Conf iana

    SD Diferena de Suporte

    MIS Suporte Mnimo do Item

    CRISP-DM CRoss Industry Sandard Process for Data Mining

    KDD Knowledge Discovery Database.

    SEMMA Sample, explore, modify, model, assess

    WinMirf Windows Mining Itens Rare and Frequent

    xv

  • Lista de Smbolos

    {, } Chaveta de conjuntos Implicao material Negao Lgica Quantificao universal Pertena a conjunto Subconjunto unio terica de conjuntos Intercepo terica de conjuntos> Maior que

    < Menor que

    Maior ou igual que Menor ou igual que

    xvi

  • Captulo 1

    Introduo

    1.1 Contextualizao

    Os sistemas de gesto de base de dados fazem parte do quotidiano da maioria das em-

    presas como suporte a aplicaes de gesto, mas na verdade, so poucas as organizaes

    que conseguem verdadeiramente extrair conhecimento das suas bases de dados. Tecno-

    logias como ERP, CRM, sistemas de help-desk, internet, intranet e Data Warehouse,

    so alguns dos sistemas com os quais as empresas gerem dados e informao. Muitos

    destes sistemas, bastante ricos em dados, so uma excelente fonte para a obteno de

    informao e conhecimento.

    Perante a necessidade de extrair informao e conhecimento das bases de dados emer-

    giu o conceito de Business Intelligence, trata-se de um conjunto de mtodos e tecnologias

    destinados a auxiliar a tomada de decises. Estes sistemas, normalmente esto articula-

    dos com tecnologias de Data Warehouse e Data Mining (DM).

    Os sistemas de Business Intelligence e o processo de Descoberta de Conhecimento

    em Bases de Dados (DCBD), tm assistido a uma notvel evoluo, para a qual muito

    tem contribudo o desenvolvimento dos algoritmos de DM.

    O termo DM usado principalmente pelos analistas de dados, e pela comunidade

    de gestores de sistemas de informao de gesto. Segundo o Grupo Gartner DM

    o processo de descoberta de novos padres e tendncias, em grandes repositrios de

    dados, utilizando tecnologias de reconhecimento de padres articuladas com tcnicas

    matemticas, estatsticas e de inteligncia artificial. Os padres descobertos devem ser

    significativos na medida em que permitem obter alguma vantagem [Witten and Frank,

    2005].

    1

  • Introduo 2

    Deste modo, para a comunidade cientfica, DM apenas um passo em todo o processo

    de DCBD [Frawley et al., 1992].

    Inicialmente, as tcnicas de DM comearam por ser aplicadas a reas com grandes

    volumes de dados e para as quais a extraco de conhecimento implcito nos dados

    constitua claramente uma mais-valia. Nomeadamente, em domnios como a banca (para

    auxiliar a aprovao de crdito a clientes), os seguros (na deteco de fraudes) e o retalho

    (na descoberta de padres de consumo dos consumidores).

    Actualmente, a aplicabilidade do processo de DCBD estendeu-se a praticamente to-

    das as reas de negcio, ou seja, reas para as quais existam objectivos de descoberta,

    e dados significativos que permitam aplicar com sucesso as tcnicas envolvidas em todo

    o processo de DCBD. So exemplos disso algumas reas da medicina (que se dedicam

    a descobrir padres associados a determinado tipo de doenas), o comrcio electrnico

    (para se obter um conhecimento mais rigoroso dos clientes), de entre outras.

    , neste mbito, da explorao dos dados que algumas reas de investigao tm

    evoludo atravs da aplicao de tcnicas e algoritmos de DM que permitem a criao de

    informao e conhecimento.

    1.2 Processo de descoberta do conhecimento em base de

    dados

    A DCBD foi definida por Fayyad, Piatetsky-Shapiro e Smith como o processo de

    identificao de padres vlidos, novos, teis e compreensveis nos dados [Fayyad et al.,

    1996]. Este mtodo envolve vrias fases e no automatizvel, ou seja, no possvel

    aplicar um sistema de DCBD a uma base de dados e automaticamente obter as relaes

    e padres implcitos nessa mesma base de dados.

    A DCBD um processo centrado na interaco entre diferentes utilizadores:

    especialista de domnio que deve possuir um amplo conhecimento da rea em es-tudo;

    analista (especialista no processo de DCBD e responsvel pela sua execuo) quedeve conhecer profundamente todo o processo de descoberta de conhecimento e as

    tcnicas mais adequadas a cada uma das suas fases;

    utilizador final, usa o conhecimento extrado a partir do processo DCBD em apli-caes que o auxiliam na tomada de decises. No necessrio que este utilizador

    tenha um conhecimento profundo da rea em questo.

    2

  • Introduo 3

    O sucesso da DCBD depende, em parte, da interaco entre estes trs tipos de

    utilizadores. A participao do especialista de domnio e/ou do utilizador final tem

    grande importncia na definio dos objectivos iniciais do processo de DCBD, bem como

    na avaliao final do conhecimento extrado.

    A DCBD um processo complexo que envolve vrias fases. Cada fase inclui muitas

    operaes, que requerem a participao do analista. , ento, um processo interactivo e,

    tambm, dependendo dos resultados obtidos no final de cada uma das suas fases, pode

    ser necessrio voltar a repetir fases anteriores. A figura 1.1 apresenta as fases do processo

    de DCBD.

    Figura 1.1: Uma viso geral dos passos que compem o processo de KDD.

    O processo de DCBD pode ser dividido em trs fases principais: pr-processamento,

    extraco de padres e ps-processamento, sendo de acrescentar que este, alm destas

    etapas, deve, considerar uma etapa anterior, referente identificao do problema, e

    outra posterior, referente utilizao do conhecimento extrado. A seguir so descritas

    detalhadamente todas as fases do processo de DCBD.

    Seleco dos dados Consiste na seriao de dados a partir de diferentes repo-sitrios. A seleco de dados, em determinadas base de dados, no possvel efectuar

    na totalidade devido sua dimenso, sendo necessrio seleccionar amostras de base

    de dados o mais adequadas em funo dos objectivos da descoberta. A amostra

    deve, por um lado, ser suficientemente grande de modo a justificar a validade do

    3

  • Introduo 4

    conhecimento extrado mas, tambm, no deve ser demasiado grande, pois pode

    inibir a finalizao dos algoritmos de Data Mining. Por outro lado, se a amostra

    for demasiado pequena o novo conhecimento descoberto pode ser inconsistente com

    o conhecimento que j se detm, ou demasiado especfico ou muito genrico, e por

    isso, no ser de grande utilidade.

    Limpeza dos dados Consiste na eliminao de problemas essencialmente sin-tcticos nos dados, ou seja, substituio ou eliminao de valores em falta ou valores

    isolados e correco de valores errados. Deste modo, o objectivo essencialmente

    reduzir o rudo nos dados.

    Transformao dos dados Esta fase muito importante pois aqui que osdados vo tomar a forma final para serem processados pelos algoritmos de DM.

    Tenta-se incorporar algum conhecimento que se tem da rea em estudo e simulta-

    neamente reduzir a dimensionalidade da amostra. Isto pode ser conseguido atravs

    da reduo em linhas, conseguida com a generalizao de Atributos Categricos,

    ou atravs da Discretizao de Valores Contnuos, e da reduo em colunas que

    conseguida por remoo dos atributos que no so essenciais, ou importantes, para

    determinado objectivo de descoberta e/ou combinao de uma ou mais variveis

    independentes.

    Data mining Consiste na escolha dos algoritmos mais adequados de acordocom o objectivo da descoberta e com os dados que se dispe, e na aplicao dos

    algoritmos aos dados limpos e pr-processados.

    Interpretao dos resultados Consiste na interpretao e avaliao dos pa-dres descobertos pelos algoritmos de DM. Nesta fase so avaliados os resultados

    em funo da utilidade e do grau de surpresa que os resultados proporcionam.

    Finalmente, o novo conhecimento descoberto dever ser incorporado numa base de

    conhecimento da organizao, o que poder envolver a resoluo de conflitos com

    o conhecimento j detido.

    Em qualquer fase pode ser necessrio efectuar o retorno s fases anteriores e refinar

    os dados, logo poder-se- acrescentar que este processo cclico.

    1.3 Operaes de Data Mining

    Na prtica, os principais objectivos, de alto nvel, do processo de DCBD so prog-

    nosticar e descrever:

    4

  • Introduo 5

    Prognosticar envolve o uso de algumas variveis ou campos da base de dados eprever valores desconhecidos ou valores futuros de outras variveis de interesse,

    por exemplo, o salrio, a idade, a resposta a uma campanha, etc. em funo de

    outros. O prognstico um mtodo orientado, ou seja, dirigido por um objectivo,

    que se pode focar na explicao do valor de um campo particular, atribuir instncias

    das entidades a um conjunto fixo de classes.

    Descrever baseia-se na procura de relaes que descrevam os dados atravs demodelos. A descrio o mtodo no-orientado de descoberta de conhecimento a

    partir de dados. Neste no existe um objectivo bem definido, pretende-se apenas

    que os algoritmos de DM automaticamente identifiquem relaes significativas nos

    dados.

    No contexto de descoberta de conhecimento a partir de dados, a descrio portadora

    de maior novidade, mas por si s no suficiente, tem de ser complementada com o

    processo dirigido de DCBD para explicar as relaes descobertas.

    As principais operaes de DM so classificao, segmentao ou clustering, anlise

    de associaes, anlise sequencial e anlise de desvios.

    1.3.1 Classificao

    A classificao uma funo que divide (ou classifica) os dados de acordo com um

    nmero especfico de caractersticas. A classificao uma aprendizagem direccionada, ou

    seja, os algoritmos so previamente treinados com um conjunto de classes pr-definidas.

    O objectivo desta operao usar dados histricos para gerar um modelo atravs do qual

    seja possvel classificar comportamentos futuros do negcio em estudo. Por exemplo, um

    modelo de classificao de clientes num banco poder ser usado para classificar novos

    clientes de acordo com o seu risco de crdito.

    1.3.2 Clustering

    A segmentao ou clustering uma operao no supervisionada. Nesta operao os

    algoritmos criam eles prprios as classes (subconjuntos de registos que apresentam valores

    mais prximos em certos atributos) dividindo a BD em subconjuntos mais pequenos. Os

    resultados da segmentao podem ser usados de duas formas:

    para sumariar o contedo de cada segmento originado a partir dos dados, conside-rando apenas as caractersticas mais relevantes;

    5

  • Introduo 6

    como preparao de dados para outros mtodos de Data Mining, por exemplo,produo de regras de classificao de cada um dos clusters descobertos.

    1.3.3 Anlise de associaes

    A anlise de associaes uma operao no supervisionada, que tem por objectivo

    estabelecer relaes entre alguns atributos seleccionados, ou seja, procura relaes entre

    itens dentro de uma mesma transaco.

    1.3.4 Anlise sequencial

    A anlise sequencial procura relaes temporais num conjunto de dados com vrias

    transaces separadas no tempo.

    1.3.5 Anlise de desvios

    A anlise de desvios foca-se na descoberta de mudanas mais significativas nos dados

    a partir de valores previamente medidos ou valores normativos. A anlise de desvios

    uma tcnica poderosa porque uma forma simples de representar relaes interessantes

    nos dados, isto porque, uma vez que diferem do esperado, so por definio interessantes.

    Exemplos destas aplicaes so a deteco de desvios em stocks, e anlises de desvios de

    custos aplicados a tratamentos hospitalares.

    1.4 Metodologias

    Com base no processo de DCBD foram definidas vrias metodologias das quais as

    mais usadas so a metodologia CRISP-DM (CRoss Industry Standard Process for Data

    Mining) e a SEMMA (Sample, Explore, Modify, Model, Assessment).

    A CRISP-DM surgiu em 1996 atravs do consrcio formado pelas empresas NCR,

    DaimlerChrysler AG e SPSS (CRISP-DM-Consortium). O seu desenvolvimento foi mo-

    tivado pelo interesse crescente e generalizado, por um lado pelo mercado de DM, e, por

    outro, pelo consenso de que a indstria necessitava de um processo padronizado [Wirth,

    2000].

    A CRISP-DM descrita em termos de uma hierarquia, com um ciclo de vida que

    se desenvolve em seis fases interactivas: compreenso do negcio, estudo dos dados,

    preparao dos dados, modelao, avaliao e implementao. As fases no tm uma

    6

  • Introduo 7

    sequncia fixa dependem do resultado e do desempenho das outras fases ou das tarefas

    particulares de determinada fase [Chapman et al., 1999].

    A SEMMA foi desenvolvida pelo instituto SAS que se dedica ao desenvolvimento de

    solues na rea do Suporte Deciso e Business Intelligence. Neste mtodo o processo

    DM dividido em cinco etapas, que compem o acrnimo SEMMA: Sample, Explore,

    Modify, Model, Assessment (Amostragem, Explorao, Modificao, Modelao, Avalia-

    o).

    As metodologias CRISP-DM e SEMMA so independentes das ferramentas, mtodos

    ou tcnicas de DM adoptadas, podendo ser usadas por qualquer uma. No entanto,

    devido s suas origens, tendem a ser usadas nas ferramentas desenvolvidas por estes. A

    metodologia CRISP-DM utilizada em conjunto com a ferramenta Clementine da SPSS

    e a metodologia SEMMA surge associada ferramenta Enterprise Minner da SAS.

    Estas duas metodologias foram desenvolvidas com a finalidade de ajudar no processo

    DM e de resolver os problemas do negcio de uma forma rpida, exequvel e vivel. A

    metodologia CRISP-DM mais completa que a SEMMA, uma vez que, para alm das

    fases que a SEMMA incorpora, acrescem as fases do Estudo do Negcio, Estudo dos

    Dados e Implementao, para alm de que esta metodologia mais documentada.

    Figura 1.2: A Metodologia CRISP-DM.

    7

  • Introduo 8

    1.5 Consideraes finais

    Pode-se dizer que o objectivo do processo de DCBD encontrar conhecimento a

    partir de um conjunto de dados para ser usado em processos de tomada de deciso.

    Portanto, relevante que esse conhecimento descoberto seja compreensvel e interessante.

    Entretanto do ponto de vista do utilizador final, o conhecimento por vezes de difcil

    compreenso dada a complexidade dos modelos extrados. Por esta razo, a fim de

    facilitar a compreenso dos modelos usual a utilizao de regras como linguagem para

    representao do conhecimento.

    Uma lacuna identificada prende-se com o facto dos algoritmos de DM gerarem um

    nmero muito elevado de padres, sendo que poucos so realmente interessantes. Este

    problema , ainda, mais acentuado na operao de Data Mining relativa extraco de

    regras de associao.

    Os algoritmos de extraco de regras de associao visam descobrir o quanto um

    conjunto de itens presente num registo de uma base de dados implica a presena de um

    outro conjunto distinto de itens no mesmo registo [Agrawal and Srikant, 1994]. Assim,

    com a extraco de regras de associao possvel descobrir todas as associaes exis-

    tentes nas transaces de uma base de dados, o que pode levar gerao de um grande

    nmero de regras, dificultando a identificao de conhecimento interessante.

    Com o intuito de transpor esta dificuldade tm sido propostas diversas medidas para

    a avaliao das regras extradas. Estas medidas so geralmente divididas em medidas

    objectivas (data driven) ou subjectivas (user driven). As medidas objectivas dependem

    exclusivamente da estrutura dos padres e dos dados utilizados no processo de extraco

    de conhecimento. Quanto s medidas subjectivas, estas dependem fundamentalmente do

    interesse e/ou necessidade dos utilizadores que iro utilizar o conhecimento [Silberschatz

    and Tuzhilin, 1995]. Assim, as medidas objectivas so mais gerais e independentes do

    domnio e dos especialistas envolvidos.

    Outro problema associado com a extraco de regras de associao est relacionado

    com os itens que so envolvidos nas regras. Os tradicionais algoritmos apenas extraem

    regras com itens frequentes, a gerao de regras com itens no frequentes leva gerao de

    um grande nmero de regras, dificultando a identificao de conhecimento interessante.

    8

  • Introduo 9

    1.6 Objectivos

    As regras de associao so o objecto de estudo desta trabalho, mais concretamente

    a extraco de regras de associao interessantes que envolvam simultaneamente itens

    frequentes e raros. Nas ltimas duas dcadas, a maior parte do trabalho de investigao

    sobre regras de associao que tem sido desenvolvido tem por base o estudo de relaes

    entre itens que ocorrem com elevada frequncia, bem como a optimizao do desempenho

    desses mesmos algoritmos.

    Deste modo, a finalidade desta investigao, examinar as tcnicas e algoritmos de

    extraco de regras de associao j existentes, as principais vantagens e desvantagens

    dos algoritmos na extraco de regras de associao, as principais medidas de avaliao de

    regras de associao e por fim desenvolver um sistema computacional com os algoritmos

    mais importantes. tambm objectivo, propor um algoritmo que permite extrair regras

    que envolvam simultaneamente itens raros e frequentes, controlando o nmero de regras

    geradas atravs da aplicao de vrias medidas de avaliao combinadas.

    1.7 Organizao

    Esta dissertao est dividida em oito captulos. Neste primeiro captulo foi apresen-

    tado o contexto em que se insere este trabalho, bem como o processo de DCBD, principais

    operaes de DM, as metodologias CRISP-DM e SEMMA e os objectivos propostos.

    No captulo dois introduzido o conceito de regras de associao, sendo apresentado

    de forma detalhada o Modelo Formal das regras de associao, e expostas as principais

    medidas o Suporte e a Confiana. No captulo consequente so apresentadas algumas

    das medidas que ao longo dos ltimos anos, tm sido propostas como forma de avaliar a

    qualidade e importncia das regras geradas pelos diversos algoritmos.

    Nos captulos quatro e cinco efectuada uma reviso bibliogrfica dos principais

    algoritmos para a extraco de regras de associao.

    No captulo seis apresentada uma proposta de um algoritmo que permite extrair

    regras que envolvam simultaneamente itens raros e frequentes, sendo efectuada uma

    avaliao da soluo apresentada no captulo oito.

    No ltimo captulo, desta dissertao, so apresentadas as concluses do estudo efec-

    tuado e algumas propostas para trabalho futuro.

    9

  • Captulo 2

    Regras de Associao

    2.1 Introduo

    As regras de associao so uma operao de minerao de dados que tem despertado

    grande interesse tanto na rea acadmica como em aplicaes prticas [Laudon and

    Laudon, 2003].

    Pesquisas tm sido desenvolvidas procurando explorar todo o potencial dos algoritmos

    de regras de associao na procura de novas informaes em reas to diversas como

    marketing, finanas, produo, telecomunicaes, medicina, vendas, entre outras.

    Um exemplo da utilizao de regras de associao, na rea comercial, pode ser obser-

    vado em sites da internet que apresentam sugestes do tipo "... quem comprou o produto

    que procura, tambm comprou os seguintes produtos ...".

    Esta tcnica de DM foi apresentada pelos investigadores da IBM Agrawal, Imielinski e

    Swami, quando apresentaram um estudo que procurava encontrar relacionamentos entre

    os itens nas compras dos clientes numa visita ao supermercado [Agrawal et al., 1993].

    Com este estudo foi introduzido o conceito de regras de associao, esta tcnica

    permite descobrir se a presena de um conjunto de itens nos registos de uma base de

    dados implica a presena de um outro conjunto distinto de itens nos mesmos registos

    [Agrawal and Srikant, 1994]. Como os primeiros estudos incidiram na anlise sobre

    dados relativos a cestos de compras num supermercado, para identificar produtos que

    costumam ser adquiridos em conjunto, este tipo de sistema ficou denominado como

    market basket analysis. Entretanto, as regras de associao no esto restritas a anlises

    de dependncia no contexto de aplicaes de retalho uma vez que tm sido aplicadas,

    com sucesso, s mais variadas reas.

    10

  • Regras de Associao 11

    2.2 Modelo formal das regras de associao

    2.2.1 Regras de associao

    A representao do problema de descoberta de regras de associao foi proposto,

    inicialmente, por Agrawal, Imielinski e Swami[Agrawal et al., 1993].

    Uma regra de associao representada como uma implicao na forma LHS RHS,em que LHS e RHS so respectivamente, o antecedente (left hand side) e o consequente

    (right hand side) da regra, e definida da seguinte maneira [Agrawal and Srikant, 1994]:

    Seja D uma base de dados constituda por um conjunto de itens A = {a1,a2, ...,am}e por um conjunto de transaces T = {t1, t2, ..., tm}, na qual cada transaco ti T composta por um conjunto de itens tal que ti A.

    A regra de associao uma implicao na forma LHS RHS em que LHS A eRHS A e LHS RHS =. Tanto o antecedente, quanto o consequente de uma regrade associao podem ser formados por conjuntos contendo um ou mais itens.

    A quantidade de itens pertencentes a um conjunto de itens chamada de compri-

    mento do conjunto. Um conjunto de itens de comprimento k referenciado como um

    k-itemset.

    A regra LHS RHS ocorre no conjunto de transaces T com um suporte sup seem 100 sup% das transaces em T ocorre LHS RHS.

    A regra LHS RHS ocorre no conjunto de transaces T com uma confiana confse em 100 conf% das transaces de T em que ocorre LHS tambm ocorre RHS.

    Nas regras de associao, as medidas mais usadas so o suporte e a confiana, tanto

    na etapa de ps-processamento, na avaliao do conhecimento, como na seleco de

    itemsets durante o processo de gerao de regras. Tais medidas so a seguir definidas.

    2.2.2 Suporte

    O suporte (Sup) a probabilidade de uma transaco D abranger XY . Demonstraa frequncia com que os itens ocorrem em relao ao total de dados analisados.

    O Sup (X Y ) e dado por:

    sup = contar(XY )tamanho(D)

    = {|t D|X t, Y t}/|D|11

  • Regras de Associao 12

    2.2.3 Confiana

    A confiana da regra X Y isto Conf (X Y ) a relao |(X Y )(t)|/|X(t)|,ou sup(X Y )/sup(X) [Zhang and Zhang, 2002].

    Conf(X Y ) = suporte(XY )suporte(X) .

    2.2.4 Conjunto de itens

    O conjunto de Itens corresponde ao conjunto de atributos contidos na base de dados.

    Normalmente nas regras de associao o conjunto de items representado da seguinte

    forma:

    I = {i1, i2, ..., im}.

    2.2.5 Base de dados

    Trata-se de um conjunto de informao relacionada, organizada de tal forma que o

    seu armazenamento e manipulao, se realizam de um modo eficiente e eficaz.

    Para alguns algoritmos de regras de associao, uma base de dados D, transfor-

    mada por questes de simplicidade, numa tabela relacional booleana, onde cada linha

    corresponde a um registo, e cada coluna corresponde a um atributo. Cada entrada na

    linha contm 1 ou 0 dependendo se o atributo i est presente no registo ou no.

    a b c d e1 1 1 0 1 12 0 1 1 0 13 1 1 0 1 14 1 1 1 0 15 1 1 1 1 16 0 1 1 1 0

    Tabela 2.1: Formato matriz binria.

    12

  • Regras de Associao 13

    Os principais formatos de bases de dados utilizados nos algoritmos de regras de

    associao:

    A organizao da base de dados num formato horizontal ou geralmente designado

    como Market Basket o formato mais usado pelos algoritmos de extraco de regras de

    associao. Neste formato, em cada registo da base de dados, esto inscritos os itens

    presentes na transaco.

    TID Conjunto Itens1 abde2 bce3 abde4 abce5 abcde6 bcd

    Tabela 2.2: Organizao horizontal formato Market Basket.

    A organizao no formato relacional outro dos formatos utilizados pelos algoritmos

    de regras de associao. Este modelo usado pela maioria dos SGBD. As tabelas, neste

    formato, so constitudas por linhas e colunas onde cada linha da tabela representa um

    relacionamento entre conjunto de valores contendo informao sobre as colunas.

    TID Conjunto Itens1 a1 b1 d1 e2 b2 c

    Tabela 2.3: Tabela relacional.

    Outro formato, tambm, utilizado por algoritmos de regras de associao consiste

    numa tabela de itens-transaces, como apresentado na tabela 2.4. Esta tabela uma

    simplificao da tabela booleana de itens-transaces na qual itens com valor 1 so

    mantidos e itens com valor 0 so removidos da tabela.

    1 a b d e2 b c e3 a b d e4 a b c e5 a b c d e

    Tabela 2.4: Formato itens-transaco.

    13

  • Regras de Associao 14

    2.2.6 Espao de pesquisa nos dados

    Os algoritmos de extraco de regras de associao efectuam geralmente as suas

    pesquisas em grandes quantidades de dados, o que os torna computacionalmente exigen-

    tes. Uma das principais razes que faz com que os algoritmos sejam particularmente

    intensivos o elevado nmero de associaes que possvel obter com os dados.

    Figura 2.1: Espao de pesquisa.

    Para estimar as possibilidades de conjuntos de itens, calcula-se o nmero total de

    itens existentes na base de dados e aplica-se a seguinte frmula matemtica.

    Total do Conjunto de Itens = 2TotalItens 1

    Numa base de dados D com apenas 5 itens, o nmero total de conjunto de itens que

    possvel obter de 31, como mostra a figura 2.1 e a frmula que se segue:

    2{a,b,c,d,e} 1 = 25 1 = 31

    14

  • Regras de Associao 15

    Para reduzir o nmero de candidatos e tornar a pesquisa do conjunto de itens com-

    putacionalmente menos exigente os investigadores Agrawal e Srikant apresentaram a

    propriedade anti-montona do suporte [Agrawal and Srikant, 1994]:

    se um conjunto de itens frequente, ento todos os seus subconjuntos tambmdevem ser frequentes

    o suporte de um conjunto de itens nunca excede o suporte dos seus subconjuntos

    X,Y : (X Y ) s(X) s(Y )

    Esta propriedade, como ilustra a figura 2.2, permite reduzir o espao de pesquisa.

    Por exemplo, como o conjunto de itens {AB} no satisfaz o suporte mnimo, ento,

    possvel ignorar todos os seus super-conjuntos.

    Figura 2.2: Reduo do espao de pesquisa.

    15

  • Regras de Associao 16

    2.2.7 Descoberta de regras de associao

    O modelo tpico para minerao de regras de associao em bases de dados con-

    siste em encontrar todas as regras que possuam suporte e confiana maiores ou iguais,

    respectivamente, a um suporte mnimo (Supmin) e uma confiana mnima (Confmin),

    previamente especificados. Por este motivo, o modelo costuma ser referenciado na li-

    teratura como modelo Suporte/Confiana. Nesta abordagem o problema de obteno

    das regras de associao geralmente decomposto em dois subproblemas [Agrawal et al.,

    1993]:

    1. encontrar todos os grupos de itens (k-itemsets) que tm suporte de transaco

    acima do suporte mnimo (Supmin) definido. Os itemsets com suporte igual ou

    superior ao (Supmin) so designados de conjunto de itens frequentes, os restantes

    so denominados de itens raros;

    2. utilizar os k-itemsets frequentes (com K 2) para gerar as regras de associaocom confiana maior ou igual confiana mnima (Confmin) definida.

    2.2.7.1 Descobrir os itens frequentes

    Considere-se a base de dados ilustrada na tabela 2.5 com um Supmin= 50% e uma

    Confmin=75%

    D =

    TID Conjunto Itens1 abde2 bce3 abde4 abce5 abcde6 bcd

    Tabela 2.5: Base de dados D.

    Os algoritmos para descobrirem os itens frequentes fazem mltiplas passagens pelos

    dados, na primeira passagem contabilizado o suporte individual de cada item e de-

    terminados quais os que so frequentes (Large Itemsets), ou seja, os que satisfazem o

    suporte mnimo .

    Exemplo: sup(a) = {1,3,4,5}6 =46=67% . Como sup(a) Supmin, ento item {a}

    considerado frequente.

    16

  • Regras de Associao 17

    O conjunto de itens frequentes de tamanho 1 obtido atravs dos itens cujo Sup Supmin

    Item suporte (s){a} 67%{b} 100%{c} 67%{d} 67%{e} 83%

    Tabela 2.6: Itens de tamanho 1.

    So considerados como itens frequentes de tamanho 1: F1 : {a}, {b}, {c}, {d}, {e},

    Os conjuntos de tamanho 2 so obtidos a partir dos conjuntos frequentes de tamanho

    1.

    F1 : {a}, {b}, {c}, {d}, {e},

    C2 : {a, b}, {a, c}, {a, d}, {a, e}, {b, c {b, d {b, e}, {c, d}, {c, e}, {d, e}

    Conjunto de 2 Itens Suporte{a, b} 67%{a, c} 33,3%{a, d} 50%{a, e} 67%{b, c} 67%{b, d} 67%{b, e} 83%{c, d} 33,3%{c, e} 50%{d, e} 50%

    Tabela 2.7: Conjuntos com dois itens.

    Seguidamente, apresenta-se os conjuntos com dois itens considerados como frequen-

    tes:

    F2 : {a, b}, {a, d}, {a, e}, {b, c}, {b, d}, {b, e}, {c, e}, {d, e} .

    Os conjuntos de tamanho 3 so obtidos a partir dos itens frequentes dos conjuntos

    tamanho 1 e 2.

    F1 : {a}, {b}, {c}, {d}, {e},

    F2 : {a, b}, {a, d}, {a, e}, {b, c}, {b, d}, {b, e}, {c, e}, {d, e}

    17

  • Regras de Associao 18

    Na terceira passagem pelos dados, obtm-se os seguintes conjuntos de 3 itens:

    Conjunto de 3 Itens Suporte{a, b, c} 33,3%{a, b, d} 50%{a, b, e} 67%{a, d, e} 50%{b, c, d} 33,3%{b, c, e} 50%{b, d, e} 50%{c, d, e} 16,67%

    Tabela 2.8: Conjuntos frequentes com trs itens.

    Seguidamente, apresenta-se os conjuntos com trs itens considerados como frequentes:

    F3 : {a, b, d}, {a, b, e}, {a, d, e}, {b, c, e}, {b, d, e} .

    Os conjuntos de tamanho 4 so obtidos a partir dos itens frequentes dos conjuntos

    tamanho 1 e 3.

    F1 : {a}, {b}, {c}, {d}, {e},

    F3 : {a, b, d}, {a, b, e}, {a, d, e}, {b, c, e}, {b, d, e} .

    Conjunto de 4 Itens Suporte{a, b, c, d} 16,67%{a, b, c, e} 33,3%{a, b, d, e} 50%{a, c, d, e} 16,67%{b, c, d, e} 16,67%

    Tabela 2.9: Conjuntos frequentes com quatro itens.

    Seguidamente, apresenta-se os conjuntos com quatro itens considerados como fre-

    quentes: F4 : {a, b, d, e}.

    A pesquisa dos itens frequentes um dos principais problemas apontados aos algo-

    ritmos que tm como base a gerao de regras de associao baseado no suporte mnimo.

    Ao ser definido um valor para o suporte mnimo, relativamente, elevado o nmero de

    itens frequentes encontrados e as regras geradas so, normalmente, em nmero reduzido.

    Pelo contrrio, quando se define um suporte mnimo relativamente baixo o conjunto de

    itens frequentes normalmente elevado o que leva gerao de um elevado nmero de

    regras de associao, o que do ponto de vista computacional se torna demasiado exigente.

    18

  • Regras de Associao 19

    2.2.7.2 Gerao de regras

    Para a gerao das regras de associao so utilizados os conjuntos de itens frequentes

    com mais de dois itens e aplicada a medida da confiana.

    Como o clculo da confiana da regra feito com base no suporte do antecedente e

    do consequente da regra a base de dados no necessita de ser percorrida. Uma regra

    considerada vlida quando a confiana da regra a ser analisada superior confiana

    mnima.

    Com os itens de tamanho 2 (F2 : {a, b}, {a, d}, {a, e}, {b, c}, {b, d}, {b, e}, {c, e}, {d, e}) possvel obter os seguintes conjuntos de regras:

    Regras de AssociaoConjunto de 2 Itens Suporte Regra Confiana

    {a, b} 66,67 % {a} {b} 100 %{b} {a} 66,67 %

    {a, d} 50,00 % {a} {d} 75,00 %{d} {a} 75,00%

    {a, e} 66,67 % {a} {e} 100 %{e} {a} 80,00 %

    {b, c} 66,67 % {b} {c} 66,67 %{c} {b} 100 %

    {b, d} 66,67 % {b} {d} 66,67 %{d} {b} 100 %

    {b, e} 83,33 % {b} {e} 83,33 %{e} {b} 100 %

    {c, e} 50,00 % {c} {e} 75,00 %{e} {c} 60,00 %

    {d, e} 50,00 % {d} {e} 75,00 %{e} {d} 60,00 %

    Tabela 2.10: Regras de associao com conjuntos de dois itens.

    Para os itens frequentes com dois itens, as regras consideradas vlidas, ou seja as

    regras que satisfazem a confiana mnima predefinida de 75% so:

    {a} {b} {a} {d} {a} {e} {b} {e} {c} {e} {d} {e}

    A medida da confiana indica a validade da regra, apontando a percentagem de vezes

    que ocorre {a} e {b} simultaneamente sobre o total de registos que possuem {a}.

    Significa que nas transaces onde est presente o item {a}, o valor da percentagem

    de transaces que tambm contm o item {b} de 100%. Pelo contrrio, nas transaces

    onde ocorre o item {b}, a percentagem de transaces que possuem tambm o item {a}

    apresenta uma confiana 67,67%.

    19

  • Regras de Associao 20

    Com os itens de tamanho 3 (F3 : {a, b, d}, {a, b, e}, {a, d, e}, {b, c, e}, {b, d, e}) pos-svel obter os seguintes conjuntos de regras:

    Regras de AssociaoConjunto de 3 Itens Suporte Regra Confiana

    {a, b, d} 50,00 % {a,b} {d} 75,00 %{b} {d,a} 50,00 %{d,a} {b} 100 %{a} {d,b} 75,00 %{d,b} {a} 75,00 %{d} {b,a} 75,00 %

    {a, b, e} 66,67 % {a,b} {e} 100 %{b} {e,a} 66,67 %{e,a} {b} 100 %{a} {e,b} 100 %{e,b} {a} 80,00 %{e} {b,a} 80,00 %

    {a, d, e} 50,00 % {a,d} {e} 100 %{d} {e,a} 75,00 %{e,a} {d} 75,00 %{a} {e,d} 75,00 %{e,d} {a} 100 %{e} {d,a} 60,00 %

    {b, d, e} 50,00 % {b,d} {e} 75,00 %{d} {e,b} 75,00 %{e,b} {d} 60,00 %{b} {e,d} 50,00 %{e,d} {b} 100 %{e} {d,b} 60,00 %

    {b, e, c} 50,00 % {b,e} {c} 60,00 %{e} {c,b} 60,00 %{c,b} {e} 75,00 %{b} {c,e} 50,00 %{c,e} {b} 100 %{c} {e,b} 75,00 %

    Tabela 2.11: Regras de Associao com conjuntos de trs itens.

    Para os itens frequentes com trs itens, so consideradas as seguintes regras vlidas:

    {a,b} {d} {d,a} {b} {a} {d,b} {d,b} {a} {d} {b,a}{a,b} {e} {e,d} {a} {e,a} {b} {a} {e,b} {e,b} {a}{e} {b,a} {a,d} {e} {d} {e,a} {e,a} {d} {a} {e,d}{b,d} {e} {d} {e,b} {e,d} {b} {c,b} {e} {c} {e,b}{c,e} {b}

    20

  • Regras de Associao 21

    Com o intuito de aperfeioar a gerao de regras de associao os investigadores

    Agrawal e Srikant definiram a seguinte propriedade [Agrawal and Srikant, 1994]:

    Se a regra X Y X no vlida, no necessrio verificar a regra X Y X ,onde X corresponde a um subconjunto de X. Como o subconjunto X detm um suporte

    igual ou superior ao suporte de X, desta forma a confiana da regra X Y X noapresenta uma confiana superior que a regra X Y X, como tal tambm no vlida.

    No exemplo, a regra {b,e} {c} apresenta uma confiana de 60%, no satisfazendoa confiana mnima predefinida, sendo considerada uma regra invlida. Segundo a pro-

    priedade acima definida, as regras {b} {e,c} e {e} {b,c} tambm no sero vlidas.Verificando a confiana das respectivas regras, {b} {e,c} apresenta uma confiana de50,00% e {e} {b,c} apresenta uma confiana de 60,00% confirmando-se, que detmuma confiana inferior confiana mnima.

    Para os itens de tamanho 4 (F4 : {a, b, d, e}) possvel obter os seguintes conjuntosde regras:

    Regras de AssociaoConjunto de 4 Itens Suporte Regra Confiana

    {a, b, d, e} 50,00 % {a,b,d} {e} 100,00 %{b,d} {a,e} 75,00 %{d} {a,b,e} 75,00 %{a,d} {b,e} 100,00 %{a,b} {d,e} 75,00 %{b} {a,d,e} 50,00 %{b} {a,d,e} 50,00 %{a} {b,d,e} 75,00 %{e,b,a} {d} 75,00 %{a,b} {d,e} 75,00 %{e,a,d} {b} 100,00 %{e,b,d} {a} 100,00 %{e,b} {d,a} 60,00 %{e,a} {d,b} 75,00 %{e,d} {b,a} 100,00 %{e} {d,a,b} 60,00 %

    Tabela 2.12: Regras de associao com conjuntos de quatro itens.

    21

  • Regras de Associao 22

    2.2.7.3 Consideraes sobre o Suporte/Confiana

    Apesar do seu enorme sucesso o modelo Suporte/Confiana tem recebido muitas

    crticas ao longo dos ltimos anos. Este modelo usado na maioria dos algoritmos tem

    como vantagens a simplicidade e eficcia em extrair informao das bases de dados.

    Um dos problemas apontados ao modelo a definio do suporte mnimo, quando

    o valor atribudo ao suporte mnimo demasiado elevado o nmero de regras geradas

    relativamente baixo. Normalmente as regras geradas com este modelo so geralmente

    consideradas como regras triviais, ou seja no acrescentam novo conhecimento ao j

    existente. Por outro lado, se o suporte mnimo for definido com um valor demasiado

    baixo, o nmero de regras que so geradas bastante elevado, o que torna praticamente

    invivel a anlise das regras pelo utilizador.

    Outras das crticas apontadas a este modelo est relacionado com o facto da medida

    da confiana no detectar independncia entre os itens, desta forma pode atribuir um

    interesse elevado a regras que contm itens no correlacionadas.

    Em suma, a dificuldade de definir um suporte e uma confiana mnima que permitam

    extrair regras interessantes tem sido apontada como a principal limitao ao modelo

    Suporte/Confiana.

    22

  • Captulo 3

    Medidas de Avaliao das Regras de

    Associao

    3.1 Introduo

    Conforme o que j foi apresentado anteriormente, o objectivo final no processo DCBD

    produzir novo conhecimento vlido, til e compreensvel. A representao do conhe-

    cimento por meio de regras facilita a sua interpretao, quando comparado com outros

    modelos. No entanto, anlises detalhadas so necessrias para avaliar se o conhecimento

    ou no interessante.

    A compreensibilidade de uma ou mais regras est relacionada com a sua facilidade de

    interpretao e pode ser estimada por exemplo, pelo nmero de regras e/ou pelo nmero

    de condies por regra. Quanto menos condies mais compreensvel ser a regra. Se

    for considerado o mesmo raciocnio para medir a compreensibilidade de um conjunto de

    regras, ento, quanto menos regras, mais compreensvel ser o conhecimento.

    O interesse do conhecimento, por sua vez, pode estar relacionado com a utilidade ou

    novidade de uma regra ou mais regras, possibilitando a identificao de conhecimento

    novo e til. Ao considerar apenas os dados e a estrutura dos padres, o interesse pode ser

    estimado com a aplicao de medidas estatsticas. No entanto, somente a significncia

    estatstica no garante que uma regra interessante.

    Na avaliao de regras de associao as medidas de avaliao detm um papel funda-

    mental, pois a partir dos resultados obtidos com estas medidas que possvel efectuar

    uma anlise qualitativa das regras que so geradas com os diversos algoritmos. Um dos

    problemas centrais no domnio da descoberta conhecimento a dificuldade em garantir

    23

  • Medidas de avaliao das Regras de Associao 24

    a elaborao de boas medidas de interesse na descoberta de padres [Silberschatz and

    Tuzhilin, 1995].

    Ao longo dos ltimos anos, tm sido propostas muitas medidas para avaliar a quali-

    dade e importncia das regras geradas pelos algoritmos, a principal dificuldade na aplica-

    o destas compreender e seleccionar qual a mais adequada para aplicar em diferentes

    situaes. Na maioria das situaes para analisar o interesse das regras geradas pelos

    algoritmos, uma nica medida sozinha, pode no ser suficiente.

    Existem dois grandes grupos de medidas de avaliao, as designadas medidas de

    interesse objectivas e as medidas de interesse subjectivas. As medidas de interesses

    objectivas so mais gerais, dependem somente da estrutura dos padres e dos dados e

    identificam, estatisticamente, a fora das regras de associao. As medidas subjectivas,

    como o prprio nome sugere, dependem do conhecimento e do interesse do utilizador

    no momento da anlise dos padres. Existem dois factores que podem tornar uma

    regra de associao subjectivamente interessante: a utilidade e inesperabilidade, ambos

    largamente dependentes da experincia do analista.

    Neste estudo s sero consideradas medidas de interesse objectivas.

    3.2 Algumas medidas objectivas

    Muitas pesquisas tm sido realizadas a fim de desenvolver medidas de interesse ob-

    jectivas, com o intuito de analisar a dependncia entre itens. No entanto, ainda, no

    claro quando uma medida , realmente, eficaz em grandes conjuntos de dados [Han et al.,

    2007].

    As primeiras medidas para analisar objectivamente a importncia de uma regra foram

    o suporte e a confiana. O modelo Suporte/Confiana tem recebido muitas crticas ao

    longo dos ltimos anos. O nmero de regras geradas pelo modelo , geralmente, muito

    grande, dificultando o processo de anlise por parte dos utilizadores.

    Experincias apresentadas por Zheng, Kohavi e Mason demonstraram que a minera-

    o de bases de dados reais pode levar gerao de centenas de milhares de regras de

    associao [Zheng et al., 2001]. Alm disso, grande parte destes resultados so constitu-

    dos por regras bvias, redundantes ou, at mesmo, contraditrias, conforme argumentado

    por Padmanabhan e Tuzhilin [Padmanabhan and Tuzhilin, 1999].

    24

  • Medidas de avaliao das Regras de Associao 25

    3.2.1 Interesse (Lift, Interest)

    A medida lift introduzida por Brin, Motwani, Ullman, e Tsur, tambm conhecida

    como interest (interesse), uma das mais utilizadas para avaliar dependncias [Brin

    et al., 1997].

    Dada uma regra de associao X Y , esta medida indica o quanto mais frequentetorna-se Y quando X ocorre:

    Lift(X,Y)= P (XY )P (X)P (Y )

    Se Lift(X Y ) = 1, ento X e Y so independentes.

    Se Lift(X Y ) > 1, ento X e Y so positivamente dependentes.

    Se Lift(X Y ) < 1, ento X e Y so negativamente dependentes.

    Esta medida varia entre 0 e e possui uma interpretao bastante simples: quantomaior o valor do Lift, mais interessante a regra, pois X aumentou ("lifted") Y numa

    maior taxa.

    3.2.2 Alavancagem (Leverage, PS)

    Esta medida introduzida por Piatetsy-Shapiro tambm conhecida na literatura por

    PS ou Leverage indica o valor da diferena entre o suporte real e o suporte esperado de

    uma regra de associao [Piatetsky-Shapiro, 1991], tal como indica a seguinte frmula.

    Leverage(X Y ) = |P (X Y ) P (X)P (Y )|

    Se Leverage (X Y = 1), ento X e Y so independentes.

    Se Leverage (X Y > 1), ento X e Y so positivamente dependentes.

    Se Leverage (X Y < 1), ento X e Y so negativamente dependentes.

    Esta medida varia entre -0.25 e 0.25 e quanto maior o seu valor mais interessante

    a regra encontrada.

    importante observar que o lift consegue destacar, com maior facilidade, a depen-

    dncia positiva entre conjuntos de itens que possuem suporte baixo. J a medida Leverage

    especialmente til para destacar a dependncia positiva entre conjuntos de itens que

    possuem suporte mdio ou alto.

    25

  • Medidas de avaliao das Regras de Associao 26

    3.2.3 Convico (Conviction)

    Esta medida introduzida por Brin, Motwani, Ullman, e Tsur, foi desenvolvida como

    alternativa confiana e representa o poder associativo entre o antecedente e o con-

    sequente de uma regra [Brin et al., 1997]. Experincias realizadas pelos seus autores

    indicam que as regras mais interessantes possuem o valor da medida de convico entre

    1,01 e 5, tal como est representa na frmula que se segue:

    Conviction(X Y ) = P (X)P (qY )P (XqY )

    A medida da convico foi desenvolvida baseada no seguinte argumento: na lgica

    proposicional, uma implicao X Y pode ser reescrita por X Y = (X Y ).Seguindo este argumento, Sup(X Y ), que representa a probabilidade de ocorrncia(suporte real) do antecedente sem o consequente na base de dados, foi colocado no

    denominador da frmula da medida de convico. J no numerador da frmula encontra-

    se o suporte esperado do antecedente sem o consequente. A medida , ento, capaz de

    avaliar o quanto X e Y se afastam da independncia.

    A medida convico apresenta algumas caractersticas bastante interessantes:

    a medida leva em considerao tanto o suporte do antecedente, como o suporte doconsequente;

    caso exista a independncia completa entre o antecedente e o consequente da regra,o valor da convico ser igual a 1;

    regras onde o antecedente nunca aparece sem o consequente (confiana de 100%)tero valor de convico igual a .

    3.2.4 Correlao (Correlation)

    A Correlao uma tcnica estatstica que pode mostrar como os conjuntos esto

    fortemente relacionados.

    A Correlao uma medida que analisa a fora no relacionamento entre dois conjun-

    tos de itens, o valor varia entre -1 (relao linear negativa perfeita) a 1 (relao linear

    positiva perfeita), para o caso de o valor ser 0 significa que no existe nenhum relacio-

    namento.

    Correlation (X Y ) = P (X,Y )P (X)P (Y )P (X)P (Y )(1P (X))(1P (Y ))

    26

  • Medidas de avaliao das Regras de Associao 27

    3.2.5 Teste qui-quadrado X2 (Chi-Square X2)

    A medida estatstica qui-quadrado (X2) um mtodo amplamente utilizado para

    testar independncia e correlao entre os itens.

    Esta medida utiliza a relao entre duas variveis qualitativas, criando uma tabela

    com o resultado do cruzamento das mesmas. Este teste baseado na comparao das

    frequncias observadas com as frequncias esperadas sendo usado para testar a signifi-

    cncia do desvio dos valores esperados.

    Esta abordagem til visto que no s capta correlao, mas tambm detecta im-

    plicaes negativas.

    Considera-se f0 uma frequncia observada e fe uma frequncia esperada, o valor do

    X2 definido do seguinte modo:

    Clculo das frequncias esperadas:

    fe =(totalmarginaldelinha)(totalmarginaldecoluna)

    N

    Clculo do valor X2 :

    X2 = (f0fe)2

    f

    3.2.6 Co-Seno (Cosine)

    Esta medida permite associar dois vectores x e y regra X Y . Interpreta-se xkcomo 1 se a transaco tk contm X e 0 se no contm, aplica-se o mesmo raciocino para

    yk e Y.

    Cosine (X Y )= P (X,Y )P (X).P (Y )

    Deste modo, verifica-se que quanto mais prximo Cosine (X Y ) de 1, maior o nmero de transaces que contm X e Y, e vice versa. Pelo contrrio, quanto mais

    prximo Cosine (X Y ) de 0, existe maior possibilidade das transaces conteremX, sem conterem Y, e vice-versa [Merceron and Yacef, 2008].

    27

  • Medidas de avaliao das Regras de Associao 28

    3.2.7 Gini index (G)

    O Gini index uma medida estatstica de disperso, o valor desta medida para as

    regras de associao dada pela expresso:

    max(P (A)[P (B|A)2 + P (B|A)2] + P (A)[P (B|A)2 + P (B|A)2] P (B)2 P (B)2,P (B)[P (A|B)2 + P (A|B)2] + P (B)[P (A|B)2 + P (A|B)2] P (A)2 P (A)2)

    Este valor pode variar entre 0 e 1, e assume o valor de 0 quando o antecedente e o

    consequente no so correlacionados e 0,5 para uma perfeita correlao.

    3.2.8 CPIR (conditional-probability increment ratio)

    A medida CPIR foi introduzida por Wu, Zhang e Zhang para descobrir e medir tanto

    regras associao positivas como negativas [Wu et al., 2004].

    Designa-se por regras de associao positivas as tradicionais regras na forma X Y ,e regras de associao negativas as na formaX pY , pX Y , pX pY .Estas ltimaspossuem um papel cada vez mais importante no processo de tomada de deciso e tm

    assumido um papel preponderante na descoberta de padres inesperados.

    Seguida apresenta-se a frmula correspondente a esta medida.

    CPIR(Y|X) =

    P (Y |X)P (Y )

    1P (Y ) , seP (Y |X) p(Y ), P (Y 6= 1)P (Y |X)P (Y )

    P (Y ) seP (Y ) > p(Y |X), P (Y 6= 0)

    Se P(Y|X)=P(Y), Y e X so independentes na teoria da probabilidade. A confianada regra da associao X Y torna-se confiana(X Y ) = CPIR(Y |X) = 0.

    Se P(Y|X)-P(Y)>0,Y positivamente dependente de X. Quando p(Y|X)=1 que o mais forte possvel condio, a confiana da regra da associao X Y torna-seconfiana (X Y ) = CPIR(Y |X) = 1.

    Quando P(Y|X)=0,Y negativamente dependente de X. Quando p(Y|X)=1 que o mais forte possvel condio, a confiana da regra da associao X qY torna-seconfiana (X qY ) = CPIR(Y |X) = 1.

    28

  • Medidas de avaliao das Regras de Associao 29

    3.2.9 Outras Medidas

    Existem outras medidas estatsticas que permitem avaliar o interesse das regras de

    associao, sendo estas adequadas a situaes especficas pelo que nenhuma suficiente

    por si s, tendo de ser combinadas. Como exemplo de outras medidas encontram-se:

    Odds Ratio (O), Yules Q, Yules Y, J-Measure (J), Kappa (T), Certainty Factor (F) e

    Klosgen (K) tal como se verifica na tabela 3.1. [Tan et al., 2004].

    Medida FormulaOdds Ratio (O) P (X,Y )P (X,Y )

    P (X,Y )P (X,Y )

    Yules Q P (A,B)P (AB)P (A,B)P (A,B)P (A,B)P (AB)P (A,B)P (A,B) =

    1+1

    Yules YP (A,B)P (AB)

    P (A,B)P (A,B)

    P (A,B)P (AB)P (A,B)P (A,B)

    =1+1

    kappa (k) P (A,B)+P (A,B)P (A)P (B)P (A)P (B)1P (A)P (B)P (A)P (B)

    J-Measure (J) max(P (A,B) log(P (B|A)P (B) )+P (A,B) log(P (B,A)

    P (B)),

    P (A,B) log(P (A|B)P (A) ) + P (A,B) log(P (A,B)

    P (A)))

    Certainty Factor (F) max(P (B|A)P (B)1P (B) ,P (A|B)P (A)1P (A)P (B) )

    Added Value (AV) max(P (B|A) P (B), P (A|B) P (A))Jaccard () P (A,B)P (A)+P (B)P (A,B)Klosgen (K)

    P (A,B)max(P (B|A)P (B), P (A|B)P (A))

    Collective strength(S) P (A,B)+P (AB)P (A)P (B)+P (A)P (B)

    x 1P (A)P (B)P (A)P (B)1P (A,B)P (AB)

    Coherence(A;B) sup(AB)sup(A)+sup(B)sup(AB)AllConf(A,B) sup(AB)maxsup(A),sup(B)Kulc(A,B) sup(AB)2 (

    1sup(A) +

    1sup(B))

    MaxConf(A;B) max{ sup(AB)sup(A) , sup(AB)sup(B) }Sebag-Schoenauer(A;B) P (AB)

    (P (A)P (B)

    Loevinger(A;B) 1 P (A)P (B)P (AB)

    Zhang(A;B) P (AB)(A)P (B)max(P (AB)P (B),P (B)P (AB))

    Two Way Support (A;B) P (AB)x log2P (AB

    P (A)P (B)

    Information Gain (A;B) log P (ABP (A)P (B)

    Tabela 3.1: Medidas de avaliao de padres.

    29

  • Medidas de avaliao das Regras de Associao 30

    3.2.10 Propriedades de medidas objectivas

    Para a escolha de uma medida de avaliao, para analisar as regras de associao,

    necessrio ter presente as propriedades que a medida capaz de satisfazer.

    Piatetsky-Shapiro define trs propriedades que uma medida M deve possuir [Piatetsky-

    Shapiro, 1991]:

    M =0 se A e B so estatisticamente independentes;

    M aumenta monotonicamente com (P,A), quando P(A) e P(B) permanecem omesmo;

    M diminui monotonicamente com P(A) ou P(B) quando o resto dos parmetrosP(A,B) e P(B) ou P(A) mantm-se inalteradas.

    Das medidas que satisfazem estas trs propriedades em comum destacam-se: Ala-

    vancagem (Leverage), Correlao (Correlation), Klosgen, Yules Q, Yules Y.

    Alm destas propriedades os investigadores Tan, Kumar e Srivastava examinaram

    outras propriedades importantes [Tan et al., 2004]:

    A medida simtrica quando resultado de M idntico para as regras X Y eY X;Das medidas que satisfazem esta propriedade destacam-se: Alavancagem (Leve-

    rage), Correlao (Correlation), Coseno (Cosine), Interesse (Interest) e odds ratio.

    A medida assimtrica quando utilizada para a sugesto de regras onde existe anecessidade de se distinguir entre a fora da regra X Y e da Y X.Das medidas que satisfazem esta propriedade destacam-se: Confiana e a Convico

    (Conviction).

    A propriedade de Inverso um caso especial da permutao linha/coluna ondeambas as linhas e colunas so trocados simultaneamente.

    Das medidas que satisfazem esta propriedade destacam-se: Jaccard (), Fora co-

    lectiva (Collective strength), convico (Conviction).

    30

  • Captulo 4

    Algoritmos de Extraco de Regras

    de Associao com Itens Frequentes

    4.1 Algoritmo AIS

    O algoritmo AIS foi o primeiro algoritmo desenvolvido para abordar a temtica das

    regras de associao. Foi apresentado em 1993 pelos investigadores Agrawal, Imielinski

    e Swami [Agrawal et al., 1993].

    O algoritmo AIS tinha como objectivo encontrar associaes entre produtos, no qual

    apenas existisse um item no consequente da regra. Um exemplo, deste tipo de regras

    apresentado pelos investigadores, encontrar todas as regras que tenham um determinado

    item como consequente. Outro objectivo proposto com este algoritmo o de permitir

    encontrar a melhor regra k que tenha como consequente um determinado item.

    4.1.1 Modelo do Algoritmo AIS

    Define-se I = {i1, i2, ..., im} como o conjunto de atributos binrios designados de itense T como base de dados de transaces. Cada transaco t representada por um vector

    binrio, com t[k] = 1 se adquiriu t, e t[k] = 0 se no adquiriu.

    Uma regra de associao significa uma implicao na forma X ij, em que X umsubconjunto de itens em I, e ij um item nico no conjunto I que no est presente

    no conjunto X. A regra X ij satisfeita no conjunto das operaes ij com o factorconfiana 0 < c < 1, se pelo menos c% das transaces em T que satisfazem X tambm

    satisfazem ij [Agrawal et al., 1993].

    31

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 32

    Este modelo tinha como interesse gerar regras que satisfizessem dois tipos de res-

    tries, restries sintcticas (Syntactic constraints) e restries de suporte (Support

    Constraints).

    Os mesmos autores definem restries sintcticas, como as restries sobre itens que

    podem aparecer numa regra. Por exemplo, pode existir apenas interesse em regras que

    tenham um item especfico ix, surgindo no consequente, ou regras que tenham um item

    especfico iy, surgindo no antecedente [Agrawal et al., 1993]. Com este tipo de restrio

    possvel predefinir os elementos antecedentes e consequentes de todas as regras que se

    pretendem gerar.

    As restries de suporte dizem respeito ao nmero de transaces em T que suportam

    uma regra. O suporte de uma regra definida como a fraco de transaces em T que

    satisfaz a unio dos itens do consequente e antecedente da regra.

    Algoritmo 4.1.1: AIS

    L1={large 1-itemsets}

    for (k = 2;Lk1 6= 0; k ++) dobegin

    Ck=0;

    forall transactions t D dobegin

    Lt=subset(Lk1, t);

    forall large itemsets lt Lt dobegin

    Ct=1-extensions of lt contained in t;

    forall candidates c Ct doif (c Ck) then

    add 1 to the count of c in the corresponding entry Ck;

    elseadd c to Ck with a count of 1;

    end

    end

    end

    end

    Lk={c Ck | c.count Minsup }end

    Answer=kLk;

    32

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 33

    Com este algoritmo foram abordados pela primeira vez conceitos como: a problem-

    tica da combinao de items utilizando o suporte e a confiana como medida da fora da

    regra, e a distino entre itens frequentes (large itemset) e infrequentes (small itemset).

    O algoritmo faz vrias passagens sobre a base de dados e em cada passagem o suporte

    para cada conjunto de itens calculado.

    Um dos passos importantes neste algoritmo a determinao dos itens candidatos

    (candidate itemsets) sendo obtidos a partir dos registos da base de dados.

    Associado a cada itemset existe um contador que armazena o nmero de transaces

    que corresponde ao nmero de vezes que esse itemset ocorre na amostra de dados. Este

    contador iniciado a zero quando o itemset criado.

    Inicialmente, o conjunto constitudo apenas por um elemento, que um conjunto

    vazio. No final da passagem, o suporte do candidato, comparado com o suporte mnimo

    para determinar se ele constitui um elemento frequente. O algoritmo termina quando o

    conjunto limite fica vazio [Agrawal et al., 1993].

    Este algoritmo apresenta como uma das suas caractersticas o elevado nmero de

    passagem pelos dados. Num cenrio mais pessimista, pode exigir a criao de 2m con-

    tadores, que corresponde a todos os subconjuntos do conjunto de itens I, em que m

    o nmero de itens existentes em I. Naturalmente, com um conjunto elevado de itens

    existentes em I, o nmero de passagens que o algoritmo tem de fazer pelos dados torna-o

    computacionalmente exigente.

    Outra caracterstica a dificuldade de se definir um valor para o suporte mnimo,

    que permita descobrir os itens frequentes.

    Este algoritmo tem a particularidade de ter sido o primeiro algoritmo a adoptar as

    medidas de suporte e confiana.

    Na apresentao das regras contm apenas um item no consequente (RHS), podendo

    conter um ou mais itens no antecedente (LHS) da regra.

    33

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 34

    4.2 Algoritmo Apriori

    O algoritmo Apriori foi proposto por Agrawal e Srikant [Agrawal and Srikant, 1994],

    este algoritmo um dos mais divulgados e utilizados na extraco de regras associao.

    A vantagem deste algoritmo est na simplicidade e versatilidade em extrair informa-

    o em grandes bases de dados. Enquanto no algoritmo antecedente AIS [Agrawal et al.,

    1993], as regras de associao eram limitadas a apenas um item no consequente da regra,

    o algoritmo Apriori, pelo contrrio, permite mltiplos itens.

    A principal diferena entre o Apriori e o seu antecedente AIS, reside fundamental-

    mente na forma como so descobertos os itens frequentes, em particular na gerao dos

    itens candidatos. O Apriori efectua a gerao dos itens candidatos com base nos itens

    considerados frequentes na passagem anterior.

    Na primeira passagem contabilizado o suporte de itens individuais e determinados

    quais os que so frequentes, ou seja, os que tm suporte mnimo. Cada passagem sub-

    sequente, inicia-se com um grupo pr-determinado de itens considerados frequentes na

    passagem anterior. Usa-se este grupo pr-determinado para gerar novos potenciais itens

    frequentes, designados itens candidatos (candidate itemsets). No final da passagem, os

    conjuntos de itens realmente frequentes, tornam-se nos pr-determinados para a prxima

    passagem. Este processo continua at que no sejam encontrados novos itens frequentes

    [Agrawal and Srikant, 1994].

    O Apriori possui uma organizao que garante uma grande flexibilidade na gerao

    de regras de associao e a sua parametrizao feita com base no suporte mnimo

    (Supmin) e na confiana mnima (Confmin), valores esses pr-definidos pelo utilizador.

    Este algoritmo bastante interactivo, tendo sido o primeiro a reduzir, eficientemente,

    o espao de pesquisa nos dados, o que melhorou substancialmente o desempenho na

    descoberta de regras de associao.

    A capacidade e facilidade com que este algoritmo trabalha com grandes volumes de

    dados permitiu que muitas ferramentas comerciais de Data Mining incorporassem na sua

    soluo esta tcnica de extraco de regras de associao.

    34

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 35

    4.2.1 Modelo do Algoritmo Apriori

    A notao utilizada no algoritmo Apriori:

    Notao DescrioD Base de Dados normalizadaTID Identificador da transaco

    k-itemset Conjunto de itens (Itemset) com tamanho kLk Conjunto de itens frequentes de k-itemsets (aqueles com suporte mnimo).

    Cada membro deste conjunto tem dois campos:i) Itemset e ii) o contador de suporte.

    Ck Conjunto de k-itemsets candidatos (potencialmente frequentes).Cada membro deste conjunto tem dois campos:i) Itemset e ii) o contador de suporte.

    t transaco

    Tabela 4.1: Notaes do Apriori.

    A primeira passagem do algoritmo conta apenas a ocorrncia dos itens para determi-

    nar os itens frequentes de tamanho 1 (1-itemsets). A passagem subsequente, designada

    passagem k, consiste em duas fases. Na primeira fase os itens frequentes Lk1 encontra-

    dos na passagem (K-1), so utilizados para gerar os conjuntos de itens candidatos Ck,

    usando a funo apriori-gen . Na segunda, a base de dados explorada e o suporte de

    candidatos em Ck contabilizado. Para uma contagem rpida, necessrio determinar

    eficientemente os candidatos em Ck que esto contidos numa transaco em t [Agrawal

    and Srikant, 1994].

    Algoritmo 4.2.1: Apriori

    L1={large 1-itemsets}

    for (k = 2;Lk1 6= 0; k ++) dobegin

    Ck= apriori-gen(Lk1);

    forall transactions t D dobegin

    Ct =subset(Ck,t);

    forall candidates c Ct doc.count++;

    end

    end

    Lk={c Ck| c.count minsup }end

    Answer=kLk;

    35

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 36

    Uma das funes importantes neste algoritmo a funo para a gerao dos itens

    candidatos, esta funo originalmente designada por apriori-gen.

    A funo apriori-gen tem como argumento Lk1 e retorna um superconjunto do

    conjunto de todos itens frequentes (k-1)-itemsets. No primeiro passo de juno (join

    step) associa-se Lk1 com outros itens diferentes.

    A seguir no passo da poda (prune step), elimina-se todos os itemsets c Ck de talforma que alguns (k-1) subgrupos de C no esto em Lk1.

    Funo apriori-gen

    // apriori-gen (join step )

    insert into Ck

    select p.item1,p.item2,...p.itemk1 , q.item1

    from Lk1 p , Lk1 q

    where p.item1 = q.item1, ...,p.itemk2 = q.itemk2,p.itemk1 = q.itemk1;

    // apriori-gen (prune step )

    forall itemsets c Ck doforall (k-1)-subsets s of c do

    if (s / Lk1) thendelete c from Ck;

    end

    end

    end

    A funo apriori-gen do algoritmo Apriori gera os candidatos, utilizando somente os

    conjuntos de itens frequentes encontrados no passo anterior, sem considerar as transac-

    es na base de dados, como fazia o AIS.

    Admitindo os seguintes conjuntos de itens frequentes L3 = {{A,B,C}, {A,B,D},

    {A,C,E}, {A,C,D}, {B,C,D}}. Utilizando a funo apriori-gen neste conjunto de itens

    frequentes, o passo join aplicado ao conjunto de itens em L3 so criados os conjuntos de

    4 itens candidatos C4 = {{A,B,C,D},{A,C,D,E}}.

    Seguidamente, o passo prune aplicado ao conjuntos de candidatos C4, elimina o

    conjunto {A,C,D,E}, j que o subconjunto {A,D,E} no est contido em, L3. Desta forma

    funo apriori-gen retorna como resultado o conjunto candidato C4 = {{A,B,C,D}}.

    36

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 37

    Outra funo importante presente no algoritmo a funo subset, neste procedimento

    os itemsets candidatos Ck so depositados numa rvore-hash. Um n dessa rvore contm

    uma lista dos itemsets (um n folha) ou uma tabela hash (um n interior).

    Num n interior, cada tabela hash aponta para outro n. A raiz da rvore de-

    finida para estar em profundidade 1. Um n na profundidade d aponta para ns na

    profundidade d+1. Os itens esto depositados nas folhas.

    Quando adicionado um item c, comea-se pela raiz e desce-se a rvore at alcanar

    as folhas.

    4.2.2 Gerar regras de associao

    Para a gerao de regras de associao o algoritmo Apriori usa o procedimento gen-

    rules. Este Algoritmo tem uma execuo relativamente simples.

    Este procedimento recebe como parmetro o conjunto dos itens frequentes encon-

    trados anteriormente. Primeiramente so criados subconjuntos com apenas um item

    frequente.

    Seguidamente para todos os conjuntos de itens frequentes com k>2, efectua a gera-

    o de regras de associao do tipo LHS RHS, apresentando apenas as regras quesatisfazem a condio Conf Confmin

    Algoritmo 4.2.3: Gerar Regras de Associao

    forall large itemsets lk, k 2 docall genrules(lk, lk)

    end

    procedure genrules(lk : large k-itemset, am : large m-itemset)

    A= {(m-1)-itemsets am1 : |am1 am; forall am1 A dobegin

    Conf= sup(lk) sup(am1);

    if (Conf Confmin) thenoutput the rule am1 (lk am1)if (m-1>1) then

    call genrules(lk, lk)

    end

    end

    end

    37

  • Algoritmos de Extraco de Regras de Associao com Itens Frequentes 38

    A percepo bsica do Apriori baseia-se na heurstica de que qualquer subconjunto

    de um conjunto de itens frequentes deve ser frequente. Portanto, o conjunto de candi-

    datos contento k itens pode ser gerado fazendo uma combinao dos conjuntos de itens

    frequentes de tamanho k-1, e anulando aqueles que contenham algum subconjunto que

    no seja frequente [Agrawal and Srikant, 1994].

    O algoritmo Apriori inspirou muitos outros algoritmos de regras de associao, tais

    como o AprioriTid, AprioriHybrid, GSP, etc.

    4.3 Algoritmo AprioriTid

    O algoritmo AprioriTid foi proposto por Agrawal e Srikant simultaneamente com o

    Apriori, neste algoritmo os investigadores propem efectuar uma reduo do nmero de

    passagens pela base de dados [Agrawal and Srikant, 1994].

    Enquanto o Apriori efectua vrias passagens pela base de dados para contar o suporte

    dos itemsets candidatos o AprioriTID apenas passa pela base de dados para contar o

    suporte dos candidatos de tamanho 1.

    A caracterstica interessante deste algoritmo que a ba