Mineração com sql server 2008 r2

Mineração de Dados com SQL Server 2008 R2

MCP, MCTS, MCITP e MCTConsultor e Professor UniversitárioMestrando em Computação na UFPR

Twitter: @rdornelSite/Blog: rdornel.comEmail: [email protected]

Rodrigo Ramos Dornel

Agenda

Introdução: O que é Mineração de Dados.

Conceitos de Mercado: Business Intelligence – BI ou Business Analytics – BA.

Mineração de Dados com SQL Server.

Mineração de Dados no Integration Services.

Linguagem DMX

Mineração no Excel.

Mineração no Visio.

Demo

Introdução: O que é Mineração de Dados?Mineração de dados é definido como um processo de análise de dados por algoritmos e modelos matemáticos com o objetivo de encontrar padrões e tendências nos dados de entrada.

Importante frisar que nem sempre a saída é um modelo final, este modelo poder ser usado em outras tarefas e passar por refinamentos até se chegar ao modelo desejado.

Geralmente dividido em dois grupos de tarefas:

• Descritivas (Agrupamento e Regras de Associação)

• Preditivas (Classificação e Regressão)

Introdução: O que é Mineração de Dados?Também temos outros grupos dentro dos grupos citados anteriormente:

• Supervisionado: Onde o aprendizado é assistido por um padrão, ou seja, você aprende baseado em algum conjunto de dados existente, geralmente chamado de base de treinamento. Neste caso você conhece o “label” das classes, e procura classificar os dados de entrada com base em alguma similaridade.

• Não Supervisionado: você não conhece o “label” das classes, o algoritmos vai encontrar um meio de classificar os dados.

Exemplo 1

TreinamentoAltura Sexo Label

1,80 0 Alto1,50 0 Baixo

Base de TestesAltura Sexo Label1,75 0 ???

∑(1,80-1,75)+(0-0) = 0,05

(Este será o responsável pelo Label do novo registro “Alto”)

∑(1,50-1,75)+(0-0) = 0,25

Exemplo baseado em distância.

Exemplo 2

{2,4,6,3,7,9}

Target Objetivo 2 Classes

Somatório = 31

Média = 5,16

Grupo 1 < 5,16 = {2,3,4}

Grupo 2 > 5,16 = {6,7,9}

Terminologia

Dados Contínuos: Altura, 1.76, 1.87 e 1.55

Dados Discretos: > 1 & < 5, >5 & <10

Confidência e confiança: representa a frequência de ocorrência do item, ou seja, quantas vezes aquele caso ocorre. Indica a probabilidade de um evento em decorrência do outro.

Suporte: É a representação de quantas vezes determinado evento ocorre em relação a outro, neste caso deixa de ser probabilidade.

Acurácia: O quanto algo está acurado, perfeito ou preciso.

Conceitos de Mercado: Business Intelligence – BI ou Business Analytics - BA?Business Intelligence leva até a empresa a consolidação dos dados, já o Business Analytics (Mineração de Dados) visa explicar a relação entre os números apresentados por essa consolidação.

Business Analytics é o nome comercial para o conjunto de tecnologias de análise de dados com objetivo de gerar tendências e descrições do comportamento dos dados.

Estrutura de um projeto

• Fonte de Dados

• Escolha da Tarefa

• Processamento

• Visualização

Estrutura de um projeto

Arquitetura Lógica

Árvores de Decisão

Clustering (Agrupamento)

MSC

MTS

Naive Bayes Microsoft

Rede Neural Microsoft

Regras de Associação

Regressão Linear

Regressão Logística

Data SourceSaída

Árvore de Decisão

O algoritmo Árvores de Decisão da Microsoft é um algoritmo de classificação e regressão para uso em modelagens de previsão de atributos discretos e contínuos.

Por exemplo, em um cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta, se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para a compra de bicicletas.

Clustering (Agrupamento)

O algoritmo Microsoft Clustering é um algoritmo de segmentação. O algoritmo usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes.

Erro

Rejeição

Outliers

MSC - Microsoft Sequence Clustering: Algoritmo MSC é um híbrido que usa a análise de cadeia Markov para identificar seqüências ordenadas e combina os resultados dessa análise com técnicas de clusterização para gerar clusters com base nas seqüências e outros atributos no modelo.

MTS - Microsoft Time Series

Naive Bayes Microsoft

O nome Naive Bayes foi atribuído pelo fato de o algoritmo usar o teorema de Bayes, mas não considerar dependências que possam existir. Portanto, suas suposições são consideradas ingênuas.

Rede Neural Microsoft

Rede Neural da Microsoft combina cada estado possível do atributo de entrada com cada estado possível do atributo previsível e usa os dados de treinamento para calcular probabilidades.

Regras de Associação: Um mecanismo de recomendação, que recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse. O algoritmo Associação da Microsoft também é útil para análise da cesta de compras.

Regressão Linear

O algoritmo Regressão Linear da Microsoft é uma variação do algoritmo Árvores de Decisão da Microsoft que o ajuda a calcular uma relação linear entre uma variável dependente e uma independente e, depois, a usar aquela relação para previsão.

Regressão Logística

O algoritmo Regressão Logística da Microsoft é uma variação do algoritmo Rede Neural da Microsoft. A regressão logística é uma técnica estatística conhecida, usada para modelar resultados binários, como um resultado sim-não.

Mineração de Dados com SQL Server

O SQL Server oferece suporte nativo à Business Intelligence e Mineração de Dados desde a versão 2000 sem custo adicional.

DMX

CREATE MINING MODEL

SubcategoryAssociations

(

[Customer ID] LONG KEY,

[Subcategories] TABLE PREDICT

(

[Subcategory] TEXT KEY

)

) USING Microsoft_Association_Rules

SELECT [Bike Buyer], PredictProbability([Bike Buyer],1), PredictHistogram([Bike Buyer])FROM TargetMailDTNATURAL PREDICTION JOIN(SELECT 25 AS Age, '5-10 Miles' AS [Commute Distance], 'M' AS Gender, 1 AS [House Owner Flag], 'S' AS [Marital Status], 1 AS [Number Cars Owned], 0 AS [Number Children At Home], 'Manual' AS Occupation, 'Pacific' AS Region, 0 AS [Total Children], 45000 AS [Yearly Income] ) AS t

Mineração no Excel

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.

Mineração no Visio

Microsoft SQL Server 2008 Data Mining Add-ins for Microsoft Office.

Mineração no SSIS

Algoritmos de plug-in

Exemplo Codeplex: Support Vector Machine plug-in in Analysis Services

© 2009 Microsoft Corporation. Todos os direitos reservados.Microsoft, Active Directory, Windows e Windows Vista são marcas registradas ou comerciais da Microsoft Corporation nos Estados Unidos e/ou outros países. Os nomes de empresas e produtos reais aqui mencionados podem ser marcas comerciais de seus respectivos proprietários. As informações aqui contidas destinam-se a fins informativos apenas e representam a visão atual da Microsoft Corporation na data desta apresentação. Como a Microsoft deve responder às mudanças das condições de mercado, este documento não deve ser interpretado como um compromisso da parte da Microsoft, e a Microsoft não pode assegurar a exatidão de qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ NENHUMA GARANTIA, EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA, QUANTO ÀS INFORMAÇÕES NESTA APRESENTAÇÃO.

PREENCHA A FICHA DE AVALIAÇÃO DO EVENTOEntregue na saída do evento e ganhe brinde!Acesse o site da Comunidade:www.mcitpsc.com.br

Dúvidas ou Sugestões:E-mail: [email protected]

Quer ser um Membro da Comunidade?Acesse nosso site e cadastre-se!

Twitter: @rdornel Site/Blog: rdornel.comEmail: [email protected]

Technology

Mineração com sql server 2008 r2