Analise e Seleccedilatildeo de Variaacuteveis
Toacutepicosbull Por que atributos irrelevantes satildeo um
problemabull Quais tipos de algoritmos de aprendizado
satildeo afetadosbull Abordagens automaacuteticas
bull Wrapperbull Filtros
Introduccedilatildeo
bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo
projetados parabull Escolher o atributo mais promissor para
particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes
ndash Mais atributos implica em maior poder discriminatoacuterio
Atributos irrelevantesbull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma
base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)ndash Base de dados Dndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores
sejam gerados aleatoriamentebull Resultado
ndash A acuraacutecia da classificaccedilatildeo cai bull Em geral de 5 a 10 nos conjuntos de testes
Explicaccedilatildeobull Em algum momento durante a geraccedilatildeo das aacutervores
ndash O atributo irrelevante eacute escolhido ndash Isto causa erros aleatoacuterios durante o teste
bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos
dados estatildeo disponiacuteveis para auxiliar a escolha do atributondash Chega a um ponto em que atributos aleatoacuterios parecem
bons apenas por acasondash A chance disto acontece aumenta com a profundidade da
aacutervore
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Toacutepicosbull Por que atributos irrelevantes satildeo um
problemabull Quais tipos de algoritmos de aprendizado
satildeo afetadosbull Abordagens automaacuteticas
bull Wrapperbull Filtros
Introduccedilatildeo
bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo
projetados parabull Escolher o atributo mais promissor para
particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes
ndash Mais atributos implica em maior poder discriminatoacuterio
Atributos irrelevantesbull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma
base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)ndash Base de dados Dndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores
sejam gerados aleatoriamentebull Resultado
ndash A acuraacutecia da classificaccedilatildeo cai bull Em geral de 5 a 10 nos conjuntos de testes
Explicaccedilatildeobull Em algum momento durante a geraccedilatildeo das aacutervores
ndash O atributo irrelevante eacute escolhido ndash Isto causa erros aleatoacuterios durante o teste
bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos
dados estatildeo disponiacuteveis para auxiliar a escolha do atributondash Chega a um ponto em que atributos aleatoacuterios parecem
bons apenas por acasondash A chance disto acontece aumenta com a profundidade da
aacutervore
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Introduccedilatildeo
bull Muitos algoritmos de AM satildeo projetados de modo a selecionar os atributos mais apropriados para a tomada de decisatildeondash Algoritmos de induccedilatildeo de aacutervores de decisatildeo satildeo
projetados parabull Escolher o atributo mais promissor para
particionar o conjunto de dadosbull Nunca selecionar atributos irrelevantes
ndash Mais atributos implica em maior poder discriminatoacuterio
Atributos irrelevantesbull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma
base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)ndash Base de dados Dndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores
sejam gerados aleatoriamentebull Resultado
ndash A acuraacutecia da classificaccedilatildeo cai bull Em geral de 5 a 10 nos conjuntos de testes
Explicaccedilatildeobull Em algum momento durante a geraccedilatildeo das aacutervores
ndash O atributo irrelevante eacute escolhido ndash Isto causa erros aleatoacuterios durante o teste
bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos
dados estatildeo disponiacuteveis para auxiliar a escolha do atributondash Chega a um ponto em que atributos aleatoacuterios parecem
bons apenas por acasondash A chance disto acontece aumenta com a profundidade da
aacutervore
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Atributos irrelevantesbull Adiccedilatildeo de atributos irrelevantes agraves instacircncias de uma
base de dados geralmente ldquoconfunderdquo o algoritmo de aprendizado
bull Experimento (exemplo)ndash Indutor de aacutervores de decisatildeo (C45)ndash Base de dados Dndash Adicione agraves instacircncias em D um atributo binaacuterio cujos valores
sejam gerados aleatoriamentebull Resultado
ndash A acuraacutecia da classificaccedilatildeo cai bull Em geral de 5 a 10 nos conjuntos de testes
Explicaccedilatildeobull Em algum momento durante a geraccedilatildeo das aacutervores
ndash O atributo irrelevante eacute escolhido ndash Isto causa erros aleatoacuterios durante o teste
bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos
dados estatildeo disponiacuteveis para auxiliar a escolha do atributondash Chega a um ponto em que atributos aleatoacuterios parecem
bons apenas por acasondash A chance disto acontece aumenta com a profundidade da
aacutervore
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Explicaccedilatildeobull Em algum momento durante a geraccedilatildeo das aacutervores
ndash O atributo irrelevante eacute escolhido ndash Isto causa erros aleatoacuterios durante o teste
bull Por que o atributo irrelevante eacute escolhidondash Na medida em que a aacutervore eacute construiacuteda menos e menos
dados estatildeo disponiacuteveis para auxiliar a escolha do atributondash Chega a um ponto em que atributos aleatoacuterios parecem
bons apenas por acasondash A chance disto acontece aumenta com a profundidade da
aacutervore
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Atributos Irrelevantes x Algoritmos de AM
bull Algoritmos mais afetadosndash Indutores de aacutervores e regras de decisatildeo
bull Continuamente reduzem a quantidade de dados em que baseiam suas escolhas
ndash Indutores baseados em instacircncias (eg k-NN)bull Sempre trabalha com vizinhanccedilas locais
ndash Leva em consideraccedilatildeo apenas algumas poucas instacircncias (k)
bull Foi mostrado que para se alcanccedilar um certo niacutevel de desempenho a quantidade de instacircncias necessaacuteria cresce exponencialmente com o nuacutemero de atributos irrelevantes
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Seleccedilatildeo de atributos antes do aprendizado
bull Melhora o desempenho preditivobull Acelera o processo de aprendizado
ndash O processo de seleccedilatildeo de atributos agraves vezes pode ser muito mais custoso que o processo de aprendizado
ndash Ou seja quando somarmos os custos das duas etapas pode natildeo haver vantagem
bull Produz uma representaccedilatildeo mais compacta do conceito a ser aprendidondash O foco seraacute nos atributos que realmente satildeo importantes
para a definiccedilatildeo do conceito
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Analise e Seleccedilatildeo de Variaacuteveis
bull Parte de uma aacuterea chamada de Reduccedilatildeo de Dados
bull Obtenccedilatildeo de uma representaccedilatildeo reduzida em volume mas que produz resultados de anaacutelise idecircnticos ou similares
bull Melhora o desempenho dos modelos de aprendizado
bull Objetivo Eliminar atributos redundantes ou irrelevantes
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Seleccedilatildeo de Atributosbull Manual
ndash Melhor meacutetodo se for baseado em um entendimento profundo sobre ambos
bull O problema de aprendizadobull O significado de cada atributo
bull Automaacuteticondash Filtros meacutetodo usado antes do processo de aprendizado
para selecionar o subconjunto de atributos ndash Wrappers o processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Seleccedilatildeo Automaacutetica
bull Implica em uma busca no ldquoespaccedilordquo de atributos
bull Quantos subconjuntos haacute
bull 2N em que N eacute o nuacutemero total de atributos
bull Portanto na maioria dos casos praacuteticos uma busca exaustiva natildeo eacute viaacutevel
bull Soluccedilatildeo busca heuriacutestica
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Exemplo Espaccedilo de Atributos
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para Frente (Seleccedilatildeo Forward)
ndash A busca eacute iniciada sem atributos e os mesmos satildeo adicionados um a um
ndash Cada atributo eacute adicionado isoladamente e o conjunto resultante eacute avaliado segundo um criteacuterio
ndash O atributo que produz o melhor criteacuterio eacute incorporado
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Busca Heuriacutestica no Espaccedilo de Atributos
bull Busca para traacutes (Eliminaccedilao Backward) ndash Similar a Seleccedilatildeo Forward ndash Comeccedila com todo o conjunto de atributos eliminando
um atributo a cada passobull Tanto na Seleccedilatildeo Forward quanto na Eliminaccedilatildeo
Backward pode-se adicionar um vieacutes por subconjuntos pequenosndash Por exemplo pode-se requerer natildeo apenas que a
medida de avaliaccedilatildeo crescer a cada passo mas que ela cresccedila mais que uma determinada constante
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Busca Heuriacutestica no Espaccedilo de Atributos
bull Outros meacutetodos de busca
ndash Busca bidirecionalndash Best-first searchndash Beam searchndash Algoritmos geneacuteticosndash
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Abordagens para Seleccedilatildeo de Atributos
bull Filtrosndash O processo de escolha do subconjunto
acontece antes do processo de aprendizado
bull Wrapperndash O processo de escolha do subconjunto de
atributos estaacute ldquoempacotadordquo junto com o algoritmo de aprendizado sendo utilizado
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Analise e Seleccedilatildeo de Variaacuteveis
bull Meacutetodos Dependentes do Modelo (Wrapper)
bull Meacutetodos Independentes do Modelo (Filter)
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Exemplo Filtros
bull Uso de uma indutor de aacutervores de decisatildeo (AD) como filtro para o k-NN
ndash 1) Aplique um indutor de AD para todo o conjunto de treinamento
ndash 2) Selecione o subconjunto de atributos que aparece na ADndash 3) Aplique o k-NN a apenas este subconjunto
bull A combinaccedilatildeo pode apresentar melhores resultados do que cada meacutetodo usando individualmente
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Filtros
bull Abordagensndash baseada nas caracteriacutesticas gerais dos
dadosndash Encontrar o menor subconjunto que separe
os dadosndash Utilizar diferentes esquemas de aprendizado
bull Usar os atributos que aparecem no c45 1R
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Wrapperbull Busca para Frente (Seleccedilatildeo Forward) + Naive Bayes
ndash (1) Inicialize com o conjunto vazio S=ndash (2) Resultado_S=0ndash (2) Para cada atributo si que natildeo esteja em S
bull Avalie o resultado de (S U si ) Resultado_ si ndash (3) Considere o atributo com maior Resultado_ si
bull SE (Resultado_ si gt Resultado_S) ENTAO (S=S U si ) amp (Resultado_S= Resultado_ si )Volte para o Passo (2)SENAOPare
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Transformaccedilatildeo de Dados
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Transforma atributos contiacutenuos em atributos categoacutericos
bull Absolutamente essencial se o meacutetodo inteligente soacute manuseia atributos categoacutericos
bull Em alguns casos mesmo meacutetodos que manuseiam atributos contiacutenuos tecircm melhor desempenho com atributos categoacutericos
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull 1048673 Diversos meacutetodos de discretizaccedilatildeobull 1048673 Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull 1048673 Discretizaccedilatildeo Natildeo-supervisionada
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)bull Sub-produto de uma teacutecnica de extraccedilatildeo
automaacutetica de regrasbull Utiliza as classes de saiacuteda para discretizar
cada atributo de entrada separadamentebull Ex Base de dados hipoteacutetica de
meteorologia x decisatildeo de realizar ou natildeo um certo jogo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
bull Base de Dados Meteoroloacutegicosbull Tempo Temperatura Umidade Vento Jogar (CLASSE)
Sol 85 85 Natildeo NatildeoSol 80 90 Sim NatildeoNublado 83 86 Natildeo SimChuva 70 96 Natildeo SimChuva 68 80 Natildeo SimChuva 65 70 Sim NatildeoNublado 64 65 Sim SimSol 72 95 Natildeo NatildeoSol 69 70 Natildeo SimChuva 75 80 Natildeo SimSol 75 70 Sim SimNublado 72 90 Sim SimNublado 81 75 Natildeo SimChuva 71 91 Sim Natildeo
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo pelo Meacutetodo 1R (1-rule)
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Discretizaccedilatildeo de Variaacuteveis Contiacutenuas
bull Discretizaccedilatildeo Natildeo-Supervisionadandash O meacutetodo 1R eacute supervisionado Considera a
variaacutevel de saiacuteda (classe) na discretizaccedilatildeobull Meacutetodos Natildeo Supervisionados
consideram somente o atributo a ser discretizadondash Satildeo a uacutenica opccedilatildeo no caso de problemas de
agrupamento (clustering) onde natildeo se conhecem as classes de saiacuteda
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
bull Trecircs abordagens baacutesicasndash Nuacutemero preacute-determinado de intervalos
bull uniformes (equal-interval binning)ndash Nuacutemero uniforme de amostras por intervalo
bull (equal-frequency binning)ndash Agrupamento (clustering) intervalos
arbitraacuterios
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura) 64 65 68 69 70 71 72 72 75 75 80 81 83 85bull Bins com largura 6 x le 60
60 lt x le 6666 lt x le 7272 lt x le 7878 lt x le 8484 lt x le 90
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero preacute-determinado de intervalos uniformesndash (equal-interval binning)
bull No exemplo (temperatura)64 65 68 69 70 71 72 72 75 75 80 81 83 85
bull Bins com largura 6 x le 60 na60 lt x le 66 64 6566 lt x le 72 68 69 70 71 72 7272 lt x le 78 75 7578 lt x le 84 80 81 8384 lt x le 90 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Equal-interval binning Problemasbull Como qualquer meacutetodo natildeo
supervisionado arrisca destruir distinccedilotildees uacuteteis devido a divisotildees muito grandes ou fronteiras inadequadas
bull Distribuiccedilatildeo das amostras muito irregular com algumas bins com muitas amostras e outras com poucas amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull Tambeacutem chamado de equalizaccedilatildeo do histograma
bull Cada bin tem o mesmo nuacutemero aproximado de amostras
bull Histograma eacute planobull Heuriacutestica para o nuacutemero de bins radicNbull N = nuacutemero de amostras
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Nuacutemero uniforme de amostras por intervalondash (equal-frequency binning)
bull No exemplo (temperatura)bull 64 65 68 69 |70 71 72 72 |75 75 80| 81 83 85bull 14 amostras 4 Bins
ndash x le 695 64 65 68 69ndash 695 lt x le 735 70 71 72 72ndash 735 lt x le 805 75 75 80ndash x gt 805 81 83 85
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Meacutetodos de Discretizaccedilatildeo Natildeo Supervisionada
bull Agrupamento (Clustering)bull Pode-se aplicar um algoritmo de
agrupamentobull no caso unidimensionalbull Para cada grupo (cluster) atribuir um
valor discreto
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Transformar
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Anaacutelise de Componentes Principais (PCA)
bull Dado um conjunto D com n instacircncias e p atributos (x1 x2 xp) uma transformaccedilatildeo linear para um novo conjunto de atributos z1 z2 zp pode ser calculada como
bull Componentes Principais (PCs) satildeo tipos especiacuteficos de combinaccedilotildees lineares que satildeo escolhidas de tal modo que zp (PCs) tenham as seguintes caracteriacutesticas
z1 = a11 x1 + a21 x2 + + ap1 xp
z2 = a12 x1 + a22 x2 + + ap2 xp
zp = a1p x1 + a2p x2 + + app xp
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
PCA Caracteriacutesticas
bull As p componentes principais (PC) satildeo natildeo-correlacionadas (independentes)
bull As PCs satildeo ordenadas de acordo com quantidade da variacircncia dos dados originais que elas contecircm (ordem decrescente)ndash A primeira PC ldquoexplicardquo (conteacutem) a maior porcentagem da
variabilidade do conjunto de dados originalndash A segunda PC define a proacutexima maior parte e assim por diantendash Em geral apenas algumas das primeiras PCs satildeo responsaacuteveis
pela maior parte da variabilidade do conjunto de dadosndash O restante das PCs tem uma contribuiccedilatildeo insignificante
bull PCA eacute usada em Aprendizado de Maacutequina principalmente para a reduccedilatildeo de dimensionalidade
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
PCA Caacutelculo
bull PCA pode reduzida ao problema de encontrar os auto-valores e auto-vetores da matriz de covariacircncia (ou correlaccedilatildeo) do conjunto de dados
bull A proporccedilatildeo da variacircncia do conjunto de dados originais explicada pela i-eacutesima PC eacute igual ao i-eacutesimo auto-valor divido pela soma de todos os p auto-valores
bull Ou seja as PCs satildeo ordenadas - decrescente - de acordo com os valores dos auto-valores
bull Quando os valores dos diferentes atributos estatildeo em diferentes escalas eacute preferiacutevel usar a matriz de correlaccedilatildeo em lugar da matriz de covariacircncia
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil
Anaacutelise de Componentes Principais
bull Principais Limitaccedilotildees
ndash Assume apenas relaccedilotildees lineares entre os atributos
ndash A interpretaccedilatildeo dos resultados (eg classificador gerado) em termos dos atributos originais pode ficar mais difiacutecil