Upload
natali-versiani
View
228
Download
0
Embed Size (px)
DESCRIPTION
selecao de variaveis em int artificial
Citation preview
Seleo de AtributosRicardo Prudncio
IntroduoA eficincia de uma soluo depende em muitos casos do tamanho do problemaDimenso de um problema de aprendizadoNmero de atributosNmero de exemplos de treinamento A dimenso de um problema de aprendizado interfere em muitos casos na:qualidade das respostas (preciso) dos algoritmose no custo do aprendizado
Preciso X CustoDimenso dos dados (Custo)ErroErro mnimoFronteira de eficincia
Reduo de DimensionalidadeTarefas: Reduo do nmero de atributosReduo do nmero de exemplos
ObjetivosDiminuir o custo do aprendizadoAumentar a preciso do algoritmoGerar modelos compactos mais fceis de interpretar
Reduo de AtributosEm geral, espera-se que todos os atributos sejam relevantes porm nem sempre possvel garantir isso
Alm disso, alguns atributos so redundantes e assim poderiam ser eliminados
Objetivo: Definir conjunto de atributos que sejam relevantes e no-redundantes
Reduo de AtributosAbordagensSeleo X Extrao de Atributos
Seleo de atributos: Escolha de um sub-conjunto de atributos relevantes dentre os atributos disponveisE.g., Filtros e Wrappers
Extrao de atributos:Criao de novos atributos a partir da combinao dos atributos existentesE.g., PCA
Reduo de ExemplosConjuntos de treinamento tambm podem apresentar exemplos irrelevantes e redundantes
Abordagens:Seleo de exemplos etiquetadosSeleo de exemplos no-etiquetadosAprendizagem Ativa
Reduo de DimensionalidadeReduo deDimensionalidadeReduo deAtributosSeleo deAtributosExtrao deAtributosReduo deExemplosAula de hojeSeleo de Exemplos AprendizagemAtiva
Seleo de Atributos FiltrosAtributos so ordenados com base em mtricas de relevncia e redundncia Retorna os atributos mais bem orderados
WrappersO desempenho do algoritmo avaliado para diferentes sub-conjuntos de atributos; O melhor sub-conjunto encontrado retornado;
Seleo de Atributos FiltrosDescartam atributos irrelevantes antes do processo de aprendizadoI.e., independente do algoritmo
Caracteristicas gerais dos dados so levadas em considerao para selecionar atributosI.e. dados avaliados com estatsticas descritivas
Diferentes mtricas podem ser usadas para definir relevncia de atributosK atributos mais relevantes so retornados
Seleo de Atributos FiltrosExemplos de mtricas:InfoGain, GainRatio, e outras mtricas usadas para seleo de atributos em rvores de decisoCorrelao entre o atributo avaliado e o atributo classe
Seleo de Atributos FiltrosEm geral, filtros de atributos so leves computacionalmente
Porm apresenta dificuldades:Nem sempre fcil definir quantos atributos descartar;Na prtica, isso definido por tentativa-e-erroNo leva em considerao o algoritmo sendo utilizado;
Seleo de Atributos Filtros (WEKA)
Seleo de Atributos Filtros (WEKA)
Seleo de Atributos Filtros (WEKA)
Seleo de Atributos WrappersWrappers realizam, de fato, uma busca no espao de sub-conjuntos de atributosBusca exaustiva no realizada na prtica
So vantajosos em relao aos filtros por considerarem o algoritmo em questo
Seleo de Atributos WrappersForward-SelectionBusca se inicia a partir de sub-conjuntos com um atributoAtributos so adicionados progressivamente
Backward-Elimination Inicia com o sub-conjunto de todos os atributos;Atributos so removidos progressivamente
Wrappers Forward-SelectionOutlookTemp.Humit.Wind.erro = 30% erro = 20% erro = 50% erro = 30%Temp., Outlook Temp., Humit. Temp., Wind. erro = 14% erro = 30% erro = 20% Temp., OutlookHumit. Temp., OutlookWind. erro = 18% erro = 15% Temp., OutlookHumit., Wind erro = 15%
Wrappers Backward-EliminationTemp., OutlookHumit., Wind erro = 15% Temp., OutlookHumit. Temp., OutlookWind. erro = 18% erro = 15% erro = 17% erro = 20% Temp., HumitWind. Outlook, HumitWind. Temp., Outlook Temp., Wind. erro = 14% erro = 20% erro = 20% Outlook, Wind OutlookTemp.erro = 30% erro = 20%
Seleo de Atributos WrappersBackward-Elimination Em geral, produz melhores resultados em termos de preciso; Porm mais pesado computacionalmente
Forward-Selecion Tende a produzir sub-conjuntos com menos atributos; capaz de eliminar melhor atributos redundantes
Seleo de Atributos WrappersTanto Forward-Selection como Backward-Elimination caem em mnimos locaisAmbos os algoritmos realizam greedy search
Diversos algoritmos de busca e otimizao podem ser aplicadosE.g., Algoritmos Genticos
Seleo Atributos Wrappers (WEKA)
Seleo Atributos Wrappers (WEKA)
Seleo Atributos Wrappers (WEKA)
Seleo Atributos Wrappers (WEKA)
Seleo de AtributosBusca em espao de atributos mais pesado computacionalmente que as tcnicas de filtros
Porm, podemos minimizar esse problema:Utilizando algoritmos de busca mais eficientes (e.g., RankSearch);Utilizando algoritmos mais leves para avaliao dos sub-conjuntos;Combinando com filtros (e.g., usar uma mtrica de filtro como medida de avaliao)
Seleo de AtributosRankSearchOrdenar atributos com uma mtrica de filtro E.g., InfoGainAvaliar sub-conjuntos, inserindo gradualmente os atributos na ordem geradaRanking: Temp, Outlook, Wind, Humit.Temp.erro = 20%Temp., OutlookTemp., OutlookWinderro = 14%erro = 15%erro = 15%Temp., OutlookWind, Humit.
Seleo de Atributos RankSearch (WEKA)
RefernciasA. Blum, P. Langley, Selection of relevant features and examples in machine learning, Artificial Intelligence, 1997.R. Kohavi, GH John, Wrappers for feature subset selection, Artificial Intelligence, 1997. I. Guyon, A. Elisseefi, L. Kaelbling, An Introduction to variable and feature selection, Journal of Machine Learning Research, 2003.