29
Pavel Kordík(ČVUT FIT) MI-PDD, 2012, Cvičení 4 Předzpracování dat 1/29 MI-POA Cvičení 4: Zadání úloh MI-PDD, 09/2011 Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Předzpracování dat Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti Pavel Kordík

Předzpracování dat - edux.fit.cvut.cz · Pavel Kordík(ČVUT FIT) Předzpracovánídat MI-PDD, 2012, Cvičení 4 2/29 Vlastní téma • Předzpracování dat z různých zdrojů

Embed Size (px)

Citation preview

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 1/29

MI-POA

Cvičení 4: Zadání úlohMI-PDD, 09/2011

Department of Computer SystemsFaculty of Information Technology

Czech Technical University in Prague

Předzpracování dat

Evropský sociální fondPraha & EU: Investujeme do vaší budoucnosti

Pavel Kordík

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 2/29

Vlastní téma

• Předzpracování dat z různých zdrojů (obrázek, text, web, signál, řeč…)– Kvalitní rešerše dostupných metod– Výběr vhodných metod– Ukázka na reálných datech– Porovnání úspěšnosti (korelace nebo společná

informace s výstupem, případně úspěšnost modelů na testovacích datech)

• Doporučení: vyhněte se implementaci, snažte se použít dostupné simulátory (GPL kód)

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 3/29

Soutěže KDD, Netflix

• Většinou hlavně o vhodném předzpracování dat– Google: data mining competitions

• Soutěž FS (výběr příznaků) metod– http://clopinet.com/isabelle/Projects/NIPS2003/

• Netflix – recommending movies– http://www.netflixprize.com/assets/GrandPrize2009_BPC_

BellKor.pdf– http://www.netflixprize.com/assets/GrandPrize2009_BPC_

BigChaos.pdf– http://www.netflixprize.com/assets/GrandPrize2009_BPC_

PragmaticTheory.pdf

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 4/29

Neurochirurgie Motol

• Snímán tlak v hlavě po úrazu (otok mozku)

• Jak tlak závisí na dalších snímaných ukazatelích?

• Vhodné předzpracování zápisu manipulace s pacientem

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 5/29

Electrophysiological Laboratory

Charles University in Prague

Faculty of Medicine in Hradec Králové

http://www.lfhk.cuni.cz/elf/

Neurologie v Hradci Králové

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 6/29

Hradec - Spánková data

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 7/29

Vývoj programu pro hodnocení časových řad

• Zpracování

extrahovaných dat

• Ohodnocování

charakteru

časových řad

obecně

• MIT spánková

data -

naimportovat,

vyextrahovat

příznaky Matlab!

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 8/29

Hradec - Evokované potenciály

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 9/29

The original figure illustrating the international 10-20 systém

Jasper HH (1958): Report of the Committee on Methods of Clinical Examination in

Electroencephalography. Electroenceph. Clin. Neurophysiol. 10: 370-1.

Recording positions

EEG

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 10/29

Evokované potenciály – poškození očních nervů …

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 11/29

GEOFOND

• SesuvyDatabáze sesuvů – je třeba prozkoumat závislosti v datech

Proč si vybrat tuto práci? - zajímavá data: - zkuste určit, na jakém parametru závisí aktivita sesuvu - najděte zajímavé vazby mezi jednotlivými parametry - najděte parametry metod tak, aby výsledky byly co nejlepší - data jsou již připravena pro experimenty v YALE -můžete se tak zaměřit výhradně na experimentování s daty - neřešíte, jak data do nějakého programu vůbec dostat

• VrtyPreprocessing dat

DP Petr Zelenka (http://dip.felk.cvut.cz)

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 12/29

Geofond – sesuvy v YALE

DP Petr Zelenka (http://dip.felk.cvut.cz)

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 13/29

Evoluční kódování

Cílem práce je otestovat náš nový plugin do Yale na různých datech

DP Petr Zelenka, Michal Záborec (http://dip.felk.cvut.cz)

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 14/29

Algoritmic trading …

• Integrace časových řad různých akcií

• Extrakce příznaků z burzovních dat

• Multi-time frame přístup

• Analýza tiskových zpráv a jejich vlivu na vývoj akcií společností

• Analýza zpráv na sociálních sítích

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 15/29

FAKE GAME projekt

- Nové jednotky- Učicí algoritmy- Stopping criteria- Podpora pro predikci časových řad- Srovnání s KM www.knowledgeminer.com- Srovnání s matlabem (NN toolbox)- Experimenty s nastavením (výpočty na

serverech)- Fully Automated Knowledge Extraction

-reportovaní pomocí JasperReports,-tutoriály použití na různých datech-srovnání s Wekou

-různé předzpracování-…

sourceforge.net/projects/fakegame

http://neuron.felk.cvut.cz/game

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 16/29

IBM SPSS zadání

• Vliv vážení dat na přesnost, stabilitu a přínosy modelu binární logistické regrese– Na základě vzorce pro konfidenční intervaly regresních koeficientů

porovnejte chování modelů vytvořených nad váženými a neváženými daty. Vážením zde rozumíme buď duplikaci případů s méněčetnou kategorií cílové proměnné, nebo prostý náhodný výběr případů s vícečetnou kategorií cílové proměnné. Obě varianty vážení posuzujte odděleně. Ohodnoťte vliv vážení při učení modelu na přesnost predikcí, stabilitu rozdělení regresního skóre a na průběh ROI evaluační křivky. Teoretické závěry porovnejte s praktickou simulací. Zaměřte se především na hodně nevyvážená rozdělení cílové proměnné.

• Metody výběru proměnných při modelování logistickou regresí nad datovou maticí s mnoha proměnnými– Vypracujte přehled variant, jak postupovat při výběru proměnných pro

model binární logistické regrese pro situace, kdy datová matice obsahuje velké množství korelovaných vstupních proměnných. Doporučte vhodný postup pro takové situace a uveďte, čeho bychom se měli vyvarovat. Doporučené postupy a zjištěná rizika ilustrujte na praktické simulaci.

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 17/29

spam pre-filter

• Analýza záhlaví zpráv, metainformací a jejich souvislost se „spamovostí“ zpráv

Popis poli, ktera jsem ziskal zatim ze seznamu. ip_addr - adresa odesilatele country-code - rozeznany country code pomoci geoip hdr_from - from adresa z MAIL FROM z SMTP protokolu rcpt - prijemce emailu rcpts - pocet prijemcu v celem mailu mail-size - velikost mailu v bytech szn-spam-score - spam score :) user-id - idcko prijemce(interni informace) ebox-id - idcko storage serveru(interni informace) za poslednich 5 min (paralelne i zasebou): ce-connections - pocet konexi ce-bad-rcpt-to - pocet spatnych RCPT TO v SMTP protokolu ce-bad-mail-from - pocet spatnych MAIL FROM v SMTP protokolu ce-bad-commands - pocet spatnych prikazu v SMTP protokolu ce-mail-sent - pocet odeslanych mailu ce-bytes-sent - pocet odeslanych byte ce-bad-auth - pocet spatnych autorizaci na SMTP relay header:* obsah odpovidajicich hlavicek presne v takovem case, jako jsou v mailech TO_CO_JE_VELKYMA - odpovidajici testy z spamassassinu

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 18/29

Honeywell Prague Laboratory

• Data z budov

– Energie

– Logy z karet

– …

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 19/29

Center for chemical genetics

• Data mining procesů při buněčném dělení

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 20/29

Nové opensource předzpracovací metody

• fakegame@sourceforge

• Prostuduj seznam implementovaných předzpracovacích metod

• Nastuduj a implementuj novou metodu

• Srovnej s dostupnými metodami na několika různých datových souborech

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 21/29

Automatické předzpracování

• Otestovat na různých datech

• Konzistence výběru předzpracovacích metod

• Automatické předzpracování signálů

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 22/29

Preprocessing methods implemented in FAKE GAME

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 23/29

Methods to impute missing values

• MissingData.ConstantMissingDataImputer

• MissingData.MedianMissingDataImputer

• MissingData.NearestNeighbourMissingDataImputer

• MissingData.RemoveMissingData

• MissingData.AnotherInstanceValueDataImputer

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 24/29

Methods to normalize data

• Normalization.LinearNormalizer

• Normalization.SoftmaxNormalizer

• Normalization.MeanNormalizer

• Normalization.ZscoreNormalizer

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 25/29

Methods to reduce data• DataReduction.RandomReduce• DataReduction.RemoveOutlayers• DataReduction.LeaveOutNeighbours• DataReduction.KMeansDataReplacer• DataReduction.PCA• DataReduction.KDTreeReplacer• DataReduction.HartCondensingReduce• DataReduction.HartCondensingReduce• DataReduction.IB3Reduce• DataReduction.KubatMatwinReduce• DataReduction.Drop3Reduce• DataReduction.ChangReduce• DataReduction.WilsonsEditingReduce• DataReduction.ChenCondensingReduce• DataReduction.RSP3CondensingReduce• DataReduction.SpecialCondensingReduce• DataReduction.AllKNNEditingSchemeAlgorithm• DataReduction.RNNCondensingReduce

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 26/29

Other methods

• Discretization.EqualSizeBinning

• DataEnrichement.Smote

• Nominal data encoding

– 1 from N

– Encoding into single attribute

Color Size

red small

green large

red large

Color Size

0.1 0.01

0.3 0.9

0.1 0.9

Red color

Green color

Small size

Large size

1 0 1 0

0 1 0 1

1 0 0 1

Color Size

0.6 0.4

0.1 0.6

0.6 0.6

or

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 27/29

Our experiments with automated encoding of nominal attributes

Relative accuracy Relative accuracy Relative accuracy

Relative accuracy Relative accuracy Relative accuracy

Correlation

Linear regression

Pro

ba

bili

ty d

en

sity

Pro

ba

bili

ty d

en

sity

Diploma thesis Michal Zaborec, Minh Duc Do, CTU Prague, 2009

10% improvement

on Golf data

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 28/29

Putting (preprocessing methods) all together

• For each feature, optimal sequence of preprocessing methods is evolved by GA

Raw data

Selected

representative

data subset

Automated data

preprocessing

Genetic Algorithm evolvingpreprocessing sequences

GAMEPreprocessingSequences

Ensembleof models

Error of models,

fitness function

Pavel Kordík (ČVUT FIT) MI-PDD, 2012, Cvičení 4Předzpracování dat 29/29

Evolving preprocessing sequences