57
loByte Statistical Soft loByte Statistical Soft

TriloByte Statistical Software

  • Upload
    tamika

  • View
    44

  • Download
    0

Embed Size (px)

DESCRIPTION

TriloByte Statistical Software. Qualimetrics : PLS , NN a regres ní model y v řízení kvality. Karel Kupka, TriloByte, Pardubice, Czech Republic. Klasická regrese. y = Xa. X. Y. Robustní regrese. Lp – odhady LTS (least trimmed squares) odhady LMS (least median of squares) odhady - PowerPoint PPT Presentation

Citation preview

Page 1: TriloByte Statistical Software

TriloByte Statistical SoftwareTriloByte Statistical Software

Page 2: TriloByte Statistical Software

Qualimetrics:PLS, NN a regresní modely

v řízení kvality

Karel Kupka, TriloByte, Pardubice, Czech Republic

Page 3: TriloByte Statistical Software

Klasická regrese

X Y y = Xa

Page 4: TriloByte Statistical Software

Robustní regrese

Predikce senzorického hodnocení plzeňského piva Predikce fyzikálních vlastností materiálů Predikce biologické a biochemické aktivity

Lp – odhady

LTS (least trimmed squares) odhady

LMS (least median of squares) odhady

M – odhady

BIR – odhady (Bounded Influence Regression)

Page 5: TriloByte Statistical Software

Robustní regrese (1)Regresní přímka

Nejmenší čtverce Robustní M-odhad Welsh

Page 6: TriloByte Statistical Software

Robustní regrese (2)Regresní polynom

Nejmenší čtverce Robustní BIR-odhad

Page 7: TriloByte Statistical Software

Robustní regrese (3) Predikce vlastnosti oceli

Nejmenší čtverce Robustní M-odhad Welsh

Page 8: TriloByte Statistical Software

Redukce dimenze – PCR (1)

ortogonalizace

hlavní komponenty

X Q Y

Snížení dimenzionality úlohy – snadnější interpretace Ortogonalizace maximálně zvyšuje stabilitu řešení Přesnější predikce

Page 9: TriloByte Statistical Software

Redukce dimenze – PCR (2)

Hlavní komponenty – komprese informace do minima proměnných

Page 10: TriloByte Statistical Software

Tok dat v QC/Technologii

Page 11: TriloByte Statistical Software

PLS: Partial Least Squares:relace mezi vícerozměrnými datyNa rozdíl od klasické regrese, v PLS regresních modelech jsou X a Y zaměnitelné – lze tedy korektně predikovat Y z X stejně jako X z Y.

X Y

Page 12: TriloByte Statistical Software

Metody kvalimetrie, možnosti PLSData vystupující v technologiích jakosti mají téměř vždy vícerozměrný

charakter, protože představují několik hodnot měřených současně nebo na jednom produktu. Metody analyzující taková data jako celek se proto nazývají vícerozměrné. Vycházejí z datových tabulek, které jsou obvykle k dispozici v excelu, nebo databázi. Tyto tabulky obsahují například vlastnosti vstupních surovin a okolností, naměřené, nebo nastavené hodnoty sledovaných veličin v různých fázích výrobního nebo obchodního procesu. Některé veličiny představují parametry jakosti. Nejjednodušší představa zahrnuje tabulky

(a) Vstupních dat (suroviny, zdroje, dodavatelé, vstupní přejímky),

(b) Procesních dat (výrobní podmínky, procesní parametry, mezioperační kontroly),

(c) Výstupních dat (specifikace, parametry kvality produktu, hodnocení odběratele).

Page 13: TriloByte Statistical Software

X = TP + EY = UQ + F

Metody PLS jsou založené na syntéze principu příbuzném metodě hlavních komponent (PCA) a vícenásobné lineární regrese. Tato matematická metoda je využívána v ekonometrii, chemometrii, biometrii a v poslední době se objevují aplikace v kvalimetrii. Cílem metody je odhalit vztahy mezi vícerozměrnými daty v databázích a využít této znalosti k přibližnému výpočtu hodnot jedné skupiny veličin z druhé.

Metodika a metody PLS

Podstata Metody PLSTabulku naměřených hodnot p veličin (sloupců) s n řádky označme jako matici X(n x p), a odpovídající tabulku se stejným počtem řádků n ale s q veličinami označme Y(n x q), Abychom extrahovali maximum informace z p- a q- rozměrných matic do prostoru s nižší dimenzí k, rozložíme X a Y na ortogonální matice T (n x k) a U (n x k), s koeficienty P a Q

Page 14: TriloByte Statistical Software

T (n x k), U (n x k), k min(p, q). Zajištění maximální relevance X-komponent pro Y, tyto transformace maximalizují kovariance mezi T a U. Dimenzionalita T a U je typicky menší než X a Y a sloupce T a U jsou ortogonální. To zlepší stabilitu modelu. Šum a irelevantní informace se koncentruje v „popelnicích“ E a F. Je-li k = p, pak E = 0.

Dekompozice U = TB (B je čtvercová diagonální matice) poskytuje nástroj pro predikci Y z X:

Y = TBQ

T se konstruuje z nových dat X. Protože T = XP–, Y = XP–BQ, a tedy P–BQ reprezentuje originální (obecně vychýlené a zkrácené – tedy stabilnější) regresní parametry modelu Y = XA.

X = TP + EY = TR + F

U = TBBQ = R

Kombinací tohoto a předchozích vztahů je zřejmý vztah (vnitřní lineární vazba mezi X a Y.

T = XP-

Page 15: TriloByte Statistical Software

= +X TP

E

= +Y UQ

F

X YPREDIKCE

Page 16: TriloByte Statistical Software

Možnosti robustních modifikací PLS

Classical

X0 1 2 3 4 5 6 7 8 9

1

2

3

4

5

6

7

8

9

10

Robust

y

Robustifikace kovarianční maticeRobustifikace metriky, neeikleudovská geometrie

Page 17: TriloByte Statistical Software

Na rozdíl od klasické lineární regrese jsou v PLS X a Y rovnocenné, tedy zaměnitelné – je jedno, kterou matici označíme X a kterou Y. Proto lze predikovat Y z X stejně jako X z Y.

Je tedy PLS rovněž často používaným nástrojem pro lineární vícerozměrnou kalibraci.

X

Y

Page 18: TriloByte Statistical Software

Vícerozměrná kalibrace

Látka 1 Látka 2 Látka 3 Látka 4

Koncentrace 1

Koncentrace 2

Koncentrace 3

Koncentrace 4

… … … …

0.394 0.383 0.351 0.337

… … … …

Chemické složení (koncentrace, pH) Spektrum (absorbance)

Page 19: TriloByte Statistical Software

Vícerozměrná kalibrace v QI/QPVlhkost Teplota Průtok Tlak

4.48 188 45.2 5.82

… … … …

Surface Quality

Defor mation

Hard ness

Tensile Strength

0.394 0.0383 3.51 17.37

… … … …

Suroviny, technologie, podmínky Parametry produktu

Page 20: TriloByte Statistical Software

E = X; F = Y

Krok 1. w ~ ETu (odhad X vah)

Krok 2. t ~ Ew (odhad X skórů)

Krok 3. q ~ FTt (odhad Y vah)

Krok 4. u = Fq (odhad Y skórů)

E = E – tT p; F = F – tT b q (oprava E,F)

Zkrácený postup iterativního výpočtu PLS

Page 21: TriloByte Statistical Software

Některé aplikace billineárních modelů

Technologie: Procesní parametry Fyzikální vlastnostiTechnologie: Procesní parametry Fyzikální vlastnostiProces/chemické složení Sensoric/Quality parametryVstupní faktory Výstupní kval/kvant -itativní vlastnostiProcesní podmínky Výstupní kval/kvant -itativní vlastnosti

Toxicology: Composition/Structure ToxicityHealth: Chemical Structure BioeffectsPollution: Composition Origin/SourcePollution: Composition Human health effectsEnvironment: Environmental factors Species diversity

Page 22: TriloByte Statistical Software

Jakost -

Řízení jakosti? Zlepšení jakosti? Měření jakosti - Kvantifikace! Porozumění vztahům! Sestavení fungujících modelů. Plánování jakosti.

Page 23: TriloByte Statistical Software

Aplikace: Vlastnosti hliníkové slitiny

Chemické složení Fyzikální vlastnosti

Page 24: TriloByte Statistical Software
Page 25: TriloByte Statistical Software
Page 26: TriloByte Statistical Software

X Y

Aplikace:Vlastnosti piva

Page 27: TriloByte Statistical Software
Page 28: TriloByte Statistical Software
Page 29: TriloByte Statistical Software

Bi-Plot v PLSDekompozice TP a UQ se dají využít pro konstrukci společného grafuskórů a zátěží Bi-Plot, který umožní omezené posouzení data proměnných pro X i Y.

Page 30: TriloByte Statistical Software

Bi-Plot v PLSIdentifikace obchodních příležitostí modifikací PLS v produkci piva

Hic Sunt

Leones

Page 31: TriloByte Statistical Software

Design nového produktu - QP

Požadované vlastnosti, X

Predikované složení, Y

Y = TBQT = XP-

Page 32: TriloByte Statistical Software

Neuronové sítě

Aplikace NN jako statistického predikčního modelu

Page 33: TriloByte Statistical Software

Inspirace neuronové sítě

• Jádro• Dendrity-

dostředivé výběžky

• Axon-neurit• Synaptické

přípojky pro předání vzruchu

Page 34: TriloByte Statistical Software

EM fotografie neuronu

Page 35: TriloByte Statistical Software
Page 36: TriloByte Statistical Software
Page 37: TriloByte Statistical Software

Model neuronu a aktivační funkce

j

ijiji xwTy )*((*

( ) 1 pro x 0

(x) 0 pro x < 0

x

Nejjednodušší aktivační funkce

Rosemblatt 1962 – učící algoritmus PERCEPTRON složený z modelů neuronuve dvou vrstvách (vstupní a výstupní). Vstupní vrstva dostává data z okolí a výstupnívrstva posílá informace ze sítě ven.Každý vstupní neuron je přímo spojen se všemivýstupními (vstupy a výstupy jsou binární –1,1). Perceptron dokáže řešit úlohulineárně oddělitelné klasifikace.

Pro lineárně neoddělitelné klasifikace pomocí perceptronů nefunguje

Page 38: TriloByte Statistical Software

Některé další typy aktivační funkce

Page 39: TriloByte Statistical Software

Logistická aktivační funkce

1

1 exp( )n

Page 40: TriloByte Statistical Software

Jednovrstvá neuronová síť

Vstupní veličina xi je po normalizaci vážena vahou wji a v neuronu transformována aktivační funkcí σj+1, i (z) = 1/(1 + e – z), kde z je lineární kombinace vstupních veličin, zi = a0 + Σaijzi-1,j. Váhy wji představují vazbu mezi vstupní hodnotou a neuronem.

z = xi.wij

σj+1, i (z) = 1/(1 + e – z)

zi = a0 + Σaij zi-1,j

Page 41: TriloByte Statistical Software

Vícevrstvé neuronové sítě

Mc Clelland a Rumelhart 1986 trénování vícevrstvých ANN pomocí Backpropagation-BP (zpětné šíření). Možno řešit problémy lineárně neoddělitelné klasifikace.

Page 42: TriloByte Statistical Software

Postup použití NN

Volba vhodné struktury sítě (architektura)

Trénování sítě na změřených datech (učení)

Predikce pomocí NN

Page 43: TriloByte Statistical Software

Návrh a trénování NN

Počet skrytých vrstev- pro většinu problémů stačí jedna- zvětšování počtu vede k výraznému nárůstu počítačové náročnosti Počet neuronů ve skryté vrstvě- rámcové pravidlo, že postačuje přirozený logaritmus počtu vstupů Architektura- nejběžnější je plně propojená dopředná síť, logistická AF Velikost trénovací množiny- postačující pro zobecnění a zaplnění prostoru dat- při menším počtu dojde ke kopírování všech informací (interpolace)- Možnost použití crossvalidace Počet vstupů- odstranění parasitních proměnných je nezbytné Standardizace vstupů- standardizace zlepšuji rychlost učení

Page 44: TriloByte Statistical Software

Optimalizace NNMinimalizace součtu čtverců odchylek

ppp fyK 2)( )exp(1

1

pjpj h

a

Vstup do výstupní vrstvy (uvažuje se pouze jeden výstup) je vážený součet všech aktivačních funkcí ve tvaru

M

jpjjp aWg

1

*

)exp(1

1

pp g

f

Predikce

Cílem je nalézt váhy wji j = 1,…M, i = 1,…m, a Wj j = 1…M. Jde tedy o celkem M*(m+1) parametrů. To je vzhledem ke tvaru kritéria K řešitelné pomocí derivačních algoritmů nelineární regrese.Pokud označíme aktivační funkci symbolem F(.), lze kriteriální podmínku K pro určení vah vyjádřit ve tvaru

m

ipiji

M

jj

n

pp xwFWFyK

1

2

11

))]*(*([

Page 45: TriloByte Statistical Software

Pro řešení optimalizační úlohy pro Wij lze použít jednoduchou iterativní metoduzaloženou na výpočtu gradientu, kdy pro přírůstek platí

j

p

p

p

pj

jj W

g

g

f

f

KW resp.

W

KW

****

jtj

tj WWW 1

Page 46: TriloByte Statistical Software

Postup při optimalizaci metodou BP

Page 47: TriloByte Statistical Software

Aplikace NN pro predikci optických vlastností pigmentu

Ln2 Zr(2-x) Mx O7

Ln = lanthanoids M = Cr or V x = 0.05 to 0.2 T = 1400 or 1500˚C

L*a*b*dE*

}barevné koordináty

Page 48: TriloByte Statistical Software

Aplikace NN pro modelování kvality piva (1)

Plzeňský pivovar

X ... Chemie + technologie

Y ... Subjektivní vlastnosti

Page 49: TriloByte Statistical Software

Predikční schopnostmodelu X -> Y

X ... Chemie + technologie

Y ... Subjektivní vlastnosti

Aplikace NN pro modelování kvality piva (2)

Page 50: TriloByte Statistical Software

Predikční schopnostmodelu Y -> X

X ... Chemie + technologie

Y ... Subjektivní vlastnosti

Aplikace NN pro modelování kvality piva (3)

Page 51: TriloByte Statistical Software

Neuronové sítě a časové řady

Model časové řady

Jednorozměrný-xi = g(x1, x2, ... ,xi-2, xi-1)

Vícekrokový-(xi, ..., xi+m) = g(x1, x2, ... ,xi-2, xi-1)

Vícerozměrný-xi = h(x1, x2, ... ,xi-2, xi-1, C)

ARARMAARIMAARCHGARCH

Page 52: TriloByte Statistical Software

Predikce kvality média, JE Dukovany

Page 53: TriloByte Statistical Software

Discovery and data analysis system

SOFTWARE ...

Page 54: TriloByte Statistical Software

LITERATURA ...

Page 55: TriloByte Statistical Software

LITERATURA ...

Page 56: TriloByte Statistical Software

Vývoj, výzkum, podpora...

TriloByte Statistical SoftwareCQR, D&R

Page 57: TriloByte Statistical Software

Na shledanou na

ReQuEst

30. 1 – 1. 2. 2007

Jakost - Quality

20. – 21. 3. 2007

PRAHA OSTRAVA