К.В. Воронцов "Линейные методы классификации"

Embed Size (px)

DESCRIPTION

К.В. Воронцов "Линейные методы классификации", 13.03.2012, место показа МФТИ, Школа анализа данных (ШАД)

Text of К.В. Воронцов "Линейные методы классификации"

  • 1. (LR) (SVM) ROC- . . vokov@forecsys.ru -http://www.MachineLearning.ru/wiki ( , ..) 20 2010 . . (www.ccas.ru/voron) 1 / 52

2. (LR) (SVM) ROC- 1 2 (LR) 3 (SVM) (RVM) 4 ROC- ROC- ROC- . . (www.ccas.ru/voron) 2 / 52 3. (LR) (SVM) ROC- , Y = {1, +1}: X = (xi , yi ) i=1 a(x, w ) = sign f (x, w ), f (x, w ) ,w .f (x, w ) = 0 ;Mi (w ) = yi f (xi , w ) (margin) xi ;Mi (w ) < 0 a(x, w ) xi . :Q(w ) =Mi (w ) < 0Q(w ) = L Mi (w ) min; wi=1 i=1 L (M) , .. . (www.ccas.ru/voron) 3 / 52 4. (LR) (SVM) ROC- L (M): 5V 4L E 3Q S 2 1 0 -5 -4 -3 -2 -1 012 3 4 5M2Q(M) = (1 M) ();V (M) = (1 M)+ - (SVM);S(M) = 2(1 + e M )1 ();L(M) = log2 (1 + e M ) (LR);E (M) = e M (AdaBoost).. . (www.ccas.ru/voron) 4 / 52 5. (LR) (SVM) ROC- X Y .. p(x, y |w ). X (i.i.d.) : L(w ; X ) = ln p(xi , yi |w ) = ln p(xi , yi |w ) max . w i=1 i=1 : Q(w ; X ) = L yi f (xi , w ) min; w i=1 , ln p(xi , yi |w ) = L yi f (xi , w ) . p f L . . . (www.ccas.ru/voron) 5 / 52 6. (LR) (SVM) ROC- fj : X R, j = 1, . . . , n ; : na(x, w ) = sign wj fj (x) w0 ,j=1 w0 , w1 , . . . , wn R ( ); f0 1. : a(x, w ) = sign w , x . xi :Mi (w ) = w , xi yi . . . (www.ccas.ru/voron) 6 / 52 7. (LR) (SVM) ROC- ?. . (www.ccas.ru/voron) 7 / 52 8. (LR) (SVM) ROC- - [1943]: n a(x, w ) = w , x= wj fj (x) w0 ,j=1 (s) ( , sign). @ABC GFEDx1OOO OO w GFED ZZZZ 1 OOOO @ABCx 2 w2 ZZZZ-- // ?>=< 89:; a... oo77 own oo NN ooo @ABC GFEDoxn w0 @ABC GFED1 . . (www.ccas.ru/voron) 8 / 52 9. (LR) (SVM) ROC- : Q(w ; X ) = Lw , xi yi min . wi=1 : w (0) := ;n Q(w ) w (t+1) := w (t) Q(w (t) ),Q(w ) = wj ,j=0 , .w (t+1) := w (t) L w (t) , xi yi xi yi .i=1 : (xi , yi ) . . . (www.ccas.ru/voron) 9 / 52 10. (LR) (SVM) ROC- SG (Stochastic Gradient): X ; ; ;: w0 , w1 , . . . , wn ; 1: wj , j = 0, . . . , n; 2: :Q := L w , xi yi ; i=1 3: 4: xi X (, ); 5: : i := L w , xi yi ; 6: : w := w L w , xi yi xi yi ; 7: : Q := (1 )Q + i ; 8: Q / w ; . . (www.ccas.ru/voron) 10 / 52 11. (LR) (SVM) ROC- 1: - ADALINE : X = Rn , Y R, L (a, y ) = (a y )2 . ADALINE[ , 1960]: a(x, w ) = w , x - (delta-rule):w := w w , xi yi xiii a(x, w ) xi . . . (www.ccas.ru/voron) 11 / 52 12. (LR) (SVM) ROC- 2: : X = Rn , Y = {1, +1},L (a, y ) = ( w , x y )+ . :a(x, w ) = sign w , x . [1949]: w , xi yi < 0 w := w + xi yi , X = {0, 1}n , Y = {0, +1}, [1957]: w := w a(xi , w ) yi xi . . . (www.ccas.ru/voron) 12 / 52 13. (LR) (SVM) ROC- SG : X = Rn+1 , Y = {1, 1}. (, 1962) X :w , > 0: w , xi yi > i = 1, . . . , . SG w , ; w (0) ; > 0; xi ; w ; 1 w (0) = 0, tmax2max xi . . . (www.ccas.ru/voron) 13 / 52 14. (LR) (SVM) ROC- SG: :1 wj := 0 j = 0, . . . , n;2 :1 1wj := random 2n , 2n ;3 ; y ,fj4 wj :=fj ,fj , fj = fj (xi ) i=1 j- .: , , w . . . (www.ccas.ru/voron) 14 / 52 15. (LR) (SVM) ROC- SG: :1 (shuing): ;2 , ( Mi , );3 , Mi > +( );4 -, Mi < ( ); + , .. . (www.ccas.ru/voron) 15 / 52 16. (LR) (SVM) ROC- SG: :1 ( ) t 0,t = ,2t < ,t=1 t=1 t = 1/t;2 : Q w Q(w ) min, ;3 ;: , = xi 2 .. . (www.ccas.ru/voron) 16 / 52 17. (LR) (SVM) ROC- SG: :1 ;2 f , L ;3 () ;4 xi ;:1 ;2 ;3 ;4 ;. . (www.ccas.ru/voron) 17 / 52 18. (LR) (SVM) ROC- SG: :1 ; ;2 () ;3 ;:1 w ;2 ;3 Q(X ) Q(X k );:1 (early stopping);2 (weight decay);. . (www.ccas.ru/voron) 18 / 52 19. (LR) (SVM) ROC- SG: : Q (w ; X ) = Q(w ; X ) + w 2 min . 2 w: Q (w ) = Q(w ) + w . :w := w (1 ) Q(w ). :1 ;2 ;3 ;. . (www.ccas.ru/voron) 19 / 52 20. (LR) (SVM) ROC- : p(x, y |w ) ;p(w ; ) ; ; X , w . : p(X , w ) = p(X |w ) p(w ; ). :L(w , X ) = ln p(X , w ) = ln p(xi , yi |w ) + ln p(w ; ) max .w , i=1. . (www.ccas.ru/voron) 20 / 52 21. (LR) (SVM) ROC- 1: () w Rn n- : n 1 w 22 p(w ; ) =exp ,w = wj2 ,(2)n/2 2j=1. . , ; ., :12 ln p(w ; ) =w+ const(w ). 2 1 : = . . . (www.ccas.ru/voron) 21 / 52 22. (LR) (SVM) ROC- 2: w Rn n- :n1 w 1p(w ; C ) = nexp , w 1 = |wj |,(2C ) C j=1. . , ; C ., L1 -: n1 ln p(w ; C ) =|wj | + const(w ).Cj=1 ? . . (www.ccas.ru/voron) 22 / 52 23. (LR) (SVM) ROC- 2: n1 Q(w , X ) = ln p(xi , yi |w ) + |wj | min . C w ,C i=1 j=1 : : uj = 1 |wj | + wj , vj = 2 |wj | wj .21 wj = uj vj |wj | = uj + vj ; n Q(u, v ) = 1L Mi (u v , w0 ) + (uj + vj ) min Cu,v i=1j=1 uj 0, vj 0, j = 1, . . . , n; uj = vj = 0, wj = 0 . . . (www.ccas.ru/voron) 23 / 52 24. (LR) (SVM) ROC- Q(w ) min ;w a(x; w ) ; : Q(X ) Q(X k ). : ; ; ... : ; ; ; .. . (www.ccas.ru/voron) 24 / 52 25. (LR) (SVM) ROC- f (x, w ): f (x, w ) = x, w ; ; L (M): L (M) = log(1 + e M ) . . . LR; - L (M) = (1 M)+ . . . SVM; L (M) = e M . . . AdaBoost; log p(w ; ): . . . , LR; . . . SVM, RLR; . . . RVM; . . . ; Q(w ) min.. . (www.ccas.ru/voron) 25 / 52 26. (LR) (SVM) ROC- : X = Rn , Y = 1, X = (xi , yi ) i.i.d. i=1p(x, y ) = Py py (x) = P(y |x)p(x) py (x) : py (x) = exp cy () y , x + by (, y ) + d(x, ) , y Rn ; ;by , cy , d ; d() y . :, , , ,, -, .. . (www.ccas.ru/voron) 26 / 52 27. (LR) (SVM) ROC-: , Rn , Rnn , : = 1 ; = . n 1 N (x; , ) = (2) 2 || 2 exp 1 (x ) 1 (x ) =2 = exp 1 x 2 1 1 1 ,x b(,) 2 x 1 x 1n 21 ln(2) 2 ln || . d(x,) . . (www.ccas.ru/voron) 27 / 52 28. (LR) (SVM) ROC- : p+ (x) Pa(x) = sign + P(+1|x) P(1|x) = sign . p (x) + P+ py , d() y , f1 (x), . . . , fn (x) , : a(x) = sign w , x w0 , w0 = ln( /+ ); :P(y |x) = w , x y , 1 (z) = 1+e z () . . . (www.ccas.ru/voron) 28 / 52 29. (LR) (SVM) ROC- :L(w , X ) = log p(xi , yi ) max .wi=1: p(x, y ) = P(y |x) p(x) = w , x y const(w ) L(w , X ) = log w , xi yi + const(w ) max . wi=1 L(w ) Q(w ): Q(w , X ) = log 1 + exp( w , xi yi ) min .wi=1Mi (w ) . . (www.ccas.ru/voron) 29 / 52 30. (LR) (SVM) ROC- L (Mi ) = log2 1 + e Mi . 3.5 3.0 2.5 2.0 1.5 1.0 0.50 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 Mi. . (www.ccas.ru/voron) 30 / 52 31. (LR) (SVM) ROC- : (z) = (z)(z). Q(w ): Q(w ) = yi xi Mi (w ) .i=1 :w (t+1) := w (t) + yi xi Mi (w (t) ) , (xi , yi ) , ., : w (t+1) := w (t) + yi xi Mi (w (t) ) < 0 . . . (www.ccas.ru/voron) 31 / 52 32. (LR) (SVM) ROC- : [Mi < 0] (Mi ): 1.0 0.8 0.6 0.4 0.20 -5 -4 -3 -2 -1 0 12345 Mi1 (z) =1+e z () .. . (www.ccas.ru/voron) 32 / 52 33. (LR) (SVM) ROC- . . (www.ccas.ru/voron) 33 / 52 34. (LR) (SVM) ROC- ( ) x: R(x) =Dxy P(y |x) =Dxy w , x y ,y Y y Y Dxy (x, y ).: , ; . . ; VaR (Value at Risk):1000 : x y ; V = Dxy ;i=1 V ; - . . . (www.ccas.ru/voron) 34 / 52 35. (LR) (SVM) ROC- (RVM) : a(x) = sign w , x w0 ,w , x Rn , w0 R. X = (xi , yi ) :i=1 w , w0 :Mi (w , w0 ) = yi w , xi w0 > 0, i = 1, . . . , : min Mi (w , w0 ) = 1.i=1,..., : x: 1 w , x w0 1 .x+x :wx+ x , w 2 = max .ww . . (www.ccas.ru/voron) 35 / 52 36. (LR) (SVM) ROC- (RVM) - w 2 min ;w ,w0Mi (w , w0 ) 1,i = 1, . . . , . () 1 w 2+C i min ;2 w ,w0 ,i=1Mi (w , w0 ) 1 i , i = 1, . . . , ;i 0, i = 1, . . . , . : 12Q(w , w0 ) =1 Mi (w , w0 )++w min .2Cw ,w0i=1 . . (www.ccas.ru/voron) 36 / 52 37. (LR) (SVM) ROC- (RVM) : L (w , w0 , ; , ) = 1 2= w i Mi (w , w0 ) 1 i i + i C ,2i=1 i=1i , Mi 1 i ;i , i 0.L (w , w0 , ; , ) min max; w ,w0 , ,i 0, i 0, i 0, i = 1, . . . , ; = 0 M (w , w ) = 1 , i = 1, . . . , ; ii 0 ii = 0 i = 0, i = 1, . . . , ;. . (www.ccas.ru/voron) 37 / 52 38. (LR) (SVM) ROC- (RVM) : L (w , w0 , ; , ) = 12= w i Mi (w , w0 ) 1 i i + i C ,2i=1 i=1 : L=w i yi xi = 0=w= i yi xi ; w i=1 i=1 L = i yi = 0=i yi = 0; w0i=1 i=1 L = i i + C = 0 = i + i = C ,i = 1, . . . , . i. . (www.ccas.ru/voron) 38 / 52 39. (LR) (SVM) ROC- (RVM) :1. i = 0; i = C ; i = 0; Mi 1. () .2. 0 < i < C ; 0 < i < C ; i = 0; Mi = 1. .3. i = C ; i = 0; i > 0; Mi < 1. -. xi , i = 0. . . (www.ccas.ru/voron) 39 / 52 40. (LR) (SVM) ROC- (RVM) 1 L () = i + i j yi yj xi , xj min; 2 i=1i=1 j=1 0 i C , i = 1, . . . , ; i yi = 0. i=1 : w =yx;i i ii=1w = w , x y ,0 i i i: i > 0, Mi = 1. : a(x) = sign i y i x i , x w0 .i=1 . . (www.ccas.ru/voron) 40 / 52 41. (LR) (SVM) ROC- (RVM) SVM : : X H. K : X X R , K (x, x ) = (x), (x ) : X H, H . K (x, x ) , : K (x, x ) = K (x , x); : 0 g : X R.X X K (x, x )g (x)g (x )dxdx . . (www.ccas.ru/voron) 41 / 52 42. (LR) (SVM) ROC- (RVM) 1 K (x, x ) = x, x ;2 K (x, x ) = 1 ;3 K (x, x ) = K1 (x, x )K2 (x, x ) ;4 : X R K (x, x ) = (x)(x ) ;5 K (x, x ) = 1 K1 (x, x ) + 2 K2 (x, x ) 1 , 2 > 0 ;6 : X X K0 , K (x, x ) = K0 ((x), (x )) ;7 s : X X R , K (x, x ) = X s(x, z)s(x , z) dz ;8 K0 f : R R , K (x, x