Strassen Algorithm

Embed Size (px)

Citation preview

  • 8/6/2019 Strassen Algorithm

    1/27

    I m p l e m e n t a t i o n o f S t r a s s e n ' s A l g o r i t h m f o r M a t r i x

    M u l t i p l i c a t i o n

    1

    S t e v e n H u s s - L e d e r m a n

    2

    E l a i n e M . J a c o b s o n

    3

    J e r e m y R . J o h n s o n

    4

    A n n a T s a o

    5

    T h o m a s T u r n b u l l

    6

    A u g u s t 1 , 1 9 9 6

    1

    T h i s w o r k w a s p a r t i a l l y s u p p o r t e d b y t h e A p p l i e d a n d C o m p u t a t i o n a l M a t h e m a t i c s P r o g r a m ,

    D e f e n s e A d v a n c e d R e s e a r c h P r o j e c t s A g e n c y , u n d e r C o n t r a c t P - 9 5 0 0 6 .

    2

    C o m p u t e r S c i e n c e s D e p a r t m e n t , U n i v e r s i t y o f W i s c o n s i n - M a d i s o n , 1 2 1 0 W . D a y t o n S t . , M a d i -

    s o n , W I 5 3 7 0 6 , P h o n e : ( 6 0 8 ) 2 6 2 - 0 6 6 4 , F A X : ( 6 0 8 ) 2 6 2 - 9 7 7 7 , e m a i l : l e d e r m a n @ c s . w i s c . e d u

    3

    C e n t e r f o r C o m p u t i n g S c i e n c e s , 1 7 1 0 0 S c i e n c e D r . , B o w i e , M D 2 0 7 1 5 , P h o n e : ( 3 0 1 ) 8 0 5 - 7 4 3 5 ,

    F A X : ( 3 0 1 ) 8 0 5 - 7 6 0 2 , e m a i l : e m j @ s u p e r . o r g

    4

    D e p a r t m e n t o f M a t h e m a t i c s a n d C o m p u t e r S c i e n c e , D r e x e l U n i v e r s i t y , P h i l a d e l p h i a , P A 1 9 1 0 4 ,

    P h o n e : ( 2 1 5 ) 8 9 5 - 2 8 9 3 , F A X : ( 6 1 0 ) 6 4 7 - 8 6 3 3 , e m a i l : j j o h n s o n @ k i n g . m c s . d r e x e l . e d u

    5

    C e n t e r f o r C o m p u t i n g S c i e n c e s , 1 7 1 0 0 S c i e n c e D r . , B o w i e , M D 2 0 7 1 5 , P h o n e : ( 3 0 1 ) 8 0 5 - 7 4 3 2 ,

    F A X : ( 3 0 1 ) 8 0 5 - 7 6 0 2 , e m a i l : a n n a @ s u p e r . o r g

    6

    C e n t e r f o r C o m p u t i n g S c i e n c e s , 1 7 1 0 0 S c i e n c e D r . , B o w i e , M D 2 0 7 1 5 , P h o n e : ( 3 0 1 ) 8 0 5 - 7 3 5 8 ,

    F A X : ( 3 0 1 ) 8 0 5 - 7 6 0 2 , e m a i l : t u r n b u l l @ s u p e r . o r g

    0-89791-854-1/1996/$5.00 1996 IEEE

  • 8/6/2019 Strassen Algorithm

    2/27

    A b s t r a c t

    I n t h i s p a p e r w e r e p o r t o n t h e d e v e l o p m e n t o f a n e c i e n t a n d p o r t a b l e i m p l e m e n t a t i o n

    o f S t r a s s e n ' s m a t r i x m u l t i p l i c a t i o n a l g o r i t h m . O u r i m p l e m e n t a t i o n i s d e s i g n e d t o b e u s e d i n

    p l a c e o f D G E M M , t h e L e v e l 3 B L A S m a t r i x m u l t i p l i c a t i o n r o u t i n e . E c i e n t p e r f o r m a n c e

    w i l l b e o b t a i n e d f o r a l l m a t r i x s i z e s a n d s h a p e s a n d t h e a d d i t i o n a l m e m o r y n e e d e d f o r t e m -

    p o r a r y v a r i a b l e s h a s b e e n m i n i m i z e d . R e p l a c i n g D G E M M w i t h o u r r o u t i n e s h o u l d p r o v i d e

    a s i g n i c a n t p e r f o r m a n c e g a i n f o r l a r g e m a t r i c e s w h i l e p r o v i d i n g t h e s a m e p e r f o r m a n c e f o r

    s m a l l m a t r i c e s . W e m e a s u r e p e r f o r m a n c e o f o u r c o d e o n t h e I B M R S / 6 0 0 0 , C R A Y Y M P

    C 9 0 , a n d C R A Y T 3 D s i n g l e p r o c e s s o r , a n d o e r c o m p a r i s o n s t o o t h e r c o d e s . O u r p e r f o r -

    m a n c e d a t a r e c o n r m s t h a t S t r a s s e n ' s a l g o r i t h m i s p r a c t i c a l f o r r e a l i s t i c s i z e m a t r i c e s . T h e

    u s e f u l n e s s o f o u r i m p l e m e n t a t i o n i s d e m o n s t r a t e d b y r e p l a c i n g D G E M M w i t h o u r r o u t i n e i n

    a l a r g e a p p l i c a t i o n c o d e .

    K e y w o r d s : m a t r i x m u l t i p l i c a t i o n , S t r a s s e n ' s a l g o r i t h m , W i n o g r a d v a r i a n t , L e v e l 3 B L A S

  • 8/6/2019 Strassen Algorithm

    3/27

    1 I n t r o d u c t i o n

    T h e m u l t i p l i c a t i o n o f t w o m a t r i c e s i s o n e o f t h e m o s t b a s i c o p e r a t i o n s o f l i n e a r a l g e b r a a n d

    s c i e n t i c c o m p u t i n g a n d h a s p r o v i d e d a n i m p o r t a n t f o c u s i n t h e s e a r c h f o r m e t h o d s t o s p e e d

    u p s c i e n t i c c o m p u t a t i o n . I t s c e n t r a l r o l e i s e v i d e n c e d b y i t s i n c l u s i o n a s a k e y p r i m i t i v e

    o p e r a t i o n i n p o r t a b l e l i b r a r i e s , s u c h a s t h e L e v e l 3 B L A S 7 ] , w h e r e i t c a n t h e n b e u s e d a s

    a b u i l d i n g b l o c k i n t h e i m p l e m e n t a t i o n o f m a n y o t h e r r o u t i n e s , a s d o n e i n L A P A C K 1 ] .

    T h u s , a n y s p e e d u p i n m a t r i x m u l t i p l i c a t i o n c a n i m p r o v e t h e p e r f o r m a n c e o f a w i d e v a r i e t y

    o f n u m e r i c a l a l g o r i t h m s .

    M u c h o f t h e e o r t i n v e s t e d i n s p e e d i n g u p p r a c t i c a l m a t r i x m u l t i p l i c a t i o n i m p l e m e n t a -

    t i o n s h a s c o n c e n t r a t e d o n t h e w e l l - k n o w n s t a n d a r d a l g o r i t h m , w i t h i m p r o v e m e n t s s e e n w h e n

    t h e r e q u i r e d i n n e r p r o d u c t s a r e c o m p u t e d i n v a r i o u s w a y s t h a t a r e b e t t e r - s u i t e d t o a g i v e n

    m a c h i n e a r c h i t e c t u r e . M u c h l e s s e o r t h a s b e e n g i v e n t o w a r d s t h e i n v e s t i g a t i o n o f a l t e r n a -

    t i v e a l g o r i t h m s w h o s e a s y m p t o t i c c o m p l e x i t y i s l e s s t h a n t h e ( m

    3

    ) o p e r a t i o n s r e q u i r e d b y

    t h e c o n v e n t i o n a l a l g o r i t h m t o m u l t i p l y m m m a t r i c e s . O n e s u c h a l g o r i t h m i s S t r a s s e n ' s

    a l g o r i t h m , i n t r o d u c e d i n 1 9 6 9 1 9 ] , w h i c h h a s c o m p l e x i t y ( m

    l g ( 7 )

    ) , w h e r e l g ( 7 ) 2 : 8 0 7 a n d

    l g ( x ) d e n o t e s t h e b a s e 2 l o g a r i t h m o f x .

    S t r a s s e n ' s a l g o r i t h m h a s l o n g s u e r e d f r o m t h e e r r o n e o u s a s s u m p t i o n s t h a t i t i s n o t

    e c i e n t f o r m a t r i x s i z e s t h a t a r e s e e n i n p r a c t i c e a n d t h a t i t i s u n s t a b l e . B o t h o f t h e s e

    a s s u m p t i o n s h a v e b e e n q u e s t i o n e d i n r e c e n t w o r k . B y s t o p p i n g t h e S t r a s s e n r e c u r s i o n s e a r l y

    a n d p e r f o r m i n g t h e b o t t o m - l e v e l m u l t i p l i c a t i o n s u s i n g t h e t r a d i t i o n a l a l g o r i t h m , c o m p e t i t i v e

    p e r f o r m a n c e i s s e e n f o r m a t r i x s i z e s i n t h e h u n d r e d s i n B a i l e y ' s F O R T R A N i m p l e m e n t a t i o n

    o n t h e C R A Y 2 2 ] , D o u g l a s , e t a l . ' s 8 ] C i m p l e m e n t a t i o n o f t h e W i n o g r a d v a r i a n t o f

    S t r a s s e n ' s a l g o r i t h m o n v a r i o u s m a c h i n e s , a n d I B M ' s E S S L l i b r a r y r o u t i n e 1 6 ] . I n a d d i t i o n ,

    t h e s t a b i l i t y a n a l y s e s o f B r e n t 4 ] a n d t h e n H i g h a m 1 1 , 1 2 ] s h o w t h a t S t r a s s e n ' s a l g o r i t h m

    i s s t a b l e e n o u g h t o b e s t u d i e d f u r t h e r a n d c o n s i d e r e d s e r i o u s l y i n t h e d e v e l o p m e n t o f h i g h -

    p e r f o r m a n c e c o d e s f o r m a t r i x m u l t i p l i c a t i o n .

    A u s e f u l i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m m u s t r s t e c i e n t l y h a n d l e m a t r i c e s o f

    a r b i t r a r y s i z e . I t i s w e l l k n o w n t h a t S t r a s s e n ' s a l g o r i t h m c a n b e a p p l i e d i n a s t r a i g h t f o r w a r d

    f a s h i o n t o s q u a r e m a t r i c e s w h o s e o r d e r i s a p o w e r o f t w o , b u t i s s u e s a r i s e f o r m a t r i c e s t h a t

    a r e n o n - s q u a r e o r t h o s e h a v i n g o d d d i m e n s i o n s . S e c o n d , e s t a b l i s h i n g a n a p p r o p r i a t e c u t o

    c r i t e r i o n f o r s t o p p i n g t h e r e c u r s i o n s e a r l y i s c r u c i a l t o o b t a i n i n g c o m p e t i t i v e p e r f o r m a n c e o n

    m a t r i c e s o f p r a c t i c a l s i z e . F i n a l l y , e x c e s s i v e a m o u n t s o f m e m o r y s h o u l d n o t b e r e q u i r e d t o

    s t o r e t e m p o r a r y r e s u l t s . E a r l i e r w o r k a d d r e s s i n g t h e s e i s s u e s c a n b e f o u n d i n 2 , 3 , 4 , 5 , 8 ,

    9 , 1 0 , 1 1 , 1 7 , 1 9 ] .

    I n t h i s p a p e r w e r e p o r t o n o u r d e v e l o p m e n t o f a g e n e r a l , e c i e n t , a n d p o r t a b l e i m p l e -

    m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m t h a t i s u s a b l e i n a n y p r o g r a m i n p l a c e o f c a l l s t o D G E M M ,

    t h e L e v e l 3 B L A S m a t r i x m u l t i p l i c a t i o n r o u t i n e . C a r e f u l c o n s i d e r a t i o n h a s b e e n g i v e n t o a l l

    1

  • 8/6/2019 Strassen Algorithm

    4/27

    o f t h e i s s u e s m e n t i o n e d a b o v e . O u r a n a l y s i s p r o v i d e s a n i m p r o v e d c u t o c o n d i t i o n f o r r e c t -

    a n g u l a r m a t r i c e s , a d e m o n s t r a t i o n o f t h e v i a b i l i t y o f d y n a m i c p e e l i n g , a s i m p l e t e c h n i q u e f o r

    d e a l i n g w i t h o d d m a t r i x d i m e n s i o n s t h a t h a d p r e v i o u s l y b e e n d i s m i s s e d 8 ] , a n d a r e d u c t i o n

    i n t h e a m o u n t o f m e m o r y r e q u i r e d f o r t e m p o r a r y v a r i a b l e s .

    W e m e a s u r e p e r f o r m a n c e o f o u r c o d e o n t h e I B M R S / 6 0 0 0 , C R A Y Y M P C 9 0 , a n d C R A Y

    T 3 D s i n g l e p r o c e s s o r a n d e x a m i n e t h e r e s u l t s i n s e v e r a l w a y s . C o m p a r i s o n s w i t h m a c h i n e -

    s p e c i c i m p l e m e n t a t i o n s o f D G E M M r e c o n r m t h a t S t r a s s e n ' s a l g o r i t h m c a n p r o v i d e a n

    i m p r o v e m e n t o v e r t h e s t a n d a r d a l g o r i t h m f o r m a t r i c e s o f p r a c t i c a l s i z e . T i m i n g s o f o u r c o d e

    u s i n g s e v e r a l d i e r e n t c u t o c r i t e r i a a r e c o m p a r e d , d e m o n s t r a t i n g t h e b e n e t s o f o u r n e w

    t e c h n i q u e . C o m p a r i s o n s t o t h e S t r a s s e n r o u t i n e i n t h e E S S L R S / 6 0 0 0 a n d t h e C R A Y C 9 0

    l i b r a r i e s a n d t h e i m p l e m e n t a t i o n o f D o u g l a s , e t a l . , s h o w t h a t c o m p e t i t i v e p e r f o r m a n c e c a n

    b e o b t a i n e d i n a p o r t a b l e c o d e t h a t u s e s t h e p r e v i o u s l y u n t r i e d d y n a m i c p e e l i n g m e t h o d

    f o r o d d - s i z e d m a t r i c e s . T h i s i s e s p e c i a l l y s i g n i c a n t s i n c e f o r c e r t a i n c a s e s o u r m e m o r y

    r e q u i r e m e n t s h a v e b e e n r e d u c e d b y 4 0 t o m o r e t h a n 7 0 p e r c e n t o v e r t h e s e o t h e r c o d e s .

    T h e r e m a i n d e r o f t h i s p a p e r i s o r g a n i z e d a s f o l l o w s . S e c t i o n 2 r e v i e w s S t r a s s e n ' s a l -

    g o r i t h m . I n S e c t i o n 3 w e d e s c r i b e o u r i m p l e m e n t a t i o n a n d a d d r e s s i m p l e m e n t a t i o n i s s u e s

    r e l a t e d t o c u t o , o d d d i m e n s i o n s , a n d m e m o r y u s a g e . P e r f o r m a n c e o f o u r i m p l e m e n t a t i o n i s

    e x a m i n e d i n S e c t i o n 4 , w h e r e w e a l s o r e p o r t o n u s i n g o u r S t r a s s e n c o d e f o r t h e m a t r i x m u l -

    t i p l i c a t i o n s i n a n e i g e n s o l v e r a p p l i c a t i o n . W e o e r a s u m m a r y a n d c o n c l u s i o n s i n S e c t i o n 5 .

    2

  • 8/6/2019 Strassen Algorithm

    5/27

    2 S t r a s s e n ' s A l g o r i t h m

    H e r e w e r e v i e w S t r a s s e n ' s a l g o r i t h m a n d s o m e o f i t s k e y a l g o r i t h m i c i s s u e s w i t h i n t h e f r a m e -

    w o r k o f a n o p e r a t i o n c o u n t m o d e l . T h e i n t e r e s t e d r e a d e r i s r e f e r r e d t o 1 4 ] f o r m o r e d e t a i l s

    o n t h i s a n d o t h e r m o d e l s , s o m e o f w h i c h a l s o t a k e i n t o a c c o u n t m e m o r y a c c e s s p a t t e r n s ,

    p o s s i b l e d a t a r e u s e , a n d d i e r e n c e s i n s p e e d b e t w e e n d i e r e n t a r i t h m e t i c o p e r a t i o n s . I n t h i s

    p a p e r t h e s i m p l e r o p e r a t i o n c o u n t m o d e l w i l l m e e t o u r n e e d s f o r d i s c u s s i o n o f t h e v a r i o u s

    i s s u e s t h a t h a d a n e e c t o n o u r c o d e d e s i g n .

    T h e s t a n d a r d a l g o r i t h m f o r m u l t i p l y i n g t w o m m m a t r i c e s r e q u i r e s m

    3

    s c a l a r m u l t i p l i -

    c a t i o n s a n d m

    3

    ; m

    2

    s c a l a r a d d i t i o n s , f o r a t o t a l a r i t h m e t i c o p e r a t i o n c o u n t o f 2 m

    3

    ; m

    2

    . I n

    S t r a s s e n ' s n o w f a m o u s 1 9 6 9 p a p e r 1 9 ] , h e i n t r o d u c e d a n a l g o r i t h m , s t a t e d t h e r e f o r s q u a r e

    m a t r i c e s , w h i c h i s b a s e d o n a c l e v e r w a y o f m u l t i p l y i n g 2 2 m a t r i c e s u s i n g 7 m u l t i p l i c a t i o n s

    a n d 1 8 a d d i t i o n s / s u b t r a c t i o n s . H i s c o n s t r u c t i o n d o e s n o t d e p e n d o n t h e c o m m u t a t i v i t y o f

    t h e c o m p o n e n t m u l t i p l i c a t i o n s a n d h e n c e c a n b e a p p l i e d t o b l o c k m a t r i c e s a n d t h e n u s e d

    r e c u r s i v e l y .

    I f o n e l e v e l o f S t r a s s e n ' s a l g o r i t h m i s a p p l i e d t o 2 2 m a t r i c e s w h o s e e l e m e n t s a r e m = 2

    m = 2 b l o c k s a n d t h e s t a n d a r d a l g o r i t h m i s u s e d f o r t h e s e v e n b l o c k m a t r i x m u l t i p l i c a t i o n s ,

    t h e t o t a l o p e r a t i o n c o u n t i s 7 ( 2 ( m = 2 )

    3

    ; ( m = 2 )

    2

    ) + 1 8 ( m = 2 )

    2

    = ( 7 = 4 ) m

    3

    + ( 1 1 = 4 ) m

    2

    . T h e

    r a t i o o f t h i s o p e r a t i o n c o u n t t o t h a t r e q u i r e d b y t h e s t a n d a r d a l g o r i t h m a l o n e i s s e e n t o b e

    7 m

    3

    + 1 1 m

    2

    8 m

    3

    ; 4 m

    2

    ( 1 )

    w h i c h a p p r o a c h e s 7 / 8 a s m g e t s l a r g e , i m p l y i n g t h a t f o r s u c i e n t l y l a r g e m a t r i c e s o n e l e v e l o f

    S t r a s s e n ' s c o n s t r u c t i o n p r o d u c e s a 1 2 . 5 % i m p r o v e m e n t o v e r r e g u l a r m a t r i x m u l t i p l i c a t i o n .

    A p p l y i n g S t r a s s e n ' s c o n s t r u c t i o n r e c u r s i v e l y l e a d s t o t h e c o m p l e x i t y r e s u l t s t a t e d i n t h e

    i n t r o d u c t i o n 6 ] . W e r e m a r k t h a t t h e a s y m p t o t i c c o m p l e x i t y d o e s n o t d e p e n d o n t h e n u m b e r

    o f a d d i t i o n s / s u b t r a c t i o n s h o w e v e r , r e d u c i n g t h e n u m b e r o f a d d i t i o n s / s u b t r a c t i o n s c a n h a v e

    p r a c t i c a l s i g n i c a n c e .

    W i n o g r a d ' s v a r i a n t o f S t r a s s e n ' s a l g o r i t h m ( c r e d i t e d t o M . P a t e r s o n ) u s e s 7 m u l t i p l i c a -

    t i o n s a n d 1 5 a d d i t i o n s / s u b t r a c t i o n s 1 0 ] . T h e a l g o r i t h m p a r t i t i o n s i n p u t m a t r i c e s A a n d B

    i n t o 2 2 b l o c k s a n d c o m p u t e s C = A B a s

    C

    1 1

    C

    1 2

    C

    2 1

    C

    2 2

    !

    =

    A

    1 1

    A

    1 2

    A

    2 1

    A

    2 2

    !

    B

    1 1

    B

    1 2

    B

    2 1

    B

    2 2

    !

    :

    S t a g e s ( 1 ) a n d ( 2 ) o f t h e a l g o r i t h m c o m p u t e

    S

    1

    = A

    2 1

    + A

    2 2

    T

    1

    = B

    1 2

    ; B

    1 1

    S

    2

    = S

    1

    ; A

    1 1

    T

    2

    = B

    2 2

    ; T

    1

    S

    3

    = A

    1 1

    ; A

    2 1

    T

    3

    = B

    2 2

    ; B

    1 2

    S

    4

    = A

    1 2

    ; S

    2

    T

    4

    = B

    2 1

    ; T

    2

    3

  • 8/6/2019 Strassen Algorithm

    6/27

    a n d s t a g e s ( 3 ) a n d ( 4 ) c o m p u t e , r e s p e c t i v e l y , t h e s e v e n p r o d u c t s a n d s e v e n s u m s

    P

    1

    = A

    1 1

    B

    1 1

    P

    5

    = S

    3

    T

    3

    U

    1

    = P

    1

    + P

    2

    U

    5

    = U

    3

    + P

    3

    P

    2

    = A

    1 2

    B

    2 1

    P

    6

    = S

    4

    B

    2 2

    U

    2

    = P

    1

    + P

    4

    U

    6

    = U

    2

    + P

    3

    P

    3

    = S

    1

    T

    1

    P

    7

    = A

    2 2

    T

    4

    U

    3

    = U

    2

    + P

    5

    U

    7

    = U

    6

    + P

    6

    :

    P

    4

    = S

    2

    T

    2

    U

    4

    = U

    3

    + P

    7

    I t i s e a s y t o v e r i f y t h a t C

    1 1

    = U

    1

    , C

    1 2

    = U

    7

    , C

    2 1

    = U

    4

    , a n d C

    2 2

    = U

    5

    . F u r t h e r r e d u c t i o n

    i n t h e n u m b e r o f m u l t i p l i c a t i o n s a n d a d d i t i o n s / s u b t r a c t i o n s o f a n y S t r a s s e n - l i k e a l g o r i t h m

    b a s e d o n 2 2 m a t r i c e s i s n o t p o s s i b l e 1 3 , 1 8 ] . I n t h e r e m a i n d e r o f t h i s p a p e r , u n l e s s

    o t h e r w i s e s p e c i e d , w e w i l l m e a n t h e W i n o g r a d v a r i a n t d e s c r i b e d a b o v e w h e n r e f e r r i n g t o

    S t r a s s e n ' s a l g o r i t h m .

    T o a p p l y S t r a s s e n ' s a l g o r i t h m t o a r b i t r a r y m a t r i c e s , r s t n o t e t h a t o n e l e v e l o f r e c u r s i o n

    c a n e a s i l y b e a p p l i e d t o r e c t a n g u l a r m a t r i c e s , p r o v i d e d t h a t a l l o f t h e m a t r i x d i m e n s i o n s a r e

    e v e n . N e x t , o b s e r v e t h a t w e d o n o t h a v e t o c a r r y t h e r e c u r s i o n s a l l t h e w a y t o t h e s c a l a r

    l e v e l a s n o t e d i n t h e i n t r o d u c t i o n , o n e k e y e l e m e n t f o r o b t a i n i n g a n e c i e n t i m p l e m e n t a t i o n

    o f S t r a s s e n ' s a l g o r i t h m i s t o i n f a c t s t o p t h e r e c u r s i o n s e a r l y , s w i t c h i n g t o t h e s t a n d a r d

    a l g o r i t h m w h e n S t r a s s e n ' s c o n s t r u c t i o n n o l o n g e r l e a d s t o a n i m p r o v e m e n t . T h e t e s t u s e d t o

    d e t e r m i n e w h e t h e r o r n o t t o a p p l y a n o t h e r l e v e l o f r e c u r s i o n i s c a l l e d t h e c u t o c r i t e r i o n .

    L e t G ( m n ) b e t h e c o s t o f a d d i n g o r s u b t r a c t i n g t w o m n m a t r i c e s a n d l e t M ( m k n )

    b e t h e c o s t o f m u l t i p l y i n g a n m k m a t r i x b y a k n m a t r i x u s i n g t h e s t a n d a r d m a t r i x

    m u l t i p l i c a t i o n a l g o r i t h m . T h e n , a s s u m i n g m , k , a n d n a r e e v e n , t h e c o s t o f S t r a s s e n ' s

    a l g o r i t h m , W ( m k n ) , t o m u l t i p l y a n m k m a t r i x A b y a k n m a t r i x B s a t i s e s t h e

    f o l l o w i n g r e c u r r e n c e r e l a t i o n

    W ( m k n ) =

    (

    M ( m k n ) w h e n ( m k n ) s a t i s e s t h e c u t o c r i t e r i o n

    7 W

    m

    2

    k

    2

    n

    2

    + 4 G

    m

    2

    k

    2

    + 4 G

    k

    2

    n

    2

    + 7 G

    m

    2

    n

    2

    o t h e r w i s e :

    ( 2 )

    T h r o u g h o u t t h e r e m a i n d e r o f t h i s s e c t i o n w e w i l l m o d e l c o s t s b y o p e r a t i o n c o u n t s , i m p l y i n g

    t h a t M ( m k n ) = 2 m k n ; m n a n d G ( m n ) = m n .

    I f A a n d B a r e o f s i z e 2

    d

    m

    0

    2

    d

    k

    0

    a n d 2

    d

    k

    0

    2

    d

    n

    0

    , r e s p e c t i v e l y , t h e n S t r a s s e n ' s a l g o r i t h m

    c a n b e u s e d r e c u r s i v e l y d t i m e s . I f w e c h o o s e t o s t o p r e c u r s i o n a f t e r t h e s e d a p p l i c a t i o n s o f

    S t r a s s e n ' s a l g o r i t h m , s o t h a t t h e s t a n d a r d a l g o r i t h m i s u s e d t o m u l t i p l y t h e r e s u l t i n g m

    0

    k

    0

    a n d k

    0

    n

    0

    m a t r i c e s , t h e n

    W ( 2

    d

    m

    0

    2

    d

    k

    0

    2

    d

    n

    0

    ) = 7

    d

    ( 2 m

    0

    k

    0

    n

    0

    ; m

    0

    n

    0

    ) + ( 3 )

    ( 7

    d

    ; 4

    d

    ) ( 4 m

    0

    k

    0

    + 4 k

    0

    n

    0

    + 7 m

    0

    n

    0

    ) = 3 :

    F o r t h e s q u a r e m a t r i x c a s e ( m

    0

    = k

    0

    = n

    0

    ) , ( 3 ) s i m p l i e s t o

    W ( 2

    d

    m

    0

    ) W ( 2

    d

    m

    0

    2

    d

    m

    0

    2

    d

    m

    0

    ) = 7

    d

    ( 2 ( m

    0

    )

    3

    ; ( m

    0

    )

    2

    ) + 5 ( m

    0

    )

    2

    ( 7

    d

    ; 4

    d

    ) : ( 4 )

    4

  • 8/6/2019 Strassen Algorithm

    7/27

    I f S t r a s s e n ' s o r i g i n a l v e r s i o n o f t h e a l g o r i t h m h a d b e e n u s e d i n t h e a b o v e d e v e l o p m e n t , ( 4 )

    w o u l d b e c o m e

    S ( 2

    d

    m

    0

    ) = 7

    d

    ( 2 ( m

    0

    )

    3

    ; ( m

    0

    )

    2

    ) + 6 ( m

    0

    )

    2

    ( 7

    d

    ; 4

    d

    ) : ( 5 )

    I n o r d e r t o e s t a b l i s h t h e p r o p e r c u t o p o i n t f o r b o t h t h e s q u a r e a n d r e c t a n g u l a r c a s e ,

    w e n e e d t o c h a r a c t e r i z e t h e s e t o f p o s i t i v e ( m k n ) s u c h t h a t u s i n g t h e s t a n d a r d a l g o r i t h m

    a l o n e i s l e s s c o s t l y t h a n a p p l y i n g o n e l e v e l o f S t r a s s e n ' s r e c u r s i o n f o l l o w e d b y t h e s t a n d a r d

    m e t h o d . T h i s i s e q u i v a l e n t t o n d i n g t h e s o l u t i o n s t o t h e i n e q u a l i t y

    M ( m k n ) 7 M

    m

    2

    k

    2

    n

    2

    !

    + 4 G

    m

    2

    k

    2

    !

    + 4 G

    k

    2

    n

    2

    !

    + 7 G

    m

    2

    n

    2

    : ( 6 )

    U s i n g o p e r a t i o n c o u n t s t h i s b e c o m e s

    m k n 4 ( m k + k n + m n ) ( 7 )

    w h i c h i s e q u i v a l e n t t o

    1 4 ( 1 = n + 1 = m + 1 = k ) : ( 8 )

    I t i s e a s y t o c o m p l e t e l y c h a r a c t e r i z e t h e p o s i t i v e i n t e g e r s o l u t i o n s t o ( 7 ) a n d ( 8 ) . I n t h e

    s q u a r e ( m = k = n ) c a s e w e o b t a i n m 1 2 . T h u s , w e s h o u l d s w i t c h t o r e g u l a r m a t r i x

    m u l t i p l i c a t i o n w h e n e v e r t h e r e m a i n i n g m a t r i x m u l t i p l i c a t i o n s i n v o l v e m a t r i c e s w h o s e o r d e r

    i s 1 2 o r l e s s .

    U t i l i z i n g e q u a t i o n s ( 4 ) a n d ( 5 ) w e c a n n o w b e g i n t o s e e t h e i m p r o v e m e n t p o s s i b l e u s i n g

    c u t o s a n d u s i n g W i n o g r a d ' s v a r i a n t i n s t e a d o f S t r a s s e n ' s o r i g i n a l a l g o r i t h m . F i r s t , o b s e r v e

    t h a t ( 4 ) i s a n i m p r o v e m e n t o v e r ( 5 ) f o r a l l r e c u r s i o n d e p t h s d a n d a l l m

    0

    , s i n c e t h e i r d i e r e n c e

    i s ( m

    0

    )

    2

    ( 7

    d

    ; 4

    d

    ) . T h e l i m i t a s d g o e s t o i n n i t y o f t h e r a t i o o f e q u a t i o n ( 5 ) t o e q u a t i o n ( 4 )

    i s ( 5 + 2 m

    0

    ) = ( 4 + 2 m

    0

    ) . T h u s , f o r l a r g e s q u a r e m a t r i c e s , i m p r o v e m e n t o f ( 4 ) o v e r ( 5 ) i s 1 4 . 3 %

    w h e n f u l l r e c u r s i o n i s u s e d ( m

    0

    = 1 ) , a n d b e t w e e n 5 . 2 6 % a n d 3 . 4 5 % a s m

    0

    r a n g e s b e t w e e n

    7 a n d 1 2 . T h e s e a r e t h e v a l u e s o f m

    0

    t h a t w o u l d o c c u r w h e n t h e o p t i m a l c u t o v a l u e o f 1 2

    f o r s q u a r e m a t r i c e s i s e m p l o y e d . T o s e e h o w v a l u a b l e t h e u s e o f c u t o s c a n b e , w e c a n a l s o

    c o m p u t e , u s i n g e q u a t i o n ( 4 ) , t h e r a t i o o f t h e o p e r a t i o n c o u n t s f o r W i n o g r a d ' s v a r i a n t o n

    s q u a r e m a t r i c e s w i t h o u t c u t o t o t h a t w i t h c u t o 1 2 . F o r m a t r i c e s o f o r d e r 2 5 6 t h i s m e a n s

    w e c o m p u t e t h e r a t i o ( 4 ) w i t h d = 8 m

    0

    = 1 t o ( 4 ) w i t h d = 5 m

    0

    = 8 , o b t a i n i n g a 3 8 . 2 %

    i m p r o v e m e n t u s i n g c u t o s .

    R e t u r n i n g t o e s t a b l i s h i n g t h e c u t o c r i t e r i a , t h e s i t u a t i o n i s m o r e c o m p l i c a t e d f o r r e c t -

    a n g u l a r m a t r i c e s . F o r m o r e d e t a i l s s e e 1 4 ] h e r e w e i l l u s t r a t e w i t h a n e x a m p l e . I f m =

    6 k = 1 4 n = 8 6 , ( 7 ) i s n o t s a t i s e d t h u s r e c u r s i o n s h o u l d b e u s e d w h e n m u l t i p l y i n g 6 1 4

    a n d 1 4 8 6 m a t r i c e s . T h i s s h o w s t h a t t h e r e a r e s i t u a t i o n s w h e r e i t i s b e n e c i a l t o a p p l y

    S t r a s s e n ' s a l g o r i t h m e v e n t h o u g h o n e o f t h e m a t r i x d i m e n s i o n s i s s m a l l e r t h a n t h e o p t i m a l

    5

  • 8/6/2019 Strassen Algorithm

    8/27

    c u t o o f 1 2 f o r s q u a r e m a t r i c e s . T h e r e f o r e , a t l e a s t t h e o r e t i c a l l y , w h e n c o n s i d e r i n g r e c t -

    a n g u l a r m a t r i c e s , t h e c u t o c r i t e r i o n ( 7 ) s h o u l d b e u s e d i n s t e a d o f t h e s i m p l e r c o n d i t i o n ,

    m 1 2 o r k 1 2 o r n 1 2 , w h i c h h a s b e e n u s e d b y o t h e r s 3 , 8 ] . A l t e r n a t i v e l y , i n s t e a d

    o f u s i n g t h e o p e r a t i o n c o u n t m o d e l t o p r e d i c t t h e p r o p e r c u t o c o n d i t i o n , o n e c a n e m p i r i -

    c a l l y d e t e r m i n e t h e a p p r o p r i a t e c u t o i n a m a n n e r v e r y s i m i l a r t o t h e t h e o r e t i c a l a n a l y s i s .

    T h i s w i l l r e q u i r e a m o r e c o m p l i c a t e d s e t o f e x p e r i m e n t s f o r r e c t a n g u l a r m a t r i c e s t h a n f o r

    s q u a r e . A d i s c u s s i o n o f e m p i r i c a l r e s u l t s o f t h i s t y p e c a n b e f o u n d i n S e c t i o n 3 . 4 t h e a c t u a l

    m e a s u r e m e n t s w i l l b e d o n e i n S e c t i o n 4 . 2 .

    F i n a l l y , f o r m a t r i c e s w i t h o d d d i m e n s i o n s , s o m e t e c h n i q u e m u s t b e a p p l i e d t o m a k e

    t h e d i m e n s i o n s e v e n , a p p l y S t r a s s e n ' s a l g o r i t h m t o t h e a l t e r e d m a t r i x , a n d t h e n c o r r e c t

    t h e r e s u l t s . O r i g i n a l l y , S t r a s s e n s u g g e s t e d p a d d i n g t h e i n p u t m a t r i c e s w i t h e x t r a r o w s a n d

    c o l u m n s o f z e r o s , s o t h a t t h e d i m e n s i o n s o f a l l t h e m a t r i c e s e n c o u n t e r e d d u r i n g t h e r e c u r s i v e

    c a l l s a r e e v e n . A f t e r t h e p r o d u c t h a s b e e n c o m p u t e d , t h e e x t r a r o w s a n d c o l u m n s a r e

    r e m o v e d t o o b t a i n t h e d e s i r e d r e s u l t . W e c a l l t h i s a p p r o a c h s t a t i c p a d d i n g , s i n c e p a d d i n g

    o c c u r s b e f o r e a n y r e c u r s i v e c a l l s t o S t r a s s e n ' s a l g o r i t h m . A l t e r n a t i v e l y , e a c h t i m e S t r a s s e n ' s

    a l g o r i t h m i s c a l l e d r e c u r s i v e l y , a n e x t r a r o w o f z e r o s c a n b e a d d e d t o e a c h i n p u t w i t h a n

    o d d r o w - d i m e n s i o n a n d a n e x t r a c o l u m n o f z e r o s c a n b e a d d e d f o r e a c h i n p u t w i t h a n o d d

    c o l u m n - d i m e n s i o n . T h i s a p p r o a c h t o p a d d i n g i s c a l l e d d y n a m i c p a d d i n g s i n c e p a d d i n g

    o c c u r s t h r o u g h o u t t h e e x e c u t i o n o f S t r a s s e n ' s a l g o r i t h m . A v e r s i o n o f d y n a m i c p a d d i n g i s

    u s e d i n 8 ] .

    A n o t h e r a p p r o a c h , c a l l e d d y n a m i c p e e l i n g , d e a l s w i t h o d d d i m e n s i o n s b y s t r i p p i n g o

    t h e e x t r a r o w a n d / o r c o l u m n a s n e e d e d , a n d a d d i n g t h e i r c o n t r i b u t i o n s t o t h e n a l r e s u l t i n

    a l a t e r r o u n d o f x u p w o r k . M o r e s p e c i c a l l y , l e t A b e a n m k m a t r i x a n d B b e a k n

    m a t r i x . A s s u m i n g t h a t m , k , a n d n a r e a l l o d d , A a n d B a r e p a r t i t i o n e d i n t o t h e b l o c k

    m a t r i c e s

    A =

    0

    B

    B

    B

    @

    A

    1 1

    a

    1 2

    a

    2 1

    a

    2 2

    1

    C

    C

    C

    A

    a n d B =

    0

    B

    B

    B

    @

    B

    1 1

    b

    1 2

    b

    2 1

    b

    2 2

    1

    C

    C

    C

    A

    w h e r e A

    1 1

    i s a n ( m ; 1 ) ( k ; 1 ) m a t r i x , a

    1 2

    i s a ( m ; 1 ) 1 m a t r i x , a

    2 1

    i s a 1 ( k ; 1 )

    m a t r i x , a

    2 2

    i s a 1 1 m a t r i x a n d B

    1 1

    i s a n ( k ; 1 ) ( n ; 1 ) m a t r i x , b

    1 2

    i s a ( k ; 1 ) 1

    m a t r i x , b

    2 1

    i s a 1 ( n ; 1 ) m a t r i x , b

    2 2

    i s a 1 1 m a t r i x . T h e p r o d u c t C = A B i s c o m p u t e d

    a s

    0

    B

    B

    B

    @

    C

    1 1

    c

    1 2

    c

    2 1

    c

    2 2

    1

    C

    C

    C

    A

    =

    0

    B

    B

    B

    @

    A

    1 1

    B

    1 1

    + a

    1 2

    b

    2 1

    A

    1 1

    b

    1 2

    + a

    1 2

    b

    2 2

    a

    2 1

    B

    1 1

    + a

    2 2

    b

    2 1

    a

    2 1

    b

    1 2

    + a

    2 2

    b

    2 2

    1

    C

    C

    C

    A

    ( 9 )

    w h e r e A

    1 1

    B

    1 1

    i s c o m p u t e d u s i n g S t r a s s e n ' s a l g o r i t h m , a n d t h e o t h e r c o m p u t a t i o n s c o n s t i t u t e

    6

  • 8/6/2019 Strassen Algorithm

    9/27

    t h e x u p w o r k . T o o u r k n o w l e d g e , t h e d y n a m i c p e e l i n g m e t h o d h a d n o t b e e n p r e v i o u s l y

    t e s t e d t h r o u g h a c t u a l i m p l e m e n t a t i o n , a n d i n f a c t i t s u s e f u l n e s s h a d b e e n q u e s t i o n e d 8 ] .

    H o w e v e r , o u r o p e r a t i o n c o u n t a n a l y s i s i n 1 4 ] s h o w e d i t t o b e s u p e r i o r t o d y n a m i c p a d d i n g .

    T h i s i n d i c a t e d t h a t i t c o u l d b e c o m p e t i t i v e i n p r a c t i c e w i t h o t h e r a p p r o a c h e s , a n d t h a t

    f u r t h e r s t u d y w a s n e e d e d . T h u s , w e c h o s e t o u s e t h i s t e c h n i q u e i n o u r i m p l e m e n t a t i o n o f

    S t r a s s e n ' s a l g o r i t h m . I n S e c t i o n 3 . 3 w e w i l l d i s c u s s h o w w e a c t u a l l y c o d e d t h e s e c o m p u t a -

    t i o n s .

    7

  • 8/6/2019 Strassen Algorithm

    10/27

    3 I m p l e m e n t a t i o n I s s u e s

    I n t h i s s e c t i o n w e d i s c u s s D G E F M M , o u r i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m . S e c t i o n 3 . 1

    d e s c r i b e s t h e i n t e r f a c e t o D G E F M M , a n d S e c t i o n 3 . 2 s h o w s h o w t h e e q u a t i o n s i n t h e f o u r

    s t a g e s o f S t r a s s e n ' s a l g o r i t h m a r e i m p l e m e n t e d . T h e l a t t e r s e c t i o n a l s o d i s c u s s e s t h e a m o u n t

    o f m e m o r y n e e d e d f o r t e m p o r a r y s t o r a g e . S e c t i o n 3 . 3 d i s c u s s e s o u r t r e a t m e n t o f o d d m a t r i x

    d i m e n s i o n s . F i n a l l y , i n S e c t i o n 3 . 4 , a m e t h o d f o r d e t e r m i n i n g t h e a p p r o p r i a t e c u t o c r i t e r i o n

    f o r a p a r t i c u l a r m a c h i n e i s p r e s e n t e d .

    3 . 1 I n t e r f a c e

    S i n c e o u r i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m i s i n t e n d e d t o b e u s e d i n p l a c e o f t h e L e v e l 3

    B L A S m a t r i x m u l t i p l i c a t i o n r o u t i n e D G E M M , w e a d o p t t h e i n p u t a n d o u t p u t s p e c i c a t i o n s

    o f D G E M M . D G E M M c o m p u t e s C o p ( A ) o p ( B ) + C w h e r e a n d a r e s c a l a r s ,

    o p ( A ) i s a n m k m a t r i x , o p ( B ) i s a n k n m a t r i x , C i s a n m n m a t r i x , a n d o p ( X ) c a n

    e i t h e r b e X o r X

    T

    ( t r a n s p o s e o f X ) .

    A l l c o d e w a s w r i t t e n i n C u t i l i z i n g t h e B L A S , e x c e p t f o r s o m e k e r n e l o p e r a t i o n s o n s o m e

    m a c h i n e s w h e r e w e f o u n d t h e F O R T R A N i m p l e m e n t a t i o n t o b e s u p e r i o r . M a t r i c e s a r e s t o r e d

    i n c o l u m n - m a j o r o r d e r , a s i n F O R T R A N , t o f a c i l i t a t e t h e i n t e r f a c e w i t h t h e B L A S .

    3 . 2 T e m p o r a r y A l l o c a t i o n a n d M e m o r y U s a g e

    I n t e r m e d i a t e r e s u l t s r e q u i r e d b y S t r a s s e n ' s a l g o r i t h m n e e d t o b e s t o r e d i n t e m p o r a r y l o c a -

    t i o n s . S t r a s s e n ' s a l g o r i t h m a s s t a t e d i n S e c t i o n 2 u s e s f o u r t e m p o r a r y v a r i a b l e s i n s t a g e ( 1 ) ,

    f o u r t e m p o r a r y v a r i a b l e s i n s t a g e ( 2 ) , s e v e n t e m p o r a r y v a r i a b l e s i n s t a g e ( 3 ) , a n d s e v e n t e m -

    p o r a r y v a r i a b l e s i n s t a g e ( 4 ) . T h e t e m p o r a r y v a r i a b l e s i n s t a g e ( 1 ) h o l d m = 2 k = 2 m a t r i c e s ,

    t h o s e i n s t a g e ( 2 ) h o l d k = 2 n = 2 m a t r i c e s , a n d t h o s e i n s t a g e s ( 3 ) a n d ( 4 ) h o l d m = 2 n = 2

    m a t r i c e s . A s t r a i g h t f o r w a r d i m p l e m e n t a t i o n o f o n e l e v e l o f r e c u r s i o n o f S t r a s s e n ' s a l g o -

    r i t h m t h u s r e q u i r e s m k + k n + ( 1 4 = 4 ) m n t e m p o r a r y m e m o r y s p a c e i n a d d i t i o n t o t h e i n p u t

    a n d o u t p u t v a r i a b l e s . I f a l l r e c u r s i v e c a l l s i n S t r a s s e n ' s a l g o r i t h m u s e t h i s s a m e a p p r o a c h ,

    t h e n t h e t o t a l a m o u n t o f e x t r a s t o r a g e i s b o u n d e d b y ( 4 m k + 4 k n + 1 4 m n )

    P

    1

    i = 1

    1 = 4

    i

    =

    ( 4 m k + 4 k n + 1 4 m n ) = 3 :

    C l e a r l y t h i s c a n b e g r e a t l y r e d u c e d i f t e m p o r a r y m e m o r y s p a c e i s e e c t i v e l y r e u s e d .

    U s i n g S t r a s s e n ' s o r i g i n a l a l g o r i t h m , B a i l e y , e t a l . 3 ] d e v i s e d a s t r a i g h t f o r w a r d s c h e m e t h a t

    r e d u c e s t h e t o t a l m e m o r y r e q u i r e m e n t s t o ( m k + k n + m n ) = 3 : S i n c e W i n o g r a d ' s v a r i a n t n e s t s

    t h e a d d i t i o n s / s u b t r a c t i o n s i n s t a g e ( 4 ) i t i s n o t c l e a r t h a t a s i m i l a r r e d u c t i o n i s p o s s i b l e .

    B e l o w w e d i s c u s s t w o c o m p u t a t i o n s c h e m e s , b o t h o f w h i c h a r e u s e d i n o u r i m p l e m e n t a t i o n .

    T h e r s t w i l l d e m o n s t r a t e t h a t a n e v e n l o w e r m e m o r y r e q u i r e m e n t i s a t t a i n a b l e f o r t h e

    c a s e w h e r e t h e i n p u t p a r a m e t e r = 0 . T h i s s c h e m e i s s i m i l a r t o t h e o n e u s e d i n t h e

    8

  • 8/6/2019 Strassen Algorithm

    11/27

    i m p l e m e n t a t i o n o f W i n o g r a d ' s v a r i a n t , D G E M M W , r e p o r t e d i n D o u g l a s , e t a l . , 8 ] , w h e r e

    a d d i t i o n a l s t o r a g e r e q u i r e m e n t s w h e n = 0 a r e s l i g h t l y m o r e t h a n ( m m a x ( k n ) + k n ) = 3 .

    O u r t e c h n i q u e r e q u i r e s ( m m a x ( k n ) + k n ) = 3 i n t h i s c a s e . F o r t h e g e n e r a l c a s e , i . e . , 6= 0 ,

    t h e t e m p o r a r y s t o r a g e r e q u i r e m e n t i n t h e D o u g l a s , e t a l . , i m p l e m e n t a t i o n i s a p p r o x i m a t e l y

    m n + ( m k + k n ) = 3 . U s i n g o u r s e c o n d c o m p u t a t i o n s c h e m e a l l o w s u s t o r e d u c e t h i s t o t h e

    l o w e r a m o u n t a t t a i n e d f o r t h e s i m p l e r c a s e b y B a i l e y , e t a l . , n a m e l y ( m k + k n + m n ) = 3 . W e

    w i l l s e e l a t e r t h a t t h e k e y t o o b t a i n i n g t h i s m e m o r y r e d u c t i o n i s t h e r e c u r s i v e u s e o f t h e

    m u l t i p l y - a c c u m u l a t e o p e r a t i o n t h a t D G E F M M s u p p o r t s .

    O u r r s t s c h e m e f o r p e r f o r m i n g S t r a s s e n ' s a l g o r i t h m , S T R A S S E N 1 , i s a s t r a i g h t f o r w a r d

    s c h e d u l e f o r p e r f o r m i n g t h e c o m p u t a t i o n s a s d e s c r i b e d i n S e c t i o n 2 , a n d i s s i m i l a r t o t h a t

    u s e d i n 8 ] . S e e 1 4 ] f o r a d e t a i l e d d e s c r i p t i o n . I n t h e g e n e r a l c a s e , w e r e q u i r e s p a c e f o r

    s i x t e m p o r a r y v a r i a b l e s , R

    1

    t h r o u g h R

    6

    , w i t h t o t a l s i z e m m a x ( k n ) = 4 + m n + k n = 4 : I f t h e

    s e v e n p r o d u c t s a r e c o m p u t e d r e c u r s i v e l y u s i n g t h e s a m e a l g o r i t h m , t h e n t h e t o t a l a d d i t i o n a l

    m e m o r y i s b o u n d e d b y ( 4 m n + m m a x ( k n ) + k n ) = 3 . N o t e t h a t i f m = k = n , t h e n t h e

    r e q u i r e d s p a c e i s 2 m

    2

    . A l s o w h e n = 0 , t h e c o m p u t a t i o n o r d e r , d e s i g n e d i n f a c t t o t h i s

    p u r p o s e , a l l o w s u s e o f t h e m e m o r y s p a c e a l l o c a t e d f o r m a t r i x C t o h o l d t h e t e m p o r a r y

    v a r i a b l e s R

    3

    R

    4

    R

    5

    , a n d R

    6

    . T h u s , o n l y t w o t e m p o r a r y v a r i a b l e s a r e r e q u i r e d , a n d t h e

    b o u n d f o r e x t r a s p a c e i s r e d u c e d t o ( m m a x ( k n ) + k n ) = 3 : F o r t h e s q u a r e c a s e ( m = k = n ) ,

    t h i s b e c o m e s 2 m

    2

    = 3 .

    O u r a l t e r n a t e c o m p u t a t i o n s c h e m e , S T R A S S E N 2 , i s p r e s e n t e d i n F i g u r e 1 . W i t h e a c h

    c o m p u t a t i o n s t e p i n d i c a t e d , w e s h o w t h e t e m p o r a r y v a r i a b l e s t o r e d t o , a s w e l l a s t h e r e -

    l a t i o n s h i p t o t h e v a r i a b l e s u s e d i n t h e d e s c r i p t i o n o f t h e a l g o r i t h m i n S e c t i o n 2 . A l t h o u g h

    S T R A S S E N 2 p e r f o r m s s o m e a d d i t i o n a l a r i t h m e t i c , m u l t i p l i c a t i o n b y a n d , a n d s o m e

    a c c u m u l a t i o n o p e r a t i o n s , o u r a n a l y s i s 1 4 ] a n d e m p i r i c a l r e s u l t s ( S e c t i o n 4 ) s u g g e s t t h a t n o

    t i m e p e n a l t y i s p a i d f o r t h e s e a d d i t i o n a l o p e r a t i o n s . B y a l l o w i n g t h e m u l t i p l y - a c c u m u l a t e

    o p e r a t i o n , s u c h a s C

    1 1

    C

    1 1

    + A

    1 2

    B

    2 1

    , w e c a n r e a r r a n g e t h e c o m p u t a t i o n s i n S t r a s s e n ' s

    a l g o r i t h m s o a s t o e s s e n t i a l l y u s e C ' s m e m o r y s p a c e f o r i n t e r m e d i a t e r e s u l t s e v e n w h e n 6= 0 .

    W e c a n t h u s c o m p l e t e t h e c o m p u t a t i o n s u s i n g o n l y t h r e e t e m p o r a r i e s , R

    1

    , R

    2

    , a n d R

    3

    , t h e

    m i n i m u m n u m b e r p o s s i b l e 1 4 ] . N o t i c e t h a t R

    1

    o n l y h o l d s s u b b l o c k s o f A , R

    2

    o n l y h o l d s

    s u b b l o c k s o f B , a n d R

    3

    o n l y h o l d s s u b b l o c k s o f C , s o t h a t t h e i r s i z e s a r e m k = 4 , n k = 4 , a n d

    m n = 4 , r e s p e c t i v e l y . T h e t o t a l m e m o r y r e q u i r e m e n t f o r S T R A S S E N 2 i s t h u s b o u n d e d b y

    ( m n + k m + k n ) = 3 . W h e n m = k = n , t h i s g i v e s m

    2

    .

    I n T a b l e 1 w e s h o w t h e m e m o r y r e q u i r e m e n t s f o r m u l t i p l y i n g o r d e r m m a t r i c e s f o r v a r i o u s

    i m p l e m e n t a t i o n s o f W i n o g r a d ' s S t r a s s e n v a r i a n t . W e c a n a l s o s e e f r o m T a b l e 1 t h a t t h e

    b e s t u s e o f o u r t w o c o m p u t a t i o n s c h e m e s m i g h t b e t o u s e S T R A S S E N 1 w h e n = 0 , a n d

    S T R A S S E N 2 o t h e r w i s e . T h i s i s r e e c t e d i n t h e n a l e n t r y o f t h e t a b l e , w h e r e w e s e e t h a t

    o u r m e m o r y r e q u i r e m e n t o f 2 m

    2

    = 3 i n t h e c a s e = 0 e q u a l s t h e l o w e s t r e q u i r e m e n t s e e n

    f o r t h e o t h e r i m p l e m e n t a t i o n s ( D G E M M W ) , w h i c h i s a 4 8 t o 7 1 p e r c e n t r e d u c t i o n o v e r t h e

    9

  • 8/6/2019 Strassen Algorithm

    12/27

    S T R A S S E N 2 ( A B C )

    I m p l e m e n t a t i o n o f W i n o g r a d ' s v a r i a n t o f S t r a s s e n ' s m a t r i x m u l t i p l i c a t i o n a l g o r i t h m .

    I n p u t s : A i s a n m k m a t r i x a n d B i s a k n m a t r i x , w h e r e m , k , a n d n a r e e v e n . a n d

    a r e s c a l a r s .

    O u t p u t : C = A B + C i s a n m n m a t r i x .

    T e m p o r a r y V a r i a b l e s : R

    1

    ( s i z e m k = 4 ) , R

    2

    ( s i z e k n = 4 ) , a n d R

    3

    ( s i z e m n = 4 ) .

    S t o r e t o : C o m p u t a t i o n A l g o r i t h m i c V a r i a b l e s

    R

    1

    ( A

    2 1

    + A

    2 2

    ) S

    1

    R

    2

    B

    1 2

    ; B

    1 1

    T

    1

    R

    3

    R

    1

    R

    2

    P

    3

    C

    1 2

    C

    1 2

    + R

    3

    C

    1 2

    + P

    3

    C

    2 2

    C

    2 2

    + R

    3

    C

    2 2

    + P

    3

    R

    1

    R

    1

    ; A

    1 1

    S

    2

    R

    2

    B

    2 2

    ; R

    2

    T

    2

    R

    3

    A

    1 1

    B

    1 1

    P

    1

    C

    1 1

    C

    1 1

    + R

    3

    C

    1 1

    + P

    1

    R

    3

    R

    3

    + R

    1

    R

    2

    U

    2

    C

    1 1

    C

    1 1

    + A

    1 2

    B

    2 1

    C

    1 1

    + P

    2

    R

    1

    A

    1 2

    ; R

    1

    S

    4

    R

    2

    ( B

    2 1

    ; R

    2

    ) T

    4

    C

    1 2

    C

    1 2

    + R

    1

    B

    2 2

    C

    1 2

    + P

    6

    C

    1 2

    C

    1 2

    + R

    3

    C

    1 2

    + U

    2

    C

    2 1

    C

    2 1

    + A

    2 2

    R

    2

    C

    2 1

    + P

    7

    R

    1

    ( A

    1 1

    ; A

    2 1

    ) S

    3

    R

    2

    B

    2 2

    ; B

    1 2

    T

    3

    R

    3

    R

    3

    + R

    1

    R

    2

    U

    3

    C

    2 1

    C

    2 1

    + R

    3

    C

    2 1

    + U

    3

    C

    2 2

    C

    2 2

    + R

    3

    C

    2 2

    + U

    3

    F i g u r e 1 : S T R A S S E N 2

    1 0

  • 8/6/2019 Strassen Algorithm

    13/27

    I m p l e m e n t a t i o n = 0 6= 0

    C R A Y S G E M M S 7 m

    2

    = 3 7 m

    2

    = 3

    I B M E S S L D G E M M S 1 : 4 0 m

    2

    n o t d i r e c t l y s u p p o r t e d

    D G E M M W ( 8 ] ) 2 m

    2

    = 3 5 m

    2

    = 3

    S T R A S S E N 1 2 m

    2

    = 3 2 m

    2

    S T R A S S E N 2 m

    2

    m

    2

    D G E F M M 2 m

    2

    = 3 m

    2

    T a b l e 1 : M e m o r y R e q u i r e m e n t s f o r S t r a s s e n c o d e s o n o r d e r m m a t r i c e s

    o t h e r t w o . I n t h e c a s e 6= 0 , o u r r e q u i r e m e n t o f m

    2

    i s l o w e r t h a n t h e o t h e r s t h a t c a n h a n d l e

    t h i s c a s e , r e p r e s e n t i n g a r e d u c t i o n o f 4 0 a n d 5 7 p e r c e n t , r e s p e c t i v e l y , o v e r t h a t r e q u i r e d b y

    D G E M M W a n d C R A Y S G E M M S .

    3 . 3 O d d - s i z e d M a t r i c e s

    A s w e s a w i n S e c t i o n 2 , o u r i m p l e m e n t a t i o n u s e s d y n a m i c p a d d i n g w h e n o d d d i m e n s i o n s a r e

    e n c o u n t e r e d . T h i s a p p r o a c h h a s b e e n d i s m i s s e d b y o t h e r s 8 ] b e c a u s e o f t h e i n e c i e n c y o f

    s o m e o f t h e r e q u i r e d x u p o p e r a t i o n s . O u r i m p l e m e n t a t i o n p a r t i a l l y d e a l s w i t h t h i s c o n c e r n

    b y c o m b i n i n g t h e r e q u i r e d o p e r a t i o n s i n ( 9 ) a n d c o m p u t i n g t h e m w i t h B L A S r o u t i n e s . A f t e r

    c o m b i n i n g o p e r a t i o n s , t h e r e a r e p o t e n t i a l l y t h r e e x u p s t e p s :

    C

    1 1

    = ( a

    1 2

    b

    2 1

    ) + C

    1 1

    c

    1 2

    =

    A

    1 1

    a

    1 2

    b

    1 2

    b

    2 2

    !

    + c

    1 2

    c

    2 1

    c

    2 2

    =

    a

    2 1

    a

    2 2

    B

    1 1

    b

    1 2

    b

    2 1

    b

    2 2

    !

    +

    c

    2 1

    c

    2 2

    :

    T h e r s t s t e p c a n b e c o m p u t e d w i t h t h e B L A S r o u t i n e D G E R ( r a n k - o n e u p d a t e ) , a n d t h e

    s e c o n d a n d t h i r d s t e p s c a n b e c o m p u t e d b y c a l l i n g t h e B L A S r o u t i n e D G E M V ( m a t r i x - v e c t o r

    p r o d u c t ) .

    F u r t h e r j u s t i c a t i o n f o r o u r d e c i s i o n t o u s e d y n a m i c p a d d i n g c o m e s , a s m e n t i o n e d i n

    S e c t i o n 2 , f r o m o u r t h e o r e t i c a l a n a l y s i s i n 1 4 ] , a s w e l l a s w h a t w e b e l i e v e i s a s i m p l i e d

    c o d e s t r u c t u r e , w h e r e n o s p e c i a l c a s e s a r e e m b e d d e d i n t h e r o u t i n e t h a t a p p l i e s S t r a s s e n ' s

    a l g o r i t h m , a n d n o a d d i t i o n a l m e m o r y i s n e e d e d w h e n o d d d i m e n s i o n s a r e e n c o u n t e r e d .

    1 1

  • 8/6/2019 Strassen Algorithm

    14/27

    3 . 4 S e t t i n g C u t o C r i t e r i a

    I n S e c t i o n 2 w e d e t e r m i n e d t h e o p t i m a l c u t o c r i t e r i o n u s i n g o p e r a t i o n c o u n t a s a c o s t

    f u n c t i o n . I n p r a c t i c e o p e r a t i o n c o u n t i s n o t a n a c c u r a t e e n o u g h p r e d i c t o r o f p e r f o r m a n c e

    t o b e u s e d t o t u n e a c t u a l c o d e . T h e i n t e r e s t e d r e a d e r i s r e f e r r e d t o 1 4 ] f o r a d i s c u s s i o n

    o f t h e l i m i t a t i o n s o f o p e r a t i o n c o u n t a n d d e v e l o p m e n t o f o t h e r p e r f o r m a n c e m o d e l s t h a t

    c a n m o r e a c c u r a t e l y p r e d i c t p e r f o r m a n c e p a r a m e t e r s . I n a d d i t i o n , p e r f o r m a n c e o f o u r c o d e

    v a r i e s f r o m m a c h i n e t o m a c h i n e , s o a n e e c t i v e c u t o c r i t e r i o n m u s t b e a d a p t a b l e . I n t h i s

    s e c t i o n w e d e s c r i b e a p a r a m e t e r i z e d c u t o c r i t e r i o n w h o s e p a r a m e t e r s a r e s e t f r o m e m p i r i c a l

    p e r f o r m a n c e m e a s u r e m e n t s .

    A p a r a m e t e r i z e d c r i t e r i o n f o r s q u a r e m a t r i c e s c a n b e d e t e r m i n e d i n a m a n n e r s i m i l a r

    t o t h e w a y t h e t h e o r e t i c a l c o n d i t i o n i n S e c t i o n 2 w a s o b t a i n e d . T h e t i m e f o r D G E M M i s

    c o m p a r e d t o t h e t i m e r e q u i r e d b y a p p l y i n g S t r a s s e n ' s a l g o r i t h m w i t h o n e l e v e l o f r e c u r s i o n .

    T h e c u t o i s o b t a i n e d f r o m t h e c r o s s o v e r , t h e m a t r i x o r d e r , w h e r e S t r a s s e n ' s a l g o r i t h m

    b e c o m e s f a s t e r t h a n D G E M M . T h i s l e a d s t o t h e c o n d i t i o n

    m ( 1 0 )

    w h e r e i s t h e e m p i r i c a l l y d e t e r m i n e d p a r a m e t e r .

    O b t a i n i n g a g e n e r a l c o n d i t i o n f o r r e c t a n g u l a r m a t r i c e s i s m u c h m o r e d i c u l t s i n c e t h e

    b o u n d a r y b e t w e e n t h e r e g i o n s w h e r e D G E M M i s f a s t e r a n d S t r a s s e n ' s a l g o r i t h m i s f a s t e r i s

    m o s t l i k e l y n o l o n g e r d e s c r i b e d b y a s i m p l e e q u a t i o n a n d w i l l c e r t a i n l y r e q u i r e m a n y m o r e

    c o m p u t e r e x p e r i m e n t s t o d e t e r m i n e . T h i s f o r c e s u s t o c o m p r o m i s e , b o t h i n t h e a m o u n t o f

    e x p e r i m e n t s t h a t a r e p e r f o r m e d a n d t h e m o d e l u s e d t o d e s c r i b e t h e b o u n d a r y , w h e n c h o o s i n g

    t h e c u t o c r i t e r i o n f o r r e c t a n g u l a r m a t r i c e s . A l s o i t i s i m p o r t a n t t h a t t h e s q u a r e c o n d i t i o n

    b e p r e s e r v e d s i n c e i t i s e s s e n t i a l t h a t t h e p e r f o r m a n c e o f D G E F M M o n s q u a r e m a t r i c e s i s

    n o t s a c r i c e d .

    T h e r e a r e t w o n a t u r a l w a y s t o c r e a t e a r e c t a n g u l a r c r i t e r i o n f r o m t h e c o n d i t i o n f o r s q u a r e

    m a t r i c e s :

    m o r k o r n ( 1 1 )

    a n d

    m k n ( n k + m n + m k ) = 3 : ( 1 2 )

    C o n d i t i o n ( 1 1 ) , u s e d i n 8 ] , p r e v e n t s S t r a s s e n ' s a l g o r i t h m f r o m b e i n g a p p l i e d i n c e r t a i n

    s i t u a t i o n s w h e r e i t w o u l d b e b e n e c i a l . O n e s i t u a t i o n w h e r e t h i s c a n o c c u r , a s w a s i l l u s t r a t e d

    i n S e c t i o n 2 , i s w h e n o n e o f t h e m a t r i x d i m e n s i o n s i s b e l o w t h e s q u a r e c u t o a n d o n e o f t h e

    o t h e r d i m e n s i o n s i s l a r g e . C o n d i t i o n ( 1 2 ) , p r o p o s e d b y H i g h a m i n 1 1 ] , s c a l e s t h e t h e o r e t i c a l

    c o n d i t i o n ( 7 ) b y ( 4 = 3 ) , s o t h a t i t r e d u c e s t o t h e s q u a r e c o n d i t i o n ( 1 0 ) w h e n m = k = n .

    T h i s c o n d i t i o n s u e r s f r o m t w o d r a w b a c k s : ( 1 ) i t a s s u m e s t h a t t h e p e r f o r m a n c e o f D G E M M

    f o r g e n e r a l r e c t a n g u l a r m a t r i c e s i s d e t e r m i n e d b y t h e p e r f o r m a n c e o n s q u a r e m a t r i c e s , a n d

    1 2

  • 8/6/2019 Strassen Algorithm

    15/27

    ( 2 ) i t a s s u m e s t h a t t h e p e r f o r m a n c e o f D G E M M i s s y m m e t r i c i n t h e m a t r i x d i m e n s i o n s .

    O u r e m p i r i c a l i n v e s t i g a t i o n s , w h i c h w i l l b e p r e s e n t e d i n S e c t i o n 4 . 2 , i n d i c a t e t h a t t h e s e

    a s s u m p t i o n s a r e n o t g e n e r a l l y v a l i d .

    W e p r o p o s e a m o d e l f o r t h e b o u n d a r y t h a t t a k e s i n t o a c c o u n t b o t h s q u a r e a n d r e c t a n g u l a r

    m a t r i c e s a n d a l l o w s f o r a s y m m e t r y i n t h e p e r f o r m a n c e o f D G E M M . F i r s t , c o n d i t i o n ( 7 )

    i s e x t e n d e d b y i n c l u d i n g t h r e e p a r a m e t e r s t o t a k e i n t o a c c o u n t t h i s a s y m m e t r y . S e c o n d ,

    t h i s e x t e n d e d c o n d i t i o n i s c o m b i n e d w i t h t h e s q u a r e c o n d i t i o n ( 1 1 ) t o p r e s e r v e s q u a r e - c a s e

    b e h a v i o r . T h e p a r a m e t e r i z e d r e c t a n g u l a r c o n d i t i o n i s

    m k n

    m

    n k +

    k

    m n +

    n

    m k ( 1 3 )

    w h i c h i s e q u i v a l e n t t o

    1

    m

    = m +

    k

    = k +

    n

    = n : ( 1 4 )

    T h e p a r a m e t e r s ,

    m

    ,

    k

    ,

    n

    , a r e c o m p u t e d e m p i r i c a l l y f r o m t h r e e s e p a r a t e e x p e r i m e n t s ,

    w h e r e t w o o f t h e d i m e n s i o n s a r e x e d a t a l a r g e v a l u e a n d t h e t h i r d v a r i e s . O n t h e f a c e o f

    i t , w e m u s t s o l v e a s y s t e m o f t h r e e l i n e a r e q u a t i o n s h o w e v e r , ( 1 4 ) s u g g e s t s a n a l t e r n a t i v e

    a p p r o a c h . I n e a c h o f t h e t h r e e e x p e r i m e n t s , a s i n t h e s q u a r e c a s e , w e s e a r c h f o r t h e p o i n t a t

    w h i c h o n e a p p l i c a t i o n o f S t r a s s e n ' s a l g o r i t h m b e c o m e s f a s t e r t h a n D G E M M . W h e n k a n d

    n a r e l a r g e , t h e i r c o n t r i b u t i o n i n ( 1 4 ) i s n e g l i g i b l e , s o t h a t t h e p a r a m e t e r

    m

    c a n b e s e t t o

    t h e c r o s s o v e r p o i n t d e t e r m i n e d f r o m t h e e x p e r i m e n t w h e r e k a n d n a r e x e d . T h e o t h e r t w o

    p a r a m e t e r s a r e s e t i n t h e s a m e w a y .

    I f a l t e r n a t i v e v a l u e s o f m , k , a n d n a r e u s e d t o c o m p u t e

    m

    ,

    k

    , a n d

    n

    , d i e r e n t v a l u e s f o r

    t h e p a r a m e t e r s m a y b e o b t a i n e d . T h i s i s p o s s i b l e s i n c e i t i s u n l i k e l y t h a t t h e e n t i r e b o u n d a r y

    c a n b e d e s c r i b e d b y a n e q u a t i o n o f t h e f o r m ( 1 3 ) . I n p a r t i c u l a r , s i n c e l o n g t h i n m a t r i c e s a r e

    u s e d t o d e t e r m i n e t h e p a r a m e t e r s

    m

    ,

    k

    , a n d

    n

    , i t i s l i k e l y t h a t

    m

    +

    k

    +

    n

    6= , a s w o u l d

    b e r e q u i r e d i f t h e n e w c o n d i t i o n w e r e t o r e d u c e t o ( 1 0 ) w h e n m = k = n . O u r c o m p r o m i s e

    i s t o u s e t h e h y b r i d c o n d i t i o n

    ( ( m k n

    m

    n k +

    k

    m n +

    n

    m k ) a n d ( m o r k o r n ) ) ( 1 5 )

    o r

    ( m a n d k a n d n )

    w h i c h i n h e r e n t l y a l l o w s r e c u r s i o n , v i a c o n d i t i o n ( 1 1 ) , w h e n a l l t h r e e d i m e n s i o n s a r e g r e a t e r

    t h a n , a n d s t o p s r e c u r s i o n , v i a t h e l a s t c o n d i t i o n , w h e n a l l t h r e e d i m e n s i o n s a r e l e s s t h a n

    o r e q u a l t o . I n o t h e r r e g i o n s o f t h e p o s i t i v e o c t a n t c o n d i t i o n ( 1 3 ) r u l e s i n o r d e r t o a l l o w a n

    e x t r a a p p l i c a t i o n o f S t r a s s e n ' s a l g o r i t h m w h e r e i t m a y b e b e n e c i a l . A c t u a l t e s t s t o e s t a b l i s h

    ,

    m

    ,

    k

    , a n d

    n

    f o r v a r i o u s m a c h i n e s w i l l b e d o n e i n S e c t i o n 4 . 2 .

    1 3

  • 8/6/2019 Strassen Algorithm

    16/27

    4 P e r f o r m a n c e

    T h i s s e c t i o n d i s c u s s e s t h e r e s u l t s o f r u n n i n g o u r i m p l e m e n t a t i o n o f S t r a s s e n ' s m a t r i x m u l t i -

    p l i c a t i o n a l g o r i t h m o n a v a r i e t y o f c o m p u t e r s . W e r s t d e s c r i b e t h e m a c h i n e s u s e d a n d h o w

    t h e r e s u l t s w e r e o b t a i n e d . N e x t , e m p i r i c a l m e a s u r e m e n t s a r e u s e d t o s e t t h e c u t o c o n d i -

    t i o n s f o r b o t h s q u a r e a n d r e c t a n g u l a r i n p u t s , a n d o u r n e w c r i t e r i o n i s c o m p a r e d t o o t h e r

    m e t h o d s . W e t h e n e x a m i n e t h e p e r f o r m a n c e o f o u r n e w r o u t i n e , i n c l u d i n g c o m p a r i s o n s t o

    o t h e r a v a i l a b l e r o u t i n e s f o r p e r f o r m i n g S t r a s s e n ' s m a t r i x m u l t i p l i c a t i o n . F i n a l l y , w e u s e o u r

    r o u t i n e t o p e r f o r m t h e m a t r i x m u l t i p l i c a t i o n s i n a l a r g e a p p l i c a t i o n c o d e .

    4 . 1 M a c h i n e s a n d T e s t i n g

    T h o u g h o u r c o d e i s p o r t a b l e a n d h a s b e e n r u n o n m a n y m a c h i n e s , t h i s p a p e r w i l l f o c u s o n

    t h e I B M R S / 6 0 0 0 ( A I X 3 . 2 5 ) , w i t h s o m e r e s u l t s f o r t h e C r a y Y M P C 9 0 ( U N I C O S 9 . 0 . 1 . 2 )

    a n d C r a y T 3 D ( s i n g l e p r o c e s s o r / U N I C O S M A X 1 . 3 . 0 . 0 ) . I t i s i m p o r t a n t t o n o t e t h a t w e a r e

    p r e s e n t i n g o n l y s e r i a l r e s u l t s . F u r t h e r m o r e , w e l i m i t e d o u r s e l v e s t o s i z e s o f m a t r i c e s w h e r e

    t h e e n t i r e p r o b l e m t s i n t o t h e m a c h i n e ' s m e m o r y w i t h o u t u s i n g v i r t u a l m e m o r y .

    W h e r e v e r p o s s i b l e a n d b e n e c i a l , w e u t i l i z e d o p t i m i z e d v e r s i o n s o f c o r e r o u t i n e s . T h e

    I B M - s u p p l i e d B L A S l i b r a r y , l i b b l a s . a ( V e r s i o n 2 . 2 ) , w a s u s e d f o r a l l c o m p u t a t i o n a l k e r n e l s ,

    e x c e p t f o r I B M ' s i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m , D G E M M S , w h i c h i s c o n t a i n e d

    i n t h e i r E n g i n e e r i n g S c i e n t i c S u b r o u t i n e L i b r a r y ( E S S L - V e r s i o n 2 . 2 ) . U n l i k e a l l o t h e r

    S t r a s s e n i m p l e m e n t a t i o n s w e h a v e s e e n , I B M ' s D G E M M S o n l y p e r f o r m s t h e m u l t i p l i c a t i o n

    p o r t i o n o f D G E M M , C = o p ( A ) o p ( B ) : T h e u p d a t e o f C a n d s c a l i n g b y a n d m u s t

    b e d o n e s e p a r a t e l y b y t h e c a l l i n g r o u t i n e w h e n e v e r 6= 1 : 0 o r 6= 0 : 0 . O n t h e C 9 0 a n d

    T 3 D , C r a y ' s B L A S , c o n t a i n e d i n t h e i r s c i e n t i c r o u t i n e s l i b r a r y , s c i l i b . a ( V e r s i o n 2 . 0 ) , w a s

    u t i l i z e d . A l l r e s u l t s p r e s e n t e d i n t h i s p a p e r a r e f o r 6 4 - b i t v a l u e s . T h i s i s d o u b l e p r e c i s i o n o n

    t h e R S / 6 0 0 0 , b u t s i n g l e p r e c i s i o n f o r t h e r o u t i n e s o n t h e C r a y m a c h i n e s .

    T i m i n g w a s a c c o m p l i s h e d b y s t a r t i n g a c l o c k j u s t b e f o r e t h e c a l l t o t h e m a t r i x m u l t i p l i -

    c a t i o n r o u t i n e o f i n t e r e s t a n d s t o p p i n g t h e c l o c k r i g h t a f t e r t h e c a l l , w i t h t h e e x c e p t i o n o f

    t h e c a l l t o I B M ' s D G E M M S , w h i c h c o n t a i n e d a n e x t r a l o o p f o r t h e s c a l i n g a n d u p d a t e o f C

    a s d e s c r i b e d a b o v e . T h e t i m e s r e p o r t e d h e r e a r e C P U t i m e s o n n o n - d e d i c a t e d m a c h i n e s .

    A l l r o u t i n e s w e r e t e s t e d w i t h t h e s a m e i n i t i a l m a t r i c e s , a n d t h e c o r r e c t n e s s o f t h e r e s u l t s

    w a s v e r i e d . A l l o f o u r r o u t i n e s , i n c l u d i n g o u r S t r a s s e n l i b r a r y a n d t e s t c o d e s u s e d i n t h i s

    p a p e r , a r e a v a i l a b l e o n t h e W e b a t h t t p : / / w w w . m c s . a n l . g o v / P r o j e c t s / P R I S M / l i b / .

    4 . 2 M e a s u r i n g t h e C u t o

    I n t h i s s e c t i o n w e r e p o r t o n t h e e m p i r i c a l t e s t i n g n e e d e d t o d e t e r m i n e t h e a c t u a l c u t o

    c r i t e r i a u s e d o n a l l t h r e e o f o u r t e s t m a c h i n e s . T h i s i s d o n e r s t f o r s q u a r e m a t r i c e s a n d

    1 4

  • 8/6/2019 Strassen Algorithm

    17/27

    120 140 160 180 200 220 240 2600.92

    0.94

    0.96

    0.98

    1

    1.02

    1.04

    1.06

    Matrix Dimension

    RatioDGEMM/DGEFMM

    F i g u r e 2 : E x p e r i m e n t a l l y d e t e r m i n e d c u t o f o r R S / 6 0 0 0 w i t h = 1 a n d = 0 .

    t h e n f o r r e c t a n g u l a r m a t r i c e s .

    R e c a l l f r o m S e c t i o n 3 . 4 t h a t d e t e r m i n i n g t h e s q u a r e c u t o i s s i m p l y a m a t t e r o f n d i n g

    w h e r e c a l l i n g D G E M M i s f a s t e r t h a n a p p l y i n g S t r a s s e n ' s a l g o r i t h m w i t h o n e l e v e l o f r e c u r -

    s i o n . F i g u r e 2 s h o w s t h e r a t i o o f D G E M M t o o u r D G E F M M c o d e w i t h o n e l e v e l o f r e c u r s i o n

    a s a f u n c t i o n o f t h e s q u a r e m a t r i x o r d e r m f o r t h e R S / 6 0 0 0 . W h e n t h i s r a t i o i s g r e a t e r t h a n

    1 , u s i n g S t r a s s e n i s m o r e e c i e n t . S t r a s s e n b e c o m e s b e t t e r a t m = 1 7 6 a n d i s a l w a y s m o r e

    e c i e n t i f m 2 1 4 . T h e r a n g e i s c a u s e d b y t h e f a c t t h a t t h e c o s t s i n o u r S t r a s s e n c o d e

    a r e n o t m o n o t o n i c , a n d t h e v a r y i n g r e q u i r e m e n t s f o r x u p w o r k o n o d d - s i z e d i n p u t s c r e a t e

    t h e s a w - t o o t h e d l o o k o f t h e g r a p h . H o w e v e r , t h e r a n g e i s f a i r l y s m a l l , a n d t h e p e r f o r m a n c e

    d i e r e n c e b e t w e e n S t r a s s e n a n d D G E M M i s s m a l l . T h u s , i t i s r e a s o n a b l e a n d a c c e p t a b l e t o

    c h o s e a n y o f t h e p o i n t s i n t h e r a n g e . W e o p t e d t o c h o o s e t h e c u t o t o b e = 1 9 9 , i . e . , u s e

    D G E M M i f m 1 9 9 , s i n c e S t r a s s e n i s a l m o s t a l w a y s b e t t e r t h a n D G E M M f o r l a r g e r v a l u e s ,

    a n d w h e n i t i s s l o w e r i t i s s o b y a v e r y s m a l l a m o u n t . T a b l e 2 s h o w s t h e r e s u l t s o f p e r f o r m i n g

    t h i s e x p e r i m e n t f o r o u r t e s t m a c h i n e s . T h e c u t o s i n T a b l e 2 s h o w t h e s i z e a t w h i c h o u r

    S t r a s s e n i m p l e m e n t a t i o n b e c o m e s m o r e e c i e n t f o r s q u a r e m a t r i c e s . T h e m o d e s t s i z e o f

    t h e c u t o s s h o w t h a t u s i n g o u r S t r a s s e n c o d e i n s t e a d o f s t a n d a r d m a t r i x m u l t i p l i c a t i o n i s

    a d v a n t a g e o u s i n m a n y a p p l i c a t i o n s . T h e s e r e s u l t s , a l o n g w i t h t h o s e o f o t h e r s , s h o w s t h a t

    S t r a s s e n ' s a l g o r i t h m i s o f p r a c t i c a l i n t e r e s t .

    A s w a s d i s c u s s e d i n S e c t i o n s 2 a n d 3 . 4 , d e t e r m i n i n g t h e c o n d i t i o n f o r r e c t a n g u l a r m a t r i c e s

    i s m u c h m o r e c o m p l i c a t e d . T h e b e n e t o f e n h a n c i n g t h e c u t o c r i t e r i a f o r r e c t a n g u l a r

    1 5

  • 8/6/2019 Strassen Algorithm

    18/27

    M a c h i n e E m p i r i c a l S q u a r e C u t o

    R S / 6 0 0 0 1 9 9

    C 9 0 1 2 9

    T 3 D 3 2 5

    T a b l e 2 : E x p e r i m e n t a l l y d e t e r m i n e d s q u a r e c u t o s o n v a r i o u s m a c h i n e s .

    M a c h i n e

    m

    k

    n

    m

    +

    k

    +

    n

    R S / 6 0 0 0 7 5 1 2 5 9 5 2 9 5

    C 9 0 8 0 4 5 2 0 1 4 5

    T 3 D 1 2 5 7 5 1 0 9 3 0 9

    T a b l e 3 : E x p e r i m e n t a l l y d e t e r m i n e d r e c t a n g u l a r c u t o p a r a m e t e r s , w h e n = 1 a n d = 0 .

    m a t r i c e s c a n b e s e e n b y n o t i n g t h a t u s e o f c r i t e r i o n ( 1 1 ) o n t h e R S / 6 0 0 0 p r e v e n t s S t r a s s e n ' s

    a l g o r i t h m f r o m b e i n g a p p l i e d w h e n m = 1 6 0 , n = 9 5 7 , a n d k = 1 9 5 7 . H o w e v e r , a p p l y i n g a n

    e x t r a l e v e l o f S t r a s s e n ' s a l g o r i t h m g i v e s a n 8 . 6 p e r c e n t r e d u c t i o n i n c o m p u t i n g t i m e .

    T a b l e 3 s u m m a r i z e s , f o r e a c h m a c h i n e , t h e v a l u e s o b t a i n e d f o r t h e p a r a m e t e r s

    m

    ,

    k

    , a n d

    n

    , w h i c h d e s c r i b e t h e r e c t a n g u l a r c o n d i t i o n ( 1 3 ) . T h e s e w e r e c o m p u t e d u s i n g t h e m e t h o d

    d e s c r i b e d i n S e c t i o n 3 . 4 . O n t h e C R A Y C 9 0 a n d t h e R S / 6 0 0 0 , t h e t w o x e d v a r i a b l e s i n

    e a c h o f t h e e x p e r i m e n t s w e r e s e t t o 2 0 0 0 , w h e r e a s o n t h e C R A Y T 3 D a v a l u e o f 1 5 0 0 w a s

    u s e d t o r e d u c e t h e t i m e t o r u n t h e t e s t s . F i n a l l y , w e r e m a r k t h a t t h e e x p e r i m e n t s w e r e r u n

    u s i n g = 1 a n d = 0 i n t h e c a l l s t o D G E F M M , a n d t h a t t h e v a l u e s o f

    m

    ,

    k

    , a n d

    n

    m a y

    c h a n g e f o r t h e g e n e r a l c a s e . O u r c o d e a l l o w s u s e r t e s t i n g a n d s p e c i c a t i o n o f t w o s e t s o f

    p a r a m e t e r s t o h a n d l e b o t h c a s e s .

    T h e d a t a i n T a b l e 3 s h o w s t h a t t h e p e r f o r m a n c e o f D G E M M i s n o t s y m m e t r i c i n t h e

    m a t r i x d i m e n s i o n s . M o r e o v e r , t h e a s y m m e t r y v a r i e s f r o m m a c h i n e t o m a c h i n e . A l s o o b s e r v e

    t h a t o n t h e R S / 6 0 0 0 t h e s u m

    m

    +

    k

    +

    n

    i s s i g n i c a n t l y d i e r e n t f r o m t h e c o r r e s p o n d i n g

    s q u a r e c u t o . T h i s i l l u s t r a t e s t h a t t h e p e r f o r m a n c e o f D G E M M o n l o n g t h i n m a t r i c e s c a n

    b e v e r y d i e r e n t f r o m i t s p e r f o r m a n c e o n s q u a r e m a t r i c e s .

    T a b l e 4 s u m m a r i z e s a s e r i e s o f e x p e r i m e n t s c o m p a r i n g t h e v a r i o u s r e c t a n g u l a r c u t o c r i -

    t e r i a d e s c r i b e d i n S e c t i o n 3 . 4 . F o r e a c h c o m p a r i s o n a s e t o f r a n d o m p r o b l e m s w a s g e n e r a t e d

    o n w h i c h t h e t w o c r i t e r i a b e i n g c o m p a r e d w o u l d m a k e d i e r e n t c u t o d e c i s i o n s . T o d o t h i s

    w e r a n d o m l y s e l e c t e d t h e i n p u t d i m e n s i o n s m , k , a n d n , a n d t h e n t e s t e d f o r t h o s e o n w h i c h

    t h e t w o c r i t e r i a w o u l d m a k e o p p o s i t e d e t e r m i n a t i o n s o n w h e t h e r t o a p p l y r e c u r s i o n a t t h e

    1 6

  • 8/6/2019 Strassen Algorithm

    19/27

    R a n d o m

    M a c h i n e C o m p a r i s o n S a m p l e R a n g e Q u a r t i l e s A v e r a g e

    R a t i o S i z e

    R S / 6 0 0 0 ( 1 5 ) / ( 1 1 ) 1 0 0 0 . 9 1 2 8 { 1 . 0 1 6 9 0 . 9 4 0 3 0 . 9 5 6 6 0 . 9 6 3 4 0 . 9 5 2 9

    ( 1 5 ) / ( 1 2 ) 1 0 0 0 0 . 9 0 8 3 { 1 . 1 2 8 6 0 . 9 8 6 3 1 . 0 0 3 8 1 . 0 2 1 7 1 . 0 0 1 7

    ( 1 5 ) / ( 1 2 ) , 1 0 0 0 . 9 1 2 6 { 1 . 0 4 6 2 0 . 9 6 8 8 0 . 9 9 3 8 1 . 0 0 5 2 0 . 9 8 8 8

    t w o d i m s l a r g e

    C 9 0 ( 1 5 ) / ( 1 1 ) 1 0 0 0 . 8 2 7 5 { 1 . 0 2 9 4 0 . 9 1 3 7 0 . 9 4 8 8 0 . 9 6 8 2 0 . 9 3 7 5

    ( 1 5 ) / ( 1 2 ) 1 0 0 0 0 . 7 8 0 3 { 1 . 1 0 9 5 0 . 9 1 9 8 0 . 9 4 5 7 0 . 9 7 6 9 0 . 9 4 2 8

    ( 1 5 ) / ( 1 2 ) , 1 0 0 0 . 7 9 0 8 { 0 . 9 8 5 9 0 . 9 0 2 4 0 . 9 1 8 9 0 . 9 4 5 4 0 . 9 0 9 8

    t w o d i m s l a r g e

    T 3 D ( 1 5 ) / ( 1 1 ) 1 0 0 0 . 7 9 5 7 { 1 . 1 0 2 6 0 . 9 3 3 5 0 . 9 5 0 8 0 . 9 6 6 7 0 . 9 5 1 8

    ( 1 5 ) / ( 1 2 ) 1 0 0 0 0 . 6 8 6 8 { 1 . 1 3 9 3 0 . 9 5 2 8 0 . 9 7 9 2 0 . 9 9 9 6 0 . 9 7 7 7

    ( 1 5 ) / ( 1 2 ) , 1 0 0 0 . 9 1 2 0 { 1 . 0 3 2 8 0 . 9 2 0 0 0 . 9 2 6 2 0 . 9 4 7 4 0 . 9 3 4 0

    t w o d i m s l a r g e

    T a b l e 4 : C o m p a r i s o n o f C u t o C r i t e r i a f o r = 1 a n d = 0 . ( 1 1 ) = S i m p l e C r i t e r i o n f r o m

    S q u a r e C u t o , ( 1 2 ) = T h e o r e t i c a l l y S c a l e d C r i t e r i o n , ( 1 5 ) = N e w R e c t a n g u l a r C r i t e r i o n .

    t o p l e v e l . T h e r a n g e o f d i m e n s i o n s f o r t h e g e n e r a t e d p r o b l e m s r a n f r o m t h e s m a l l e r o f = 3

    a n d

    m

    ,

    k

    , o r

    n

    f o r m , k , a n d n , r e s p e c t i v e l y , t o 2 0 5 0 o n t h e R S / 6 0 0 0 a n d C R A Y C 9 0 a n d

    1 5 5 0 o n t h e T 3 D . A s a m p l e s i z e o f 1 0 0 w a s u s e d w h e n t h e d e s i g n o f o u r n e w c r i t e r i o n c l e a r l y

    i m p l i e d a n e x p e c t e d o u t c o m e f o r t h e e x p e r i m e n t a l a r g e r s a m p l e s i z e o f 1 0 0 0 w a s u s e d f o r

    t h e c a s e w h e r e t h e o u t c o m e w a s l e s s c l e a r . W e n o t e t h a t i t i s s u c i e n t t o c o m p a r e e a c h

    p a i r o f c r i t e r i a o n o n l y t h e i r s e t o f s u c h p r o b l e m s f o r o n o t h e r p r o b l e m s , w h e r e t h e y w o u l d

    m a k e i d e n t i c a l d e c i s i o n s o n w h e n t o a p p l y r e c u r s i o n , t h e y w o u l d h a v e i n h e r e n t l y i d e n t i c a l

    p e r f o r m a n c e . T h u s , a n y c r i t e r i o n t h a t s h o w s b e t t e r p e r f o r m a n c e o n t h e s e t e s t p r o b l e m s i n

    f a c t e n j o y s b e t t e r o v e r a l l p e r f o r m a n c e .

    E n t r i e s i n T a b l e 4 a r e g i v e n a s r a t i o s o f D G E F M M t i m i n g s u s i n g o u r n e w c r i t e r i o n ( 1 5 )

    t o t h o s e o b t a i n e d u s i n g o t h e r c r i t e r i a . W e s h o w t h e r a n g e , a v e r a g e , a n d q u a r t i l e s , v a l u e s

    t h a t m a r k t h e q u a r t e r , h a l f ( o r m e d i a n ) , a n d t h r e e - q u a r t e r p o i n t s i n t h e d a t a . F o r e a c h

    m a c h i n e , w e c o m p a r e ( 1 5 ) t o ( 1 1 ) , ( 1 5 ) t o ( 1 2 ) o n g e n e r a l i n p u t s i z e s , a n d ( 1 5 ) t o ( 1 2 ) o n

    p r o b l e m s w h e r e t w o o f t h e t h r e e m a t r i x d i m e n s i o n s a r e l a r g e . W e d e n e l a r g e t o b e a t l e a s t

    1 7

  • 8/6/2019 Strassen Algorithm

    20/27

    M a t r i x

    O r d e r :

    N u m b e r R S / 6 0 0 0 C 9 0 T 3 D

    o f D G E M M D G E F M M D G E M M D G E F M M D G E M M D G E F M M

    R e c u r -

    s i o n s

    + 1 : 1 . 1 5 0 . 1 5 0 . 0 0 6 0 . 0 0 5 5 . 6 9 4 . 6 6 9

    2 + 2 : 2 1 . 1 4 1 . 0 5 . 0 4 3 1 . 0 4 1 0 5 . 4 0 4 . 9 1

    4 + 4 : 3 9 . 0 6 7 . 5 9 . 3 3 2 . 3 1 2 4 2 . 6 3 3 . 3

    8 + 8 : 4 7 2 . 2 5 4 . 1 2 . 5 4 2 . 1 0

    1 6 + 1 6 : 5 2 0 . 1 1 3 . 3

    T a b l e 5 : T i m e s f o r D G E M M a n d D G E F M M f o r d i e r e n t n u m b e r s o f r e c u r s i o n s o n a l l t h r e e

    m a c h i n e s w i t h = 1 = 3 a n d = 1 = 4 . i s t h e s q u a r e c u t o v a l u e g i v e n i n T a b l e 2 f o r e a c h

    m a c h i n e .

    1 8 0 0 f o r t h e R S / 6 0 0 0 a n d C R A Y C 9 0 a n d 1 3 5 0 f o r t h e C R A Y T 3 D .

    T h e r e s u l t s i n T a b l e 4 d e m o n s t r a t e t h a t i n s o m e c a s e s s i g n i c a n t p e r f o r m a n c e i m p r o v e -

    m e n t s c a n b e o b t a i n e d t h r o u g h c a r e f u l r e n e m e n t o f t h e c u t o c r i t e r i o n u s e d . W e s e e t h a t

    o u r n e w c r i t e r i o n n e a r l y m e e t s o r i n g e n e r a l e x c e e d s t h e p e r f o r m a n c e o f o t h e r c u t o c r i t e r i a

    t h a t h a v e b e e n u s e d o r p r o p o s e d . F o r m a t r i c e s w i t h l a r g e a s p e c t r a t i o s , p e r f o r m a n c e i s a l -

    w a y s i m p r o v e d . W e a l s o n o t e t h a t , a s i n d i c a t e d i n S e c t i o n 3 . 4 , t h e v a l u e s f o r

    m

    ,

    k

    , a n d

    n

    c o u l d b e e v e n m o r e n e l y t u n e d , f o r i n s t a n c e t o u s e i n a p p l i c a t i o n a r e a s w h e r e p e r f o r m a n c e

    o n m a t r i c e s w i t h l a r g e a s p e c t r a t i o s i s c r i t i c a l .

    4 . 3 P e r f o r m a n c e C o m p a r i s o n s

    T a b l e 5 s h o w s t h e t i m e s f o r D G E M M a n d D G E F M M o n a l l t h r e e m a c h i n e s f o r t h e

    s m a l l e s t m a t r i x o r d e r t h a t d o e s a g i v e n n u m b e r o f r e c u r s i o n s i n D G E F M M . T h e s c a l i n g o f

    D G E F M M w i t h m a t r i x o r d e r i s v e r y c l o s e t o t h e t h e o r e t i c a l f a c t o r o f 7 f o r e a c h d o u b l i n g i n

    m a t r i x s i z e . A l l a r e w i t h i n 1 0 % o f t h i s s c a l i n g , w i t h t h e C 9 0 s h o w i n g t h e l a r g e s t v a r i a n c e .

    T h e t a b l e a l s o s h o w s t h a t S t r a s s e n c a n b e s u b s t a n t i a l l y f a s t e r t h a n c o n v e n t i o n a l m a t r i x

    m u l t i p l i c a t i o n . F o r t h e l a r g e s t s i z e m a t r i x g i v e n f o r e a c h m a c h i n e i n T a b l e 5 , t h e t i m e f o r

    D G E F M M i s b e t w e e n 0 . 6 6 a n d 0 . 7 8 t h e t i m e f o r D G E M M . N o t e t h a t t h e m a t r i x s i z e s n e e d e d

    f o r s a v i n g s a r e w e l l w i t h i n t h e r a n g e o f m a t r i c e s o f i n t e r e s t i n r e a l a p p l i c a t i o n s .

    F i g u r e 3 s h o w s t h e r a t i o o f D G E F M M t o t h e I B M S t r a s s e n r o u t i n e D G E M M S f o r s q u a r e

    m a t r i c e s . T h e p l o t s h o w s t h a t o n a v e r a g e t h e I B M r o u t i n e i s f a s t e r t h a n D G E F M M . T h e

    a v e r a g e r a t i o i s 1 . 0 5 2 . T h e s e r e s u l t s a r e f o r t h e c a s e w h e r e = 1 a n d = 0 . I n t h e g e n e r a l

    1 8

  • 8/6/2019 Strassen Algorithm

    21/27

    200 400 600 800 1000 1200 1400 1600 1800 2000 2200

    0.95

    1

    1.05

    1.1

    Matrix Dimension

    TimeDGEFMM/TimeDGEMMS

    F i g u r e 3 : R a t i o o f D G E F M M t o I B M D G E M M S a s a f u n c t i o n o f m a t r i x o r d e r o n R S / 6 0 0 0

    f o r = 1 a n d = 0 .

    c a s e ( w h e r e 6= 1 : 0 a n d 6= 0 : 0 ) , w h i c h t h e I B M r o u t i n e d o e s n o t d i r e c t l y s u p p o r t , t h e

    a v e r a g e d r o p s t o 1 . 0 2 8 . T h i s s u p p o r t s o u r d e s i g n o f i n c l u d i n g t h e g e n e r a l c a s e d i r e c t l y i n

    o u r c o d e .

    F i g u r e 4 s h o w s t h e r a t i o o f D G E F M M t o t h e C r a y S t r a s s e n r o u t i n e , S G E M M S , o n t h e

    C 9 0 . A s w i t h t h e I B M r e s u l t s , o u r p e r f o r m a n c e i s s l i g h t l y w o r s e t h a n t h e v e n d o r - s u p p l i e d

    r o u t i n e . T h e a v e r a g e r a t i o i s 1 . 0 6 6 . A s w i t h t h e R S / 6 0 0 0 , w e d o b e t t e r f o r g e n e r a l a n d ,

    w h e r e t h e a v e r a g e d r o p s t o 1 . 0 5 2 .

    C o n s i d e r i n g t h a t w e d i d n o t t u n e o u r c o d e t o e i t h e r t h e R S / 6 0 0 0 o r C 9 0 , w e t h i n k o u r

    r e l a t i v e p e r f o r m a n c e i s v e r y g o o d . W e h a v e o b s e r v e d t h a t o n e c a n o p t i m i z e t h e p r i m i t i v e s

    a n d m e t h o d s t o t y p i c a l l y g e t a s e v e r a l p e r c e n t g a i n . T o k e e p o u r c o d e g e n e r a l , w e h a v e n o t

    i n c l u d e d t h e s e m a c h i n e - s p e c i c t e c h n i q u e s i n o u r c o d e .

    N e x t , w e c o m p a r e t o a p u b l i c d o m a i n i m p l e m e n t a t i o n f r o m D o u g l a s , e t a l . 8 ] , D G E M M W .

    W e s e e i n F i g u r e 5 t h a t , f o r g e n e r a l a n d o n s q u a r e m a t r i c e s , t h e r e a r e m a t r i x s i z e s w h e r e

    e a c h c o d e d o e s b e t t e r . T h e a v e r a g e r a t i o i s 0 . 9 9 1 , w h i c h s h o w s t h a t w e a r e s l i g h t l y b e t t e r .

    I n t h e c a s e w h e r e = 1 a n d = 0 t h e a v e r a g e i s 1 . 0 0 8 9 . T h i s s h o w s t h a t o u r S T R A S S E N 2

    c o n s t r u c t i o n ( g e n e r a l ) n o t o n l y s a v e s t e m p o r a r y m e m o r y b u t y i e l d s a c o d e t h a t h a s

    h i g h e r p e r f o r m a n c e b o t h a b s o l u t e l y a n d r e l a t i v e t o S T R A S S E N 1 . T h i s i s d u e t o b e t t e r

    l o c a l i t y o f m e m o r y u s a g e . I t s h o u l d b e n o t e d t h a t D G E M M W a l s o p r o v i d e s r o u t i n e s f o r

    m u l t i p l y i n g c o m p l e x m a t r i c e s , a f e a t u r e n o t c o n t a i n e d i n o u r p a c k a g e .

    1 9

  • 8/6/2019 Strassen Algorithm

    22/27

    0 200 400 600 800 1000 1200 1400 1600 1800 20000.9

    0.95

    1

    1.05

    1.1

    1.15

    1.2

    1.25

    Matrix Dimension

    TimeDGEFMM/TimeCRAYSGEMMS

    F i g u r e 4 : R a t i o o f D G E F M M t o C r a y S G E M M S a s a f u n c t i o n o f m a t r i x o r d e r o n C 9 0 f o r

    = 1 a n d = 0 .

    200 400 600 800 1000 1200 1400 1600 1800 2000 22000.85

    0.9

    0.95

    1

    1.05

    1.1

    Matrix Dimension

    TimeDGEFMM/TimeDGEMMW

    F i g u r e 5 : R a t i o o f D G E F M M t o D G E M M W a s a f u n c t i o n o f m a t r i x o r d e r o n I B M R S / 6 0 0 0

    f o r g e n e r a l a n d .

    2 0

  • 8/6/2019 Strassen Algorithm

    23/27

    7 7.5 8 8.5 9 9.5 10 10.50.88

    0.9

    0.92

    0.94

    0.96

    0.98

    1

    1.02

    1.04

    1.06

    Log(2mnk)

    TimeDGEFMM/TimeDGEMMW

    F i g u r e 6 : R a t i o o f D G E F M M t o D G E M M W f o r r a n d o m r e c t a n g u l a r m a t r i c e s o n R S / 6 0 0 0

    w i t h g e n e r a l a n d .

    W e n o w t u r n o u r a t t e n t i o n t o r e c t a n g u l a r m a t r i c e s . W e t e s t e d r a n d o m l y - g e n e r a t e d

    r e c t a n g u l a r m a t r i c e s a n d c o m p u t e d t h e r a t i o o f o u r r o u t i n e , D G E F M M , t o t h e r o u t i n e

    D G E M M W o n t h e R S / 6 0 0 0 a s s h o w n i n F i g u r e 6 , w h e r e L o g ( x ) d e n o t e s t h e l o g a r i t h m b a s e

    1 0 o f x . B y r a n d o m l y - g e n e r a t e d , w e m e a n r a n d o m l y s e l e c t i n g t h e i n p u t d i m e n s i o n s m , k ,

    a n d n i n t h e r a n g e f r o m

    m

    = 7 5 ,

    k

    = 1 2 5 , o r

    n

    = 9 5 , r e s p e c t i v e l y , t o 2 0 5 0 . T h e a v e r a g e

    r a t i o h a s d e c r e a s e d t o 0 . 9 7 4 c o m p a r e d t o 0 . 9 9 1 f o r s q u a r e m a t r i c e s . T h i s c o u l d b e d u e t o

    t h e f a c t t h a t D G E M M W u s e s t h e s i m p l i e d c u t o t e s t g i v e n b y ( 1 1 ) . T h e a v e r a g e r a t i o f o r

    = 1 a n d = 0 i s 0 . 9 9 9 , w h i c h i s a l s o a n i m p r o v e m e n t o v e r t h e s q u a r e c a s e . T h e a v e r a g e

    i m p r o v e m e n t o v e r r a n d o m r e c t a n g u l a r m a t r i c e s i s s m a l l e r t h a n t h a t s e e n i n S e c t i o n 4 . 2 , s i n c e

    w e d o n o t g a i n a n e x t r a l e v e l o f r e c u r s i o n i n m a n y c a s e s .

    O v e r a l l , t h e s e r e s u l t s s h o w t h a t o u r D G E F M M c o d e p e r f o r m s v e r y w e l l c o m p a r e d t o

    o t h e r i m p l e m e n t a t i o n s . T h i s i s e s p e c i a l l y s i g n i c a n t c o n s i d e r i n g w e u s e l e s s m e m o r y i n m a n y

    c a s e s . T h i s a l s o s h o w s t h e d y n a m i c p e e l i n g t e c h n i q u e u s i n g r a n k - o n e u p d a t e s i s i n d e e d a

    v i a b l e a l t e r n a t i v e . T h e r e a d e r i s r e f e r r e d t o 1 4 ] , w h e r e o u r e n h a n c e d m o d e l s a r e g i v e n t h a t

    q u a n t i t a t i v e l y d e s c r i b e t h e b e h a v i o r s e e n h e r e . T h e y c a n a l s o b e u s e d t o f u r t h e r e x a m i n e

    t h e s e a n d o t h e r i m p l e m e n t a t i o n s o f S t r a s s e n ' s a l g o r i t h m .

    2 1

  • 8/6/2019 Strassen Algorithm

    24/27

    U s i n g D G E M M U s i n g D G E F M M

    T o t a l T i m e ( s e c s ) 1 1 6 8 9 7 4

    M M T i m e ( s e c s ) 1 0 3 0 8 1 2

    T a b l e 6 : E i g e n s o l v e r t i m i n g s f o r 1 0 0 0 1 0 0 0 m a t r i x o n I B M R S / 6 0 0 0 .

    4 . 4 S a m p l e A p p l i c a t i o n : E i g e n s o l v e r

    I n o r d e r t o m e a s u r e t h e e c i e n c y o f o u r i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m , w e h a v e i n -

    c o r p o r a t e d i t i n t o a d i v i d e - a n d - c o n q u e r - b a s e d s y m m e t r i c e i g e n s o l v e r , w h o s e k e r n e l o p e r a t i o n

    i s m a t r i x m u l t i p l i c a t i o n . T h i s e i g e n s o l v e r i s b a s e d o n t h e I n v a r i a n t S u b s p a c e D e c o m p o s i t i o n

    A l g o r i t h m ( I S D A ) 1 5 ] a n d i s p a r t o f t h e P R I S M p r o j e c t . T h e I S D A u s e s m a t r i x m u l t i p l i -

    c a t i o n t o a p p l y a p o l y n o m i a l f u n c t i o n t o a m a t r i x u n t i l a c e r t a i n c o n v e r g e n c e c r i t e r i o n i s

    m e t . A t t h a t p o i n t , t h e r a n g e a n d n u l l s p a c e o f t h e c o n v e r g e d m a t r i x i s c o m p u t e d , w h i c h

    p r o v i d e s t h e s u b s p a c e s n e c e s s a r y f o r d i v i d i n g t h e o r i g i n a l m a t r i x i n t o t w o s u b p r o b l e m s . B o t h

    o f t h e s e o p e r a t i o n s d e p e n d h e a v i l y o n m a t r i x m u l t i p l i c a t i o n . T h e a l g o r i t h m i s r e p e a t e d u n t i l

    a l l s u b p r o b l e m s h a v e b e e n s o l v e d .

    I n c o r p o r a t i n g S t r a s s e n ' s a l g o r i t h m i n t o t h i s e i g e n s o l v e r w a s a c c o m p l i s h e d e a s i l y b y r e -

    n a m i n g a l l c a l l s t o D G E M M a s c a l l s t o D G E F M M . T a b l e 6 p r o v i d e s t h e r e s u l t i n g p e r -

    f o r m a n c e g a i n f o r n d i n g a l l t h e e i g e n v a l u e s a n d e i g e n v e c t o r s o f a r a n d o m l y - g e n e r a t e d

    1 0 0 0 1 0 0 0 t e s t m a t r i x o n a R S / 6 0 0 0 u s i n g b o t h D G E M M a n d D G E F M M . N o t e t h a t i n

    t h i s a p p l i c a t i o n t h e r u n n i n g t i m e f o r r a n d o m m a t r i c e s i s t y p i c a l l y t h e s a m e a s t h a t s e e n f o r

    o t h e r m a t r i c e s o f t h e s a m e s i z e . T h u s , i t i s s u c i e n t t o t e s t o n a r a n d o m l y - g e n e r a t e d i n p u t

    m a t r i x . W e s e e t h a t t h e r e i s a n a p p r o x i m a t e 2 0 % s a v i n g s i n t h e m a t r i x m u l t i p l i c a t i o n t i m e

    b y u s i n g D G E F M M . T h i s s h o w s t h a t r e a l a p p l i c a t i o n s c a n e a s i l y r e a l i z e t h e p e r f o r m a n c e

    g a i n f r o m o u r n e w S t r a s s e n i m p l e m e n t a t i o n .

    2 2

  • 8/6/2019 Strassen Algorithm

    25/27

    5 S u m m a r y a n d C o n c l u s i o n s

    I n t h i s p a p e r w e h a v e d e s c r i b e d o u r i m p l e m e n t a t i o n o f S t r a s s e n ' s a l g o r i t h m f o r m a t r i x m u l -

    t i p l i c a t i o n a n d r e p o r t e d o n r u n n i n g o u r c o d e o n t h e I B M R S / 6 0 0 0 , C R A Y Y M P C 9 0 , a n d

    C R A Y T 3 D s i n g l e p r o c e s s o r . O u r e m p i r i c a l d a t a s h o w s t h a t S t r a s s e n ' s a l g o r i t h m p r o v i d e s

    i m p r o v e d p e r f o r m a n c e o v e r t h e s t a n d a r d a l g o r i t h m f o r m a t r i x s i z e s t h a t o c c u r i n p r a c t i c e .

    M o r e o v e r , o u r i m p l e m e n t a t i o n , D G E F M M , i s d e s i g n e d t o r e p l a c e D G E M M , t h e L e v e l 3

    B L A S m a t r i x m u l t i p l i c a t i o n r o u t i n e , t h u s p r o v i d i n g e n h a n c e d p e r f o r m a n c e i n e x i s t i n g a p -

    p l i c a t i o n c o d e s . T h i s w a s e x h i b i t e d b y t h e u s e o f D G E F M M f o r t h e m a t r i x m u l t i p l i c a t i o n s

    r e q u i r e d i n a n e i g e n s o l v e r c o d e .

    O u r i m p l e m e n t a t i o n i s w r i t t e n i n C a n d u s e s t h e B L A S f o r i m p o r t a n t k e r n e l r o u t i n e s .

    A c u t o c r i t e r i o n i s u s e d t o d e t e r m i n e w h e t h e r t o a p p l y S t r a s s e n ' s a l g o r i t h m o r t o u s e

    D G E M M . T h e c u t o c r i t e r i o n u s e s p a r a m e t e r s w h i c h c a n b e s e t b a s e d o n e m p i r i c a l p e r f o r -

    m a n c e m e a s u r e m e n t s , a l l o w i n g o u r c o