Bao cao e Van

Embed Size (px)

Citation preview

  • 8/18/2019 Bao cao e Van

    1/48

  • 8/18/2019 Bao cao e Van

    2/48

    Qnh L)L) (1) Ra tr(n dữ liệu nhJ phân ban Su) (2) Ra tr(n dữ liệu $%c tT chMc

    l8i theo phân 4Ung c:a các hàng) (3) Ra tr(n dữ liệu $%c tT chMc l8i theo phân

    4Ung c:a c:a các hàng 4à các c-t) (4) 2t KuF phân nhóm cuối cUng)

     Wh$ 4(+, mục ính c:a @iclu"tering làP

    B 1m th9+ m-t t(p h%p các biclu"ter" có X nghYa trong m-t ma tr(nP >ác

    Jnh ma tr(n con có những tính ch9t áng Kuan tâm)

    B 1h&c hiện phân nhóm Dng thời tr.n hàng 4à c-t c:a ma tr(n biểu hiện

    gen tha+ 4 phân nhóm ri.ng lZ các hàng 4à c-t)

    B [hân tích biểu hiện gen dữ liệu

    B \ác Jnh các nhóm nh] gen 4à nhóm nh] i/u 0iện, mà các gen biểu

    hiện cao mối t$?ng Kuan ho8t -ng trong các i/u 0iện 9+)

    2. Định nghĩa

    *hGng ta "C làm 4iệc 45i m-t ma tr(n n > m, trong ó các phSn tO aij "C

    $%c gán m-t giá trJ th&c nh9t Jnh) 1rong tr$ờng h%p c:a ma tr(n biểu hiện

    gen, aij thể hiện mMc - biểu hiện c:a gen i trong i/u 0iện j)

    ^

  • 8/18/2019 Bao cao e Van

    3/48

    R-t phSn l5n các Mng dụng c:a các thu(t toán biclu"tering ối 45i ma

    tr(n biểu hiện gen) 1u+ nhi.n, có r9t nhi/u Mng dụng 0hác cho biclu"tering) V

    lX do nà+, chGng ta "C >em >_t các tr$ờng h%p chung c:a m-t ma tr(n dữ liệu,

    `, 45i t(p h%p các hàng \ 4à t(p h%p các c-t , trong ó các phSn tO a i t$?ng

    Mng 45i m-t giá trJ 8i diện cho mối Kuan hệ giữa hàng i 4à c-t j)

    R-t ma tr(n `, 45i n hàng 4à m c-t, $%c >ác Jnh b'i t(p h%p các hàng

    c:a nó, \>L,)))), >n, 4à các c-t c:a nó, +L,)))), +n) *hGng ta "C "O dụng

    !\,# ể biểu thJ ma tr(n `) W2u f⊆\ 4à ⊆ là các t(p h%p con c:a các

    hàng 4à các c-t, t$?ng Mng, `f!f,# biểu thJ ma tr(n con f̀ c:a ` mà ch3

    chMa các phSn tO aij thu-c ma tr(n con 45i t(p h%p các hàng f 4à t(p h%p cácc-t )

    *ho ma tr(n dữ liệu ` m-t cụm các hàng   !cluster of rows# là m-t t(ph%p con c:a các hàng mà có biểu hiện t$?ng t& tr.n t(p t9t cF các c-t) 6i/u

    nà+ có nghYa rEng m-t cụm hàng `f  !f, # là m-t t(p h%p con c:a các hàng

    $%c >ác Jnh tr.n t9t cF các c-t , trong ó fiL, ))), i0  là m-t t(p con c:a

    các hàng !f⊆\ 4à 0 ≤n#) R-t cụm các hàng   !cluster of rows# !f, # có thể

    $%c Jnh nghYa nh$ là m-t ma tr(n con k > m c:a ma tr(n dữ liệu )̀ 1$?ng t&

    nh$ 4(+, m-t nhóm các c-t !cluster of columns# là m-t t(p con các c-t biểuhiện hành 4i t$?ng t& tr.n t9t cF các hàng) R-t cụm `\  !\, # là m-t t(p

  • 8/18/2019 Bao cao e Van

    4/48

    con các c-t $%c >ác Jnh tr.n t9t cF các hàng \, trong ó L, ))), " là m-t

    t(p h%p con c:a các c-t !⊆ 4à "≤m#) R-t nhóm các c-t !\, # có thể $%c

    Jnh nghYa là m-t ma tr(n con n > s c:a ma tr(n dữ liệu `)

    R-t biclu"ter là m-t t(p con c:a các hàng mà thể hiện biểu hiện t$?ng

    t& nh$ nhau tr.n m-t t(p con c:a các c-t, 4à ng$%c l8i) @iclu"ter ` f!f,# là

    m-t t(p con c:a các hàng 4à m-t t(p con c:a các c-t trong ó fi L, ))), i0  là

    m-t t(p con c:a các hàng !f⊆\ 4à 0 ≤n#, 4à L, ))), " là m-t t(p con c:a

    các c-t !⊆ 4à "≤m#) R-t biclu"ter !f, # có thể $%c Jnh nghYa nh$ là m-t

    ma tr(n con k  > s c:a ma tr(n dữ liệu `)

    *ác 49n / cụ thể giFi Ku+2t bEng các thu(t toán biclu"tering bâ+ giờ cóthể $%c >ác Jnh) *ho m-t ma tr(n dữ liệu, `, chGng ta muốn >ác Jnh m-t

    t(p h%p các biclu"ter" @0 !f0 ,0 # "ao cho mIi biclu"ter @0  th]a m=n m-t "ố Ac

    iểm Dng nh9t cụ thể) *ác Ac iểm Dng nh9t mà m-t biclu"ter phFi tuân

    theo tha+ Ti giữa ph$?ng pháp ti2p c(n nà+ 4à ph$?ng pháp ti2p c(n 0hác, 4à

    "C $%c nghi.n cMu trong [hSn fff)

     A. Đồ thị hai phía có trọng số và các ma trận dữ liệu& li.n 02t thG 4J giữa các ma tr(n dữ liệu 4à lX thu+2t D thJ có thể

    $%c thi2t l(p) R-t ma tr(n dữ liệu có thể $%c >em nh$ là m-t D thJ hai phía

    có trHng "ố) R-t D thJ j!V,k#, trong ó V là t(p các 3nh 4à k là t(p h%p các

    c8nh, $%c cho là "ong ph$?ng n2u các 3nh c:a nó có thể $%c phân chia

    thành hai b- 4à "ao cho mIi c8nh trong k có chính >ác m-t Su trong 4à

    Su cn l8i trong P V∪) Ra tr(n dữ liệu `!\,# có thể $%c >em nh$m-t D thJ hai phía có trHng "ố mà mIi nGt n i∈ t$?ng Mng 45i m-t hàng 4à

    mIi nGt n ∈ t$?ng Mng 45i m-t c-t) *8nh giữa nGt n i 4à n  có trHng "ố ai, thể

    hiện các phSn tO c:a ma tr(n ' hàng i 4à c-t j 

    2t nối nà+ giữa các ma tr(n 4à lX thu+2t D thJ d7n 2n cách ti2p c(n

    r9t thG 4J ể phân tích các dữ liệu biểu hiện d&a tr.n các thu(t toán D thJ)

  • 8/18/2019 Bao cao e Van

    5/48

     B. ác m!c "# c$a việc ph%n tích

    6= có nhi/u tài liệu = m' r-ng tr.n các thu(t toán biclu"tering, i/u

    Kuan trHng là m; hnh phân tích $%c trnh bà+) 6ể nghi.n cMu 49n / nà+,

    chGng ta phân lo8i các thu(t toán biclu"tering = 0hFo "át theo bốn mMc -P

    B *ác lo8i biclu"ter" chGng có thể tm th9+) 6i/u nà+ $%c >ác Jnh b'i

    các hàm giá trJ ể >ác Jnh các lo8i Dng nh9t mà chGng tm 0i2m trong mIi

     biclu"ter) [hân tích $%c trnh bà+ trong [hSn )

    B [h$?ng pháp >O lX các biclu"ter" phMc t8p 4à c9u trGc biclu"ter $%c

    "inh ra) R-t "ố thu(t toán ch3 tm $%c m-t biclu"ter, những thu(t toán 0hác

    tm th9+ các biclu"ter" 0h;ng chDng ch_o, những thu(t toán 0hác nữa, tTngKuát h?n, trích >u9t nhi/u biclu"ter" chDng ch_o) RMc - nà+ $%c nghi.n cMu

    t8i [hSn )

    B *ác thu(t toán cụ thể $%c "O dụng ể >ác Jnh mIi biclu"ter) R-t "ố

    / nghJ "O dụng phương pháp tham lam, trong 0hi những tr$ờng h%p 0hác "O

    dụng ph$?ng pháp tiếp cận toàn cục phMc t8p h?n hoAc th(m chí liệt kê đầ

    đ!) RMc - nà+ $%c nghi.n cMu trong [hSn )B Ynh 4&c Mng dụng c:a mIi thu(t toán) *huIi Mng dụng biclu"tering

    m' r-ng từ m-t "ố nhiệm 4ụ phân tích dữ liệu microarra+ cho t5i các Mng

    dụng 0q l8 h?n nh$ hệ thống 0hu+2n nghJ, ti2p thJ tr&c ti2p 4à phân tích các

    cu-c bSu cO) *ác Mng dụng c:a các thu(t toán biclu"tering có tSm Kuan trHng

    Ac biệt tr.n 4iệc phân tích dữ liệu "inh hHc $%c / c(p trong [hSn )

    3. Các loại Bicluster

    R-t ti.u chí thG 4J ể ánh giá m-t thu(t toán biclu"tering li.n Kuan 2n

    4iệc >ác Jnh các lo8i biclu"ter" mà các thu(t toán có thể tm th9+) *hGng ta có

    thể >ác Jnh $%c bốn lo8i biclu"ter" chính nh$ "auP

    L# @iclu"ter" 45i các giá trJ hEng "ố)

    ^# @iclu"ter" 45i các giá trJ 0h;ng Ti tr.n hàng hoAc c-t)

    # @iclu"ter" 45i các giá trJ 02t h%p)

  • 8/18/2019 Bao cao e Van

    6/48

    # @iclu"ter" 45i các bi2n Ti 02t h%p)

    *ác thu(t toán biclu"tering ?n giFn nh9t >ác Jnh các t(p con c:a các

    hàng 4à các t(p con c:a các c-t 45i các  giá tr" h#ng s$ ) R-t 4í dụ 4/ m-t

     biclu"ter hEng "ố $%c trnh bà+ trong Qnh L!a#) *ác thu(t toán nà+ $%c

    nghi.n cMu t8i [hSn fffB@)

    [h$?ng pháp ti2p c(n biclu"tering 0hác tm 0i2m các t(p con c:a các

    hàng 4à các t(p con c:a các c-t 45i các giá tr" kh%ng đ&i trên các hàng ho'c

    trên các c(t  c:a ma tr(n dữ liệu) *ác biclu"ter trnh bà+ trong Qnh L!b# là m-t

    4í dụ c:a m-t biclu"ter 45i các hàng 0h;ng Ti, trong 0hi biclu"ter m; tF trong

    Qnh L!c# là m-t 4í dụ c:a m-t biclu"ter 45i các c-t 0h;ng Ti) [hSn fffB*nghi.n cMu thu(t toán phát hiện biclu"ter" 45i các giá trJ li.n tục tr.n hàng

    hoAc c-t)

    &.'. ác Biclust(r v)i các giá trị h*ng số 

    s

  • 8/18/2019 Bao cao e Van

    7/48

    hi mục ti.u c:a m-t thu(t toán biclu"tering là tm th9+ m-t biclu"ter 

    hEng "ố hoAc m-t 4ài biclu"ter hEng "ố, nó $?ng nhi.n $%c >em >_t theo

    những cách 0hác nhau ể "

    2p l8i các hàng 4à các c-t c:a ma tr(n dữ liệu

    theo trnh t& nhóm các hàng t$?ng Dng 4à các c-t t$?ng Dng, 4à 0hám phá

    các t(p con c:a các hàng 4à t(p con c:a các c-t !các biclu"ter# 45i các giá trJ

    t$?ng Dng) *ách ti2p c(n nà+ ch3 $a ra các 02t KuF tốt 0hi nó th&c hiện tr.n

    các dữ liệu 0h;ng có nhiu !th$ờng là 0h;ng phU h%p 45i a "ố các dữ liệu

    th&c t2#, nhi/u cách ti2p c(n phMc t8p có thể $%c "O dụng ể ti2n t5i mục ti.u

    tm 0i2m các biclu"ter 45i các giá trJ hEng "ố) hi dữ liệu biểu din gene $%c

    "O dụng, các biclu"ter hEng "ố $a ra các t(p con các gene có các giá trJ biểuhiện t$?ng Dng trong m-t t(p con các i/u 0iện) @iclu"ter trong Qnh L!a# là

    m-t 4í dụ c:a m-t biclu"ter 45i các giá trJ hEng "ố)

    R-t biclu"ter hEng "ố hoàn h)ov là m-t ma tr(n con !f,#, trong ó t9t

    cF các giá trJ trong biclu"ter /u bEng nhau 45i t9t cF i∈f 4à t9t cF ∈P

    aij* μ 

    RAc dU các biclu"ter l+ tư,ng v có thể $%c tm th9+ trong m-t "ố matr(n dữ liệu, nh$ng trong dữ liệu th&c t2, các biclu"ter hEng "ố th$ờng $%c

     bao ph: b'i nhiu) 6i/u nà+ có nghYa là các giá trJ aij tm th9+ trong ó có thể

    $%c >em >_t m-t biclu"ter hEng "ố th;ng th$ờng $%c trnh bà+ nh$ nij -  μ,

    trong ó nij là nhiu li.n Kuan 2n giá trJ th&c  μ c:a aij) Qàm giá trJ $%c "O

    dụng ể tính toán 4à >ác Jnh giá trJ các biclu"ter hEng "ố, th;ng th$ờng là

     phương sai hoAc m-t 4ài ti.u chuwn o l$ờng d&a tr.n nó)Qartigan = gi5i thiệu m-t thu(t toán d&a tr.n phân 4Ung $%c gHi là

    clu"tering tr&c ti2p ! .irect /lustering # mà = $%c bi2t 2n 45i t.n gHi [hân

    cụm 0hối ! 0lock /lustering #) 1hu(t toán nà+ chia nh] ma tr(n dữ liệu ban Su

    4ào m-t t(p các ma tr(n con !các biclu"ter"#) [h$?ng "ai $%c "O dụng ể >ác

    Jnh ch9t l$%ng c:a mIi biclu"ter !f,#P

    V`! 123 # ,i 1 j 3  ∈ ∈∑ 4aij 5 a 13  6

    7

     

  • 8/18/2019 Bao cao e Van

    8/48

    1heo nh$ ti.u chuwn nà+, m-t biclu"ter hoàn hFo là m-t ma tr(n con 45i

     ph$?ng "ai bEng x) hi ó, t9t cF các hàng ?n, c-t ?n c:a ma tr(n ! 123 # trong

    ma tr(n dữ liệu, t$?ng Mng 45i mIi phSn tO aij, là m-t biclu"ter lX t$'ng 0hi

    V`! 123 #x) 1rong trnh t& ể ngNn ngừa 4iệc phân 4Ung ma tr(n dữ liệu 4ào

    các biclu"ter ch3 có L hàng 4à L c-t, Qartigan giF "O rEng ' â+ có biclu"ter 

     b.n trong ma tr(n dữ liệuP !f,#0  45i 0L,))),) 1hu(t toán dừng l8i 0hi ma tr(n

    dữ liệu $%c phân 4Ung 4ào biclu"ter) *h9t l$%ng c:a 02t KuF biclu"tering

    $%c tính toán "O dụng ph$?ng "ai toàn phSn c:a biclu"ter"P

    89:41236 ;  *L

     ; 

    k =∑   ,i 1 j 3  ∈ ∈∑ 4aij 5 a 13  67 

    RAc dU mục ti.u c:a Qartigan là tm th9+ các biclu"ter hEng "ố, ;ng =

    / c(p t5i 0hF nNng tha+ Ti hàm giá trJ trong Kuá trnh làm cho nó có thể ch9p

    nh(n $%c, ể tm các biclu"ter 45i các hàng hEng "ố, các c-t hEng "ố hoAc các

    giá trJ 02t h%p tr.n cF các hàng 4à các c-t) yng g%i X 4iệc "O dụng m-t phân

    tích ^Bchi/u c:a ph$?ng "ai trong m-t biclu"ter, 4à m-t +.u cSu có thể ch9p

    nh(n $%c là các biclu"ter có h8ng th9p, g%i X có thể th&c hiện $%c là m-t

     phân tích ph$?ng "ai giữa các nhóm !`nal+"i" z{ Variance @et|een jroup" B

    `WzV`#)

    1ib"hirani cUng các c-ng "& bT "ung m-t ph$?ng thMc t3a ng$%c

    !

  • 8/18/2019 Bao cao e Van

    9/48

    hàng 4à các c-t 0hi th&c hiện clu"tering m-t chi/u) @Eng cách nà+, hH c€ng

    >ác Jnh các biclu"ter" 45i các giá trJ 0h;ng Ti)

    &.+. Biclust(rs v)i các giá trị ,h-ng "i tr/n hàng h01c c#t.

    1Dn t8i nhi/u trong th&c t2 là "& Kuan tâm 2n 4iệc phát hiện các

     biclu"ter" biểu din các bi2n 02t h%p tr.n các hàng hoAc tr.n các c-t c:a ma

    tr(n dữ liệu) Wh$ 4(+, nhi/u thu(t toán @iclu"tering nhEm mục ích tm ra các

     biclu"ter" 45i các giá trJ 0h;ng Ti tr.n các hàng hoAc các c-t c:a ma tr(n dữ

    liệu) *ác biclu"ter" trong Qnh L!b# 4à Qnh L!c# là các 4í dụ c:a các

     biclu"ter" t$?ng Mng 45i các hàng 0h;ng Ti 4à các c-t 0h;ng Ti) 1rong

    tr$ờng h%p dữ liệu biểu hiện gen, m-t biclu"ter 45i các giá trJ 0h;ng Ti trong

    các hàng >ác Jnh m-t t(p h%p con c:a các gen có giá trJ biểu din giống nh$

    nhau tr.n m-t t(p h%p con c:a i/u 0iện, chG X 2n mMc - biểu hiện 0hác

    nhau c:a gen nà+ 45i gen 0ia) (p lu(n t$?ng t& có thể $%c áp dụng ể >ác

    Jnh m-t t(p con các i/u 0iện mà trong ó m-t t(p h%p con c:a các gen biểu

    hiện giá trJ giống nh$ nhau, giF Jnh rEng các giá trJ biểu hiện có thể 0hác

    nhau giữa i/u 0iện nà+ 45i i/u 0iện 0ia)

    R-t biclu"ter hoàn h)ov 45i các hàng 0h;ng Ti là m-t ma tr(n con

    !f,#, trong ó t9t cF các giá trJ trong biclu"ter có thể thu $%c bEng cách "O

    dụng m-t trong những biểu thMc "au â+P

    aij * μ - αi  !L#

    aij * μ A αi  !^#

  • 8/18/2019 Bao cao e Van

    10/48

    1rong ó μ là giá trJ ti.u biểu trong biclu"ter 4à αi là "& i/u ch3nh cho

    hàng i∈ 1 ) 6i/u ch3nh nà+ có thể thu $%c Kua m-t ph_p c-ng hoAc ph_p nhân)

    1$?ng t& nh$ 4(+, m-t biclu"ter hoàn h)ov 45i các c-t 0h;ng Ti là

    m-t ma tr(n con ! 123 #) 1rong ó, t9t cF các giá trJ trong biclu"ter có thể thu

    $%c bEng cách "O dụng m-t trong các biểu thMc "auP

    aij * μ -  j  !#

    aij * μ >   j  !#

    1rong ó μ là giá trJ ti.u biểu trong biclu"ter 4à  β j là "& i/u ch3nh cho

    c-t j∈ 3 )5p các biclu"ter" nà+ 0h;ng thể $%c tm th9+ ch3 ?n giFn bEng cách

    tính toán ph$?ng "ai c:a các giá trJ trong biclu"ter hoAc bEng cách tính t$?ng

    Dng giữa các hàng 4à các c-t c:a ma tr(n dữ liệu nh$ chGng ta = th9+ t8i

    mục )L)

    *ác ph$?ng pháp ?n giFn ể >ác Jnh biclu"ter" lo8i nà+ là chuBn hCa

    các hàng hoAc các c-t c:a ma tr(n dữ liệu bEng cách "O dụng giá trJ trung bnhhàng 4à giá trJ trung bnh c-t t$?ng Mng) @Eng cách nà+, các biclu"ter" trong

    Qnh L!b# 4à Qnh L!c#, /u "C $%c chu+ển Ti thành các biclu"ter trnh bà+

    trong Qnh L!a#, là m-t ác Jnh các biclu"ter" 45i các giá trJ 0h;ng Ti

    tr.n các hàng hoAc tr.n các c-t c:a ma tr(n dữ liệu, t$?ng Mng, bEng cách

    chu+ển Ti các biclu"ter" nà+ 4ào các biclu"ter" hEng "ố tr$5c 0hi các thu(ttoán biclu"tering $%c áp dụng)

    *ách ti2p c(n nà+ $%c th&c hiện b'i jet~ 4à c-ng "&, ng$ời = gi5i

    thiệu thu(t toán /ouple Dwo5Ea /lustering   !*1‚*#) hi *1‚* $%c áp

    dụng cho dữ liệu biểu hiện gen, nó nhEm mục ích tm 0i2m các t(p con các

    gen 4à t(p con các i/u 0iện) 1hu(t toán phân cụm ^Bchi/u nà+ lAp l8i 4iệc

    th&c hiện phân nhóm LBchi/u tr.n các hàng 4à các c-t c:a ma tr(n dữ liệu "O

    dụng các cụm Tn Jnh c:a các hàng nh$ các thu-c tính cho 4iệc phân cụm c-t

    Lx

  • 8/18/2019 Bao cao e Van

    11/48

    4à ng$%c l8i) @9t 0q "& l&a chHn h%p lX c:a ph$?ng pháp phân nhóm 4à Jnh

    nghYa c:a cụm Tn Jnh có thể $%c "O dụng trong {rame|or0 c:a *1‚*)

    jet~ 4à c-ng "& "O dụng m-t thu(t toán phân nhóm phân c9p, có Su 4ào là

    m-t ma tr(n t$?ng Dng giữa các hàng $%c tính toán theo t(p c-t, 4à ng$%c

    l8i) hoFng cách kuclid $%c "O dụng nh$ là - o t$?ng t& "au 0hi m-t b$5c

    ti/n >O lX, trong ó mIi c-t c:a ma tr(n dữ liệu $%c chia cho giá trung bnh

    c:a nó 4à mIi hàng $%c chuwn hóa "ao cho giá trJ trung bnh c:a nó triệt ti.u

    4à chuwn c:a nó là L) @Eng cách th&c hiện b$5c ti/n >O lX nà+, hH KuFn lX ể

    chu+ển Ti các biclu"ter" c:a các lo8i $%c trnh bà+ trong Qnh L!c# 4ào các

     biclu"ter" c:a các lo8i $%c ch3 ra trong Qnh L!a#, làm cho nó có thể pháthiện ra m-t t(p h%p các biclu"ter" 45i các giá trJ li.n tục tr.n các c-t c:a

    chGng)

    heng 4à các c-ng "& giFi Ku+2t 49n / biclu"tering trong @a+e"

    {rame|or0, bEng cách trnh bà+ m-t chi2n l$%c d&a tr.n m-t m; hnh tSn "u9t

    các m7u c:a m-t biclu"ter 4à l9+ các m7u jibb" ể $5c l$%ng tham "ố) egal

    4à c-ng "& gi5i thiệu m-t m; hnh >ác "u9t, d&a tr.n các m; hnh Kuan hệ >ác"u9t ![robabili"tic elational Rodel"B[R"#) *ác m; hnh nà+ m' r-ng m8ng

    @a+e" ể m-t Kuan hệ thi2t l(p 45i nhi/u ối t$%ng -c l(p nh$ gen 4à i/u

    0iện)

    LL

  • 8/18/2019 Bao cao e Van

    12/48

    &.&. Biclust(rs v)i các giá trị ,2t h3p.

    6â+ là m-t cFi ti2n tTng thể h?n các ph$?ng pháp $%c >em >_t trong

     phSn tr$5c, trong ó trnh bà+ các biclu"ter" 45i các giá trJ 0h;ng Ti 0h;ng

     phFi ch3 ' các hàng ha+ các c-t, mà >em >_t các biclu"ter" 45i các giá trJ 02t

    h%p tr.n cF hàng 4à c-t) 1rong tr$ờng h%p dữ liệu biểu hiện gen, chGng ta có

    thể Kuan tâm 2n 4iệc >ác Jnh các biclu"ter" phMc t8p h?n trong ó L t(p con

    gen 4à L t(p con i/u 0iện có giá trJ 02t h%p tr.n cF hàng 4à c-t) *ác biclu"ter"

    trong hnh tr.n là những 4í dụ c:a lo8i hnh biclu"ter" nà+)

    5p các biclu"ter" nà+ 0h;ng thể $%c tm th9+ ch3 ?n giFn bEng cách

    >em >_t các giá trJ trong biclu"ter $%c $a ra b'i m; hnh c-ng hoAc nhân mà

    >em >_t i/u ch3nh cho cF các hàng hoAc các c-t, nh$ nó = $%c m; tF trong

    !L#, !^#, !# 4à !#) *ách ti2p c(n phMc t8p h?n th&c hiện m-t phân tích

     ph$?ng "ai giữa các nhóm 4à "O dụng m-t d8ng Ac biệt c:a Dng ph$?ng "ai

    !co5Fariance# giữa cF các hàng 4à các c-t trong biclu"ter ể ánh giá ch9t

    l$%ng c:a biclu"ter 02t KuF hoAc t(p các biclu"ter")

    1heo l(p lu(n t$?ng t& ' mục )^, các thu(t toán biclu"tering tm 0i2m

    các biclu"ter" 45i các giá trJ li.n 02t có thể $%c >em >_t d&a tr.n m-t m;

    hnh c-ng !a==itiFe mo=el #) hi m-t m; hnh c-ng $%c "O dụng trong

     biclu"tering, m-t biclu"ter hoàn h)o  ! 123 # 45i các giá trJ li.n 02t, $%c Jnh

    L^

  • 8/18/2019 Bao cao e Van

    13/48

    nghYa là m-t t(p con các hàng 4à m-t t(p con các c-t, có giá trJ aij $%c d&

    oán "O dụng các biểu thMc "au â+P

    aij * μ - αi - β j !#

    1rong ó μ là giá trJ ti.u biểu trong các biclu"ter, αi là hệ "ố i/u ch3nh

    cho hàng i∈ 1   4à  β j là hệ "ố i/u ch3nh ' c-t j∈ 3 ) *ác biclu"ter trong Qnh

    L!d# là m-t 4í dụ c:a m-t biclu"ter 45i các giá trJ 02t h%p tr.n cF hàng 4à c-t,

    các giá trJ ' â+ có thể $%c m; tF bEng m-t m; hnh c-ng !a==itiFe mo=el #)

    *ác biclu"ter" trong Qnh L!b# 4à Qnh L!c# có thể $%c coi là tr$ờng h%p Ac

     biệt c:a m; hnh c-ng nà+, trong ó "& li.n 02t c:a các giá trJ có thể $%c

    Kuan "át th9+ tr.n các hàng 4à các c-t c:a biclu"ter t$?ng Mng) 6i/u nà+ cónghYa là !L# 4à !# t$?ng Mng là tr$ờng h%p Ac biệt c:a m; hnh 8i diện !#

    0hi nào αi=0 4à β j*G)

    *ác ph$?ng pháp ti2p c(n biclu"tering 0hác giF "O rEng các biclu"ter"

    45i các giá trJ li.n 02t có thể $%c m; hnh hóa bEng cách "O dụng m-t m;

    hnh nhân !multiplicatiFe mo=el # ể d& oán các giá trJ aij trong biclu"terP

    ai  μ’  > α’ i >  β’  j !s#

    *ác ph$?ng pháp ti2p c(n nà+ th&c "& t$?ng $?ng ối 45i các m; hnh

    c-ng trong !#, 0hi μ=log μ’ , αi=αi’ , và  β j=β j’ . 1rong m; hnh nà+, mIi

     phSn tO aij trong ma tr(n dữ liệu $%c coi là 02t KuF giữa các giá trJ ti.u biểu

    trong biclu"ter ! μH #, giá trJ i/u ch3nh cho hàng i !αi’ ), 4à giá trJ i/u ch3nh

    cho c-t ! β j’ ). *ác biclu"ter trong Qnh L!e# là m-t 4í dụ c:a m-t biclu"ter 45i các giá trJ 02t h%p tr.n cF các hàng 4à các c-t, các giá trJ trong ó có thể

    $%c m; tF bEng cách "O dụng m-t m; hnh nhân) Q?n nữa, các biclu"ter"

    trong Qnh L!b# 4à Qnh L!c# c€ng có thể $%c coi là tr$ờng h%p Ac biệt c:a

    m; hnh nhân nà+, 4 !# 4à !# t$?ng Mng là tr$ờng h%p Ac biệt !s# 0hi IiH*G

    4à J  jH*G)

    R-t "ố thu(t toán biclu"tering cố g

  • 8/18/2019 Bao cao e Van

    14/48

    *heng 4à *hurch Jnh nghYa m-t @iclu"ter là m-t t(p con các hàng 4à

    m-t t(p con các c-t có - t$?ng Dng cao !high "imilarit+ "core#) 6- t$?ng

    Dng !"imilarit+ "core# = $%c gi5i thiệu 4à $%c gHi là =ư lư@ng em >_t m; hnh c-ng trong !#

    4à "O dụng  μ*a 13 , αi * ai3  5 a 13  4à β j * a 1j 5 a 13 )

    h;ng ma+, do nhiu trong dữ liệu, các δBbiclu"ter" có thể 0h;ng lGc

    nào c€ng hoàn hFo) hái niệm c:a =ư lư@ng  !re"idue# là theo ó $%c gi5ithiệu ể >ác Jnh "& "ai 0hác giữa giá trJ th&c t2 c:a m-t phSn tO a i 4à giá trJ

    L

  • 8/18/2019 Bao cao e Van

    15/48

    mong %i c:a nó $%c d& oán từ giá trJ trung bnh hàng, giá trJ trung bnh c-t

    4à trung bnh biclu"ter t$?ng Mng

    }$ l$%ng c:a m-t phSn tO aij trong biclu"ter ! 123 # $%c Jnh nghYa nh$

    "auP

    r4aij 6 * aij 5 ai3  5 a 1j -a 13  

    jiF "O rEng có thể tDn t8i c:a d$ l$%ng, giá trJ c:a ai trong m-t biclu"ter 

    0h;ng hoàn hFo !nonBper{ect# là $%c Jnh nghYaP

    aij * r4aij 6 - ai3  - a 1j 5 a 13  

    trong ó giá trJ c:a d$ l$%ng là m-t ch3 báo !in=icator # c:a mối li.n 02t

    c:a m-t giá trJ t$?ng ối 45i các giá trJ tDn t8i trong biclu"ter cho tr$5c - "ailệch c:a các hàng có li.n Kuan 4à các c-t có li.n Kuan) }$ l$%ng !re"idue#

    càng giFm, mối li.n 02t càng m8nh)

    1rong trnh t& ể ánh giá ch9t l$%ng tTng thể c:a m-t δBbiclu"ter,

    *heng 4à *hurch Jnh nghYa d$ l$%ng bnh ph$?ng trung bnh ! Sean

    TUuare= :esi=ue# Q, c:a m-t biclu"ter ! 123 # là tTng c:a các d$ l$%ng bnh

     ph$?ng) 6- o }$ l$%ng bnh ph$?ng trung bnh ! Sean TUuare= :esi=ue#$%c $a ra nh$ "auP

    O dụng hàm giá trJ nà+ làm cho nó có thể tm các biclu"ter 45i các giá

    trJ li.n 02t tr.n cF các hàng 4à các c-t từ 0hi m-t - o  L41236x biểu thJ rEng

    các giá trJ trong ma tr(n dữ liệu dao -ng cUng nhau) 6i/u nà+ bao gDm, nh$

    m-t tr$ờng h%p Ac biệt, các biclu"ter" 45i các giá trJ hEng "ố, mà = $%c

    Jnh ' trong [hSn )^)

    6- o Rean Kuared e"idue $%c Jnh nghYa b'i *heng 4à *hurch

    giF Jnh rEng 0h;ng có các giá trJ 0hu+2t trong ma tr(n dữ liệu) 6ể Fm bFo

    i/u 0iện ti.n Ku+2t nà+, hH tha+ th2 các giá trJ 0hu+2t bEng các giá trJ ng7u

    nhi.n, trong "uốt m-t giai o8n ti/n >O lX)

    L

  • 8/18/2019 Bao cao e Van

    16/48

    ang 4à các c-ng "& $a ra thu(t toán …z* tTng Kuát !…e>ible

    z4erlapped bi*lu"tering# Jnh nghYa c:a m-t δBbiclu"ter ể ối phó 45i các

    giá trJ bJ m9t 4à tránh "& can thiệp do "& i/n 4ào ng7u nhi.n $%c "O dụng

     b'i *heng 4à *hurch)

    luger et al c€ng / c(p 2n 49n / >ác Jnh các biclu"ter" 45i các giá

    trJ li.n 02t 4à tm 0i2m các c9u trGc bàn cờ !checkerác Jnh tr$5c ể 0iểm tra có ha+ 0h;ng các giá trJ hàng 0hác nhau

    nhi/u giữa các c-t 4à lo8i b] i những ối t$%ng có ít "& 0hác nhau) au ó hH

    "O dụng m-t hệ "ố t$?ng Kuan nh$ - o t$?ng Dng ể o l$ờng - l5n c:a

    mối Kuan hệ tu+2n tính giữa hai hàng hoAc hai c-t, ể th&c hiện phân cụm ^chi/u) Wh$ 4(+, - o t$?ng Dng nà+ ch3 phụ thu-c 4ào m7u 4à 0h;ng phụ

    thu-c 4ào - l5n tu+ệt ối c:a 4_c t? 0h;ng gian, nó c€ng cho ph_p >ác Jnh

    các biclu"ter" 45i các giá trJ 02t h%p $%c biểu din b'i các m; hnh nhân nh$

    trong !s#)

    *ác cách ti2p c(n biclu"tering tr$5c /u d&a tr.n các m; hnh c-ng

    hoAc nhân, trong ó ánh giá tách biệt óng góp c:a mIi biclu"ter mà 0h;ng/ c(p t5i 4iệc >em >_t những "& t$?ng tác giữa các biclu"ter) 6Ac biệt, hH

    0h;ng th&c "& r† ràng trong 4iệc >_t 2n rEng giá trJ c:a m-t phSn tO cụ thể aij

    trong ma tr(n dữ liệu có thể nhn nh(n nh$ là m-t tTng c:a các óng góp c:a

    các biclu"ter 0hác nhau t5i các hàng i 4à c-t j)

    a~~eroni 4à z|en giFi Ku+2t h8n ch2 nà+ bEng cách gi5i thiệu các m%

    hKnh kV sWc ![laid Rodel# trong ó giá trJ c:a m-t phSn tO trong ma tr(n dữ

    liệu $%c >em nh$ là m-t tTng "ố c:a các terms $%c gHi là các laers) 1rong

    Ls

  • 8/18/2019 Bao cao e Van

    17/48

    m; hnh 0Z "Hc, ma tr(n dữ liệu $%c m; tF nh$ là m-t hàm tu+2n tính c:a các

     bi2n !các la+er"# t$?ng Mng 45i các biclu"ter" c:a nó)

    &.4. Biclust(rs v)i 5i2n "i ,2t h3p.

    Hình 2

    1rong phSn tr$5c chGng ta >em >_t m-t "ố thu(t toán biclu"tering mà

    nhEm mục ích phát hiện các biclu"ter" 45i các giá trJ 02t h%p) *ác thu(t toán

     biclu"tering 0hác giFi Ku+2t 49n / tm 0i2m các bi2n Ti 02t h%p tr.n các

    hàng 4à„hoAc các c-t c:a ma tr(n dữ liệu b9t 0ể giá trJ chính >ác c:a chGng)

    1rong tr$ờng h%p dữ liệu biểu hiện gen, chGng ta có thể Kuan tâm t5i 4iệc tm

    0i2m bEng chMng cho th9+ m-t t(p con các gen $%c là upBregulated !upB

    regulated gene"P là gen i/u ch3nh m-t "ố Kuá trnh c:a t2 bào hoAc c? thể

     bEng cách gia tNng "Fn >u9t m-t "Fn phwm nào ó c:a c? thể ể giGp c? thể

    chống l8i những b9t l%i# hoAc do|nBregulated tr.n m-t t(p con các i/u 0iện

    mà 0h;ng tính 2n giá trJ biểu hiện th&c t2 c:a chGng trong ma tr(n dữ liệu)

    1ính ch9t DngBbi2n Ti có thể $%c Kuan "át th9+ tr.n cF các hàng 4à các c-t

    c:a các biclu"ter", nh$ nó $%c thể hiện trong Qnh ^!{#, tr.n các hàng c:a

     biclu"ter hoAc tr.n các c-t c:a nó) *ác biclu"ter" trnh bà+ trong Qnh ^!h# 4à

    Qnh ^!i# là những 4í dụ c:a các biclu"ter" 45i bi2n Ti 02t h%p tr.n các c-t,

    trong 0hi hnh ^!g# cho th9+ m-t biclu"ter 45i DngBbi2n Ti tr.n các hàng)

    L

  • 8/18/2019 Bao cao e Van

    18/48

    @enB}or 4à c-ng "& Jnh nghYa m-t biclu"ter nh$ m-t ma tr(n con bFo

    toàn thM t& !Xr=er5>reserFing TuTS #) 1heo Jnh nghYa c:a hH,

    m-t biclu"ter là m-t nhóm các hàng mà các giá trJ c:a nó t8o ra m-t tr(t t&

    tu+2n tính tr.n m-t t(p h%p con c:a các c-t) Việc làm c:a hH t(p trung 4ào thM

    t& t$?ng ối c:a các c-t trong biclu"ter h?n là tính thống nh9t c:a các giá trJ

    th&c t2 trong ma tr(n dữ liệu nh$ m; hnh plaid = làm) *ụ thể h?n, hH muốn

    >ác Jnh các z[R" l5n) R-t ma tr(n con là bFo toàn thM t& n2u ' ó có m-t

    hoán 4J c:a các c-t c:a nó d$5i tr(t t& c:a các giá trJ trong t9t cF các hàng là

    hoàn toàn tNng) @iclu"ter $%c trnh bà+ ' trong Qnh ^!i# là m-t 4í dụ c:a

    m-t z[R, trong ó ai ≤ ai^ ≤ ai ≤ aiL, 4à các biểu din c:a m-t biclu"ter 45i bi2n Ti 02t h%p tr.n các c-t c:a nó) Q?n nữa, @enB}or 4à c-ng "& Jnh

    nghYa m-t m; hnh hoàn ch3nh là cAp ! 32π #, trong ó 3  là m-t t(p c:a s c-t 4à

    π *4jY 2 j7 2 ZZZ2 j s 6 là m-t tr(t t& tu+2n tính c:a các c-t trong ) QH nói rEng m-t

    hàng hI tr% ! 32π # n2u các giá trJ t$?ng Mng c:a s, $%c "

    2p theo tr(t t& π 

    là d=+ tNng ?n iệu)

    RAc dU các ti2p c(n d hiểu c:a 49n / z[R "C thành 4iệc tm m-tm; hnh hoàn ch3nh hI tr% l5n nh9t, ó là, m-t t(p các c-t 45i m-t thM t&

    tu+2n tính $%c hI tr% b'i m-t "ố l$%ng l5n nh9t các hàng, @enB}or 4à c-ng

    "& h$5ng 2n 4iệc tm 0i2m m-t m; hnh hoàn ch3nh 45i hI tr% có X nghYa

    thống 0. cao nh9t) & có X nghYa thống 0. c:a m-t z[R cụ thể là nó $%c

    tính toán "O dụng m-t c(n tr.n tr.n >ác "u9t mà m-t ma tr(n dữ liệu ng7u

    nhi.n có 0ích th$5c n > m "C chMa m-t m; hnh hoàn ch3nh có cƒ  s 45i k  hoAcnhi/u h?n các hàng hI tr% nó) 1rong tr$ờng h%p nà+ ma tr(n biểu din gene

    nh$ là m-t ma tr(n con = $%c >ác Jnh b'i m-t t(p con các gene" 4à m-t t(p

    con các i/u 0iện, "ao cho, trong t(p các i/u 0iện, mMc - biểu din c:a t9t

    cF các gene có thM t& tu+2n tính giống nhau) }o ó, @enB}or 4à c-ng "& nhác Jnh 4à ánh giá thống 0. c:a các m7u DngBbiểu din có các t(p

    các gene" l5n) Wgoài ra, hH c€ng >em >_t rEng, trong nhi/u tr$ờng h%p, dữ

    liệu gDm nhi/u h?n m-t m7u)

    L•

  • 8/18/2019 Bao cao e Van

    19/48

    au ó, 45i cUng m-t X t$'ng, iu 4à ‚ang Jnh nghYa m-t biclu"ter 

    nh$ m-t X>5/luster  !zrder [re"er4ing *lu"ter#) Rục ti.u c:a hH c€ng là ể

    0hám phá ra các biclu"ter" 45i bi2n ối 02t h%p tr.n các c-t) }o ó, các

     biclu"ter trnh bà+ trong Qnh ^!i# là m-t 4í dụ c:a m-t z[R 4à c€ng c:a

    m-t z[B*lu"ter)

    Rurali 4à a"i{ h$5ng t5i mục ích tm 0i2m các biểu hiện gen bFo

    toàn !>Rz1f…"#) QH >ác Jnh m-t >Rz1f… nh$ m-t t(p h%p con c:a các

    gene !các hàng# $%c Dng thời bFo toàn Kua m-t t(p h%p con c:a các i/u

    0iện !các c-t#) RMc - biểu hiện c:a m-t gen $%c bFo toàn Kua m-t t(p h%p

    con c:a i/u 0iện n2u gen ' tr8ng thái t$?ng t& nhau trong mIi i/u 0iện trongt(p nà+) QH cho rEng m-t tr8ng thái c:a gen là m-t chuIi các giá trJ biểu din

    4à giF Jnh rEng có m-t giá trJ nh9t Jnh, "ố l$%ng các tr8ng thái) *ác tr8ng

    thái nà+ có thể ch3 ?n giFn là upBregulated 4à do|nBregulated, 0hi ch3 có hai

    tr8ng thái $%c >em >_t) R-t 4í dụ 4/ m-t biclu"ter hoàn hFo trong cách ti2p

    c(n nà+ là m-t trong những trnh bà+ trong Qnh ^!g#, trong ó T i là biểu thJ

     biểu din cho tr8ng thái bFo toàn c:a hàng !gen# i)Rurali 4à a"i{ cho rEng dữ liệu có thể chMa m-t "ố >Rz1f…"

    !biclu"ter"# 4à nhEm tm 0i2m các >Rz1f… l5n nh9tP các biclu"ter có chMa "ố

    l$%ng tối a các hàng $%c bFo toàn) Qàm giá trJ $%c "O dụng ể ánh giá

    ch9t l$%ng c:a m-t biclu"ter $%c $a ra là 0ích th$5c c:a t(p con c:a các

    hàng thu-c 4/ nó) *Ung 45i i/u 0iện bFo toàn nà+, m-t >Rz1f… phFi có -

    l5n th]a m=n 4à các thu-c tính l5nP "ố l$%ng các c-t phFi trong ít nh9t t‡ lệα

    c:a t9t cF các c-t trong ma tr(n dữ liệu, 4à 45i t9t cF các hàng 0h;ng nEm

    trong >Rz1f…, hàng phFi bFo toàn ch3 trong m-t t‡ lệ  β c:a các c-t trong nó)

    *hG X rEng, ti2p c(n nà+ t$?ng t& 45i m-t cách "au ó b'i @enB}or 4à c-ng

    "&) @enB}or 4à c-ng "& >em >_t rEng các hàng !gene"# có ch3 ^ tr8ng thái !upB

    regulated 4à do|nBregulated# 4à tm 0i2m m-t nhóm các hàng mà các tr8ng

    thái c:a nó t8o ra m-t "ố tr(t t& tu+2n tính trong m-t t(p con các c-t !các i/u

    0iện#) 6i/u nà+ có nghYa là mMc - biểu din c:a các gene" trong biclu"ter 

    L

  • 8/18/2019 Bao cao e Van

    20/48

    tNng hoAc giFm giữa i/u 0iện nà+ 45i i/u 0iện 0ia) Rurali 4à a"i{ >em >_t

    rEng các hàng !gene"# có thể có m-t "ố l$%ng nh9t Jnh các tr8ng thái 4à tm

    0i2m m-t nhóm các c-t !condition"# trong ó m-t t(p con các hàng có tr8ng

    thái giống nhau)

    1ana+ 4à c-ng "& Jnh nghYa m-t biclu"ter nh$ m-t t(p h%p con c:a các

    gen !hàng# mà cUng nhau phFn Mng tr.n m-t t(p h%p con c:a i/u 0iện !c-t#)

    R-t gen $%c >em >_t 4iệc phFn Mng trong m-t i/u 0iện nh9t Jnh n2u mMc

    - biểu hiện c:a nó tha+ Ti áng 0ể ' i/u 0iện ó 45i chG X t5i mMc -

    chuwn c:a nó) 1r$5c 0hi `R@` !tati"ticalB`lgorithmic Rethod {or 

    @iclu"ter `nal+"i"# $%c áp dụng, ma tr(n dữ liệu biểu hiện $%c m; hnh hóanh$ m-t D thJ hai phía có hai phSn t$?ng Mng 45i i/u 0iện !c-t# 4à gen

    !hàng#, t$?ng Mng, 45i m-t c8nh cho mIi tha+ Ti biểu hiện áng 0ể) Rục ti.u

    `R@` là ể 0hám phá biclu"ter" !D thJ con# 45i m-t "& bi2n Ti 02t h%p

    tTng thể)

    4. Cấu trc !icluster

    Hình 3

    ^x

  • 8/18/2019 Bao cao e Van

    21/48

    *ác thu(t toán @iclu"tering giF Jnh m-t trong những tr$ờng h%p "au

    â+P hoAc là ch3 có m-t biclu"ter trong ma tr(n dữ liệu !>em hnh !a##, hoAc

    ma tr(n dữ liệu chMa biclu"ter", trong ó là "ố biclu"ter" chGng t;i h+

    4Hng >ác Jnh $%c 4à th$ờng $%c Jnh nghYa là apriori) 1rong 0hi hSu h2t

    các thu(t toán giF Jnh "& tDn t8i c:a nhi/u biclu"ter" trong ma tr(n dữ liệu,

    những ng$ời 0hác ch3 nhEm mục ích tm 0i2m m-t biclu"ter) 1rong th&c t2,

    mAc dU các thu(t toán có thể có thể tm th9+ nhi/u h?n m-t biclu"ter, các

     biclu"ter mục ti.u Kuan tâm th$ờng là m-t trong "ố ó $%c coi là tốt nh9t

    theo m-t "ố ti.u chí cụ thể)

    hi thu(t toán biclu"tering giF Jnh "& tDn t8i c:a m-t 4ài biclu"ter"trong ma tr(n dữ liệu, các c9u trGc biclu"ter "au có thể có !Qnh !b# 4à !i#))#P

    L# *ác biclu"ter" hàng 4à c-t ri.ng biệt !0hối $ờng ch_o hnh chữ nh(t

    "au 0hi các hàng 4à các c-t "

    2p l8i#)

    ^# *ác biclu"ter" 0h;ng chDng ch_o 45i c9u trGc bàn cờ)

    # *ác biclu"ter" có các hàng ri.ng biệt)

    # *ác biclu"ter" có các c-t ri.ng biệt)# *ác biclu"ter" 0h;ng chDng ch_o 45i c9u trGc câ+)

    s# *ác biclu"ter" 0h;ng ri.ng biệt 0h;ng chDng ch_o)

    # *ác biclu"ter" chDng ch_o 45i c9u trGc phân c9p)

    •# *ác biclu"ter" chDng ch_o 4J trí tU+ tiện)

    R-t iểm 0h'i Su t& nhi.n ể 8t $%c mục ti.u c:a 4iệc >ác Jnh m-t

    "ố biclu"ter" trong m-t ma tr(n dữ liệu ` là >ác Jnh m-t hnh Fnh màu "

  • 8/18/2019 Bao cao e Van

    22/48

    "C >em >_t các cách "

    2p l8i các hàng 4à c-t ể nhóm l8i 45i nhau thành

    các hàng t$?ng t& 4à các c-t t$?ng t&, do ó t8o thành m-t bMc hnh 45i các

    0hối có màu "em >_t !>em hnh !b##) RAc

    dU i/u nà+ có thể là cách ti2p c(n Su ti.n ể trích >u9t dữ liệu từ tri thMc từ

    dữ liệu biểu hiện gen, nó từ lâu = $%c c;ng nh(n là m-t "

    2p l8i lX t$'ng

    nh$ 4(+, i/u ó "C d7n 2n m-t c9u trGc biclu"ter nh$ 4(+, "C hi2m 0hi tDn t8itrong dữ liệu th&c t2)

    6ối mAt 45i th&c t2 nà+, b$5c t& nhi.n ti2p theo là >em >_t các hàng 4à

    c-t ó có thể thu-c 4/ nhi/u h?n m-t biclu"ter, 4à giF Jnh m-t c9u trGc bàn

    cờ trong ma tr(n dữ liệu !>em hnh !c##) @Eng cách nà+, chGng t;i cho ph_p

    "& tDn t8i c:a biclu"ter" 0h;ng chDng ch_o 4à 0h;ng du+ nh9t trong ó mIi

    hàng trong ma tr(n dữ liệu thu-c 4/ chính >ác biclu"ter") *ác áp dụng t$?ng

    t& cho các c-t) luger 4à c-ng "& giF Jnh c9u trGc nà+ có tr.n dữ liệu bệnh

    ung th$) 1hu(t toán .ou

  • 8/18/2019 Bao cao e Van

    23/48

    nà+, $%c trnh bà+ trong Qnh !d#, giF Jnh các biclu"ter" các hàng du+ nh9t

    4à $%c "O dụng b'i nhóm tác giF heng 4à nhóm tác giF 1ang) 1u+ nhi.n,

    những ph$?ng pháp ti2p c(n nà+ c€ng có thể "inh ra các biclu"ter" có các c-t

    chHn lHc 0hi các thu(t toán $%c "O dụng bEng cách "O dụng Jnh h$5ng ối

    diện c:a ma tr(n dữ liệu) 6i/u nà+ có nghYa rEng các c-t c:a ma tr(n dữ liệu

    ch3 có thể thu-c 4/ m-t biclu"ter trong 0hi các hàng có thể thu-c 4/ m-t hoAc

    nhi/u biclu"ter" !>em Qnh !e##)

    *ác c9u trGc trnh bà+ trong Qnh !b# t5i Qnh !e# giF Jnh rEng các

     biclu"ter" là S+ :, có nghYa là, mIi hàng 4à mIi c-t trong ma tr(n dữ liệu

    thu-c 4/ ít nh9t m-t biclu"ter) 1u+ nhi.n, chGng ta có thể >em >_t các bi2n thể0h;ng S+ : c:a các c9u trGc mà làm cho nó có thể là m-t "ố hàng 4à c-t

    0h;ng thu-c 4/ b9t cM biclu"ter nào) *ác c9u trGc biclu"ter S+ : 0hác, bao

    gDm c9u trGc câ+ $%c >em >_t b'i Qartigan 4à nhóm 1ib"hirani 4à nó $%c

    m; tF trong Qnh !{#, 4à c9u trGc trong Qnh !g#) R-t bi2n thể 0h;ng S+ :

    4/ c9u trGc trnh bà+ trong Qnh !g# $%c giF Jnh b'i ‚ang 4à c-ng "&)

    h;ng cái nào trong "ố các c9u trGc cho ph_p chDng ch_o, ó là, 0h;ng c9utrGc nào trong "ố các c9u trGc nà+ làm cho nó có thể là m-t cAp Ac biệt !hàng,

    c-t# thu-c 4/ nhi/u h?n m-t biclu"ter)

    *ác c9u trGc biclu"ter tr$5c ó là h8n ch2 trong nhi/u mAt) R-t mAt,

    m-t "ố ng$ời cho rEng, mục ích tr&c Kuan, t9t cF các biclu"ter" $%c >ác Jnh

    cSn $%c Kuan "át tr&c ti2p tr.n ma tr(n dữ liệu 4à hiển thJ nh$ m-t biểu din

    ti2p giáp "au 0hi th&c hiện 4iệc "

    2p l8i chung c:a các hàng 4à c-t c:a

    chGng) RAt 0hác, những ng$ời 0hác cho rEng biclu"ter" là S+ : có nghYa là,

    mIi hàng 4à mIi c-t trong ma tr(n dữ liệu thu-c 4/ ít nh9t m-t biclu"ter) 1u+

    nhi.n, nhi/u 0hF nNng, trong dữ liệu th&c t2, m-t "ố hàng hoAc c-t 0h;ng

    thu-c 4/ b9t cM biclu"ter ' t9t cF 4à các biclu"ter" có thể chDng ch_o ' m-t "ố

    n?i) 1u+ nhi.n có thể m' ra hai thu-c tính nà+ mà 0h;ng Fnh h$'ng 2n thu-c

    tính tr&c Kuan n2u c9u trGc phân c9p $%c / nghJ b'i Qartigan $%c giF Jnh)

    *9u trGc nà+, $%c m; tF trong Qnh !h#, +.u cSu m-t trong hai biclu"ter"

    ^

  • 8/18/2019 Bao cao e Van

    24/48

    th$ờng tách rời hoAc m-t cái nà+ bao các 0hác) Qai bi2n Ti c:a c9u trGc nà+,

    là những c9u trGc câ+ trnh bà+ trong Qnh !{#, trong ó các biclu"ter" t8o

    thành m-t câ+, 4à c9u trGc bàn cờ $%c m; tF trong Qnh !c#, trong ó các

     biclu"ter", các cụm hàng 4à các cụm c-t /u là các câ+)

    R-t c9u trGc biclu"ter tTng Kuát h?n cho ph_p "& tDn t8i c:a  

     biclu"ter" có thể chDng ch_o mà 0h;ng tính 2n Kuan "át tr&c ti2p c:a chGng

    trong ma tr(n dữ liệu 45i m-t "

    2p l8i chung c:a các hàng 4à c-t c:a nó)

    Q?n nữa, những biclu"ter" 0h;ng du+ nh9t nà+ c€ng có thể là 0h;ng S+ :,

    có nghYa là m-t "ố hàng hoAc c-t có thể 0h;ng thu-c 4/ b9t cM biclu"ter) R-t

    "ố thu(t toán biclu"tering cho ph_p có c9u trGc tTng Kuát h?n nà+, $%c trnh bà+ trong Qnh !i#)

    R; hnh [laid có thể $%c "O dụng ể m; tF hSu h2t các biclu"ter" c9u

    trGc 0hác nhau nà+) Q8n ch2 mIi hàng 4à mIi c-t là trong Gng m-t biclu"ter 

    t$?ng Mng 45i các i/u 0iệnP

      )

    *ho ph_p chDng ch_o cSnP

    )

    1$?ng t&, cho ph_p m-t "ố các hàng hoAc các c-t 0h;ng thu-c 4/ b9t cM

     biclu"ter nào t$?ng Mng 45i các h8n ch2

    45i m-t "ố )

    6i/u nà+ có nghYa rEng n2u 0h;ng có b9t cM ràng bu-c, m; hnh [laid

     biểu din cho ma tr(n dữ liệu nh$ m-t tTng c:a các biclu"ter" có thể chDng

    ch_o nh$ trnh bà+ trong Qnh !i#)

    ". Các thu#t toán

    *ác thu(t toán @iclu"tering có thể có hai mục ti.u 0hác nhauP >ác Jnh

    m-t hoAc ể >ác Jnh m-t "ố l$%ng nh9t Jnh c:a biclu"ter") R-t "ố ph$?ng

     pháp cố gác Jnh m-t biclu"ter t8i m-t thời iểm nh$ *heng 4à *hurch,

    nhóm c:a heng, 4í dụ, >ác Jnh m-t biclu"ter t8i m-t thời iểm, ph: nó 45i

    ^

  • 8/18/2019 Bao cao e Van

    25/48

    những con "ố ng7u nhi.n, 4à lAp l8i các th: tục ể cuối cUng tm các biclu"ter"

    0hác) a~~eroni 4à z|en c€ng cố gác Jnh m-t "ố >Rz1f…" !biclu"ter"#

    cUng m-t lGc, mAc dU hH ch3 báo cáo m-t trong ó $%c coi là tốt nh9t theo

    0ích th$5c l5n 4à ti.u chuwn $%c "O dụng) 1ana+ 4à c-ng "& "O dụng

    `R@` ể th&c hiện >ác Jnh biclu"ter Dng thời "O dụng liệt 0. S+ :

     biclu"ter, nh$ng h8n ch2 "ố l$%ng hàng các biclu"ter" có thể có) iu 4à and,

    ang c€ng "O dụng liệt 0. biclu"ter S+ : ể th&c hiện >ác Jnh biclu"tering

    Dng thời) *ác ph$?ng pháp ti2p theo b'i @u"+gin, luget 4à *ali{ano c€ng

    tm ra t9t cF các biclu"ter" cUng m-t lGc)

    }o "& phMc t8p c:a 49n /, m-t "ố ph$?ng pháp ph]ng oán 0hác nhau

    = $%c "O dụng ể giFi Ku+2t 49n / nà+) QH có thể $%c chia 4ào l5p thu(t

    toán, nghi.n cMu trong nNm phSn d$5i â+P

    L# 2t h%p 4iệc lAp i lAp l8i 4iệc phân cụm hàng 4à c-t)

    ^# *hia ể trJ)

    ^

  • 8/18/2019 Bao cao e Van

    26/48

    # 1m 0i2m lAp tham lam)

    # iệt 0. @iclu"ter S+ :)

    # \ác Jnh tham "ố phân bố)

    *ách ?n giFn ể th&c hiện 4iệc >ác Jnh biclu"ter là áp dụng các thu(t

    toán phân cụm các hàng 4à c-t c:a ma tr(n dữ liệu, ri.ng biệt, 4à "au ó 02t

    h%p các 02t KuF "O dụng m-t "ố lo8i th: tục lAp i lAp l8i ể 02t h%p hai cụm

    "

    2p) R-t "ố thu(t toán "O dụng X t$'ng 02t h%p lAp phân cụm hàng 4à c-t

    nà+, 4à $%c m; tF trong [hSn )L)

    *ách ti2p c(n 0hác "O dụng m-t cách ti2p c(n chiaBểBtrJP hH tách các

    49n / thành nhi/u bài toán t$?ng t& nh$ 49n / ban Su nh$ng 0ích th$5cnh] h?n, giFi Ku+2t 49n / ệ Ku+, 4à "au ó 02t h%p các giFi pháp ể t8o ra

    m-t giFi pháp cho 49n / ban Su) Whững cách ti2p c(n biclu"tering $%c m;

    tF trong [hSn )^)

    R-t "ố l$%ng l5n các ph$?ng pháp, nghi.n cMu trong [hSn ), th&c

    hiện m-t "ố hnh thMc tm 0i2m lAp i lAp l8i tham lam) QH lu;n lu;n th&c hiện

    4iệc l&a chHn tối $u t8i cục b- 45i h+ 4Hng rEng "& l&a chHn nà+ "C d7n 2nm-t giFi pháp toàn b- tốt)

    R-t "ố tác giF / >u9t ph$?ng pháp th&c hiện liệt 0. biclu"ter S+ :)

    R-t "ố ph$?ng pháp = $%c "O dụng ể tNng tốc - tm 0i2m S+ :, trong

    m-t "ố tr$ờng h%p là h8n ch2 4/ 0ích th$5c c:a các biclu"ter" ó "C $%c liệt

    0.) *ác thu(t toán nà+ $%c "Oa Ti t8i [hSn ))

    o8i cuối cUng c:a các cách ti2p c(n chGng ta th&c hiện 4iệc >ác Jnh

    tham "ố phân phối) Whững cách ti2p c(n nà+ giF Jnh rEng các biclu"ter" $%c

    t8o ra bEng cách "O dụng m-t m; hnh thống 0. $a ra 4à cố gác Jnh

    các tham "ố phân phối phU h%p, m-t cách tốt nh9t, các dữ liệu có "‰n, bEng

    cách giFm thiểu m-t ti.u chuwn nh9t Jnh th;ng Kua m-t cách ti2p c(n lAp i

    lAp l8i) [hSn ) m; tF các ph$?ng pháp ti2p c(n nà+)

    ^s

  • 8/18/2019 Bao cao e Van

    27/48

    6.'. 72t h3p l1p ph%n c8m hàng và c#t 

    *ách ?n giFn ể th&c hiện biclu"tering "O dụng 0Š thu(t hiện t8i là áp

    dụng ph$?ng pháp phân cụm chuwn tr.n các 0h;ng gian c-t 4à hàng c:a ma

    tr(n dữ liệu, 4à "au ó 02t h%p các 02t KuF ể có $%c các biclu"ter") R-t "ố

    tác giF = / >u9t ph$?ng pháp d&a tr.n X t$'ng nà+)

    1he /ouple= Dwo5Ea /lustering  !*1‚*# tm cách >ác Jnh các cAp

    các t(p con t$?ng ối nh] các thu-c tính !…i# 4à các ối t$%ng !z #, trong ó cF

    hai …i  4à z  có thể là các hàng hoAc c-t, nh$ 4(+ 0hi ch3 có các thu-c tính

    trong …i $%c "O dụng ể phân nhóm các ối t$%ng t$?ng Mng z , các phân

    4Ung Tn Jnh 4à có X nghYa >u9t hiện ra) Wó "O dụng m-t heuri"tic ể tránh4iệc liệt 0. S+ : !bruteB{orce# t9t cF các 02t h%p có thểP ch3 các t(p con c:a

    các hàng hoAc các c-t $%c >ác Jnh là các cụm Tn Jnh trong 4iệc lAp i lAp

    l8i phân cụm tr$5c ó là Mng 4i.n cho Kuá trnh lAp 02 ti2p)

    *1‚* b

  • 8/18/2019 Bao cao e Van

    28/48

    "ách các cAp t(p con c:a các hàng 4à c-t) 18i mIi lSn lAp, m-t t(p h%p con

    hàng 4à m-t t(p h%p con c-t $%c 02t cAp 4à $%c phân nhóm l7n nhau nh$

    các ối t$%ng 4à các thu-c tính) *ụm Tn Jnh m5i $%c t8o ra $%c th.m 4ào

    danh "ách hàng 4à c-t 4à m-t con tr] ể >ác Jnh các cAp cha m‹ $%c ghi l8i

    ể cho bi2t từ n?i nào cụm nà+ >u9t hiện) Ap i lAp l8i li.n tục cho 2n 0hi

    0h;ng có cụm m5i nào áp Mng m-t "ố ti.u chí nh$ "& Tn Jnh 4à 0ích th$5c

    gi5i h8n $%c tm th9+)

    1hu(t toán 1nterrelate= Dwo5Ea /lustering  !f1‚*# là m-t thu(t toán

     biclu"tering lAp i lAp l8i d&a tr.n "& 02t h%p c:a các 02t KuF thu $%c bEng

    các cách phân cụm th&c hiện tr.n m-t trong hai chi/u c:a ma tr(n dữ liệuri.ng biệt) 1rong mIi lSn lAp c:a f1‚* có b$5c chính)

    1rong b$5c Su ti.n, phân nhóm $%c th&c hiện trong chi/u hàng c:a

    ma tr(n dữ liệu) Whiệm 4ụ trong b$5c nà+ là phân cụm nY hàng 4ào ;  nhóm,

    0X hiệu là 1 i, iL,))), mIi trong "ố ó là m-t t(p h%p con du+ nh9t c:a t(p t9t

    cF các hàng M ) Š thu(t phân nhóm $%c "O dụng có thể là b9t 0q ph$?ng

     pháp nào $a ra $%c "ố l$%ng cụm) 1ang 4à c-ng "& "O dụng Bmean")1rong b$5c thM hai, 4iệc phân cụm $%c th&c hiện trong chi/u c-t c:a ma tr(n

    dữ liệu) }&a tr.n từng nhóm  1 i, iL,))),0, các c-t $%c -c l(p phân nhóm

    thành hai cụm, $%c biểu din là 3 i2a 4à 3 i2a,b)

    @$5c thM t$ c:a f1‚* nhEm mục ích tm 0i2m các cAp 0h;ng Dng

    nh9t !/  s 2 / t #, ",tL,))),) *Ap 0h;ng Dng nh9t là các nhóm c:a các c-t mà

    0h;ng chia "Z các thu-c tính c:a hàng $%c "O dụng ể phân nhóm) 2t KuF

    c:a b$5c nà+ là m-t t(p h%p các biclu"ter" phân chia cao, $%c >ác Jnh b'i

    t(p h%p các c-t trong /  s 4à / t  4à các hàng $%c "O dụng ể >ác Jnh các cụm

    t$?ng Mng) *uối cUng, f1‚* "

    2p các hàng c:a ma tr(n theo thM t& giFm

    ^•

  • 8/18/2019 Bao cao e Van

    29/48

    dSn 4/ 0hoFng cách co"in giữa hàng 4à mIi hàng biểu din c:a mIi biclu"ter 

    !thu $%c bEng cách >em >_t giá trJ L trong mIi mục cho các c-t trong /  s 4à

    / t , t$?ng Mng#) L„ các hàng Su ti.n $%c giữ l8i) @Eng cách nà+, hH có $%c

    m-t chuIi hàng giFm 1H  cho từng nhóm 0h;ng Dng nh9t) 1rong thM t& l&a

    chHn các t(p hàng 1H  n.n $%c l&a chHn cho b$5c lAp ti2p theo c:a thu(t toán,

    hH "O dụng >ác th&c ch_o !cro""B4alidation#) au b$5c cuối cUng nà+, "ố l$%ng

    hàng bJ giFm từ nL >uống n^ 4à nNm b$5c tr.n có thể $%c lAp i lAp l8i bEng

    cách "O dụng n^ hàng $%c l&a chHn cho 2n 0hi các i/u 0iện gi5i h8n c:a

    thu(t toán $%c th]a m=n)

    1hu(t toán }ouble *onugated *lu"tering !}**# c€ng là m-t thu(t toánlAp, th&c hiện phân cụm tr.n các hàng 4à các c-t c:a ma tr(n dữ liệu "O dụng

    zR 4à gócBmetric là - o t$?ng Dn

    6.+. hia "9 trị 

    *ác thu(t toán chia ể trJ có l%i th2 áng 0ể là có 0hF nNng r9t nhanh)

    1u+ nhi.n, nó có nh$%c iểm r9t Kuan trHng là 4iệc có 0hF nNng b] "ót các

     biclu"ter" tốt mà có thể $%c chia tr$5c 0hi chGng có thể $%c >ác Jnh)[hân cụm 0hối ! 0lock /lustering # là cách ti2p c(n chia ể trJ Su ti.n ể

    th&c hiện biclu"tering) [hân cụm 0hối là m-t thu(t toán 1op }o|n, phân cụm

    hàng 4à c-t c:a ma tr(n dữ liệu) *ác thu(t toán c? bFn ể tách 0hối tr$5c â+

    $%c th&c hiện b'i Qartigan, $%c gHi là [hân cụm tr&c ti2p) *ác thu(t toán

     phân cụm 0hối bác Jnh 0hi m-t "&

    ^

  • 8/18/2019 Bao cao e Van

    30/48

    chia rC 0hối $%c cho là 0h;ng có X nghYa áng 0ể) 1heo h$5ng nà+,

    1ib"hirani 4à c-ng "& m' r-ng th.m m-t ph$?ng pháp c

  • 8/18/2019 Bao cao e Van

    31/48

    6ể tm ra m-t "ố l$%ng nh9t Jnh các biclu"ter", cách >óa nGt tham

    lam $%c th&c hiện Su ti.n 4à "au ó là bT "ung nGt tham lam) *ác thu(t toán

     phát hiện ra m-t biclu"ter t8i m-t thời iểm) 18i mIi lSn lAp l8i, các thu(t toán

     b

  • 8/18/2019 Bao cao e Van

    32/48

     b# Ap i lAp l8i 4iệc th.m hàng hoAc c-t cho 2n 0hi 0h;ng thể bT "ung

    ể Q!f,# ’‘) *n l8i ma tr(n con "C chính là m-t biclu"ter tm $%c) W2u ma

    tr(n cn l8i là trống rIng, mà có nghYa là 0h;ng ‘Bbiclu"ter nào $%c tm th9+)

    jiF "O rEng ma tr(n con ang >_t là `!f,#, "& óng góp c:a hàng i ∈f

    làP

    df,!i#  j 3 ∈

    ∑ !ai,  af,  ai, Ž af,#^ „ )

    6óng góp c:a c-t ∈ làP

    ef,!# i 1 ∈∑ !ai,  af,  ai, Ž af,#

    ^ „ f)

    Œuá trnh th&c hiệnP

    a# \óa i hàng i 45i df,!i# “ Q!f,# !hoAc >óa i c-t 45i ef,!# “ Q!f,##

    $%c Q m5i)

     b# 1h.m m-t hàng i 45i df,!i# ’ Q!f,# !hoAc th.m m-t c-t 45i ef,!# ’

    Q!f,## $%c Q m5i)au 0hi h-i tụ, thu(t toán cho Su ra là m-t ma tr(n con 45i giá trJ d$

    trung bnh !mean re"idue# nh])

    RAc dU 4iệc bao ph: biclu"ter" t8o ra tr$5c ó có thể cho rEng nó 0h;ng

    thể tm th9+ các biclu"ter" chDng ch_o, i/u nà+ là trong th&c t2 có thể, 0ể từ

    0hi b$5c th.m nGt $%c th&c hiện bEng cách "O dụng giá trJ ban Su trong ma

    tr(n dữ liệu 4à 0h;ng phFi là những giá trJ ng7u nhi.n $%c $a 4ào trong Kuá

    trnh ph:) 1u+ nhi.n, 4iệc phát hiện các biclu"ter" chDng ch_o cao là 0h;ng có

    0hF nNng, 4 các +2u tố c:a các biclu"ter" = $%c >ác Jnh = $%c che ph:

     b'i nhiu ng7u nhi.n)

    6.4.

  • 8/18/2019 Bao cao e Van

    33/48

     biclu"ter" tốt nh9t, n2u chGng tDn t8i, nh$ng có m-t nh$%c iểm r9t nghi.m

    trHng) }o tính phMc t8p cao, hH ch3 có thể $%c th&c hiện b'i những h8n ch2

    4/ 0ích th$5c c:a biclu"ter" giF)

    1ana+ 4à c-ng "& gi5i thiệu `R@` !tati"ticalB`lgorithmic Rethod

    {or @iclu"ter `nal+"i"#, m-t thu(t toán biclu"tering mà th&c hiện >ác Jnh các

     biclu"ter Dng thời bEng cách "O dụng liệt 0. S+ :) `R@` tránh m-t thời

    gian ch8+ theo c9p "ố nhân bEng cách h8n ch2 "ố l$%ng hàng các biclu"ter" có

    thể biểu din) QH "O dụng D thJ hnh thMc $%c m; tF trong [hSn ^)L, 4à >ác

    Jnh là mục ti.u c:a hH là >ác Jnh trHng l$%ng tối a D thJ con, giF Jnh rEng

    trHng l$%ng c:a m-t D thJ con "C t$?ng Mng 45i X nghYa thống 0. c:a nó)hám phá các biclu"ter" có X nghYa nh9t trong ma tr(n dữ liệu d$5i các

    m; hnh trHng "ố nà+ t$?ng $?ng 45i 4iệc l&a chHn các D thJ con nAng nh9t

    trong m; hnh D thJ ^ phSn) `R@` giF Jnh rEng hàng các 3nh có - = B

    gi5i h8n) 6i/u nà+ t$?ng Mng 45i m-t gi5i h8n 4/ 0ích th$5c c:a các

     biclu"ter" $%c phát hiện 0ể từ 0hi "ố l$%ng các hàng 0h;ng thể 4$%t Kuá giá

    trJ nà+) 1rong tr$ờng h%p dữ liệu biểu hiện gen, h8n ch2 nà+ là h%p lX b'i th&ct2 là gen r9t th$ờng >u+.n thể hiện mMc - biểu hiện cao nói chung là 0h;ng

    có X nghYa nhi/u lác Jnh

    m-t gen là upBregulated hoAc do|nBregulated n2u mMc - biểu din chuwn hóa

    !45i trung bnh là x 4à ph$?ng "ai L#, là, t$?ng Mng, tr.n L hoAc d$5i BL) 1rong

    giai o8n hai, thu(t toán tm th9+ bicliKue" nAng nh9t trong D thJ) 6i/u nà+

    $%c th&c hiện bEng cách nhn 4ào m-t bFng tính toán tr$5c 45i các trHng "ố

    c:a các bicliKue" giao nhau mIi c-t !i/u 0iện# hoAc hàng !gen# $a ra 4à

    chHn bicliKue" tốt nh9t) 6ể cFi thiện hiệu "u9t c:a th: tục nà+, các hàng

    !gene# 45i mMc - 4$%t Kuá =  $%c b] Kua 4à 4iệc bNm mIi hàng !gene# $%c

    th&c hiện ch3 tr.n m-t phSn nh] c:a các láng gi/ng c:a nó có 0ích th$5c trong

    m-t ph8m 4i nh9t Jnh) 1rong m-t giai o8n "au >O lX, `R@` th&c hiện

    tham lam 4iệc c-ng hoAc trừ các 3nh ể th&c hiện m-t cFi thiện cục b- tr.n

  • 8/18/2019 Bao cao e Van

    34/48

     biclu"ter" 4à lHc những ối t$%ng t$?ng t&) Qai biclu"ter" $%c coi là t$?ng t&

    n2u b- 3nh c:a hH !t(p h%p con c:a các hàng 4à t(p h%p con c:a c-t#, ch3

    0hác nhau m-t chGt) [hSn giao giữa hai biclu"ter" $%c Jnh nghYa bEng "ố

    l$%ng các c-t chia "Z nhân 45i "ố hàng chia "Z)

    ” :huật t0án ?A@BA

    6Su ti.n thu(t toán chu+ển Ti dữ liệu các gen cUng 45i các i/u 0iện

    input thành dữ liệu biểu din d$5i d8ng m-t D thJ hai phía j !, V, k# trong

    ó là t(p h%p các i/u 0iện, V là t(p h%p c:a các gen 4à !u, 4# ∈ k 0hi 4à

    ch3 0hi gen 4 t$?ng Mng trong tnh tr8ng u, nh$ 4(+, n2u mMc - biểu hiện c:a

    4 tha+ Ti áng 0ể trong u li.n Kuan 2n mMc - bnh th$ờng c:a nó) 6i/unà+ làm giFm các 49n / 4/ phát hiện các biclu"ter có X nghYa nh9t trong dữ

    liệu ể tm 0i2m các D thJ con dà+ Ac nh9t trong m-t D thJ hai phía)

    *ác cAp 3nh trong D thJ $%c gu9t hiện trong D thJ con dà+ Ac m-t cách

  • 8/18/2019 Bao cao e Van

    35/48

    ng7u nhi.n#) 6ể phân biệt giữa D thJ con dà+ Ac —th&c "&— dà+ Ac 4à D thJ

    con mang X nghYa thống 0., chGng t;i "C "o "ánh các D thJ 45i m-t D thJ

    ng7u nhi.n 45i các Ac tính t$?ng Dng) 2t KuF "C là m-t hàm trHng "ố tr.n

    các cAp !u,4#) 6ể làm i/u ó, m-t m; hnh D thJ ng7u nhi.n "C $%c "O dụng

    ể $a ra m-t likelihoo= ratio score)

     S% hKnh đ[ th" ng\u nhiên) R; hnh giF thu+2t, hoAc m; hnh D thJ

    ng7u nhi.n, giF Jnh rEng mIi cAp 3nh !u, 4# t8o thành m-t c8nh 45i >ác "u9t

     p!u, 4#, -c l(p 45i t9t cF các c8nh 0hác) p !u, 4# $%c Jnh nghYa là >ác "u9t

    Kuan "át m-t c8nh !u, 4# trong m-t D thJ hai phía degreeBpre"er4ing ng7u

    nhi.n) [!u,4# >9p >3 bEng dud4„m, trong ó du là b(c c:a , d4 là b(c c:a V,4à m là tTng "ố các c8nh)

     S% hKnh 0icluster ) R; hnh giF thu+2t tha+ th2, hoAc m; hnh biclu"ter,

    giF Jnh rEng mIi c8nh c:a m-t biclu"ter >u9t hiện 45i m-t >ác "u9t cao cố

    Jnh pc)

     ]ikelihoo= ratio score) 6- o t‡ lệ 0hF nNng có thể >F+ ra c:a m-t D

    thJ con @ !–, V–, k–# là

    !@#

    log!@#

    1hi2t l(p trHng "ố c:a các c8nh bEng log pc„p!u,4# 4à 0h;ng có c8nh là

    log LBpc„LBp!u,4# "C $a ra 02t KuF trong - o c:a @ ?n giFn là tTng c:a các

    trHng "ố các c8nh 4à 0h;ng c8nh c:a nó)og!Q# là trHng "ố c:a D thJ con Q) W2u chGng ta giF "O rEng chGng

    ta tm th9+ các biclu"ter 45i các thu-c tính ho8t -ng phU h%p 45i i/u 0iện

    th;ng th$ờng t$?ng Dng nhau cUng 45i m-t t(p các m7u t$?ng Mng 45i các

     biclu"ter th các D thJ con nAng "C t$?ng Mng 45i các biclu"ter tốt)

    1hu(t toán tm D thJ con nAng !biclu"ter"# d&a tr.n th: tục giFi Ku+2t

    49n / D thJ ^ phía S+ : bao l5n nh9t) 1rong 49n / nà+, chGng ta tm 0i2mD thJ ^ phía S+ : có trHng "ố l5n nh9t trong m-t D thJ ^ phía j!…, , k# "ao

  • 8/18/2019 Bao cao e Van

    36/48

    cho c9p c:a t9t cF các 3nh thu-c tính { ∈… cao nh9t là d) Wó có thể ch3 ra rEng

    các D thJ ^ phía bao l5n nh9t có thể $%c giFi ra trong thời gian z!n^ d#) 18i

     b$5c thM nh9t c:a `R@` ối 45i từng 3nh { ∈…, chGng ta tm 0 D thJ ^ phía

    S+ : nAng nh9t bao gDm cF {) 1rong "uốt các b$5c "au c:a thu(t toán, chGng

    ta cố gV,|# "ao cho

    |!u,4#x ối 45i các c8nh ngu+.n th:+ !u,4# 4à |!u,4#BV^ ối 45i mIi phiBc8nh, 4à |!4,4#L) W2u các D thJ S+ : l5n nh9t có 0ích th$5c 0 trong D thJ

    ngu+.n th:+ ' â+ có m-t bicliKue có trHng "ố 0 trong D thJ ^ phía) ™ â+

    0h;ng có D thJ ^ phía S+ : nAng h?n b'i 4 nó "C là 02t KuF trong m-t clic0 

    r-ng h?n trong m-t D thJ ngu+.n th:+ "C $%c ch3 ra ti2p theo)

     W2u bicliKue nAng nh9t trong D thJ ^ phía là 0 45i 0“x, ' â+ có m-t

    cliKue có cƒ 0 trong D thJ ngu+.n th:+, â+ là b'i 4 0h;ng có c8nh nào mà0h;ng nEm trong D thJ gốc trong D thJ ^ phía S+ : b'i 4 nó "C cho ra 0’x,

    do ó, nhóm các 3nh t$?ng Dng là m-t cliKue trong D thJ gốc)

    $ DKm kiếm đ[ th" hai ph^a đầ đ! cC gi`i hn l`n nh_t 

    6i/u nà+ $%c th&c hiện bEng 4iệc Kuan "át th9+ rEng a "ố các gene có

    - bao r-ng 4à các gene có b(c cao ó có càng ít th;ng tin !"C >u9t hiện trong

    các biclu"ter m-t cách ng7u nhi.n 45i m-t >ác "u9t cao#) }$5i giF Jnh nà+,m-t D thJ con ^ phía bao ph: l5n nh9t có thể $%c tm th9+ trong thời gian

    z!n^d#, trong ó d là gi5i h8n tr.n c:a c9p b(c, 4à n là "ố l$%ng các gene)

    *hGng ta "C nhn "au â+, giF Jnh nà+ 0h;ng $%c "O dụng trong th&c hành)

    V9n / R@@ $%c gHi là >ác Jnh m-t ma tr(n con S+ : có trHng "ố

    l5n nh9t c:a m-t D thJ ^ phía có trHng "ố j, "ao cho các 3nh tr.n m-t phía

    c:a j có các b(c bao ph: bEng d) 6$a ra hàm trHng "ố | 4à m-t D thJ ^ phía

    j!,V,k# m-t bicliKue bao ph: l5n nh9t là m-t bicliKue @!–,V–,k–# "ao

    s

  • 8/18/2019 Bao cao e Van

    37/48

    cho trHng "ố ‚!@# là l5n nh9t) 1& nhi.n, "ố

    l$%ng c:a các i/u 0iện trong m-t bicliKue $%c gi5i h8n b'i d) *hGng ta Jnh

    nghYa W!4# là m-t thành 4i.n hàng >óm c:a 4) 6Jnh nghYa, W!4# u∈

    !4,u#∈k) 1hu(t toán "au â+ có thể $%c "O dụng ể tm ra bicliKue l5n nh9t

    trong thời gian z!n^d#P

    jiai o8n lAp i lAp l8i c:a thu(t toán nà+, cố g

  • 8/18/2019 Bao cao e Van

    38/48

     bEng cách th.m hoAc >óa m-t phSn tO ?n, c(p nh(t |!,4# trong thời gian

    0h;ng Ti)

    $ DKm kiếm đ[ th" con hai ph^a cC gi`i hn l`n nh_t 

    *ho m-t D thJ ^ phía j!,V,k# 4à m-t hàm trHng "ố |, tm m-t D thJ

    con @!–,V–,k–# "ao cho |!@# là l5n nh9t) R-t hàm trHng "ố mà gán ŽL cho

    các c8nh 4à BL cho các nonBedge "C $%c "O dụng ' â+, nh$ng, l(p lu(n t$?ng

    t& có thể m' r-ng cho m-t hàm trHng "ố chung) *uối cUng, cho m-t D thJ ^

     phía j!,V,k# giF thi2t rEng các trHng "ố là ŽL 45i m-t c8nh !u,4#∈k 4à BL

    cho m-t c8nh !u,4#∉k)

    $ Dhuật toán Tam@ounded@i*liKue, cho t9t cF các t(p con c:a

    các láng gi/ng 45i 0ích th$5c Bs !có hiệu KuF h8n ch2 "& phMc t8p thu(t

    toán#) *ác th: tục cFi ti2n cục b- áp dụng lAp i lAp l8i 4iệc "Oa Ti tốt nh9t

    ối 45i biclu"ter hiện t8i !bT "ung hoAc >óa m-t 3nh du+ nh9t# cho 2n 0hi0h;ng có cFi thiện iểm "ố có thể)

    6ể tránh biclu"ter" t$?ng t& có b- 3nh ch3 0hác nhau m-t chGt, m-t

     b$5c cuối cUng tham lam lHc biclu"ter" t$?ng t& 45i h?n m-t "ố chDng ch_o

    ng$ƒng !th$ờng là ^x˜#) au â+ tóm tóm c:a mIi gen)

    ^) R' r-ng tham lam c:a bicliKue" nAng nh9t ể chMa mIi gen„i/u 0iện

  • 8/18/2019 Bao cao e Van

    39/48

    ) Hc chDng ch_o biclu"ter", i/u nà+ $%c th&c hiện ể tránh các

     biclu"ter t$?ng Dng có t(p 3nh ch3 0hác nhau m-t chGt)

    ‚ang 4à c-ng "& c€ng / >u9t m-t thu(t toán mà th&c hiện 4iệc liệt 0.

     biclu"ter S+ :, theo m-t h8n ch2 rEng chGng "' hữu m-t "ố l$%ng tối thiểu

    c:a các hàng 4à m-t "ố l$%ng tối thiểu c:a c-t) 6ể tNng tốc - Kuá trnh 4à

    tránh "& lAp l8i c:a các tính toán, hH "O dụng m-t c? hậu t$  ể liệt 0. m-t

    cách hiệu KuF các 02t h%p có thể có c:a hàng 4à c-t b- biểu din cho

     biclu"ter" h%p lệ)

    *ác thu(t toán b

  • 8/18/2019 Bao cao e Van

    40/48

     biclu"ter" là nhi/u nh$ng tu+ nhi.n, thời gian th&c hiện có thể là theo c9p "ố

    nhân 4/ "ố l$%ng các c-t trong ma tr(n)

    iu 4à ‚ang c€ng / >u9t m-t thu(t toán liệt 0. S+ : biclu"ter) ể từ

    0hi hH ang tm 0i2m các biclu"ter" bFo tan 45i m-t "ố l$%ng tối thiểu c:a

    các hàng 4à m-t "ố l$%ng tối thiểu c:a các c-t, các dữ liệu Su 4ào cho thu(t

    toán c:a hH là m-t t(p h%p các hàng 45i các biểu t$%ng 8i diện cho tr(t t& c:a

    các giá trJ giữa những hàng nà+) R-t hàng $a ra có thể "au ó $%c 8i diện

     b'i a=

  • 8/18/2019 Bao cao e Van

    41/48

    t$?ng Mng 45i c9u trGc biclu"ter chGng có thể t8o ra) *ác 0X hiệu $%c "O

    dụng là m-t trong các Qnh t8i Rục ) Qai c-t cuối cUng tóm thBknum[laid Rodel" *oherent Value" !i# zne at a 1ime }i"tBfdent[R" *oherent Value" ^!i# imultaneou" }i"tBfdent*1‚* *on"tant *olumn" ^!i# zne "et at a time *lu"tB*ombf1‚* *oherent Value" !d#„!e# zne "et at a time *lu"tB*omb

    }** *on"tant !b#„!c# imultaneou" *lu"tB*ombδB[attern" *on"tant o|" !i# imultaneou" jreed+S"#t*l *oherent Value" !c# imultaneou" jreed++'&&s *on"tant *olumn" !d#„!e# zne at a 1ime }i"tBfdent-Ss *oherent k4olution !a#„!i# zne at a time jreed+S/0/ *oherent k4olution !i# imultaneou" k>hBknums *oherent k4olution !a#„!i# imultaneou" jreed+-56l$sts *oherent k4olution !i# imultaneou" k>hBknum

    ). Các *ng +,ng Biclustering@iclu"tering có thể áp dụng b9t cM 0hi nào các dữ liệu cSn phân tích có

    d8ng c:a m-t ma tr(n giá trJ th&c 9, trong ó t(p h%p các giá trJ aij biểu din

    cho mối Kuan hệ giữa các hàng i c:a nó 4à các c-t j c:a nó) R-t 4í dụ 4/ lo8i

    dữ liệu nà+ là các ma tr(n biểu hiện gene) Q?n nữa, nó có thể $%c áp dụng

    0hi các dữ liệu có thể $%c m; hnh hóa nh$ m-t D thJ hai phía có trHng "ố)

     Wgoài ra, biclu"tering có thể $%c "O dụng 0hi mục ti.u là ể >ác Jnh các ma

    L

  • 8/18/2019 Bao cao e Van

    42/48

    tr(n con $%c m; tF b'i m-t t(p con các hàng 4à m-t t(p con các c-t 45i các

    thu-c tính li.n 02t nh9t Jnh)

    *ác b- dữ liệu l5n c:a các m7u lâm "àng là m-t mục ti.u lX t$'ng cho

     biclu"tering) Wh$ 4(+, nhi/u Mng dụng c:a biclu"tering $%c th&c hiện "O

    dụng dữ liệu biểu hiện gen 8t $%c "O dụng c;ng nghệ microarra+ cho ph_p

    o mMc - biểu hiện c:a hàng ngàn gen trong i/u 0iện thí nghiệm) 1rong

     ph8m 4i c:a Mng dụng nà+, chGng ta có thể "O dụng các biclu"ter" ể li.n 02t

    các gene" 45i các l5p lâm "àng cụ thể hoAc ể phân lo8i các m7u, trong "ố

    những Mng dụng thG 4J có thể 0hác) *ác Mng dụng c:a biclu"tering ể phân

    tích dữ liệu "inh hHc) 1u+ nhi.n, 4à mAc dU hSu h2t các Mng dụng gSn â+ c:a biclu"tering là trong phân tích dữ liệu "inh hHc, tDn t8i nhi/u Mng dụng 0hác có

    thể có trong các lYnh 4&c Mng dụng r9t 0hác nhau) Ví dụ 4/ các lYnh 4&c Mng

    dụng nà+ làP tru+ 49n th;ng tin 4à 0hai thác 4Nn bFn› lHc c-ng tác, hệ thống hI

    tr%, 4à ti2p thJ mục ti.u, nghi.n cMu c? "' dữ liệu 4à 0hai thác dữ liệu, 4à th(m

    chí phân tích dữ liệu bSu cO) R-t "ố Mng dụng phi "inh hHc c:a biclu"tering

    $%c bi2t 2n).'. ng d8ng sinh học

    *heng 4à *hurch áp dụng biclu"tering ối 45i hai ma tr(n dữ liệu biểu

    hiện gen, Ac biệt ối 45i dữ liệu biểu din 4ng ời t2 bào n9m men

    accharom+ce" *ere4i"iae 45i ^)•• gen 4à L i/u 0iện 4à các dữ liệu biểu

    din @Bt2 bào ng$ời 45i x^s gen 4à s i/u 0iện) ang 4à các c-ng "& c€ng

    "O dụng hai t(p dữ liệu nà+) ‚ang 4à iu c€ng "O dụng các dữ liệu men)

    a~~eroni c€ng "O dụng biclu"tering ể >ác Jnh các biclu"ter" trong dữ

    liệu biểu hiện gene ea"tP các hàng c:a ma tr(n dữ liệu 8i diện ^)s gen 4à

    các c-t là các thời iểm trong mIi thời iểm thu-c Lx i/u 0iện thí nghiệm)

    Q?n nữa, các thí nghiệm từ LB 0iểm tra chu 0q t2 bào phân bào› thí nghiệm B

    s theo d†i ch:ng 0hác nhau c:a n9m men trong Kuá trnh hnh thành bào tO,

    các thí nghiệm B theo d†i biểu hiện "au 0hi ti2p >Gc 45i các lo8i 0hác nhau

    ^

  • 8/18/2019 Bao cao e Van

    43/48

    c:a những cG "ốc 4à thO nghiệm Lx nghi.n cMu "& tha+ Ti tNng tr$'ng hai 0q

    l$ƒng "inh tru'ng)

    egal 4à c-ng "& "O dụng hai ma tr(n dữ liệu biểu hiện gen) 6Su ti.n hH

    = phân tích những dữ liệu cNng thœng ea"t, mà Ac iểm c:a các m; hnh

     biểu hiện c:a gen men trong i/u 0iện thO nghiệm 0hác nhau bEng cách chHn

    gen 45i những tha+ Ti áng 0ể trong biểu hiện gen 4à t(p S+ : ^ i/u

    0iện) R; hnh c:a hH >ác Jnh các nhóm d&a tr.n "& t$?ng Dng c:a biểu hiện

    gen, "& hiện diện c:a các +2u tố = bi2t li.n 02t các trang |eb trong 4iệc

    KuFng bá gen 4à chG thích chMc nNng c:a gen) QH >ác Jnh các nhóm cụm gen

    d& 0i2n, mà hiển thJ các m7u biểu hiện gen t$?ng Dng 4à $%c bi2t là ho8t-ng trong các Kuá trnh trao Ti ch9t giống nhau) QH c€ng phát hiện ra nhóm

    gen m5i d&a tr.n cF mMc - biểu hiện 4à "& "ao ch_p các iểm li.n 02t các

    nhân tố) 1hM hai, hH = "O dụng các dữ liệu men *ompendium, mà Kuan "át

    các ch$?ng trnh biểu hiện gen gâ+ ra b'i -t bi2n gen cụ thể) Rục ti.u c:a

    những thí nghiệm nà+ là ể gán các chMc nNng giF thu+2t t5i các gen 0h;ng

    iển hnh bEng cách >óa chGng 0h]i các ch$?ng trnh biểu din = $%c bi2t2n) QH = chHn ^• gen 4à ^x i/u 0iện, t(p trung 4ào các gen 4à các -t

     bi2n mà = có m-t "ố chG thích chMc nNng trong c? "' dữ liệu Rf[)

    jet~ 4à c-ng "& áp dụng biclu"tering ể hai ma tr(n dữ liệu biểu hiện

    gen có chMa dữ liệu ung th$) Ra tr(n dữ liệu Su ti.n $%c thành l(p b'i ^

    m7u l9+ từ các bệnh nhân bệnh b8ch cSu c9p tính t8i thời iểm chwn oán "O

    dụng W` chuwn bJ từ các t2 bào ?n nhân t:+ >$?ng c:a s)•L gen c:a con

    ng$ờiP tr$ờng h%p = $%c chwn oán là ` !`cute +mphobla"tic

    eu0emia B c9p +mphobla"tic bệnh b8ch cSu# 4à ^ tr$ờng h%p 0hác nh$

    `R !`cute R+eloid eu0emia B c9p dng t:+ bệnh b8ch cSu#) QH = >ác

    Jnh m-t chwn oán có thể có bệnh b8ch cSu bEng cách >ác Jnh phFn Mng

    0hác nhau ể i/u trJ, 4à các nhóm gen $%c "O dụng nh$ thNm d thích h%p)

    @u"+gin cUng 45i các c-ng "& 4à nhóm c:a luger c€ng $%c "O dụng những

    dữ liệu bệnh b8ch cSu) Ra tr(n biểu hiện gen thM hai $%c "O dụng b'i jet~

  • 8/18/2019 Bao cao e Van

    44/48

    4à c-ng "& có x m7u 0hối u 8i tràng 4à ^^ m7u ru-t 02t bnh th$ờng 4à

    sxx gen c:a con ng$ời mà từ ó hH chHn l&a ^xxx biểu hiện tối thiểu l5n

    nh9t c:a các m7u) Rural+ 4à a"i{ c€ng "O dụng hai t(p dữ liệu nà+)

    heng 4à c-ng "& c€ng "O dụng dữ liệu biểu hiện bệnh b8ch cSu) Ra

    tr(n dữ liệu thời gian nà+ $%c c9u thành b'i ^ m7u l9+ từ bệnh nhân bệnh

     b8ch cSu c9p tính mà hiện na+ $%c phân thành ba lo8i bệnh b8ch cSuP ^•

    tr$ờng h%p = $%c chwn oán là ` ! 9cute ]mpho

  • 8/18/2019 Bao cao e Van

    45/48

    lo8i 0hác c:a dữ liệu "inh hHc) Ví dụ, iu 4à ‚ang "O dụng m-t b- dữ liệu 45i

    các dữ liệu ho8t -ng thuốcP m-t ma tr(n 45i Lx)xxx hàng 4à x c-t trong ó

    mIi hàng t$?ng Mng 45i m-t h%p ch9t hóa hHc 4à mIi c-t 8i diện cho m-t m;

    tF„tính nNng c:a h%p ch9t) *ác giá trJ trong ma tr(n dữ liệu dao -ng từ x 2n

    Lxxx)

    .+. ác !ng d8ng ,hác

    Š thu(t @iclu"tering có thể $%c "O dụng trong lHc c-ng tác ể >ác

    Jnh các phân nhóm 0hách hàng 45i $u =i giống nhau hoAc những hành 4i

    h$5ng t5i m-t t(p con các "Fn phwm 45i mục ti.u th&c hiện ti2p thJ mục ti.uhoAc "O dụng th;ng tin $%c cung c9p b'i các biclu"ter" trong hệ thống hI tr% 

    Ku+2t Jnh) Qệ hI tr% Ku+2t Jnh 4à ti2p thJ mục ti.u là Mng dụng Kuan trHng

    trong lYnh 4&c th$?ng m8i iện tO) 1rong các Mng dụng nh$ 4(+, mục ti.u là

    ể >ác Jnh các nhóm 0hách hàng 45i các hành 4i giống nhau ể chGng ta có

    thể d& oán "& Kuan tâm c:a 0hách hàng 4à $a ra 0hu+2n nghJ thích h%p)

    ang 4à các c-ng "&) ^ž, xž "O dụng các dữ liệu Ro4ieen" thu th(p b'i các d& án nghi.n cMu jroupen" t8i 68i hHc Rinne"ota) @- dữ liệu nà+

     bao gDm m-t ma tr(n dữ liệu, trong ó các hàng 8i diện cho 0hách hàng

    4à các c-t 8i diện cho Ls•^ b- phim) *ác giá trJ aij trong ma tr(n dữ liệu là

    các "ố ngu+.n từ L 2n Lx 8i diện cho t‡ lệ 0hách hàng i ó Kuan tâm t5i b-

     phim j) ể từ 0hi m-t 0hách hàng ch3 ánh giá th9p h?n Lx˜ trong những b-

     phim trung bnh, ma tr(n dữ liệu ch3 >2p hàng m-t phSn 45i Lxx)xxx các >2p

    h8ng) ‚ang 4à c-ng "& c€ng "O dụng các dữ liệu Ro4ieen")

    Qo{{man 4à [u~icha c€ng áp dụng biclu"tering ể lHc c-ng tác "O dụng

     b- dữ liệu kachRo4ie, trong ó bao gDm các dữ liệu thu th(p $%c tr.n

    fnternet 45i gSn triệu phi2u $u ti.n tr.n m-t th$5c o từ xB) ngar 4à

    …o"ter ^ž c€ng "O dụng m-t b- dữ liệu phim trong ó giá trJ aij  là L n2u

    ng$ời j >em phim i, 4à x n2u ng$%c l8i) *F hai Qo{{man 4à [u~icha, ngar 4à

    …o"ter "O dụng ph$?ng pháp ti2p c(n biclu"tering t$?ng t& nh$ trnh bà+ c:a

  • 8/18/2019 Bao cao e Van

    46/48

    nhóm c:a heng) 1rong 0hi ngar 4à …o"ter "O dụng thu(t toán 1ối a hóa 0q

    4Hng ! Apectation5SaAimidation B kR#, Qo{{man 4à [u~icha "O dụng l9+ m7u

    jibb")

    1rong tru+ 49n th;ng tin 4à 0hai thác 4Nn bFn, biclu"tering có thể $%c

    áp dụng ể >ác Jnh nhóm tài liệu có những tính ch9t t$?ng Dng t$?ng ối ể

     phân nhóm các thu-c tính, chœng h8n nh$ các từ hoAc hnh Fnh) Whững th;ng

    tin nà+ có thể r9t Kuan trHng trong 4iệc tru+ 49n 4à l(p ch3 mục trong lYnh 4&c

    c;ng cụ tm 0i2m)

    }hillon "O dụng @iclu"tering ể th&c hiện phân nhóm Dng thời các 4Nn

     bFn 4à các từ bEng cách >em >_t m-t ma tr(n |ordBb+Bdocument 9, trong ócác hàng t$?ng Mng 45i các từ, các c-t t$?ng Mng 45i các tài liệu, 4à m-t phSn

    tO 0hác 0h;ng aij ể ch3 ra "& hiện diện c:a từ i  trong tài liệu jP ai  oi  >

    log!n„ni#, trong ó oij là "ố lSn >u9t hiện c:a từ i trong tài liệu j, n là "ố l$%ng

    các tài liệu 4à ni là "ố l$%ng tài liệu !hàng# có chMa các từ i) 6â+ là lo8i ma

    tr(n $%c gHi là ma tr(n t‡ lệ !inci=ence matriA# trong ngữ cFnh nà+ 4à cụm

    coBclu"tering th$ờng $%c "O dụng tha+ 4 biclu"tering) *F hai phân cụm tàiliệu 4à phân cụm từ $%c nghi.n cMu 0Š trong49n / tm 0i2m th;ng tin 4à

    0hai thác 4Nn bFn) 1u+ nhi.n, hSu h2t các thu(t toán hiện có phân cụm các tài

    liệu 4à các từ ri.ng biệt 4à 0h;ng cUng m-t lGc) R-t mAt, cho m-t b- các tài

    liệu 0h;ng có nh=n, phân cụm tài liệu có thể giGp ƒ trong 4iệc tT chMc các b-

    Kua ó t8o i/u 0iện Jnh h$5ng t$?ng lai 4à tm 0i2m) RAt 0hác, các từ có

    thể $%c nhóm d&a tr.n c? "' trong ó chGng Dng thời >F+ ra) *ác nhóm c:a

    các từ = $%c "O dụng trong các Mng dụng nh$ 4iệc >â+ d&ng t& -ng từ iển

    thống 0., 4iệc tNng c$ờng các tru+ 49n 4à phân lo8i t& -ng c:a 4Nn bFn)

    }hillon muốn >ác Jnh các t(p con c:a các từ 4à t(p h%p con c:a các tài liệu

    li.n Kuan chAt chC 45i nhau bEng m; hnh ma tr(n dữ liệu nh$ m-t D thJ hai

     phía nh$ 1ana+ 4à c-ng "& = làm 4à "O dụng m-t cách ti2p c(n phT t$?ng t&

    nh$ $%c "O dụng b'i luger) yng = "O dụng ba b- "$u t(p tài liệuP Redline

    !Lx tóm t

  • 8/18/2019 Bao cao e Van

    47/48

    !Lsx tóm tem >_t)

    Qartigan áp dụng biclu"tering ối 45i ^ b- dữ liệuP dữ liệu b] phi2u bao

    gDm t‡ lệ phSn trNm c:a Fng *-ng ha b] phi2u cho 1Tng thống Qoa q, t8i

    các bang mi/n Wam, trong những nNm LxxBLs• , 4à dữ liệu b] phi2u bao

    gDm các phi2u c:a i.n Q%p Œuốc nNm LsBLx) 1rong tr$ờng h%p Suti.n, ma tr(n dữ liệu bao gDm m-t t(p h%p các hàng 8i diện cho tiểu bang 4à

    m-t t(p h%p các c-t 8i diện nNm) RIi giá trJ aij 8i diện cho t‡ lệ phi2u bSu

    c:a bang i trong nNm j) Rục ích là ể phát hiện các cụm hàng, ó là, cụm các

     bang mà b] phi2u t$?ng t& nhau, 4à các cụm c:a các c-t, ó là, những nNm

    mà "ố phi2u bSu t$?ng t& nhau) R-t biclu"ter trong tr$ờng h%p nà+ là m-t t(p

    h%p con c:a các bang 45i "ố phi2u t$?ng t& trong m-t t(p h%p con c:a các

    nNm) 1rong tr$ờng h%p c:a ma tr(n dữ liệu thM hai, các hàng 8i diện Kuốc gia

    4à các c-t >ác nh(n 4/ các 49n / thFo lu(n) Rục ích là ể >ác Jnh các cụm

    c:a các n$5c có các mối Kuan tâm hoAc các hệ thống chính trJ giống nhau, 4à

    các cụm c:a các 49n /, >ác Jnh lo8t các / >u9t 4/ các 49n / c? bFn giống

    nhau) R-t biclu"ter ' â+ là m-t t(p h%p con c:a các Kuốc gia có bnh chHn

    giống nhau trong m-t t(p h%p con c:a các 49n / thFo lu(n)

  • 8/18/2019 Bao cao e Van

    48/48

    *€ng có thể nghY ra nhi/u Mng dụng 0hác c:a biclu"tering "O dụng b-

    dữ liệu 0hác) a~~eroni áp dụng biclu"tering dữ liệu dinh d$ƒng 4à m-t 4í dụ

    ngo8i hối) *ác dữ liệu dinh d$ƒng bao gDm m-t ma tr(n dữ liệu 45i sL hàng

    8i diện cho các lo8i th&c phwm 0hác nhau 4à m-t t(p h%p các c-t 8i diện cho

    các thu-c tính "au th&c phwmP gam ch9t b_o, calo nNng l$%ng th&c phwm, gram

    carboh+drate, gram protein, mg chole"terol, gram ch9t b_o b=o ha, 4à trHng

    l$%ng c:a mAt hàng th&c phwm trong gram) Rục ích là ể >ác Jnh các t(p

    con c:a th&c phwm có tính ch9t t$?ng t& tr.n m-t t(p h%p các thu-c tính $%c

    >em >_t) Ra tr(n dữ liệu ngo8i hối bao gDm ngo8i tệ hàng thángP các hàng

    trong ma tr(n dữ liệu là L• lo8i ngo8i tệ t$?ng Mng 45i L• Kuốc gia 4à các c-ttrong ma tr(n dữ liệu 8i diện ^ tháng từ tháng L nNm L 2n tháng L nNm

    ^xxx ) *ác giá trJ aij trong ma tr(n dữ liệu t$?ng Mng 45i "ố l$%ng ?n 4J ti/n

    tệ i mà L } mua trong tháng j) Rục ích là ể >ác Jnh các t(p con c:a các

    Dng ti/n !hàng# mà Dng ; la RŠ = có biểu hiện t$?ng t& trong m-t t(p

    h%p con c:a tháng !c-t# )