NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB

  • Upload
    vo-loc

  • View
    51

  • Download
    0

Embed Size (px)

Citation preview

  • B GIO DC V O TO

    I HC NNG

    NGUYN NH BNH

    NGHIN CU KHAI PH D LIU WEB V

    NG DNG TM KIM TRCH CHN THNG TIN

    THEO CH

    Chuyn ngnh: KHOA HC MY TNH

    M s: 60.48.01

    TM TT LUN VN THC S K THUT

    Nng - Nm 2012

  • Cng trnh c hon thnh ti

    I HC NNG Ngi hng dn khoa hc: PGS.TS. L Vn Sn

    Phn bin 1: PGS.TS. V Trung Hng

    Phn bin 2: GS.TS. Nguyn Thanh Thy

    Lun vn c bo v ti Hi ng chm Lun vn tt nghip

    Thc s K thut hp ti i hc Nng vo ngy 19 thng

    01 nm 2013.

    * C th tm hiu Lun vn ti:

    - Trung tm Thng tin - Hc liu, i hc Nng

    - Trung tm Hc liu, i hc Nng.

  • -1-

    M U

    1. L do chn ti

    Hn bn thp nin k t khi Internet ra i cho n nay, n

    mang li rt nhiu tin ch hu dng cho ngi s dng nh: h

    thng th in t (Email), tr chi (Game), tr chuyn trc tuyn

    (Chat), my truy vn d liu (Search engine), cc dch v thng

    mi, y t v gio dc S pht trin nhanh chng ca mng Internet

    sinh ra mt khi lng khng l cc d liu dng siu vn bn (d

    liu Web). Cc ti liu siu vn bn cha ng vn bn v thng

    nhng cc lin kt n cc ti liu khc phn b trn Web. Ngy nay,

    Web bao gm hng t ti liu ca hng triu tc gi c to ra v

    c phn tn qua hng triu my tnh c kt ni qua ng hu

    tuyn (dy in thoi, cp quang) v ng v tuyn (sng radio, bc

    x hng ngoi hay sng truyn qua v tinh) . Web ang ngy cng

    c s dng ph bin trong nhiu lnh vc nh bo ch, pht thanh,

    truyn hnh, h thng bu in, trng hc, cc t chc thng mi,

    chnh phChnh v vy lnh vc Web mining hay tm kim cc

    thng tin ph hp c gi tr trn Web l mt ch quan trng trong

    Data Mining v l vn quan trng ca mi n v, t chc c nhu

    cu thu thp v tm kim thng tin trn Internet. Cc h thng tm

    kim thng tin hay ni ngn gn l cc my tm kim Web thng

    thng tr li mt danh sch cc ti liu c phn hng m ngi

    dng s phi tn cng chn lc trong mt danh sch rt di c

    c nhng ti liu ph hp. Ngoi ra cc thng tin thng rt

    phong ph, a dng v lin quan n nhiu i tng khc nhau.

    iu ny to nn s nhp nhng gy kh khn cho ngi s dng

    trong vic ly c cc thng tin cn thit.

    C nhiu hng tip cn khc nhau gii quyt vn ny,

    cc hng ny thng ch gim s nhp nhng bng cc phng

  • -2-

    php tm kim trch chn thng tin hay thm cc ty chn ct bt

    thng tin v hng biu din cc thng tin tr v bi cc my tm

    kim thnh tng cm, lp cho ngi dng c th d dng tm

    c thng tin m h cn. c nhiu thut ton phn cm, phn

    lp tm kim thng tin. Tuy nhin vic tp hp ti liu ca cc

    my tm kim l qu ln v lun thay i c th phn cm ngoi

    tuyn. Do , vic phn cm phi c ng dng trn tp cc ti liu

    nh hn c tr v t cc truy vn v thay v tr v mt danh sch

    rt di cc thng tin gy nhp nhng cho ngi s dng cn c mt

    phng php t chc li cc kt qu tm kim mt cch hp l. Do

    nhng vn cp thit c cp trn nn em chn ti:

    "Nghin cu khai ph d liu Web v ng dng tm kim trch chn

    thng tin theo ch .

    2. Mc tiu v nhim v nghin cu

    Mc ch ca ti l nghin cu p dng tm kim v trch

    chn mu mi, hu ch, hiu c, tim n trong Web. Nhng thng

    tin theo ch nhanh, chnh xc v y , thng tin tim n bn

    trong ni dung trang Web v nhng thng tin quan trng hay

    nhng lung thng tin tt nht trn trang Web tm kim tr v kt

    qu ph hp vi yu cu ngi dng.

    Mc tiu c th nh sau:

    Nghin cu tm kim

    Nghin cu k thut tm kim trn Web.

    Hiu qu tm kim mt cch nhanh chng v chnh xc trn

    Web.

    Thng tin tm kim trn Web y nguyn vn, c ng.

    Nghin cu v trch chn

    Nhng thng tin cn khai thc cn tm n trong mt cu, mt

    vng vn bn v mt phn vng ca trang Web .

  • -3-

    Nhng vn kho khn khi thc hin v vic trch chn

    thng tin ch n trn trang Web.

    a ra nhng lung thng tin theo ch tt nht p ng

    yu cu ngi s dng.

    ng dng thc t

    S dng quy trnh khai ph d liu Web trong v ic tm kim

    trch chn thng tin theo ch trn nhng trang Web vo thc t

    p ng theo yu cu ngi dng.

    Ly c nhng thng tin qu gi tm n bn trong trang Web

    , p ng c nhu cu tm kim ti u cho ngi dng.

    Tm kim trch chn cc mu hoc tri thc hp dn (khng

    tm thng, n, cha bit v hu dng tim nng) t mt tp hp ln

    d liu. kt qu t c p ng yu cu x hi hin nay.

    3. i tng v phm vi nghin cu:

    i tng d liu l khai ph kho d liu Web.

    Cu trc i tng l CSDL quan h, CSDL a phng tin,

    D liu dng Text v d liu Web.

    Phm vi nghin cu lun vn ny, ti ch p dng thut ton

    Viterbi, Crawling, Markov, Apriori

    Cng c h tr d liu vi ngn ng Java trong h quan tr c

    s d liu MySQL, my tm kim Google, Yahoo.

    xut khai ph d liu Web da trn l thuyt xc sut (

    in hnh l m hnh xc sut Bayes, m hnh Markov n, m hnh

    trng ngu nhin c iu kin) trong vic tm kim, trch chn v

    th nghim thc t vi cc mt c s d liu co sn trn Web.

    ti thuc loi hnh khai ph d liu.

    4. Phng php nghin cu

    Phng php thng k - phn tch.

    Phng php lch s.

  • -4-

    Phng php so snh - i chiu.

    Phng php cu trc - h thng.

    Thu thp v phn tch cc ti liu v thng tin lin quan n

    ti.

    Tho lun, la chn phng hng gii quyt vn .

    Trin khai xy dng khai ph d liu.

    Kim tra, th nghim v nh gi kt qu trong qu trnh khai

    ph.

    5. B cc lun vn

    Sau phn m u, gii thiu, ni dung chnh ca lun vn

    c chia thnh 3 chng nh sau:

    Chng 1, Tng quan v khai ph d liu Web, trnh by c

    s l thuyt lm nn tng xy dng ng dng, bao gm: Khai ph

    d liu v ph hin tri thc, cc m hnh ton hc thng dng trong

    cc bi ton khai ph d liu Web.

    Chng 2, H thng tm kim v trch chn thng tin trn

    Web, tm hiu, gii thiu v phn tch h thng my tm kim

    Vietseek, kin trc Google mc cao v h thng trch chn thng

    tin d trn m hnh phn cm, gn nhn,CRFs, LDA v thut ton

    Viterbi, nu nhng vn hn ch v xut gii php khc phc,

    l gii php ng dng tm kim trch chn thng tin theo ch

    nhm gii quyt bi ton t ra.

    Chng 3, trnh by chi tit v m hnh kin trc tng th ca

    h thng v phng php xy dng ng dng. Tin hnh kch bn

    th nghim trn s liu thc t, sau nh gi kt qu t c v

    kh nng trin khai ng dng trn ton h thng.

    Cui cng l phn nh gi, kt lun v hng pht trin ca

    ti.

  • -5-

    CHNG 1

    TNG QUAN V KHAI PH D LIU WEB

    1.1. KHAI PH D LIU V PHT HIN TRI THC

    1.1.1. Ti sao li khai ph d liu

    1.1.2. nh ngha khai ph d liu

    nh ngha 1: (Frawley, Piatetski Shapiro v Matheus)

    Pht hin tri thc trong c s d liu (i khi cn c gi l

    khai ph d liu) l mt qu trnh khng tm thng nhn ra nhng

    mu c gi tr, mi, hu ch tim nng v hiu c trong d liu.

    nh ngha 2: Khai ph d liu (datamining)

    Khai ph d liu l qu trnh trch ra nhng thng tin dng

    c, ng v cha bit trc t c s d liu ln, ri dng thng

    tin ny ra cc quyt nh.

    Gio s Tom Mitchell a ra nh ngha ca KPDL nh

    sau: KPDL l vic s dng d liu lch s khm ph nhng qui

    tc v ci thin nhng quyt nh trong tng lai.

    Vi mt cch tip cn ng dng hn, Tin s Fayyad pht

    biu: KPDL, thng c xem l vic khm ph tri thc trong cc

    c s d liu, l mt qu trnh trch xut nhng thng tin n, trc

    y cha bit v c kh nng hu ch, di dng cc qui lut, rng

    buc, qui tc trong c s d liu.

    Ngoi ra theo ti liu ca Weldon nm 1996, khai ph d liu

    l vic pht hin tri thc nh cc cng c hon thin s dng thng

    k truyn thng, tr tu nhn to v ha my tnh. Ni tm li,

    KPDL l mt qu trnh hc tri thc mi t nhng d liu thu thp

    c.

    1.1.3. Qu trnh khai ph tri thc (KDD)

    Qu trnh khai ph d liu s tin hnh qua 6 giai on nh

    hnh 1.1,

  • -6-

    Bt u ca qu trnh l kho d liu th v kt thc vi tri thc c

    chit xut ra.

    1.1.4. Cc hng tip cn v cc k thut p dng trong

    khai ph d liu

    1.1.5. Phn loi cc h thng khai ph d liu

    1.1.6. Nhng vn ch trng v ng dng trong khai ph

    d liu

    1.2. C S D LIU FULLTEXT V HYPERTEXT

    1.2.1. C s d liu Fulltext

    1.2.2. C s d liu HyperText

    1.2.3. So snh c im ca d liu Fulltext v d liu

    trang web

    1.3. KHAI PH D LIU VN BN (TEXTMINING) V

    KHAI PH D LIU WEB (WEBMINING)

    1.3.1. Khai ph d liu vn bn

    1.3.2. Khai ph d liu Web

    Khai ph Web nh l vic trch chn ra cc thnh phn c

    quan tm hay c nh gi l c ch cng cc thng tin tim nng

    t cc ti nguyn hoc cc hot ng lin quan ti World Wide Web

  • -7-

    Chng 2: H THNG TM KIM V TRCH CHN

    THNG TIN TRN WEB

    2.1. H THNG TM KIM

    2.1.1. Nhu cu

    2.1.2.My tm kim

    2.1.3 Module Crawler trong cc my tm kim

    2.1.4. Cc thut ton crawling

    2.1.5. Phn tch v nh ch s

    Theo ng Sergey Brin v Lawrence Page trnh by c th v

    quan im ca nh thit k my tm kim Google:

    - URLserver: gi danh sch URL Webpage s a v cho cc

    crawler phn tn.

    - Cc crawler: Ti ni dung Webpage v gi cho StoreServer.

    - StoreServer: nn v lu Webpage ln a (vo kho cha).

    - Indexer c cc chc nng:

    c ti liu t kho cha

    Gii nn

    Gi Parser phn tch c php a trang Web.

    - Index cng Sorter: gn DocID cho Web page (DocID c gn

    mi khi Parser pht hin mt URL mi).

    - Mi ti liu

    c bin i thnh tp cc xut hin ca cc t kha

    (gi l hit)

    Hit: t kha, v tr trong ti liu, font (c, ...),

    hoa/thng. Indexer

    Phn b cc hit thnh tp cc barrel lu tr cc ch

    s c sp xp.

    - Indexer:

    Phn tch cc siu lin kt

  • -8-

    1 2

    4

    6

    7 8

    5

    11 10

    9

    7b 13

    3

    Lu cc thng tin quan trng trong file anchor cho

    php xc nh

    Ngun, ch ca siu lin kt

    Ni dung vn bn trong siu lin kt.

    Hnh 2.6 Kin trc Google mc cao

    - Sinh t in tra cu t kha: Vn bn trong siu lin kt:

    Nhiu h ch gn vo trang ngun

    Google gn vo c trang ch li ch

    Cho thng tin chnh xc hn, thm ch chnh

    trang web

    tm tt

    qua chuyn gia x l

    Index cho trang web

    Khng vn bn (nh, chng trnh, CSDL

    ...)

    X tr trng hp trang web cha tn ti

    Ly vn bn anchor lm ni dung!

  • -9-

    T tng ny c trong WWW Worm (1994) v c

    trong Google

    Kt qu cht lng hn.

    Ch : crawling 24 triu trang c ti 259

    triu anchor.

    - URLsolver

    c file anchor.

    Bin i URL tng i thnh URL tuyt i.

    - URLsolver cp nht li theo ch s DocID

    - URLsolver a text anchor vo index thun (hng tr

    anchor).

    - URLsolver sinh CSDL lin kt gm cc cp lin kt

    (DocID1, DocID2) c dng tnh PageRank.

    - Sorter

    c cc Barrel (xp theo DocID) sp li theo

    WordID to ra cc index ngc.

    Sinh ra danh sch cc wordID v gia s trong index

    ngc.

    - DumpLexicon

    Ly t lexicon + danh sch wordID

    Sinh ra lexicon mi.

    - Searcher

    Chy do webserver tr li cu hi

    Da trn lexicon mi PageRank, index ngc

    2.2.TRCH CHN THNG TIN TRN WEB

    2.2.1. Trch chn thng tin

    a. Khi nim

    Trch chn thng tin (IE Information Extraction) l qu trnh

  • -10-

    ly thng tin t cc ngun nhng nh dng khng ng nht v

    chuyn thnh mt dng ng nht. D liu sau khi trch chn c

    s dng, trnh by trc tip cho ngi dng, lu vo c s d liu

    x l sau hay s dng cho nhng h thng tm kim thng tin nh

    mt d liu qua bc tin x l.

    b. Phn loi h thng trch chn thng tin t web

    Ngy nay, c rt nhiu h thng trch chn thng tin t web

    c cc nh pht trin nghin cu v xy dng. Cc tiu ch

    phn loi mt h thng trch chn thng tin t web nh sau:

    Da vo mc can thip ca con ngi trong qu trnh trch

    chn thng tin: cc h thng trch chn thng tin c th c chia ra

    lm 4 loi: th cng, c gim st, bn gim st v khng gim st.

    Trong , cc h thng hon ton t ng, khng c s can thip ca

    con ngi ang c cc nh nghin cu quan tm nht.

    Da vo tng d liu c trch chn: mt trang web s c

    nhiu trang HTML, mt trang HTML s c nhiu record v mt

    record s c nhiu thuc tnh. Do , da vo kt qu thng tin trch

    chn c tng no, cc h thng trch chn c chia ra lm 4

    loi: tng thuc tnh (attribute), tng record, tng trang HTML (page)

    v tng trang web (site). Hin ti cc h thng x l tng thuc tnh

    v record chim a s. V cho n nay, vn cha thy xut hin cc

    h thng trch chn thng tin tng site.

    Da vo cc phng php trch chn thng tin: Cc h thng

    trch chn thng tin cng c chia thnh 3 dng:

    Cc h thng da trn cc phng php th cng: s dng

    cc phng php gn nhn, cc cch ly thng tin trc tip t c s

    d liu hoc t cc dch v web (web service).

  • -11-

    Cc h thng da trn cc phng php heuristic: Cc

    phng php thng k, tp lut, s dng cc mu thng tin, da vo

    cu trc

    cy, c s dng trch chn thng tin.

    Cc h thng da trn cc phng php hc: S dng cc

    phng php m hnh Markov, CRFs, ng ngha, hc trn cu trc

    cy, gip cho cc h thng hiu v trch chn thng tin chnh

    xc hn.

    2.2.2. Khuynh hng pht trin ca khai ph d liu Web

    theo ch

    Bi ton m ng Rich Caruana v cng s gii quyt c m

    t s b nh sau: Cho trc mt tp hp (khong 300000) ti liu

    khoa hc cn pht hin ra cc ch khoa hc ch cht v qua d

    bo c xu hng nghin cu, pht trin cc ch khoa hc mi

    thuc lnh vc khoa hc my tnh. Gii php tin hnh khng cn

    khai thc cc ch dn ca cc cng trnh m ch cn s dng ni dung

    cc cng trnh, hnh sau m t kt qu nghin cu pht hin ra 13

    cm ch v cung cp tng v xu hng pht trin ca 13 cm

    ch . Trong nghin cu ca mnh v bi ton trn, GS John E.

    Hopcroft mt chuyn gia hng u ca nc M v lnh vc CNTT

    trnh by hng pht trin ca khoa hc my tnh. ng cp ti

    mt s yu t ni bt trong tng lai tc ng ti s chuyn bin ca

    khoa hc my tnh. T ni dung vn bn ca mi cng trnh nghin

    cu, chng ta nhn c tn cc tc gi, cc ti liu tham kho, tn

    tp ch, hi tho

    ng Rich Caruana v cng s t ra cc mc tiu c bn cn

    hng ti:

    Tm ra din bin qu trnh pht trin theo thi gian ca

    cc ch khoa hc theo mt s tiu ch nh t l cc ti liu theo

  • -12-

    ch , cc ch ni bt mi, thi im mt ch c th t nh

    cao nht, ch no ang tn li tm ra c cc ch c vai

    tr ch cht trong tp hp cc ch .

    Nhn bit c cc ti liu c uy th l ti liu gii thiu

    cc tng mi v c ch s nh hng ln.

    Nhn bit c tc gi c uy th l tc gi c nh hng

    ln i vi s pht trin ca cc ch .

    Nhn vo biu hnh 2.8 cho thy:

    Hnh 2.8. Tnh hnh pht trin mt s nhm ch trong

    khoa my qua phn cm ti liu khoa hc

    + Mt s nhm ch nghin cu hin ang trong giai on

    pht trin tt nh nhm 10 (Bayesian, mixture, posterior, likelihood,

    em), nhm 9 (Spike, spikes, firing, neuron, neurons) v nhm 2

    (Image, images, object, face, video).

    + Mt s nhm ch nghin cu hin ang pht trin song

    ang c xu hng chng li nh nhm 12 (chip, circuit, analog,

    voltage, vlsi), nhm 4 (units, node, training, nodes, tree)

  • -13-

    + Cc nhm cn li ang pht trin bnh thng.

    c bit nhm ch 12 chng li song vn c s lng ln

    cng trnh nghin cu c cng b.

    2.2.3. Thut ton Viterbi

    Thut ton Viterbi mang tn tc gi Andrew Viterbi, l thut

    ton quy hoch ng nhm tm dy tng t nht ca cc trng thi

    n, c ng dng kh ph bin gii quyt bi ton gii m. Khi

    s dng phng php my trng thi hu hn, c bit i vi bi

    ton trch chn thng tin trn Web. Ni dung thut ton c s kt

    hp cc ni dung ca th v xc sut.

    Thut ton Viterbi c coi nh tm ng i ngn nht dc

    theo th l:

    Input: Z=z1, z2, , zn // dy quan st u vo

    Khi to:

    K 1 // ch s lp

    S(c1) c1

    L(c1) 0 // Bin cha tng di, khi to l 0

    quy:

    Repeat

    For b chuyn tk=(ck, ck+1)

    L(ck, ck+1) L(ck) + L[tk=( ck, ck+1)]

    theo ck

    Tm L(ck+1)= minL(ck, ck+1)

    For mi ck+1

    Lu L(ck+1) v vt S(ck+1) tng ng

    k k +1

    Until k = n

    2.2.4. M hnh trng ngu nhin (Conditional Random

    Fields CRFs)

  • -14-

    2.2.5. M hnh phn cm v gn nhn cm vi ch n

    a. tng ng cu v cc phng php

    tng ng cu

    Cc phng php tnh tng ng cu

    Phng php tnh tng ng cu s dng o Cosine

    Phng php tnh tng ng cu da vo ch n

    Mi cu c th c nhiu phn phi xc sut topic. Vi hai cu

    th i v j, chng ta s dng cosine tnh tng ng gia

    hai cu c lm giu vi ch n.

    Cui cng, t hp hai o trn ra tng ng gia hai

    cu:

    Sim(si , sj ) = xSim(topic - parts) + (1 - )xSim(word - parts)

    Trong cng thc trn, l hng s trn, thng nm trong on

    [0,1]. N quyt nh vic ng gp gia 2 o tng ng. Nu

    = 0 , tng ng gia hai cu khng c ch n. Nu = 1, o

    tng ng gia hai cu ch tnh vi ch n

    2.2.6. M Hnh Latent Dirichlet Allocation (LDA)

    a. Phn tch thng tin ch da trn m hnh ch LDA

    Phn tch ch cho vn bn ni ring v cho d liu Web ni

    chung c vai tr quan trng trong vic hiu v nh hng thng

    tin trn Web. Khi ta hiu mt trang Web c cha nhng ch hay

    thng tin g th d dng hn cho vic xp loi, sp xp, v tm tt ni

  • -15-

    dung ca trang Web . Trong phn lp vn bn, mi vn bn

    thng c xp vo mt lp c th no . Trong phn tch ch ,

    chng ta gi s mi vn bn cp n nhiu hn mt ch (K ch

    ) v mc lin quan n ch c biu din bng phn phi

    xc sut ca ca ti liu trn cc ch .

    Hnh 2.13 Ti liu vi K ch n.

    M hnh sinh trong LDA

    Theo Blei, Ng [8], d pLSA mt bc tin trong vic m hnh

    ha text theo xc sut nhng n cha hon thin. L do l pLSA cha

    phi l mt m hnh xc sut c xc nh r rng mc vn bn

    (document). H qu l n gp vn khi xc nh xc sut vi nhng

    vn bn nm ngoi tp hun luyn (trainning set). Hn na, n cn

    dn ti vic tng tuyn tnh s tham s ca m hnh so vi ln ca

    tp vn bn (corpus). LDA l m hnh phn tch ch c th x l

    c nhng vn . V th ti chn LDA s dng trong

    kha lun. Hnh 2.14 gii thiu nhng bc c bn trong tin trnh

    sinh ca LDA.

  • -16-

    Hnh 2.14. Tin trnh sinh vn bn LDA

    Phn phi Dirichlet n (Latent Dirichlet Allocation)

    LDA l m hnh sinh vn bn c gii thiu bi Blei, Ng v

    cng s [8] vi pLSA v tng c bn l da trn vic coi vn bn

    l s pha trn ca cc ch . Nhng LDA l mt m hnh Bayes ba

    mc: mc corpus, mc vn bn (document), mc t (word). Hnh

    2.15 & 2.16 m t tin trnh sinh vn bn bng phng php LDA:

    Hnh 2.15. K hiu khi lp li

  • -17-

    Cho mt corpus ca M ti liu biu din bi D={d1,d2, , dM},

    trong , mi ti liu m trong corpus bao gm Nm t wi rt t mt

    tp Vocabulary ca cc term {t1, , tv}, V l s t. LDA cung cp

    mt m hnh sinh y ch ra kt qu tt hn cc phng php

    trc. Qu trnh sinh ra document nh sau:

    Hnh 2.16. M hnh biu din ca LDA

    Cc k hiu:

    Cc khi hnh vung hinh 18 biu din cc qu trnh lp.

    Tham s u vo: v ( tham s mc corpus).

    : Dirichlet prior on m

    .

    : Dirichlet prior on k

    .

    M : s vn bn trong corpus: D = {d1 ,d2 ,...,dM }.

    K : s ch n.

    V : s t trong tp t vng

    Nm : S lng cc t trong ti liu th m (hay cn gi l di

    ca vn bn dm).

    zm,n : ch ca t wn trong vn bn dm ( hay ch s ch ).

    wm,n : t th n trong vn bn dm ch bi zm,n. k

    km 1}{

    (KxV matrix)

  • -18-

    m

    : Phn phi ca topic trong document th m,

    m

    biu din

    tham s cho p(z|d=m), thnh phn trn topic cho ti liu m. Mt t l

    cho mi ti liu M

    mm 1}{

    (MxK matrix)

    m

    : phn phi ca cc t c sinh t ch zm,n. m

    biu

    din tham s cho p(t|z=k), thnh phn trn ca topic k, mt t l cho

    mi topic.

    LDA sinh mt tp cc t wm,n cho cc vn bn md

    bng cch:

    Vi mi vn bn m, sinh ra phn phi topic m

    cho

    vn bn theo Dir().

    Vi mi t, zm,n c ly mu da vo phn phi topic

    Mult(m

    ).

    Vi mi topic index zm,n, da vo phn phi t k

    ,

    wm,n, c sinh ra.

    c lng gi tr tham s v inference thng qua Gibbs

    Sampling cho m hnh LDA.

    c lng tham s cho m hnh LDA bng phng php cc

    i ha hm likelihood trc tip v mt cch chnh xc c phc

    tp thi gian rt cao v khng kh thi trong thc t.

    Hnh 2.18. c lng tham s tp d liu vn bn.

  • m

    m

    -19-

    Ngi ta thng s dng cc phng php xp x nh

    Variational Methods v Gibbs Sampling . Gibbs Sampling c xem

    l mt thut ton nhanh, n gin, v hiu qu hun luyn LDA.

    Cho trc mt tp cc vn bn, tm xem topic model no

    sinh ra tp cc vn bn trn. Bao gm:

    - Tm phn phi xc sut trn tp t i vi mi topic .

    - Tm phn phi topic ca mi ti liu .

    CHNG 3

    NG DNG V THC NGHIM

    3.1. NG DNG

    3.1.1. ng dng tm kim trch chn theo ch c lu

    kho d liu

    Trong kho CSDL cha cc ch n v xc sut ca cc ch

    c xc nh theo mt u tin.

    B tch t lm nhim v khi nhp vo mt cu truy vn b

    ny s phn tch trong cu truy vn thuc ch n no

    Ch n ca cu truy vn c nhim v phn tch trong cu

    truy vn thuc loi ch no c mt xc xut cao u tin theo

    th t tng dn, hin th danh sch theo ch c s trch chn

    3.1.2. ng dng tm kim trch chn theo ch c lu

    kho CSDL trn Internet

    Pha tng tc vi cc my tm kim Google

    Pha tin x l d liu

    Pha sp xp vn bn v cu theo quan trng

    Pha sinh vn bn tm tt

    Trong pha sinh vn bn tm tt, cc cu c sp xp c

    sp xp pha trn s c sp xp li. Trng s quan trng ca

  • -20-

    cu s c b sung thm trng s ca vn bn cha cu y, vic

    ny s gip vn bn tm tt khng c s chng cho v mt ni

    dung. ScoreTotal l cng thc tnh li quan trng ca cu:

    ScoreTotal(sk)=( *Score(sk)+(1- )* Score(Di))

    - Sk: l cu cn tnh quan trng.

    - Di: l vn bn cha sk.

    - Score(sk), Score(Di): l trng s quan trng ca sk v Di

    c tnh pha trc.

    - : l cc hng s trn nm trong ngng [0,1] th hin s

    ng gp ca hai o Score(sk) v Score(Di) (Cc hng s ny s

    c c lng trong qu trnh thc nghim).

  • -21-

    3.2. THC NGHIM

    3.2.1. Mi trng thc nghim

    3.2.2. Mt s giao din chng trnh

    1. Cng c tm kim trch chn thng tin theo ch Chung

    tay xy dng thnh ph xanh sch p ly t ti liu trn Internet v

    lu tr vo kho d liu theo ch n .

    2. Cng c tm kim trch chn ch Chung tay xy dng

    thnh ph xanh sch p trn Internet.

  • -22-

    KT LUN

    1. KT QU T C

    V mt khoa hc

    Lun vn tin hnh phn tch, tm hiu c quy trnh khai

    ph d liu Web. Pht hin ra nhng vn cn hn ch xut

    a ra gii php nhm c nhng phng n khc phc nng cao

    hiu qu trong cng vic tm kim trch chn thng tin theo ch

    nhanh v chnh xc hn.

    Nm c cc phng php v cc m hnh ton hc nh

    th, xc sut Bayes v m hnh biu din d liu vn bn, CRFs,

    LDA p dng gii quyt yu cu lun vn t ra.

    Nghin cu v vn dng gii thut crawl, k-means, Viterbi

    xy dng m hnh khai ph d liu Web theo ch .

    V mt thc tin

    Lun vn nu c gii php k thut xy dng h thng

    tr gip quyt nh nm bt c nhng lung thng tin tt trong

    cng tc qun l v kinh danh.

    Tm kim trch chn thng tin trn Web theo ch gip

    chng ta c mt ci nhn tng th, bit c nhng g ni bt trong

    qu kh, u l xu hng thng tin hin ti v u l nhng hng s

    ni ln trong tng lai gn. Tng hp thng tin hng ch trn

    Web cng gip chng ta sp xp li thng tin v theo di cc lung

    thng tin tt hn.

    Xy dng c ng dng c kh nng phn tch tt cc d liu

    v nh trng trong nhng nm qua v mt ch no .

    Tm ra din bin qu trnh pht trin theo thi gian ca cc ch

    no , theo mt s tiu ch nh t l cc ti liu theo ch , cc

    ch ni bt mi, thi im mt ch c th t nh cao nht,

    ch no ang tn li tm ra c cc ch c vai tr ch

  • -23-

    cht trong tp hp cc ch .

    H thng c th gip cho tm kim trch chn thng tin nhanh

    chnh xc, gip cho ban gim hiu nh trng v lnh o cc n v

    lin kt ra quyt nh mt cch kp thi, khoa hc, trnh c cc

    tnh hung quyt nh theo cm tnh nhm hn ch cc trng hp

    a ra quyt nh sai khng hiu qu dn n thit hi v kinh t,

    lng ph thi gian v tin bc ca ngi hc.

    C th ni, y l mt cng c hu ch nhm cung cp cho

    n v nm c nhng ch thi s ni bt, c thm mt gii

    php h tr v cng tc qun l sau ny.

    2. HN CH

    H thng hin ti ch tng tc d liu c lu tr kho d liu

    Google, cha kt ni v truy xut d liu trc tip n c s d liu ca

    Yahoo, MSN, Altavista... Do cn mt khong thi gian khai ph

    kho d liu ny.

    3. HNG PHT TRIN

    Nghin cu ci tin h thng thng qua gii php thu nhn

    nh gi phn hi ca ngi dng i vi cht lng tm kim trch

    chn thng tin theo ch cht lng tm kim nh hng hn

    ti ngi dng.

    Ci tin qu trnh lu tr v nh ch mc tng tc cho cc

    vic tm kim trch chn thng tin, qua tng tc tr li cu hi

    cho m hnh hi p ting Vit, Xy dng v trin khai h thng hi

    p ting Vit cho ngi s dng.

    T ng phn lp cc trang web ting Vit b sung thm vo

    cy ch .

    Tm kim trch chn thng tin trn Web theo ch gip

    chng ta c mt ci nhn tng th, bit c nhng g ni bt trong

    qu kh, u l xu hng thng tin hin ti v u l nhng hng s

  • -24-

    ni ln trong tng lai gn. Tng hp thng tin hng ch trn

    Web cng gip chng ta sp xp li thng tin v theo di cc lung

    thng tin tt hn, gip cho nh qun l a ra quyt nh v nh kinh

    t d bo trc nhng ri ro xy ra.

    M hnh LDA hng pht trin ln m hnh SAM tng hiu

    qu, y v khi qut hn cho vic thc hin phn tch t cc tp

    d liu vn bn gim st hoc hon ton phi gim st.