11-Peringkasan Teks_A_SA1250_5.0_V1.09

Embed Size (px)

Citation preview

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    1/19

    Peringkasan Teks

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    2/19

    Table Of Contents

    1. Konsep Peringkasan Teks2. Review TF-IDF & Vector Space Mode

    !. "ase St#d$

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    3/19

    Konsep Peringkasan Teks

    • Konsep Peringkasan Teks : – Secara umum, peringkasan teks otomatis (automatic   text summarization)

    adala pe%#atan ent#k $ang ei' singkat dari se#a' dok#%en teks

    dengan memanfaatkan suatu algoritma dan dioperasikan pada komputer!

     – Sedangkan menurut "duard #o$%, peringkasan teks adala teks $ang

    di'asikan dari satu atau ban%ak dokumen, %ang mengandung isi dari dokumen

    asli dan pan&angn%a tidak ei' dari setenga' dok#%en asin$a!

    • 'eberapa etode Peringkasan Teks : – Pendekatan statistika %aitu teknik word (re)#enc$ (un)!

     – Cue *ords and eading ("dmudson)!

     – Pendekatan dengan natural language anal%sis %aitu in$erse term

    fre+uenc% and P tecni+ue (-one)! – e.ical cain (c Keo*n)!

     – a.imal arginal rele$ance (Carbonell dan /oldstein)!

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    4/19

    Konsep Peringkasan Teks

    • Satu kalimat dianggap satu dokumen! (Pada kasus lain, satuparagraf bisa dianggap satu dokumen)!

    •  -paka bisa dalam satu kalimat terdapat kata %ang muncul lebi

    dari satu kali0

    • etode T1 :

     – etode T1 (Term 1re+uenc%) memanfaatkan ban%akn%a kemunculankata pada suatu dokumen!

     – #asil akir bobot kalimatn%a merupakan pen&umlaan dari setiap 2tf,

    %aitu dari setiap bobot masing3masing kata %ang men%usun setiap

    kalimat!

    • etode T13451 : – etode T13451 (Term 1re+uenc%34n$erse 5ocument 1re+uenc%) adala

    memadukan nilai 2tf dan 4df t!

     – #asil akir bobot kalimatn%a merupakan pen&umlaan dari setiap 2td

    tiap kata %ang men%usun setiap kalimat!

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    5/19

    6e$ie* T13451

    •Term 2eigting : – Term 1re+uenc% (tf)

    • tf t,d adala ban%akn%a kemunculan term7token7kata t  dalam dokumen d !

    • 'obot dari tf (tf *eigt) dapat diitung menggunakan rumus berikut :

     – 4n$erse 5ocument 1re+uenc% (idf)

    • df t  adala ban%akn%a dokumen %ang mengandung term7token7kata t.

    • 6umus untuk mengitung idf t adala sebagai berikut :

    dimana men%atakan ban%akn%a dokumen %ang ada!

     – tf3idf 2eigting• 'obot tf3idf dari suatu term7token7kata merupakan asil perkalian antara tf

    *eigt dengan idf!

    t t    N /df logidf  10=

      >+

    =otherwise0,

    0tf if ,tf log1 

    10

    tf ,

    t,d t,d 

    d t 

    w

    t t,d t,d 

    idf wwtf   ×=

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    6/19

    8ector Space odel

    • Perandingan VSM : ('ase 5okumen 8s 'ase Kalimat) – 8ector Space odel -ntar 5okumen!

     – 8ector Space odel -ntar Kalimat 5alam 9 5okumen!

      Doc 1 Doc 2 Doc ! Doc * Doc + Doc ,

     -nton% ; < < < <

    'rutus = > < 9 < <

    Caesar > ; < 9 9

    Calpurnia 9 ? < < < <Cleopatra 9 < < < < <

    merc% ? < = > > 9

    *orser = < 9 9 9 <

     Doc 1

    t( 

    Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at , -nton% 9 9 < < < <

    'rutus < 9 9 9 < < =

    Caesar 9 9 < 9 9 9 >

    Calpurnia < 9 < < < < 9

    Cleopatra 9 < < < < < 9

    merc% < < 9 9 9 9 ?

    *orser < < 9 9 9 < =

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    7/19

    Case Stud% - (9 of 99)

    • Peratikan tabel berikut! (8ektor baris men%atakan keberadaan suatu

    Token7Term7Kata unik %ang ada dalam sebua dokumen! 8ektor kolom

    men%atakan semua daftar kalimat %ang ada dalam dokumen tersebut)!

    5iketaui s@A kalimat dengan masing3masing kata %ang terdapat di

    dalamn%a!

    Setiap kalimat direpresentasikan dengan nilai real dari frekuensi setiap

    token7term7kata dalam bentuk $ektor space! Tentukan asil Peringkasan

    Teksn%aB (-mbil = teratas)!

     Doc 1

    t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <

    'rutus < 9 9 9 < < =

    Caesar 9 9 < 9 9 9 >

    Calpurnia < 9 < < < < 9

    Cleopatra 9 < < < < < 9

    merc% < < 9 9 9 9 ?

    *orser < < 9 9 9 < =

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    8/19

    Case Stud% - ( of 99)

    •'ase T1 (Part 9) – #itung tf *eigt

      >+

    =otherwise0,

    0tf if ,tf log1 

    10

    tf  ,

    t,d t,d 

    d t w

     Doc 1

    t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <

    9 9

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    9/19

    Case Stud% - (= of 99)

    •'ase T1 (Part 9) – #itung tf *eigt

     Doc 1

    t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <9 9

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    10/19

    Case Stud% - (? of 99)

    •'ase T1 (Part 9) – #itung tf *eigt

     Doc 1

    t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <9 9

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    11/19

    Case Stud% - (> of 99)• 'ase T1 (Part 9)

     – Sorting 2s :

      5ari asil pengitungan didapatkan asil peringkasan teks sebagai

    berikut : (isalkan diambil = kalimat teratas)

      Kai%at 2

      Kai%at *

      Kai%at +

      Note : Urutan kalimat disesuaikan dengan urutannya dalam dokumen

     

    Doc 1

    Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

    2s ? >!?E ?!>A A!A ?!;E =!=

     SortedDoc 1

    Kai%at * Kai%at 2 Kai%at + Kai%at ! Kai%at 1 Kai%at ,2s A!A >!?E ?!;E ?!>A ? =!=

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    12/19

    Case Stud% - (A of 99)

    • 'ase T13451 (Part )

     – #itung tf *eigt

      >+

    =otherwise0,

    0tf if ,tf log1  10

    tf  ,

    t,d t,d 

    d t w

     Doc 1

    d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <

    'rutus < 9 9 9 < < =

    Caesar 9 9 < 9 9 9 >

    Calpurnia < 9 < < < < 9

    Cleopatra 9 < < < < < 9

    merc% < < 9 9 9 9 ?

    *orser < < 9 9 9 < =

    ∑=

    =  kata N 

    i j   ww

    1tf ij

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    13/19

    Case Stud% - (; of 99)

    • 'ase T13451 (Part )

     – #itung tf *eigt

      >+

    =otherwise0,

    0tf if ,tf log1  10

    tf  ,

    t,d t,d 

    d t w

     Doc 1

    d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    14/19

    Case Stud% - (E of 99)

    • 'ase T13451 (Part )

     – #itung tf *eigt

      >+

    =otherwise0,

    0tf if ,tf log1  10

    tf  ,

    t,d t,d 

    d t w

     Doc 1

    d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 < 9 < < < < <

    'rutus < 9 < 9 < 9 < < < =

    Caesar 9 < 9 < < 9 < 9 < 9 < >

    Calpurnia < 9 < < < < < 9

    Cleopatra 9 < < < < < < 9

    merc% < < 9 < 9 < 9 < 9 < ?

    *orser < < 9 < 9 < 9 < < =

    ∑=

    =  kata N 

    i j   ww

    1tf ij

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    15/19

    Case Stud% - (D of 99)

    • 'ase T13451 (Part )

     – #itung nilai idf t (4n$erse 5ocument 1re+uenc%) :

     Doc 1

    d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

     -nton% 9 9 < < < <

    'rutus < 9 9 9 < < =

    Caesar 9 9 < 9 9 9 >

    Calpurnia < 9 < < < < 9Cleopatra 9 < < < < < 9

    merc% < < 9 9 9 9 ?

    *orser < < 9 9 9 < =

    d( t id( t id( t

    nton$ 9

    /r#t#s = 9"aesar  > 9)

    "ap#rnia 9 9

    "eopatra 9 9

    Merc$ ? 9orser  = 9t t    N /df logidf  10=

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    16/19

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    17/19

    Case Stud% - (99 of 99)• 'ase T13451 (Part )

     – Sorting 2s :

      5ari asil pengitungan didapatkan asil peringkasan teks sebagai

    berikut : (isalkan diambil = kalimat teratas)  Kai%at 1

      Kai%at 2

      Kai%at *

      Note : Urutan kalimat disesuaikan dengan urutannya dalam dokumen

     Doc 1

    Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,

    2s 9!=? 9!A? A

     Sorted

    Doc 1

    Kai%at 2 Kai%at 1 Kai%at * Kai%at ! Kai%at + Kai%at ,

    2s 9!A? 9!=? A

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    18/19

    atian 4ndi$idu• Peratikan tabel dokumen berikut B

    a! 'uatla tabel 8ector Space odel antar kalimat dalam dokumen tersebut B

    b! Tentukan asil Peringkasan Teksn%a 'erdasarkan etode T13451 B(-mbil = teratas)!

    Dok. Ke-i Isi Dok#%en

    9

    Elang dari danau toba sering terbang di sekitar sungaisumatra. Elang tersebut sering memangsa bersama-sama elang lainnya, dan mangsanya adalah ikan yangberada di sungai.

    Selain banyak elang, danau tersebut juga merupakansumber air bersih sekaligus sebagai tempat wisata.Kemudian, diketahui pula populasi fauna yangterdapat pada sungai-sungai di sekitar danau jugasangat beragam, serta fauna-fauna tersebut memang

    dilestarikan. Oleh sebab itu, antara elang dan mangsamerupakan salah satu rantai makanan yang alami dansudah mengakar dari cagar alam yang dilestarikantersebut.

  • 8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09

    19/19

    Seesai