View
226
Download
0
Category
Preview:
Citation preview
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
1/19
Peringkasan Teks
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
2/19
Table Of Contents
1. Konsep Peringkasan Teks2. Review TF-IDF & Vector Space Mode
!. "ase St#d$
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
3/19
Konsep Peringkasan Teks
• Konsep Peringkasan Teks : – Secara umum, peringkasan teks otomatis (automatic text summarization)
adala pe%#atan ent#k $ang ei' singkat dari se#a' dok#%en teks
dengan memanfaatkan suatu algoritma dan dioperasikan pada komputer!
– Sedangkan menurut "duard #o$%, peringkasan teks adala teks $ang
di'asikan dari satu atau ban%ak dokumen, %ang mengandung isi dari dokumen
asli dan pan&angn%a tidak ei' dari setenga' dok#%en asin$a!
• 'eberapa etode Peringkasan Teks : – Pendekatan statistika %aitu teknik word (re)#enc$ (un)!
– Cue *ords and eading ("dmudson)!
– Pendekatan dengan natural language anal%sis %aitu in$erse term
fre+uenc% and P tecni+ue (-one)! – e.ical cain (c Keo*n)!
– a.imal arginal rele$ance (Carbonell dan /oldstein)!
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
4/19
Konsep Peringkasan Teks
• Satu kalimat dianggap satu dokumen! (Pada kasus lain, satuparagraf bisa dianggap satu dokumen)!
• -paka bisa dalam satu kalimat terdapat kata %ang muncul lebi
dari satu kali0
• etode T1 :
– etode T1 (Term 1re+uenc%) memanfaatkan ban%akn%a kemunculankata pada suatu dokumen!
– #asil akir bobot kalimatn%a merupakan pen¨aan dari setiap 2tf,
%aitu dari setiap bobot masing3masing kata %ang men%usun setiap
kalimat!
• etode T13451 : – etode T13451 (Term 1re+uenc%34n$erse 5ocument 1re+uenc%) adala
memadukan nilai 2tf dan 4df t!
– #asil akir bobot kalimatn%a merupakan pen¨aan dari setiap 2td
tiap kata %ang men%usun setiap kalimat!
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
5/19
6e$ie* T13451
•Term 2eigting : – Term 1re+uenc% (tf)
• tf t,d adala ban%akn%a kemunculan term7token7kata t dalam dokumen d !
• 'obot dari tf (tf *eigt) dapat diitung menggunakan rumus berikut :
– 4n$erse 5ocument 1re+uenc% (idf)
• df t adala ban%akn%a dokumen %ang mengandung term7token7kata t.
• 6umus untuk mengitung idf t adala sebagai berikut :
dimana men%atakan ban%akn%a dokumen %ang ada!
– tf3idf 2eigting• 'obot tf3idf dari suatu term7token7kata merupakan asil perkalian antara tf
*eigt dengan idf!
t t N /df logidf 10=
>+
=otherwise0,
0tf if ,tf log1
10
tf ,
t,d t,d
d t
w
t t,d t,d
idf wwtf ×=
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
6/19
8ector Space odel
• Perandingan VSM : ('ase 5okumen 8s 'ase Kalimat) – 8ector Space odel -ntar 5okumen!
– 8ector Space odel -ntar Kalimat 5alam 9 5okumen!
Doc 1 Doc 2 Doc ! Doc * Doc + Doc ,
-nton% ; < < < <
'rutus = > < 9 < <
Caesar > ; < 9 9
Calpurnia 9 ? < < < <Cleopatra 9 < < < < <
merc% ? < = > > 9
*orser = < 9 9 9 <
Doc 1
t(
Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at , -nton% 9 9 < < < <
'rutus < 9 9 9 < < =
Caesar 9 9 < 9 9 9 >
Calpurnia < 9 < < < < 9
Cleopatra 9 < < < < < 9
merc% < < 9 9 9 9 ?
*orser < < 9 9 9 < =
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
7/19
Case Stud% - (9 of 99)
• Peratikan tabel berikut! (8ektor baris men%atakan keberadaan suatu
Token7Term7Kata unik %ang ada dalam sebua dokumen! 8ektor kolom
men%atakan semua daftar kalimat %ang ada dalam dokumen tersebut)!
5iketaui s@A kalimat dengan masing3masing kata %ang terdapat di
dalamn%a!
Setiap kalimat direpresentasikan dengan nilai real dari frekuensi setiap
token7term7kata dalam bentuk $ektor space! Tentukan asil Peringkasan
Teksn%aB (-mbil = teratas)!
Doc 1
t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <
'rutus < 9 9 9 < < =
Caesar 9 9 < 9 9 9 >
Calpurnia < 9 < < < < 9
Cleopatra 9 < < < < < 9
merc% < < 9 9 9 9 ?
*orser < < 9 9 9 < =
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
8/19
Case Stud% - ( of 99)
•'ase T1 (Part 9) – #itung tf *eigt
>+
=otherwise0,
0tf if ,tf log1
10
tf ,
t,d t,d
d t w
Doc 1
t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <
9 9
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
9/19
Case Stud% - (= of 99)
•'ase T1 (Part 9) – #itung tf *eigt
Doc 1
t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <9 9
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
10/19
Case Stud% - (? of 99)
•'ase T1 (Part 9) – #itung tf *eigt
Doc 1
t( Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <9 9
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
11/19
Case Stud% - (> of 99)• 'ase T1 (Part 9)
– Sorting 2s :
5ari asil pengitungan didapatkan asil peringkasan teks sebagai
berikut : (isalkan diambil = kalimat teratas)
Kai%at 2
Kai%at *
Kai%at +
Note : Urutan kalimat disesuaikan dengan urutannya dalam dokumen
Doc 1
Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
2s ? >!?E ?!>A A!A ?!;E =!=
SortedDoc 1
Kai%at * Kai%at 2 Kai%at + Kai%at ! Kai%at 1 Kai%at ,2s A!A >!?E ?!;E ?!>A ? =!=
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
12/19
Case Stud% - (A of 99)
• 'ase T13451 (Part )
– #itung tf *eigt
>+
=otherwise0,
0tf if ,tf log1 10
tf ,
t,d t,d
d t w
Doc 1
d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <
'rutus < 9 9 9 < < =
Caesar 9 9 < 9 9 9 >
Calpurnia < 9 < < < < 9
Cleopatra 9 < < < < < 9
merc% < < 9 9 9 9 ?
*orser < < 9 9 9 < =
∑=
= kata N
i j ww
1tf ij
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
13/19
Case Stud% - (; of 99)
• 'ase T13451 (Part )
– #itung tf *eigt
>+
=otherwise0,
0tf if ,tf log1 10
tf ,
t,d t,d
d t w
Doc 1
d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
14/19
Case Stud% - (E of 99)
• 'ase T13451 (Part )
– #itung tf *eigt
>+
=otherwise0,
0tf if ,tf log1 10
tf ,
t,d t,d
d t w
Doc 1
d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 < 9 < < < < <
'rutus < 9 < 9 < 9 < < < =
Caesar 9 < 9 < < 9 < 9 < 9 < >
Calpurnia < 9 < < < < < 9
Cleopatra 9 < < < < < < 9
merc% < < 9 < 9 < 9 < 9 < ?
*orser < < 9 < 9 < 9 < < =
∑=
= kata N
i j ww
1tf ij
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
15/19
Case Stud% - (D of 99)
• 'ase T13451 (Part )
– #itung nilai idf t (4n$erse 5ocument 1re+uenc%) :
Doc 1
d( tKai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
-nton% 9 9 < < < <
'rutus < 9 9 9 < < =
Caesar 9 9 < 9 9 9 >
Calpurnia < 9 < < < < 9Cleopatra 9 < < < < < 9
merc% < < 9 9 9 9 ?
*orser < < 9 9 9 < =
d( t id( t id( t
nton$ 9
/r#t#s = 9"aesar > 9)
"ap#rnia 9 9
"eopatra 9 9
Merc$ ? 9orser = 9t t N /df logidf 10=
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
16/19
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
17/19
Case Stud% - (99 of 99)• 'ase T13451 (Part )
– Sorting 2s :
5ari asil pengitungan didapatkan asil peringkasan teks sebagai
berikut : (isalkan diambil = kalimat teratas) Kai%at 1
Kai%at 2
Kai%at *
Note : Urutan kalimat disesuaikan dengan urutannya dalam dokumen
Doc 1
Kai%at 1 Kai%at 2 Kai%at ! Kai%at * Kai%at + Kai%at ,
2s 9!=? 9!A? A
Sorted
Doc 1
Kai%at 2 Kai%at 1 Kai%at * Kai%at ! Kai%at + Kai%at ,
2s 9!A? 9!=? A
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
18/19
atian 4ndi$idu• Peratikan tabel dokumen berikut B
a! 'uatla tabel 8ector Space odel antar kalimat dalam dokumen tersebut B
b! Tentukan asil Peringkasan Teksn%a 'erdasarkan etode T13451 B(-mbil = teratas)!
Dok. Ke-i Isi Dok#%en
9
Elang dari danau toba sering terbang di sekitar sungaisumatra. Elang tersebut sering memangsa bersama-sama elang lainnya, dan mangsanya adalah ikan yangberada di sungai.
Selain banyak elang, danau tersebut juga merupakansumber air bersih sekaligus sebagai tempat wisata.Kemudian, diketahui pula populasi fauna yangterdapat pada sungai-sungai di sekitar danau jugasangat beragam, serta fauna-fauna tersebut memang
dilestarikan. Oleh sebab itu, antara elang dan mangsamerupakan salah satu rantai makanan yang alami dansudah mengakar dari cagar alam yang dilestarikantersebut.
8/16/2019 11-Peringkasan Teks_A_SA1250_5.0_V1.09
19/19
Seesai
Recommended