Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Objavovanie znalostí v textoch TU Košice
TEXT MINING 4
Objavovanie znalostí v textochPeter Bednár
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Úlohy dolovania z textov
• Klasifikácia
– Zaradenie dokumentu do preddefinovaných kategórií
• Zhlukovanie
– Nájdenie a popis zhlukov podobných dokumentov
• Extrahovanie tém
– Vyextrahovanie hlavných tém v dokumentoch
• Analýza sentimentu
– Určenie polarity textu
• Extrahovanie informácií
– Extrahovanie entít, udalostí, vzťahov a faktov
2
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Extrahovanie tém (1)
• Úlohou je 1) nájsť témy zastúpené v množine dokumentov a 2)
popísať témy tak aby ich bolo možné interpretovať
• Najčastejšie sa používajú nekontrolované metódy
• Vhodná je vektorová reprezentácia + slovné spojenia
• Predpoklady:
– Obsah jedného dokumentu môže byť zložený z viacerých tém
– Témy je možné reprezentovať možinou charakteristických slov
alebo fráz
– Jedno slovo môže vyjadrovať rôzne témy (v každej sa však
vyskytuje v kontexte iných slov)
3
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Extrahovanie tém (2)
• Vyhodnotenie
– Na nezávislej množine sa otestuje ako dobre model dokáže
popísať nové dáta (za predpokladu rovnakého zastúpenia tém)
– Ale podobne ako pri zhlukovaní, dôležitá je interpretácia
expertom a vizualizácia výsledkov
4
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Extrahovanie tém a LSI (1)
• Term-dokument matica bola rozložená na súčin matíc T S DT
• Komponenty LSI sme prirovnali k témam, pričom platilo, že:
– Počet tém bol daný počtom komponentov LSI k
– Každej téme zodpovedal stĺpcový vektor v matici T, ktorého
hodnoty Ti,t určovali, do akej miery term i vyjadruje tému t
– Každej téme zodpovedal stĺpcový vektor v matici D, ktorého
hodnoty Dj,t určovali, do akej miery dokument j obsahuje tému t
– Témy boli vážené pre celú množinu dokumentov singulárnymi
hodnotami st ≥ 0 z diagonálej matice S
5
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Extrahovanie tém a LSI (2)
• Váha termu v dokumente sa rozložila podľa:
Ai,j = Ti,1s1Dj,1 + Ti,2s2Dj,2 + ... + Ti,k skDj,k
• Hlavným problémom LSI pre extrahovanie tém je to, že hodnoty Ti,t
a Dj,t nie sú ohraničené a môžu nadobúdať zápornú hodnotu, čo
znemožňuje jednoduchú interpretáciu príslušnosti medzi termami a
témami, resp. témami a dokumentami
• Pre jednoduchú interpretáciu by mali byť hodnoty Ti,t a Dj,t kladné a
ohraničené
6
Objavovanie znalostí v textoch TU Košice
Peter Bednár
LSI – príklad (1)
7
manažmentznalosť
dátainformácia
úlohafinancie
manažérprojekt
návratnosťpresnosť
vyhľadávaniehits
pagerankreprezentácia
rozpočetganttpert
dolovanieoptimalizácia
cieľ
do
k. 1
do
k. 2
do
k. 3
do
k. 4
do
k. 5
dok. 6
do
k. 7
do
k. 8
do
k. 9
do
k. 1
0
tém
a 1
tém
a 2
tém
a 3
tém
a 4
tém
a 5
tém
a 6
tém
a 7
tém
a 8
tém
a 9
tém
a 1
0
dok.1
dok.2
do
k. 3
do
k. 4
dok. 5
do
k. 6
do
k. 7
do
k. 8
do
k. 9
do
k. 1
0
téma. 1téma. 2téma. 3téma. 4téma. 5téma. 6téma. 7téma. 8téma. 9téma. 10
T SA
DT
= ×
Objavovanie znalostí v textoch TU Košice
Peter Bednár
LSI – príklad (2)
8
manažmentznalosť
dátainformácia
úlohafinancie
manažérprojekt
návratnosťpresnosť
vyhľadávaniehits
pagerankreprezentácia
rozpočetganttpert
dolovanieoptimalizácia
cieľ
do
k. 1
do
k. 2
do
k. 3
do
k. 4
do
k. 5
dok. 6
do
k. 7
do
k. 8
do
k. 9
do
k. 1
0
do
k. 1
do
k. 2
do
k. 3
dok. 4
do
k. 5
do
k. 6
do
k. 7
do
k. 8
do
k. 9
do
k. 1
0
do
k. 1
do
k. 2
do
k. 3
dok. 4
do
k. 5
do
k. 6
do
k. 7
do
k. 8
do
k. 9
do
k. 1
0
A-1A A-9,-10
Objavovanie znalostí v textoch TU Košice
Peter Bednár
12
3
4
5
678 9
10
0
0,1
0,2
0,3
0,4
0,5
0,6
0 0,1 0,2 0,3 0,4 0,5 0,6
12345
6
7
8
9
10
0
0,1
0,2
0,3
0,4
0,5
0,6
0 0,1 0,2 0,3 0,4 0,5 0,6
1 2
3
4
5
6
7
8
9 10
-0,5
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
0 0,1 0,2 0,3 0,4 0,5
LSI – príklad (3)
9
znalo
sť
pro
jekt
tém
a 2
téma 1
manažment manažment
Pri LSI sú dokumenty o manažmente znalostí a
manažmente projektov výrazne oddelené. Pri
tf-idf pre dopyt manažment + znalosť je ako
najpodobnejší chybne zaradený dokument 10,
a naopak, pre manažment + projekt by nemusel
byť zaradený dokument 9
Priestor LSI Priestor tf-idf
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Pravdepodobnostný model tém
• Pravdepodobnostný model tém pre danú množinu n dokumentov a
počet tém k priradí:
– Pre každú tému t rozdelenie pravdepodobnosti βt = (βt,1, βt,2, ..., βt,m), βt,i (0, 1), βt,1 + βt,2 + ... + βt,m = 1, kde pravdepodobnosť
βt,i určuje, do akej miery term i vyjadruje tému t
– Pre každý dokument j rozdelenie pravdepodobnosti θj = (θj,1, θj,2, ..., θn,j), θj,t (0, 1), θj,1 + θj,2 + ... + θj,n = 1, kde
pravdepodbnosť θt,j určuje, do akej miery dokument j obsahuje
tému t
10
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Latentná Dirichletová Alokácia – LDA (1)
• Nie každé rozdelenie je vhodné na reprezentovanie príslušnosti
termov ku témam
– Napr. ak máme celkovo 10 slov, pri uniformnom rozdelení βt = (0.1, 0.1, 0.1, ..., 0.1) každé slovo vyjadruje tému t s rovnakou
pravdepodobnosťou, t.j. o žiadnom slove nemôžeme povedať,
že charakterizuje danú tému t
• Vhodné je rozdelenie, kde sa len niektorým termom priradí vysoká
pravdepodobnosť, a ostatným sa priradí veľmi malá
– Napr. podľa rozdelenia βt = (0.45, 0.0125, 0.45, 0.0125, ..., 0.0125)vieme rozlíšiť, že slová 1 a 3 sú charakteristické pre tému t (obe
vyjadrujú tému s rovnakou pravdepodobnosťou 0.45), všetky
ostatné slová sa takmer nevyskytujú
11
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Latentná Dirichletová Alokácia – LDA (2)
• Podobne je to pri dokumentoch, chceme aby bol dokument zložený
len z menšieho počtu tém:
– Napr. pre 4 témy podľa rozdelenia θj = (0.6, 0.025, 0.025, 0.35) je
obsah dokumentu j tvorený hlavne témou 1 (60%) a 4 (35%)
• Vhodné rozdelenie je Dirichletove rozdelenie pravdepodobnosti,
ktoré sústredí väčšiu časť pravdepodobnosti na malý počet hodnôt
(termov, tém, atď.)
– Rozdelenie má parameter 0 < α - čím menšia hodnota, tým je
pravdepodobnosť sústredená na menší počet hodnôt (pre α = 1dostaneme uniformné rozdelenie)
12
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Latentná Dirichletova Alokácia – LDA (2)
• Metóda LDA je pravdepodobnostná metóda založená na
predpoklade, že pravdepodobnosti termov pre každú tému a
pravdepodobnosti tém pre každý dokument majú Dirichletové
rozdelenie
• Vstupné parametre:
– k - počet extrahovaných tém
– αt - parameter Dirichletovho rozdelenia pre priradenie termov,
určuje počet charakteristických termov pre jednu tému
– αd - parameter Dirichletovho rozdelenia pre priradenie tém,
určuje predpokladaný počet rôznych tém v jednom dokumente
• Vstupné dáta: term-dokument matica s frekvenciami termov (nnn
váhovanie)
13
Objavovanie znalostí v textoch TU Košice
Peter Bednár
LDA – príklad
14
0 0,05 0,1 0,15 0,2
manažmentznalosť
dáta
informácia
úlohafinancie
manažér
projekt
návratnosťpresnosť
vyhľadávanie
hits
pagerank
reprezentáciarozpočet
gantt
pert
dolovanieoptimalizácia
cieľ
0 0,05 0,1 0,15 0,2
manažmentznalosť
dáta
informácia
úlohafinancie
manažér
projekt
návratnosťpresnosť
vyhľadávanie
hits
pagerank
reprezentáciarozpočet
gantt
pert
dolovanieoptimalizácia
cieľ
β1 - Téma 1 β2 - Téma 2
Téma 1 Téma 2
θ1 = (1,12E-03, 9,99E-01)θ2 = (9,95E-04, 9,99E-01)θ3 = (8,14E-04, 9,99E-01)θ4 = (1,19E-03, 9,99E-01)θ5 = (1,28E-03, 9,99E-01)θ6 = (9,99E-01, 1,12E-03)θ7 = (9,99E-01, 1,05E-03)θ8 = (9,99E-01, 1,49E-03)θ9 = (9,97E-01, 2,55E-03)θ10 = (9,99E-01, 1,38E-03)
Objavovanie znalostí v textoch TU Košice
Peter Bednár
LSI a LDA - zhrnutie a porovnanie
Latentné Sémantické Indexovanie
- LSI
• Vhodné na redukciu
príznakového priestoru a
zlepšenie vyhľadávania
informácií
• Projekcia dát pre 2D/3D
vizualizáciu
15
Latentná Direchletova Alokácia -
LDA
• Určená pre pravdepodobnostné
modelovanie tém
Obidve metódy nezohľadňujú poradie slov v dokumente.
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Analýza tém v dátových prúdoch
• Textové dáta sú publikované postupne v čase – napr. novinové
články, správy na sociálnom webe, atď.
• Cieľom je analyzovať, ako sa témy menili v čase
– Detegovať vznik novej témy, alebo ďalší výskyt predošlej témy
– Analyzovať trendy (stúpajúca/klesajúca populárnosť témy)
• Najjednoduchší spôsob je analyzovať celú množinu za dané
obdobie a zobraziť histogram dokumentov zaradených do
jednotlivých tém
• Rozšírené metódy okrem priradenia tém termom a dokumentom
modelujú aj výskyt témy v čase – rozdelenie pravdepodobnosti pre
časovú os
16
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Interpretovanie tém
• Podľa pravdepodobnostného modelu:
– Vieme zistiť, ktoré slová sú charakteristické pre danú tému (majú
väčšiu pravdepodobnosť βt,i )
– Podľa θj,t vieme rozhodnúť, ktorý dokument obsahuje danú tému
• Podobne ako pri zhlukovaní, okrem slov môžeme vyextrahovať vety,
ktoré obsahujú čo najviac slov charakteristických pre danú tému
• Dôležitá je vizualizácia a interaktívne prehliadanie
17
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Vizualizácia tém (1)
18
http://vis.stanford.edu/papers/termite
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Vizualizácia tém (2)
19
http://www.memetracker.org/
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Analýza sentimentu (1)
• Základným cieľom je priradiť textom subjektívnu polaritu – t.j.
rozhodnúť, či je text pozitívny, alebo negatívny
• Rozšírená úloha rozlišuje viacero stupňov polarity (napr. počet
hviezdičiek pri hodnotení filmov a pod.)
• Využitie hlavne v marketingu, starostlivosti o zákazníka, pri
prieskumoch verejnej mienky
• Vhodná je vektorová reprezentácia + slovné spojenia, alebo kratšie
postupnosti slov
• Vyhodnotenie na testovacej množine
– Chyba klasifikácie a kontingenčná tabuľka
– Subjektívne vnímanie môže spôsobiť nízku zhodu aj medzi
ľuďmi (okolo 79%)
20
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Analýza sentimentu (2)
• Pozitívne/negatívne slová
– Slová všeobecne vyjadrujúce pozitívny, alebo negatívny
sentiment - dobrý/zlý
• Stupňovanie polarity
– Kontext, ktorý modifikuje stupeň, ale nemení sa polarita - celkom
dobrý, úplne zlý, nie až taký zlý
• Negácia
– Kontext, ktorý mení polaritu výrazu
– Jednoduchá priama negácia - nie je dobrý
– Rozšírené frázy - nemyslím si, že je dobrý, mal byť dobrý (môže
vyjadrovať nenaplnené očakávanie)
21
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Analýza sentimentu (3)
• Sarkazmus, irónia, implikácie a prenesený význam
• Doménová závislosť
– Niektoré slová, alebo tvrdenia v jednej doméne indikujú pozitívnu
polaritu a v inej negatívnu: nepredvídateľný scenár -
nepredvídateľné ovládanie, smiešna komédia - smiešna dráma,
prečítajte si knihu
• Kultúrna závislosť
– Slangové výrazy
– Rozličný spôsob vyjadrovania a vnímania - napr. Britská vs.
Americká angličtina: that‘s not bad, I almost agree, ...
22
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Analýza sentimentu - dôležitosť kontextu
Vážení predajcovia <oddelenie predaja>
Včera som navštívil <konkurenčnú predajňu>. Majú skvelý výber,
najlepšie ceny, a nápomocný personál.
Vaša firma je nanič.
S pozdravom ...
• Správne klasifikovanie sentimentu vyžaduje vo všeobecnosti
rozšírený kontext a zachovanie syntaktických väzieb
23
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Metódy analýzy sentimentu (1)
• Slovníkové metódy
– Slovník pozitívnych/negatívnych slov + pravidlá pre stupňovanie
a negáciu
• SentiWordNet
– Slovník založený na WordNete, každému synsetu je priradená
hodnota polarity a objektivity
• MPQA subjectivity lexicon
– Slovník slov používaných pri subjektívnych vyjadreniach s
priradenou polaritou
24
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Metódy analýzy sentimentu (2)
• Nízka zhoda pri manuálne vytváraných slovníkoch
• Automatické metódy pre rozšírenie slovníka
– Založené na spoluvýskyte slov - vzájomná informácia
– kde P(w) = počet výskytov slova w / celkový počet výskytov slov
a P(w1, w2) = počet spolu výskytov w1 a w2 / celkový počet
výskytov dvojíc slov
– Založené na selekcii termov na klasifikovanej množine textov -
informačný zisk, χ2 štatistika
25
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Metódy analýzy sentimentu (3)
• Kontrolované metódy učenia
– Segmentovanie na vety, alebo krátke slovné spojenia, ktoré
obsahujú subjektívny obsah môže zlepšiť presnosť
– Lineárne klasifikátory (hlavne SVM)
– Využitie aktívneho a semikontrolovaného učenia
• Kombinované metódy
– Počiatočná klasifikácia slovníkovou metódou (tzv. bootstrap) +
rozšírenie naučeným modelom
26
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Využitie semikontrolovaného a aktívneho
učenia
27
Rozdelenie na
trénovacie a
testovacie dáta
Klasifikácia
slovníkovou
metódou
text
výsledný
klasifikátor
Aktívny výber
trénovacích dát
Vyhodnotenie
Manuálna
klasifikácia
Učenie
klasifikátora
U
X0
TXn
f
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Rozšírené úlohy analýzy sentimentu
• Aspektová analýza sentimentu
– Z textu sa vyextrahujú hodnotené entity a ich aspekty/vlastnosti
(napr. produkt a jeho vlastnosti - veľkosť displeja, kapacita
batérie a pod.)
– Hodnotí sa sentiment pre každý aspekt/vlastnosť samostatne
– Vyžaduje extrahovanie entít a rozlíšenie, ku ktorým aspektom sa
vyjadrenie sentimentu vzťahuje (v jednej vete môže byť napr.
pozitívne aj negatívne hodnotenie rôznych aspektov)
• Analýza sentimentu tém
– Vyžaduje extrahovanie tém, resp. klasifikáciu do
preddefinovaných tém
28
Objavovanie znalostí v textoch TU Košice
Peter Bednár
Klasifikácia emócií
• Cieľom je rozpoznať emócie vyjadrené v texte
• Klasifikačná úloha, ktorá zaradí text do preddefinovaných kategórií
podľa rozdelenia emócií
• Základné rozdelenie podľa Ekmana: hnev, znechutenie, strach,
šťastie/veselosť, smútok a prekvapenie
• Existuje aj viacero vektorových modelov - odhadujú sa spojité
premenné v rôznych dimenziách, ktoré vyjadrujú napr. polaritu,
intenzitu, pasívnosť/aktívnosť
29
Objavovanie znalostí v textoch TU Košice
Peter Bednár
SenticNet model
• Je založený na tzv. modeli
presýpacích hodín
• 30 000 ohodnotených pojmov
• 4 dimenzie (sensitivity, aptitude,
attention, pleasantness) ktorých
kombinácia definuje 16 základných
emócií
• http://sentic.net/
30