TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu

Objavovanie znalostí v textoch TU Košice

TEXT MINING 4

Objavovanie znalostí v textochPeter Bednár


Peter Bednár

Úlohy dolovania z textov

• Klasifikácia

– Zaradenie dokumentu do preddefinovaných kategórií

• Zhlukovanie

– Nájdenie a popis zhlukov podobných dokumentov

• Extrahovanie tém

– Vyextrahovanie hlavných tém v dokumentoch

• Analýza sentimentu

– Určenie polarity textu

• Extrahovanie informácií

– Extrahovanie entít, udalostí, vzťahov a faktov

2


Peter Bednár

Extrahovanie tém (1)

• Úlohou je 1) nájsť témy zastúpené v množine dokumentov a 2)

popísať témy tak aby ich bolo možné interpretovať

• Najčastejšie sa používajú nekontrolované metódy

• Vhodná je vektorová reprezentácia + slovné spojenia

• Predpoklady:

– Obsah jedného dokumentu môže byť zložený z viacerých tém

– Témy je možné reprezentovať možinou charakteristických slov

alebo fráz

– Jedno slovo môže vyjadrovať rôzne témy (v každej sa však

vyskytuje v kontexte iných slov)

3


Peter Bednár

Extrahovanie tém (2)

• Vyhodnotenie

– Na nezávislej množine sa otestuje ako dobre model dokáže

popísať nové dáta (za predpokladu rovnakého zastúpenia tém)

– Ale podobne ako pri zhlukovaní, dôležitá je interpretácia

expertom a vizualizácia výsledkov

4


Peter Bednár

Extrahovanie tém a LSI (1)

• Term-dokument matica bola rozložená na súčin matíc T S DT

• Komponenty LSI sme prirovnali k témam, pričom platilo, že:

– Počet tém bol daný počtom komponentov LSI k

– Každej téme zodpovedal stĺpcový vektor v matici T, ktorého

hodnoty Ti,t určovali, do akej miery term i vyjadruje tému t

– Každej téme zodpovedal stĺpcový vektor v matici D, ktorého

hodnoty Dj,t určovali, do akej miery dokument j obsahuje tému t

– Témy boli vážené pre celú množinu dokumentov singulárnymi

hodnotami st ≥ 0 z diagonálej matice S

5


Peter Bednár

Extrahovanie tém a LSI (2)

• Váha termu v dokumente sa rozložila podľa:

Ai,j = Ti,1s1Dj,1 + Ti,2s2Dj,2 + ... + Ti,k skDj,k

• Hlavným problémom LSI pre extrahovanie tém je to, že hodnoty Ti,t

a Dj,t nie sú ohraničené a môžu nadobúdať zápornú hodnotu, čo

znemožňuje jednoduchú interpretáciu príslušnosti medzi termami a

témami, resp. témami a dokumentami

• Pre jednoduchú interpretáciu by mali byť hodnoty Ti,t a Dj,t kladné a

ohraničené

6


Peter Bednár

LSI – príklad (1)

7

manažmentznalosť

dátainformácia

úlohafinancie

manažérprojekt

návratnosťpresnosť

vyhľadávaniehits

pagerankreprezentácia

rozpočetganttpert

dolovanieoptimalizácia

cieľ

do

k. 1

do

k. 2

do

k. 3

do

k. 4

do

k. 5

dok. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

tém

a 1

tém

a 2

tém

a 3

tém

a 4

tém

a 5

tém

a 6

tém

a 7

tém

a 8

tém

a 9

tém

a 1

0

dok.1

dok.2

do

k. 3

do

k. 4

dok. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

téma. 1téma. 2téma. 3téma. 4téma. 5téma. 6téma. 7téma. 8téma. 9téma. 10

T SA

DT

= ×


Peter Bednár


8

manažmentznalosť

dátainformácia

úlohafinancie

manažérprojekt


vyhľadávaniehits

pagerankreprezentácia

rozpočetganttpert


cieľ

do

k. 1

do

k. 2

do

k. 3

do

k. 4

do

k. 5

dok. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

do

k. 1

do

k. 2

do

k. 3

dok. 4

do

k. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

do

k. 1

do

k. 2

do

k. 3

dok. 4

do

k. 5

do

k. 6

do

k. 7

do

k. 8

do

k. 9

do

k. 1

0

A-1A A-9,-10


Peter Bednár

12

3

4

5

678 9

10

0

0,1

0,2

0,3

0,4

0,5

0,6

0 0,1 0,2 0,3 0,4 0,5 0,6

12345

6

7

8

9

10

0

0,1

0,2

0,3

0,4

0,5

0,6

0 0,1 0,2 0,3 0,4 0,5 0,6

1 2

3

4

5

6

7

8

9 10

-0,5

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0,5

0 0,1 0,2 0,3 0,4 0,5


9

znalo

sť

pro

jekt

tém

a 2

téma 1

manažment manažment

Pri LSI sú dokumenty o manažmente znalostí a

manažmente projektov výrazne oddelené. Pri

tf-idf pre dopyt manažment + znalosť je ako

najpodobnejší chybne zaradený dokument 10,

a naopak, pre manažment + projekt by nemusel

byť zaradený dokument 9

Priestor LSI Priestor tf-idf


Peter Bednár

Pravdepodobnostný model tém

• Pravdepodobnostný model tém pre danú množinu n dokumentov a

počet tém k priradí:

– Pre každú tému t rozdelenie pravdepodobnosti βt = (βt,1, βt,2, ..., βt,m), βt,i (0, 1), βt,1 + βt,2 + ... + βt,m = 1, kde pravdepodobnosť

βt,i určuje, do akej miery term i vyjadruje tému t

– Pre každý dokument j rozdelenie pravdepodobnosti θj = (θj,1, θj,2, ..., θn,j), θj,t (0, 1), θj,1 + θj,2 + ... + θj,n = 1, kde

pravdepodbnosť θt,j určuje, do akej miery dokument j obsahuje

tému t

10


Peter Bednár

Latentná Dirichletová Alokácia – LDA (1)

• Nie každé rozdelenie je vhodné na reprezentovanie príslušnosti

termov ku témam

– Napr. ak máme celkovo 10 slov, pri uniformnom rozdelení βt = (0.1, 0.1, 0.1, ..., 0.1) každé slovo vyjadruje tému t s rovnakou

pravdepodobnosťou, t.j. o žiadnom slove nemôžeme povedať,

že charakterizuje danú tému t

• Vhodné je rozdelenie, kde sa len niektorým termom priradí vysoká

pravdepodobnosť, a ostatným sa priradí veľmi malá

– Napr. podľa rozdelenia βt = (0.45, 0.0125, 0.45, 0.0125, ..., 0.0125)vieme rozlíšiť, že slová 1 a 3 sú charakteristické pre tému t (obe

vyjadrujú tému s rovnakou pravdepodobnosťou 0.45), všetky

ostatné slová sa takmer nevyskytujú

11


Peter Bednár

Latentná Dirichletová Alokácia – LDA (2)

• Podobne je to pri dokumentoch, chceme aby bol dokument zložený

len z menšieho počtu tém:

– Napr. pre 4 témy podľa rozdelenia θj = (0.6, 0.025, 0.025, 0.35) je

obsah dokumentu j tvorený hlavne témou 1 (60%) a 4 (35%)

• Vhodné rozdelenie je Dirichletove rozdelenie pravdepodobnosti,

ktoré sústredí väčšiu časť pravdepodobnosti na malý počet hodnôt

(termov, tém, atď.)

– Rozdelenie má parameter 0 < α - čím menšia hodnota, tým je

pravdepodobnosť sústredená na menší počet hodnôt (pre α = 1dostaneme uniformné rozdelenie)

12


Peter Bednár

Latentná Dirichletova Alokácia – LDA (2)

• Metóda LDA je pravdepodobnostná metóda založená na

predpoklade, že pravdepodobnosti termov pre každú tému a

pravdepodobnosti tém pre každý dokument majú Dirichletové

rozdelenie

• Vstupné parametre:

– k - počet extrahovaných tém

– αt - parameter Dirichletovho rozdelenia pre priradenie termov,

určuje počet charakteristických termov pre jednu tému

– αd - parameter Dirichletovho rozdelenia pre priradenie tém,

určuje predpokladaný počet rôznych tém v jednom dokumente

• Vstupné dáta: term-dokument matica s frekvenciami termov (nnn

váhovanie)

13


Peter Bednár

LDA – príklad

14

0 0,05 0,1 0,15 0,2

manažmentznalosť

dáta

informácia

úlohafinancie

manažér

projekt


vyhľadávanie

hits

pagerank

reprezentáciarozpočet

gantt

pert


cieľ

0 0,05 0,1 0,15 0,2

manažmentznalosť

dáta

informácia

úlohafinancie

manažér

projekt


vyhľadávanie

hits

pagerank

reprezentáciarozpočet

gantt

pert


cieľ

β1 - Téma 1 β2 - Téma 2

Téma 1 Téma 2

θ1 = (1,12E-03, 9,99E-01)θ2 = (9,95E-04, 9,99E-01)θ3 = (8,14E-04, 9,99E-01)θ4 = (1,19E-03, 9,99E-01)θ5 = (1,28E-03, 9,99E-01)θ6 = (9,99E-01, 1,12E-03)θ7 = (9,99E-01, 1,05E-03)θ8 = (9,99E-01, 1,49E-03)θ9 = (9,97E-01, 2,55E-03)θ10 = (9,99E-01, 1,38E-03)


Peter Bednár

LSI a LDA - zhrnutie a porovnanie

Latentné Sémantické Indexovanie

- LSI

• Vhodné na redukciu

príznakového priestoru a

zlepšenie vyhľadávania

informácií

• Projekcia dát pre 2D/3D

vizualizáciu

15

Latentná Direchletova Alokácia -

LDA

• Určená pre pravdepodobnostné

modelovanie tém

Obidve metódy nezohľadňujú poradie slov v dokumente.


Peter Bednár

Analýza tém v dátových prúdoch

• Textové dáta sú publikované postupne v čase – napr. novinové

články, správy na sociálnom webe, atď.

• Cieľom je analyzovať, ako sa témy menili v čase

– Detegovať vznik novej témy, alebo ďalší výskyt predošlej témy

– Analyzovať trendy (stúpajúca/klesajúca populárnosť témy)

• Najjednoduchší spôsob je analyzovať celú množinu za dané

obdobie a zobraziť histogram dokumentov zaradených do

jednotlivých tém

• Rozšírené metódy okrem priradenia tém termom a dokumentom

modelujú aj výskyt témy v čase – rozdelenie pravdepodobnosti pre

časovú os

16


Peter Bednár

Interpretovanie tém

• Podľa pravdepodobnostného modelu:

– Vieme zistiť, ktoré slová sú charakteristické pre danú tému (majú

väčšiu pravdepodobnosť βt,i )

– Podľa θj,t vieme rozhodnúť, ktorý dokument obsahuje danú tému

• Podobne ako pri zhlukovaní, okrem slov môžeme vyextrahovať vety,

ktoré obsahujú čo najviac slov charakteristických pre danú tému

• Dôležitá je vizualizácia a interaktívne prehliadanie

17


Peter Bednár

Vizualizácia tém (1)

18

http://vis.stanford.edu/papers/termite

http://vis.stanford.edu/papers/termite


Peter Bednár

Vizualizácia tém (2)

19

http://www.memetracker.org/

http://www.memetracker.org/


Peter Bednár

Analýza sentimentu (1)

• Základným cieľom je priradiť textom subjektívnu polaritu – t.j.

rozhodnúť, či je text pozitívny, alebo negatívny

• Rozšírená úloha rozlišuje viacero stupňov polarity (napr. počet

hviezdičiek pri hodnotení filmov a pod.)

• Využitie hlavne v marketingu, starostlivosti o zákazníka, pri

prieskumoch verejnej mienky

• Vhodná je vektorová reprezentácia + slovné spojenia, alebo kratšie

postupnosti slov

• Vyhodnotenie na testovacej množine

– Chyba klasifikácie a kontingenčná tabuľka

– Subjektívne vnímanie môže spôsobiť nízku zhodu aj medzi

ľuďmi (okolo 79%)

20


Peter Bednár


• Pozitívne/negatívne slová

– Slová všeobecne vyjadrujúce pozitívny, alebo negatívny

sentiment - dobrý/zlý

• Stupňovanie polarity

– Kontext, ktorý modifikuje stupeň, ale nemení sa polarita - celkom

dobrý, úplne zlý, nie až taký zlý

• Negácia

– Kontext, ktorý mení polaritu výrazu

– Jednoduchá priama negácia - nie je dobrý

– Rozšírené frázy - nemyslím si, že je dobrý, mal byť dobrý (môže

vyjadrovať nenaplnené očakávanie)

21


Peter Bednár


• Sarkazmus, irónia, implikácie a prenesený význam

• Doménová závislosť

– Niektoré slová, alebo tvrdenia v jednej doméne indikujú pozitívnu

polaritu a v inej negatívnu: nepredvídateľný scenár -

nepredvídateľné ovládanie, smiešna komédia - smiešna dráma,

prečítajte si knihu

• Kultúrna závislosť

– Slangové výrazy

– Rozličný spôsob vyjadrovania a vnímania - napr. Britská vs.

Americká angličtina: that‘s not bad, I almost agree, ...

22


Peter Bednár

Analýza sentimentu - dôležitosť kontextu

Vážení predajcovia <oddelenie predaja>

Včera som navštívil <konkurenčnú predajňu>. Majú skvelý výber,

najlepšie ceny, a nápomocný personál.

Vaša firma je nanič.

S pozdravom ...

• Správne klasifikovanie sentimentu vyžaduje vo všeobecnosti

rozšírený kontext a zachovanie syntaktických väzieb

23


Peter Bednár

Metódy analýzy sentimentu (1)

• Slovníkové metódy

– Slovník pozitívnych/negatívnych slov + pravidlá pre stupňovanie

a negáciu

• SentiWordNet

– Slovník založený na WordNete, každému synsetu je priradená

hodnota polarity a objektivity

• MPQA subjectivity lexicon

– Slovník slov používaných pri subjektívnych vyjadreniach s

priradenou polaritou

24


Peter Bednár


• Nízka zhoda pri manuálne vytváraných slovníkoch

• Automatické metódy pre rozšírenie slovníka

– Založené na spoluvýskyte slov - vzájomná informácia

– kde P(w) = počet výskytov slova w / celkový počet výskytov slov

a P(w1, w2) = počet spolu výskytov w1 a w2 / celkový počet

výskytov dvojíc slov

– Založené na selekcii termov na klasifikovanej množine textov -

informačný zisk, χ2 štatistika

25


Peter Bednár


• Kontrolované metódy učenia

– Segmentovanie na vety, alebo krátke slovné spojenia, ktoré

obsahujú subjektívny obsah môže zlepšiť presnosť

– Lineárne klasifikátory (hlavne SVM)

– Využitie aktívneho a semikontrolovaného učenia

• Kombinované metódy

– Počiatočná klasifikácia slovníkovou metódou (tzv. bootstrap) +

rozšírenie naučeným modelom

26


Peter Bednár

Využitie semikontrolovaného a aktívneho

učenia

27

Rozdelenie na

trénovacie a

testovacie dáta

Klasifikácia

slovníkovou

metódou

text

výsledný

klasifikátor

Aktívny výber

trénovacích dát

Vyhodnotenie

Manuálna

klasifikácia

Učenie

klasifikátora

U

X0

TXn

f


Peter Bednár

Rozšírené úlohy analýzy sentimentu

• Aspektová analýza sentimentu

– Z textu sa vyextrahujú hodnotené entity a ich aspekty/vlastnosti

(napr. produkt a jeho vlastnosti - veľkosť displeja, kapacita

batérie a pod.)

– Hodnotí sa sentiment pre každý aspekt/vlastnosť samostatne

– Vyžaduje extrahovanie entít a rozlíšenie, ku ktorým aspektom sa

vyjadrenie sentimentu vzťahuje (v jednej vete môže byť napr.

pozitívne aj negatívne hodnotenie rôznych aspektov)

• Analýza sentimentu tém

– Vyžaduje extrahovanie tém, resp. klasifikáciu do

preddefinovaných tém

28


Peter Bednár

Klasifikácia emócií

• Cieľom je rozpoznať emócie vyjadrené v texte

• Klasifikačná úloha, ktorá zaradí text do preddefinovaných kategórií

podľa rozdelenia emócií

• Základné rozdelenie podľa Ekmana: hnev, znechutenie, strach,

šťastie/veselosť, smútok a prekvapenie

• Existuje aj viacero vektorových modelov - odhadujú sa spojité

premenné v rôznych dimenziách, ktoré vyjadrujú napr. polaritu,

intenzitu, pasívnosť/aktívnosť

29


Peter Bednár

SenticNet model

• Je založený na tzv. modeli

presýpacích hodín

• 30 000 ohodnotených pojmov

• 4 dimenzie (sensitivity, aptitude,

attention, pleasantness) ktorých

kombinácia definuje 16 základných

emócií

• http://sentic.net/

30

http://sentic.net/

Documents

TEXT MINING 4 - People(dot)tuke(dot)skpeople.tuke.sk/jan.paralic/prezentacie/MZ/MZ8.pdf– Na nezávislej množine sa otestuje ako dobre model dokáže popísať nové dáta (za predpokladu