Upload
others
View
11
Download
0
Embed Size (px)
Citation preview
Text Mining: SAS Enterprise Miner versus Teragram
Petr Berka, Tomáš Kliegr
VŠE Praha
Berka & Kliegr @ SAS Forum 2011 2 2 2
Text mining vs. data mining
otázka vhodné reprezentace dat (typicky „bag of words“)
2 možné přístupy k text mining:
Předzpracování dat + „běžné“ algoritmy pro data mining
Speciální algoritmy pro text mining
Text mining = data mining na nestrukturovaných textových dokumentech
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 3 3
Úlohy text mining Vyhledávání informací (information retrieval, IR) –
dokument chápan jako celek
text categorization
document clustering
document filtering
duplication detection
sentiment analysis
Extrakce informací (information extraction, IE) – hledání v dokumentech
text summarization
template mining Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 4 4
Text Mining a SAS: Enterprise Miner
Předzpracování textů Text parsing node (převod dokumentu na BoW)
Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání)
Text topics node (reprezentace dokumentů souhrnnějšími „tématy“ s využitím SVD)
Text mining Text mining node (převod dokumentu na BoW,
propojení témat, shlukování dokumentů – SVD, termíny)
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 5 5
EM pro IR: předzpracování + „běžný“ data mining
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 6 6
Text Parsing node - results
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 7 7
Text Filter node - results
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 8 8
Text filter node – view
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 9 9
Text Topics node - results
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 10 10
Text Topics node - viewer
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 11 11
„Běžný“ data mining
Berka & Kliegr @ SAS Forum 2011
téma
Berka & Kliegr @ SAS Forum 2011 12 12
EM pro IR: speciální algoritmy pro text mining
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 13 13
Text Mining node - parsing
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 14 14
Text mining node - analýza
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 15 15
„Běžný“ data mining
Berka & Kliegr @ SAS Forum 2011
SVD dimenze
Berka & Kliegr @ SAS Forum 2011 16 16
„Běžný“ data mining
Berka & Kliegr @ SAS Forum 2011
termín
Berka & Kliegr @ SAS Forum 2011 17 17
Text Mining a SAS: komponenty Teragram
Content categorization
+ document duplication detection
+ text summarization
+ search and indexing
+ … (web crawler, content alerts, MeSH rules, IPTC rules)
Sentiment analysis
Ontology management
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 18 18
SAS Content Categorization
Slouží pro kategorizaci dokumentů (IR)
Statistické učení
Automatické učení pravidel
Ruční definice pravidel
a identifikaci konceptů v dokumentech (IE)
Klasifikační koncepty
Gramaticky definované koncepty
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 19
Kategorizace dokumentů Statistické učení
Black box přístup, vznikne hierarchie konceptů
Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada
ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii)
Ruční Nekvalifikovaná pravidla – seznam slov
Kvalifikovaná pravidla – spec. symboly: (cena@), (*produkt), (-sport), (--vítěz)
Vážená lingvistická pravidla
Berka & Kliegr @ SAS Forum 2011 19
Berka & Kliegr @ SAS Forum 2011 20 20
Výběr nejvhodnější kategorie
Režim frekvenční relevance Match Ratio udává počet termů, které musí být
rozpoznány, aby byl dokument klasifikován do dané kategorie
Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií
Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu
dostanou větší váhu Vhodné pro novinové články
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 21 21
Kategorie a termíny
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 22 22
Definice konceptů
Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí
„regulárních výrazů“ Vhodné pro zachycení očekávaných informací,
nebo informací, pro které lze sestrojit regulární výraz
Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí
lingvistických pravidel
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 23 23
Gramatický koncept: definování
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 24 24
Gramatický koncept: hledání
<HearstPattern>life is a mistake</HearstPattern>
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 25
Podpora češtiny
Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75
Berka & Kliegr @ SAS Forum 2011 26
Shrnutí SAS Content Categorization
Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií
Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu
Berka & Kliegr @ SAS Forum 2011 27
SAS Document duplication detection (IR)
Detekce vzájemné (obsahové) podobnosti dokumentů
test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR
test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR
test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR
test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR
test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR
test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR
test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR
test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR
test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080 PARTLY CONTAINED IN
test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR
test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR
test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR
test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR
Berka & Kliegr @ SAS Forum 2011 28 28
SAS Text Summarization (IE)
Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných
konceptů
Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento
Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a
gramatická pravidla, není možné využít lematizátor
Možnosti shrnutí Celý dokument Odstavce Sekce
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 29 29
build,7 house,7
Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí.
Berka & Kliegr @ SAS Forum 2011
Berka & Kliegr @ SAS Forum 2011 30
SAS Sentiment analysis (IE)
Analýza emočního obsahu dokumentů (např. názorů
zákazníků) založená na detekci výskytů slov
nesoucích kladné, záporné a neutrální emoce
Metody:
Statistické modely
Ručně definovaná lingvistická pravidla
Hybridní
Berka & Kliegr @ SAS Forum 2011 31
SAS Sentiment analysis
Berka & Kliegr @ SAS Forum 2011 31
Berka & Kliegr @ SAS Forum 2011 32 32
Možnost využití ve výuce předměty zaměřené na data mining a text mining
SAS EM-TM
předměty zaměřené na zpracování přirozeného jazyka (NLP)
SAS Content Categorization
SAS Sentiment analysis
SAS TM (parsing, filtering)
předměty zaměřené na vyhledávání informací (IR)
SAS Content Categorization
Berka & Kliegr @ SAS Forum 2011