Text Mining: SAS Enterprise Miner versus Teragram

Text Mining: SAS Enterprise Miner versus Teragram

Petr Berka, Tomáš Kliegr

VŠE Praha

Berka & Kliegr @ SAS Forum 2011 2 2 2

Text mining vs. data mining

otázka vhodné reprezentace dat (typicky „bag of words“)

2 možné přístupy k text mining:

Předzpracování dat + „běžné“ algoritmy pro data mining

Speciální algoritmy pro text mining

Text mining = data mining na nestrukturovaných textových dokumentech

Berka & Kliegr @ SAS Forum 2011

Berka & Kliegr @ SAS Forum 2011 3 3

Úlohy text mining Vyhledávání informací (information retrieval, IR) –

dokument chápan jako celek

text categorization

document clustering

document filtering

duplication detection

sentiment analysis

Extrakce informací (information extraction, IE) – hledání v dokumentech

text summarization

template mining Berka & Kliegr @ SAS Forum 2011


Text Mining a SAS: Enterprise Miner

Předzpracování textů Text parsing node (převod dokumentu na BoW)

Text filtering node (kontrola pravopisu, filtrování termínů, propojení témat, fultextové vyhledávání)

Text topics node (reprezentace dokumentů souhrnnějšími „tématy“ s využitím SVD)

Text mining Text mining node (převod dokumentu na BoW,

propojení témat, shlukování dokumentů – SVD, termíny)



EM pro IR: předzpracování + „běžný“ data mining



Text Parsing node - results



Text Filter node - results



Text filter node – view



Text Topics node - results



Text Topics node - viewer



„Běžný“ data mining


téma


EM pro IR: speciální algoritmy pro text mining



Text Mining node - parsing



Text mining node - analýza





SVD dimenze




termín


Text Mining a SAS: komponenty Teragram

Content categorization

+ document duplication detection

+ text summarization

+ search and indexing

+ … (web crawler, content alerts, MeSH rules, IPTC rules)

Sentiment analysis

Ontology management



SAS Content Categorization

Slouží pro kategorizaci dokumentů (IR)

Statistické učení

Automatické učení pravidel

Ruční definice pravidel

a identifikaci konceptů v dokumentech (IE)

Klasifikační koncepty

Gramaticky definované koncepty


Berka & Kliegr @ SAS Forum 2011 19

Kategorizace dokumentů Statistické učení

Black box přístup, vznikne hierarchie konceptů

Automatické učení Vytvoří se hierarchie pojmů, pro každou se zadá sada

ukázkových dokumentů, systém pak pro každou kategorii navrhne kategorizační pravidla s jasnou sémantikou (pojmy vyskytující se v dané kategorii)

Ruční Nekvalifikovaná pravidla – seznam slov

Kvalifikovaná pravidla – spec. symboly: (cena@), (*produkt), (-sport), (--vítěz)

Vážená lingvistická pravidla



Výběr nejvhodnější kategorie

Režim frekvenční relevance Match Ratio udává počet termů, které musí být

rozpoznány, aby byl dokument klasifikován do dané kategorie

Pokud počet rozpoznaných termů dosáhne Match Ratio u více kategorií, vybere se kategorie s nejvyšším absolutním počtem rozpoznaných kategorií

Režim 2- zónové frekvenční relevance Rozpoznané termy blíže začátku dokumentu

dostanou větší váhu Vhodné pro novinové články



Kategorie a termíny



Definice konceptů

Klasifikační koncept (classifier concept) Koncept je definován seznamem slov nebo pomocí

„regulárních výrazů“ Vhodné pro zachycení očekávaných informací,

nebo informací, pro které lze sestrojit regulární výraz

Gramaticky definovaný koncept (grammar concept) Lze zachytit předem neznámé informace pomocí

lingvistických pravidel



Gramatický koncept: definování



Gramatický koncept: hledání

<HearstPattern>life is a mistake</HearstPattern>



Podpora češtiny

Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75


Shrnutí SAS Content Categorization

Intuitivní a jednoduchá kategorizace dokumentů pomocí ruční definice kategorií

Velmi jemná podpora pro definici gramatických pravidel, které lze využít pro extrakci faktů z textu


SAS Document duplication detection (IR)

Detekce vzájemné (obsahové) podobnosti dokumentů

test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR

test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR

test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR

test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR

test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR

test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080 PARTLY CONTAINED IN

test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR

test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR

test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR

test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR


SAS Text Summarization (IE)

Vybírá důležité věty z textu Důležitost je dána výskytem uživatelem definovaných

konceptů

Počet vybraných vět je dán uživatelem Absolutní číslo nebo procento

Čím více konceptů ve větě je, tím je důležitější Při definici konceptů je možné využít regulární výrazy a

gramatická pravidla, není možné využít lematizátor

Možnosti shrnutí Celý dokument Odstavce Sekce



build,7 house,7

Věty, ve kterých mají rozpoznané koncepty největší váhu, jsou vloženy do shrnutí.



SAS Sentiment analysis (IE)

Analýza emočního obsahu dokumentů (např. názorů

zákazníků) založená na detekci výskytů slov

nesoucích kladné, záporné a neutrální emoce

Metody:

Statistické modely

Ručně definovaná lingvistická pravidla

Hybridní


SAS Sentiment analysis



Možnost využití ve výuce předměty zaměřené na data mining a text mining

SAS EM-TM

předměty zaměřené na zpracování přirozeného jazyka (NLP)


SAS Sentiment analysis

SAS TM (parsing, filtering)

předměty zaměřené na vyhledávání informací (IR)



Děkuji za pozornost

Petr Berka

[email protected]

Documents

Text Mining: SAS Enterprise Miner versus Teragram