12
WIKT 2006 Bratislava, 28-29 november 20 06 1 Dostupné zdroje a výzvy pre počítačové Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom spracovanie informačných zdrojov v slovenskom jazyku jazyku Michal Laclavík, Marek Ciglan Ústav Informatiky SAV

Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

  • Upload
    mariel

  • View
    55

  • Download
    6

Embed Size (px)

DESCRIPTION

Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku. Michal Laclavík , Marek Ciglan Ústav In f ormatiky SAV. Obsah. Kto sa zaoberá slovenčinou? Lematizácia a stemming Motiv ácia Lematizácia Stemming Dostupné nástroje pre Slovenčinu - PowerPoint PPT Presentation

Citation preview

Page 1: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 1

Dostupné zdroje a výzvy pre počítačové spracovanie Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazykuinformačných zdrojov v slovenskom jazyku

Michal Laclavík, Marek Ciglan

Ústav Informatiky SAV

Page 2: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 2

Obsah

• Kto sa zaoberá slovenčinou?• Lematizácia a stemming

– Motivácia– Lematizácia– Stemming– Dostupné nástroje pre Slovenčinu

• Slovenčina v nástrojoch projektu NAZOU

Page 3: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 3

Kto sa zaoberá slovenčinou?

• Slovenský jazykovedný ústav Ľ. Štúra SAV (JULS)– V minulosti - Laboratórium počítačovej lingvistiky na

Pedagogickej Fakulte UK - pokračovanie na JULS– korpus slovenského jazyka

• špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe a spracováva na vedecko-výskumné a učebné ciele

• Lingvisti - významy a funkcie slov• V rámci korpusu práca aj na morfológii a lematizácii (R.

Garabík )

Page 4: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 4

Kto sa zaoberá slovenčinou?

• Lingvistická dielňa na FEI TU, Košice– Morfológia– tvorba databázy slov slovenského jazyka

• UPJŠ Košice– indexovací a fulltextový engine ktorý využíva aj dáta

zo slovenského slovníka – zapracovanie ďalších zdrojov - slovník cudzích slov

• seminár SLOVKO - International Seminar -Computer Treatment of Slavic and East European Languages– ( SLOVKO 2007 - October 25 – 27 2007 )

Page 5: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 5

Kto sa zaoberá slovenčinou?

• Iné– Forma s.r.o.

• spell check pre produkty Microsoftu• produkty na fulltextové vyhľadávanie v slovenčine

– http://www.zbierka.sk/

– sk-spell • open source spell check (napr. v OpenOffice)• anglicko-slovenský slovník • synonymický slovník

Page 6: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 6

Lematizácia a stemming

• Motivácia:– Meniaci sa tvar slova – nevýhodou pri počítačovom

spracovaní– Potreba pracovať s rôznymi tvarmi slova ako s

jediným tokenom– Lematizácia a stemming - pri indexácii a vyhľadávaní

• Redukcia slovníka• Zvyšuje recall (vyhľadávanie identifikuje aj dokumenty s

rôznymi tvarmi slov zadaných užívateľom na vstupe)

Page 7: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 7

Lematizácia a stemming

• Lematizácia:– základný tvar slova – Napr. lama pre angl. „GO“ zahŕňa aj „go, goes, went,

gone, going “– Realizácia na základe slovníka– WordNet – výkladový slovník angl. jazyka, umožňuje

aj lematizáciu

– Problém: keď vstupné slovo nie je v slovníku

Page 8: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 8

Lematizácia a stemming

• Stemming:– „koreň slova“ – Redukcia morfologických variant slova na spoločný

koreň– Stem (koreň) nemusí byť platným prvkom jazyka

• slovo: destabilized ; stem: stabil

– Stemming – realizovaný algoritmicky– Stemmer dodá výstup na každý vstup

– Porterov stemovací algoritmus pre anglický jazyk

Page 9: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 9

Lematizácia a stemming

• Dostupné nástroje pre Slovenčinu:– Využitie dát z ispll-u– Lematizátor vyvíjaný na JULS SAV (R. Garabík );

dostupná betaverzia

– Stemmer: • Základ stemmer-u vhodného pre slovanské jazyky (Leo

Galambos)• poľský jazyk – Stempel, Lametyzator

• ? Slovenský stemmer

Page 10: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 10

Slovenčina v nástrojoch projektu NAZOU

• potreba ekvivalentu Porterovho algoritmu pre slovenčinu – stemmer– Indexovacie nástroje, Ontea, Erid

• Potreba využitia synonymického slovníka• nástroj ktorý identifikuje zdroj v slovenskom

jazyku (sľubné výsledky – tím z FIIT)

Page 11: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 11

Kódovanie dokumentov v slovenčine

• Technický problém:– Rôzne kódovania (win-1250, ISO-8859-2 alebo UTF)– špeciálne HTML značky začínajúce „&#“. – Texty písané bez diakritiky (bežná komunikácia

emailom)

Page 12: Dostupné zdroje a výzvy pre počítačové spracovanie informačných zdrojov v slovenskom jazyku

WIKT 2006 Bratislava, 28-29 november 2006 12

Ďakujem za pozornosť