44
PoliMorf — otwarty slownik morfologiczny Marcin Woliński Marcin Milkowski Maciej Ogrodniczuk Adam Przepiórkowski Lukasz Szalkiewicz Jan Szejko j IPI PAN, 5 grudnia 2011

PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

  • Upload
    donhi

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf — otwarty słownik morfologiczny

Marcin Woliński Marcin Miłkowski Maciej OgrodniczukAdam Przepiórkowski Łukasz Szałkiewicz Jan Szejko

jIPI PAN, 5 grudnia 2011

Page 2: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

2 / 44

Page 3: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

3 / 44

Page 4: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Projekt CESAR

Central and South-East European Resources:

projekt finansowany ze środków:Komisji Europejskiej (program CIP ICT-PSP) – 50%,Ministerstwa Nauki i Szkolnictwa Wyższego – 40%,własnych IPI PAN – 10%.

uruchomiony 1 lutego 2011 r. (do 31 stycznia 2013),wspierający inicjatywę META-NET (Multilingual EuropeTechnology Alliance Network of Excellence)http://www.meta-net.eu.

http://www.cesar-project.net

4 / 44

Page 5: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Cele projektu CESARDokumenty i współpraca:

raport o języku polskim zawierający spis dostępnychproduktów, usług, technologii, zasobów; identyfikacjagłównych ośrodków (badawczych, przemysłowych, rządowych,opiniotwórczych), programów, standardów i praktyk,współpraca z innymi projektami partnerskimi (META-NORD,METANET4U), projektem META-NET, ośrodkami krajowymi.

Zasoby i narzędzia:

uzupełnienie zasobów i narzędzi językowych dla polszczyznyo rodzaje narzędzi dostępnych dla innych języków,włączenie polszczyzny w ogólnoeuropejską infrastrukturęMETA-SHARE (http://www.meta-share.eu).

5 / 44

Page 6: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Partnerzy w projekcie CESAR

Lista współpracowników:

Hungarian Academy of Sciences, Research Institutefor Linguistics – koordynator,Budapest University of Technology and Economics,Department of Telecommunications and Media Informatics,University of Zagreb, Faculty of Humanities and SocialSciences,IPI PAN,Uniwersytet Łódzki,University of Belgrade, Faculty of Mathematics,Institut Mihajlo Pupin,Institute for Bulgarian Language, Bulgarian Academyof Sciences,Institute of Linguistics, Slovak Academy of Sciences.

6 / 44

Page 7: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Bieżący stan prac

Początek grudnia 2011:W ramach pierwszej transzy projektu (następne w lipcu 2012i styczniu 2013 r.) udostępniliśmy w repozytorium META-SHARE8 polskich zasobów:

korpus sejmowy,Słowosieć (plWordnet) w wersji 1.5,Nerf – narzędzie do rozpoznawania nazw własnych,milionowy podkorpus NKJP,słownik nazw własnych (gazetteer),korpusy audiotekstowe LUNA.PL i LUNA-WOZ.PL,wstępną wersję słownika morfologicznego PoliMorf.

7 / 44

Page 8: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf = SGJP + Morfologik

Udostępnienie na licencji FreeBSD danych słownikówźródłowych:

słownika Morfologik,SGJP,wyniku scalenia danych fleksyjnych SGJP i Morfologika.

8 / 44

Page 9: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

9 / 44

Page 10: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

SGJP

SGPJ

Słownik

gramatyczny

języka polskiego

Zygmunt SaloniWłodzimierz GruszczyńskiMarcin WolińskiRobert Wołosz

Wiedza Powszechna 2007

10 / 44

Page 11: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

SGJP

Słownik gramatyczny języka polskiego jest projektem z długąhistorią:

w latach 80-tych: analiza informacji gramatycznej w Słownikujęzyka polskiego Doroszewskiego,W. Gruszczyński, Fleksja rzeczowników pospolitych wewspółczesnej polszczyźnie pisanej, 1989 Wrocław,J. Tokarski, Schematyczny indeks a tergo polskich formwyrazowych, w opracowaniu Z. Saloniego, 1993 Warszawa,Robert Wołosz przygotował elektroniczną postać listy hasełSJPDor uzupełnionej o informację gramatyczną,Z. Saloni Czasownik polski, 2001 Warszawa.

11 / 44

Page 12: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Części składowe formy fleksyjnej

rdze

ńza

kef

obaz

char

.fl.

funkcjasubst mag a sg:gen m1 D. l.p.subst mag a sg:gen m1 B. l.p.subst sąg a sg:gen m3 D. l.p.adj bia łego 2 st. r. D. l.p.adjcom biels zego 2 st. wyż. D. l.p.adjcom naj biels zego 2 st. najw. D. l.p.v czyta ł a 8 nd . . .v czyta ł am 8 nd . . .v będę czyta ł a 8 nd . . .ppas czyta n y 10 nd M. l.p. poz.ppas nie czyta n y 10 nd M. l.p. neg.

forma bazowa

12 / 44

Page 13: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfeusz SGJP

Jedna z możliwych form pochodnych danych SGJP jestużywana w analizatorze morfologicznym Morfeusz SGJP.Przez dłuższy czas trwała dyskusja o sposobie licencjonowania,a program był dostępny tylko dla krewnych-i-znajomych.Od niedawna lista form używana w Morfeuszu jest dostępnana bardzo permisywnej licencji BSD.Morfeusz SGJP został użyty do oznakowania NarodowegoKorpusu Języka Polskiego.

13 / 44

Page 14: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dane SGJP w analizie morfologicznej

Zalety:

Słownik prezentuje spójny metodologicznie opis fleksji owysokim poziomie formalizacji.Dla większości materiału osiągnął już wysoką jakość opisu.Obszerny i żywy (wkrótce II wydanie).Możliwość dostosowania zestawu znaczników do potrzeb.

Wady:

Niesie dziedzictwo przestarzałych leksemów z SJPDor(tzw. dynozaury).Wewnętrzna organizacja danych jest dość złożona.

14 / 44

Page 15: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

15 / 44

Page 16: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfologik

GenezaMorfologik powstał w 2006 roku na potrzeby korektoragramatyczno-stylistycznego LanguageTool.

Na wolnej licencji (LGPL, Creative-Commons ShareAlike,Mozilla Public License...)Oparty na polskim słowniku ispella,Morfologik powstał poprzez napisanie tabeli konwersjisłownika ispella na znaczniki morfosyntaktyczne.

16 / 44

Page 17: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfologik

Historia danych Morfologika

pliki tzw. dawnego słownika do ispella (Mirosław Prywata,Piotr Gackiewicz, Włodzimierz Macewicz),sjp.pl, którego pierwsza wersja (słownik alternatywny)powstała na bazie powyższego (Marek Futrega),program Waspell, pierwszy zawierający znaczniki (ZbigniewPłotnicki).

17 / 44

Page 18: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfologik

Podstawą Morfologika były tzw. flagi ispella, czyli warunkoweoperacje zastępowania ciągów znaków na początku i na końcuform. Autorzy ispella, na szczęście, nazywali te operacje w sposóbsensowny gramatycznie, dlatego można było wykorzystać tęregularność.

Fragment zasad konwersji

OSTos O ów owa ów subst:sg:gen:mOSTos O ów owa ów subst:sg:gen:m1OSTos O ów owem ów subst:sg:inst:m

18 / 44

Page 19: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfologik

Zalety Morfologika:

Do niedawna jedyny wolnodostępny słownik, stosowany wwielu projektach NLP (np. Pelcra)ObszernyAktywnie rozwijanyZnaczniki morfosyntaktyczne w stylu korpusu IPI

19 / 44

Page 20: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Morfologik

Wady Morfologika:

Wyrazy, które nie były opisane zestawem tzw. flag w słownikuispella, trzeba było dopisywać ręcznie.W szczególności nie ma możliwości rozróżniania rodzajówmęskich ze względu na synkretyzm form.Marcin Miłkowski nie poprawiał słownika odpowiednio szybko.Duży bałagan panuje w znacznikach, nieścisły format.

20 / 44

Page 21: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

21 / 44

Page 22: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Kuźnia

webowe środowisko pracy zespołowej nad słownikamifleksyjnymi,stworzone specjalnie dla projektu Cesar,umożliwia pracę nad wieloma słownikami, dzięki czemu

zachowamy tożsamość słowników składowych,a także będzie można tworzyć słowniki specjalistyczne,

jeszcze w trakcie opracowania.

22 / 44

Page 23: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Kuźnia

23 / 44

Page 24: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Kuźnia

24 / 44

Page 25: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Kuźnia

25 / 44

Page 26: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Kuźnia

26 / 44

Page 27: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

27 / 44

Page 28: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Struktura danych w SGJP i Morfolo-giku

SGJPodmiana określona parami (wzór, charakterystyka fleksyjna)wzór określa sposób odmiany, charakterystyka fleksyjna –układ form

Morfologikwiersze: wykładnik – forma podstawowa – tag, bez podziałuna leksemyzbliżone dane są w odm.txt (dane sjp.pl): wiersze z listamiwykładników leksemów, bez tagówoba zasoby można połączyć znakując odm.txt danymiMorfologika i dezambiguując

28 / 44

Page 29: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Schemat importu Morfologika

znakowanie pliku odm.txt danymi z Morfologikadezambiguacjadopasowywanie wzorów i charakterystyk fleksyjnychutworzenie skryptu ładującego wygenerowane dane do bazyKuźni

29 / 44

Page 30: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dezambiguacja

określenie, które tagi przy formie podstawowej mogą byćtagami formy podstawowejjeśli to nie pozwala wykryć części mowy, to dezambiguacja nieudaje sięodsiewane są tagi niepasujące do wykrytej części mowydla rzeczowników wykrywany jest rodzaj i odsiewane sąniepasujące tagi

30 / 44

Page 31: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dopasowywanie wzorów – ogólnyschemat

sprawdzanie, czy takiego samego leksemu nie było już w SGJPfiltrowanie na podstawie zakończenia formy podstawowejwybieranie zbioru pokrywającego zbiór wykładników formdla wszystkich części mowy problemami są błędy w tagachoraz nierozpoznana część form w niektórych leksemachw zależności od stopnia wątpliwości leksem dostaje status„kandydat” lub „wprowadzony”

31 / 44

Page 32: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dopasowywanie wzorów – rzeczowniki

filtrowanie wzorów na podstawie charakterystyki fleksyjnejwykrywanie rzeczowników jednoliczbowych: najpierw wedługtagów, potem według wzorów zawierających oczekiwane formydopasowywanie wzorów do rzeczowników bez liczby mnogiejprzez szukanie podobnych w SGJP i kopiowanie odmianycharakterystyka fleksyjna (rodzaj) często niemożliwa doustalenia

32 / 44

Page 33: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dopasowywanie wzorów – czasowniki

w SGJP wzory dla czasowników generują zestaw formbazowych, z których wszystkie pozostałe są tworzonesufiksamidane z Morfologika są analizowane tak, by ustalić zbiór formbazowych, do którego następnie dopasowywane są wzorytagi określające charakterystykę fleksyjną (aspekt) nie sąkonsekwentne – patrzymy na istnienie imiesłowówprzysłówkowych (z wyjątkiem czasowników bezpodmiotowych)

33 / 44

Page 34: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dopasowywanie wzorów – nieodmien-ne

oddzielna proceduratylko dwa możliwe wzory: jedna forma lub dwie (nad/nade )w Morfologiku brak rozróżnienia adv/advndm i conj/comp

34 / 44

Page 35: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

35 / 44

Page 36: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf 0.5

pradziejowy pradziejowy adj:sg:nom.voc:m1.m2.m3:pospradziejowe pradziejowy adj:sg:nom.voc:n1.n2:pospradźnie pradźnia subst:pl:acc:fpradźniom pradźnia subst:pl:dat:fpradźni pradźnia subst:pl:gen:fpradźniami pradźnia subst:pl:inst:fpradźniach pradźnia subst:pl:loc:fpradźnie pradźnia subst:pl:nom.voc:fpradźnię pradźnia subst:sg:acc:fpradźni pradźnia subst:sg:dat:fpradźni pradźnia subst:sg:gen:fpradźnią pradźnia subst:sg:inst:fpradźni pradźnia subst:sg:loc:fpradźnia pradźnia subst:sg:nom:fpradźnio pradźnia subst:sg:voc:fpradżmy pradżma subst:pl:acc:f

36 / 44

Page 37: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf 0.5

wspólnetylkoSGJP

tylkoMorfologik razem

rzeczowniki 72378 94597 51707 218682„prawdziwe” 52723 25619 47107 125449gerundia 16782 12938 4600 34320-ość 2423 27282 29705nie-. . . -ość 450 28758 29208

przymiotniki 70537 26386 32064 128987st. równy 24433 7190 16415 48038nie- 23737 6033 10172 39942st. wyższy 863 178 172 1213im. czynny 7960 6036 1763 15759im. bierny 13544 6949 3542 24035

czasowniki 16784 12890 4666 34340nieodmienne 9017 16694 2417 28128razem 168716 150567 90854 410137

37 / 44

Page 38: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf 0.5

wspólnetylkoSGJP

tylkoMorfologik razem

nieodmienne 9017 16694 2417 28128adv 4067 7489 2088 13644adv nie- 3799 7580 11379advcom 869 357 134 1360advndm 122 388 510prep 47 68 18 133comp 23 33 56conj 30 34 19 83interj 9 420 429qub 51 191 156 398burk 134 2 136

38 / 44

Page 39: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Plan prezentacji

1 Projekt CESAR

2 Zasoby składowe PoliMorfaSGJPMorfologik

3 Kuźnia – narzędzie pracy nad słownikami

4 Proces łączenia zasobów

5 PoliMorf 0.5

6 PerspektywyRozwój PoliMorfaSposoby używania PoliMorfa

39 / 44

Page 40: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Dalszy rozwój PoliMorfa

Zaimportowane dane wymagają weryfikacji i korekty.Zostaną wzbogacone o klasyfikację nazw własnychi kwalifikatory.Problemy badawczo-dyskusyjne:

jak opisywać skróty (w Morfeuszu SGJP opis raczej skąpy)?jak opisywać jednostki typu czterokonny, 20-letni, obiadeś,doń, antystół?

40 / 44

Page 41: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Sposoby używania PoliMorfa

Stworzymy mechanizm pobierania z Kuźni list formdostosowanych do konkretnych zastosowań(przede wszystkim przez wybór odpowiedniegopodzbioru słowników).Planujemy regularne wydania w miarę poprawianiai uzupełniania danych.

41 / 44

Page 42: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

Sposoby używania PoliMorfa

Wątpliwości:Czy użytkownicy oczekują dostępności danych, czy narzędziaich używającego? (obu)Czy należy generować jakieś inne formaty listy form oprócztrzykolumnowego?Jakie tagsety powinniśmy uwzględnić? (Morfeusz i Morfologik)

42 / 44

Page 43: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

A przy okazji:

Ulepszymy Morfeusza!

informacja o imionach, nazwiskach, geogr., innych własnych,oznaczać formy dawne i przestarzałe,zrewidować reguły łączenia subsegmentów,kroczek w stronę derywacji: prefiksacja?opcjonalnie bez segmentowania czasownikówwewnątrzsłowowo,analiza z uwzględnieniem kasztowości,możliwość użycia w programach wielowątkowych,odmieniacz działający w sposób spójny z analizatorem(to wymaga wprowadzenia oznaczeń homonimów).

43 / 44

Page 44: PoliMorf — otwarty słownik morfologicznynlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdfPlan prezentacji 1 Projekt CESAR 2 Zasoby składowe PoliMorfa SGJP Morfologik 3 Kuźnia – narzędzie

PoliMorf już dostępny

http://zil.ipipan.waw.pl/PoliMorf

44 / 44