32
Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych „Polsko-Ukraińskie Warsztaty Leksykograficzne” Instytut Badań Interdyscyplinarnych Uniwersytet Warszawski Warszawa, 24 listopada 2008 r. Natalia Kotsyba Instytut Slawistyki PAN

Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Embed Size (px)

DESCRIPTION

Natalia Kotsyba Instytut Slawistyki PAN. Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych. „Polsko-Ukraińskie Warsztaty Leksykograficzne” Instytut Badań Interdyscyplinarnych Uniwersytet Warszawski Warszawa, 24 listopada 2008 r. Plan prezentacji. - PowerPoint PPT Presentation

Citation preview

Page 1: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Lingwistyka korpusowa i jej pomoc w tworzeniu słowników

dwujęzycznych

„Polsko-Ukraińskie Warsztaty Leksykograficzne”Instytut Badań Interdyscyplinarnych

Uniwersytet WarszawskiWarszawa, 24 listopada 2008 r.

Natalia KotsybaInstytut Slawistyki PAN

Page 2: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Plan prezentacji

• O korpusach ogólnie, metodologia tworzenia• Korpusy w Polsce i Ukrainie• PolUKR – Polsko-Ukraiński Korpus Równoległy• Zastosowanie korpusów w leksykografii

Page 3: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Czy można mówić o lingwistyce korpusowej?

• Metodologia, a nie osobna branża lingwistyki

Rodzaje korpusów:• „surowy/łysy” - adnotowany• jednojęzyczny - dwu-/wielojęzyczne• równoległe - porównawcze• korpus referencyjny (benchmark korpus): BNC, ?IPI

PAN

Page 4: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Czym jest korpus równoległy?

• Zbiór par tekstów (eng. bitexts) w dwóch językach

Proponowany model wygląda dość przekonująco...

Запропонована модель виглядає доволі переконливо...

Page 5: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Gdzie można znaleźć informację o korpusach i ich zastosowaniu?

• korpusowa lista mailingowa przy Uniwersytecie w Oslo (corpora mailing list)

http://mailman.uib.no/listinfo/corpora

• opis korpusowych resursów w świeciehttp://aclweb.org/aclwiki/index.php?

title=List_of_resources_by_language

• polska lingwistyczna lista mailingowahttp://bach.ipipan.waw.pl/mailman/listinfo/ling

Page 6: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Jak zrobić samemu korpus?

• Multilingual Corpus Tool kit (Scott Piao)• Xaira 1.23 (Beta wersja 1.24), BNC, OxfordBrak takiego oprogramowania dla tworzenia

korpusów równoległych, moduły:• programy pamięci maszynowej (Translation

Memory), np. Omega TM, darmowy• alignery, np. Vanilla i Hunalign• wyszukiwarki, np. ParaConc, komercyjne

Page 7: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Korpusy języka polskiego

• FREQ, wydział lingwistyki stosowanej UW (lata 1960-te) 600 tys.

• Korpus PWN (półkomercyjny) 8 mln; 100 mln• Korpus IPI PAN, 250 mln• “Narodowy” korpus JP (Uniwersytet Łódzki) =• Korpus “Krakowski” (teksty do XVII w.)• wewnętrzne korpusy na potrzeby osobnych

projektów• Projekt Narodowego korpusu języka polskiego (2007-

2009)

Page 8: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Korpus IPI PAN http://korpus.pl

• Adam Przepiórkowski• 100 mln słów (слововживань)• 15 mln “zrównoważonej” próbki• XML, XCES• adnotacja morfosyntaktyczna• dezambiguacja gramatyczna

(ujednoznacznienie)• szkice banku drzew (SPEJD)• wyszukiwarka Poliqarp, 2 wersje

Page 9: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Zasoby języka ukraińskiego• Korpus ULIF: ulif. org.ua (użytek wewnętrzny), książka

Володимир Широков і ін. "Корпусна лінгвістика", Київ, "Довіра", 2005

• Koncepcja Narodowego Korpusu Języka Ukraińskiego, Орися Демська-Кульчицька, "Основи Національного корпусу української мови", Київ 2005, (teoria)

• Konkordancje utworu Iwana Franki "Перехресні стежки", Sołomija Buk i Andrij Rowenczak (publikacja www)

• Biblioteka elektroniczna utworów Iwana Franki i próbka korpusu "Для домашнього вогнища"/"Dla ogniska domowego" Oresty Tymczyszyn (na razie nie ma w internecie)

• PolUKR (Instytut Slawistyki PAN, 2005-...) Natalia Kotsyba i Magdalena Turska (http://corpus.domeczek.pl)

Page 10: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Oprócz tego ukraiński język (a także polski) można znaleźć w:

Regensburg Parallel Corpus of Slavic languages, Ruprecht von Wandelfels, Uniwersytet w Ratysbonie http://www-cgi.uni-regensburg.de/Fakultaeten/Slavistik/Corpus/parallel/parallel.html

• otwarty dla użytku publicznego niekomercyjnego dla użytkowników zarejestrowanych

• prawie wszystkie języki słowiańskie (oprócz górno- i dolnołużyckiego)• informacja gramatyczna dodana dla czeskiego i polskiego, a także

angielskiego i niemieckiego• każdy z języków ma osobny zestaw znaczników gramatycznych,

wykorzystywany w korpusach narodowych/większych tych języków• zawiera niewiele materiału tekstowego• nierównomierny podział między językami

Page 11: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Polsko-Ukraiński Korpus Równoległy

http://corpus.domeczek.pl• baza danych odpowiedników słów i wyrażeń

oraz ich kontekstów dla tłumaczy• baza danych dla konfrontatywnej analizy

lingwistycznej• punkt wyjścia do konstrukcji wiarygodnych

słowników dwujęzycznych

Page 12: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych
Page 13: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Statystyki

ogółem polskie ukraińskie

Teksty 70 35 35

Wyrazy 359 926 179 087 180 120

Znaki 3 863 564 1 449 376 2 407 034

kilobajty 3941 1492 2439

Page 14: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Page 15: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Wyszukiwanie (obecnie)• opiera się na wyrażeniach regularnych PERL• poszukiwany wyraz otoczony znakami “/”, np. /idea

narodowa/znaki specjlane:І alternatywa; ) koniec fragmentu ciągu[ i ] początek i koniec oznaczania klasy znaków? 1 albo 0 wystąpień; * 0 albo więcej wystąpień+ 1 albo więcej wystąpień \s dowolny znak spacji, punktuacji\w dowolna litera, liczba, znak podkreślenia\b koniec wyrazu, \ escape

Page 16: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Przykłady formuł wyszukiwania

/jako/ „jako”/jako\s/ „jako, niejako, dwojako”/\bjako/ „jakość’/norma\./ „norma” przed kropką

Page 17: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

w opracowywaniu

Dodawanie informacji gramatycznych (polski, ukraiński)• sprowadzenie do wspólnego formatu metadanych

gramatycznych (tagset) -- opracowany algorytm, częściowo realizowany, NB: stopnie porównania dla przymiotników i przysłówków ukraińskich

Wyrównanie na poziomie zdań (obecnie jest poziom akapitów <p>-</p>)

• problem podziału na zdania• Hunalign (wymaga słownik oraz lematyzację dla w miarę

akceptowalnych wyników)

Page 18: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Zastosowanie

PolUKR jako część integrowanego sieciowego środowiska edytorskiego:

• II korpus i II konkordancer• słowniki objaśniające• korpus porównawczy• sieciowy system edytowania haseł

Page 19: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

словник

польськийкорпус

і словник

українськийкорпус

і словникреєстр

слів

реєстр

слів

польсько-українськийкорпус

Page 20: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Interfejs narzędzia redakcyjnego

5

podejść Szukajformahasło

10

Kontekst lewyoraz na lata następne konieczności nowegopodejścia do problemu zaspokojeniapotrzeb mieszkaniowych

przy Rynku Kleparskim dwie kobietypodeszły od tyłu do robiącej zakupymieszkanki

1. «posunąć się (pójść, rzadziej: pojechać)w jakimś kierunku, zbliżyć się do kogoś lubczegoś»

5. «zaczynać»

6. «wypełnić się od spodu cieczą (zwykle wpołączeniu z formą narzędnika)»

4. «pasować, odpowiadać»

2. «mieć nastawienie do czegoś»

3. «oszukać kogoś»

całe zdania

polskieukrainskie

>

>

15

5 10

Kontekst prawy

całe zdania

15

>

>

>

>

Definicjaпідійти

1. (до когось/чогось) наблизитися2. (до когось/чогось) пасувати np. ключ не підійшов 3. (до когось/чогось) з певної точки зору 4. піднятися (про дріжджове тісто)

також на наступні роки потреби нового підходу до проблеми задоволення житлових потреб

біля Клепарського ринку дві жінки підійшли ззаду до мешканки, котра робила покупки

Page 21: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Przykładowe hasło polskie• PODEJŚĆ - PODCHODZIĆ (za słownikiem PWN)

• 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś»

• 2. «posunąć się pod górę; wspiąć si껕 3. zwykle dk «postąpić wobec kogoś podstępnie, chytrze, zdradziecko;

oszukać kogoś» • 4. częściej ndk «zbliżać się do kogoś lub czegoś ostrożnie, ukradkiem,

zwykle w celu dokonania napaści lub podpatrzenia; tropi滕 5. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą

narzędnika)»

Page 22: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida)

1. - ідучи, наближатися до кого-, чого-небудь; - наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь; - прибувати куди-небудь;

2. - приступати до чого-небудь, братися за яку-небудь справу; - виявляти своє ставлення до чого-небудь, оцінюючи;

3. - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін

4. наближатися, наставати (про час, події, явища і т.ін.)5. розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним

6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам

- бути відповідним

- личити

- пристосовyватися, підроблятися

7. переміщатися, підніматися догори

8. ідучи, пройти яку-небудь відстань

9. збільшуючись в об’ємі, підійматися (про тісто)

10. насичуватись чим-небудь Сніг підійшов водою.

Page 23: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Analiza konkordancji

• Zapytanie do korpusu IPI PAN [base=”podejść”] meta created>1960 zwróciło 244 próbki tekstów.

• Zdecydowana większość użyć (ok. 80%) była w znaczeniu 1; w najbliższej dystrybucji wskazywano docelowe miejsce ruchu „podejść do + nazwa przedmiotowa” (np. do furtki, do koszyka, do nas; bliżej = do mówiącego).

• Podobnie z zapytaniem [base=”podchodzić”] meta created>1960 - 203 próbki, proporcje te same

Page 24: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Próbki do hasła „podchodzi攕 1. Grzegorz Kaliciak: - Mieliśmy grać to co zawsze. I choć Pogoń bardzo poważnie

podeszła do meczu, to my jesteśmy lepiej przygotowani. Mieliśmy wprawdzie drobny kryzys po meczu w Parmą, ale to już przeszłość. => NOWE ZNACZENIE „mieć nastawienie” (nieakcjonalny, relacyjny) – ok. 20% użyć

• 2. W okolicy miasta Mechelen musieli awaryjnie lądować. Podchodzący do lądowania samolot nie uszedł uwagi belgijskich żołnierzy pełniących służbę na znajdującym się nieopodal posterunku granicznym. => NOWE ZNACZENIE „zaczynać” (niepełnoznaczny, modyfikator fazowy)

• 3. Z drugiej zaś strony Nathan, Michael, Shawn i Wanya z powodzeniem wcielają w czyn swoje indywidualne pomysły; na przykład podchodzące pod śpiew a cappella wokalizy. Innymi słowy: Boyz II Men nagrali sprytny, inteligentny, dość dobry album, który świadczy o tym <Dziennik Polski, X. 2000> => 2

• 4. Na 5 pytań odpowiedział gładko, zapewniwszy sobie gwarantowany 1000 zł. Niestety, pytanie za 2000 zł, dotyczące El Greco, "nie podeszło ". => NOWE ZNACZENIE, „pasować, odpowiadać” (nieakcjonalny, relacyjny, porównawczy)

Page 25: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Przykładowe hasło po analizie• PODEJŚĆ - PODCHODZIĆ (analiza

konkordancji i klasyfikacja semantyczna)

• 1. «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub czegoś» akcjonalny ruchu

• 2. «mieć nastawienie do czegoś» nieakcjonalny relacyjny

• 3. «oszukać kogoś» złożony predykat akcjonalny mentalny + kauzacja

• 4. «pasować, odpowiadać» nieakcjonalny, relacyjny

• 5. «zaczynać» niepełnoznaczny modyfikator fazowy

• 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)» nieakcjonalny stanowy

PODEJŚĆ - PODCHODZIĆ PODEJŚĆ - PODCHODZIĆ

(za słownikiem PWN)(za słownikiem PWN)

1. 1. «posunąć się (pójść, rzadziej: pojechać) «posunąć się (pójść, rzadziej: pojechać) w jakimś kierunku, zbliżyć się do kogoś lub w jakimś kierunku, zbliżyć się do kogoś lub czegoś»czegoś»

2. 2. «posunąć się pod górę; wspiąć si껫posunąć się pod górę; wspiąć się»

3. 3. zwykle zwykle dkdk «postąpić wobec kogoś «postąpić wobec kogoś podstępnie, chytrze, zdradziecko; oszukać podstępnie, chytrze, zdradziecko; oszukać kogoś» kogoś»

4. 4. częściej częściej ndkndk «zbliżać się do kogoś lub «zbliżać się do kogoś lub czegoś ostrożnie, ukradkiem, zwykle w celu czegoś ostrożnie, ukradkiem, zwykle w celu dokonania napaści lub podpatrzenia; dokonania napaści lub podpatrzenia; tropić»tropić»

5. 5. «wypełnić się od spodu cieczą (zwykle w «wypełnić się od spodu cieczą (zwykle w połączeniu z formą narzędnika)»połączeniu z formą narzędnika)»

Page 26: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Przykładowe hasło po analizie• ПІДІЙТИ док. - ПІДХОДИТИ недок. (za słownikiem Biłodida)1. - ідучи, наближатися до кого-, чого-небудь;

- наближатися підїжджаючи, підпливаючи, підлітаючи і т.ін. до кого-, чого-небудь; - прибувати куди-небудь;

2. - приступати до чого-небудь, братися за яку-небудь справу; - виявляти своє ставлення до чого-небудь, оцінюючи;

3. - уміти привернути, прихилити кого-небудь до себе, завоювати довір’я - звернутися до кого-небудь з прoханням, пропозицією, вимогою і т.ін

наближатися, наставати (про час, події, явища і т.ін.)

5. розміщуватися близько чого-небудь, бути в безпосередньому сусідстві з чимсь, межувати з ним

6. - бути придатним, прийнятним, відповідаючи яким-небудь вимогам; бути відповідним , личити , пристосовyватися, підроблятися

7. переміщатися, підніматися догори

8. ідучи, пройти яку-небудь відстань

9. збільшуючись в об’ємі, підійматися (про тісто)

10. насичуватись чим-небудь Сніг підійшов водою.

• ПІДІЙТИ док. – ПІДХОДИТИ недок. (analiza konkordancji i klasyfikacja semantyczna)

1. наближатися – akcjonalny ruchu2. мати ставлення– nieakcjonalny relacji3. пасувати – nieakcjonalny rel. починати(ся) – niepełnoznaczny

modyfikator fazowy бути близько чого-небудь –

nieakcjonalny relacyjny lokalizujący збільшуючись в об’ємі, підійматися

(про тісто) – nieakcjonalny stanowy насичуватись чим-небудь (рідиною)

- nieakcjonalny stanowy

Page 27: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Kojarzenie haseł pol. > ukr.• PODEJŚĆ - PODCHODZIĆ (analiza konkordancji i klasyfikacja

semantyczna)

• 1. «posunąć się w jakimś kierunku, zbliżyć się do kogoś lub czegoś» підійти - підходити 1

• 2. «mieć nastawienie do czegoś» nieakcjonalny, relacyjny підійти - підходити 2

• 3. «oszukać kogoś» = złożony predykat akcjonalny mentalny, z kauzacją propozycji ошукати – ошукувати 1, надурити – надурювати 1

• 4. «pasować, odpowiadać» nieakcjonalny, relacyjny підійти - підходити 3

• 5. «zaczynać» niepełnoznaczny modyfikator fazowy починати • 6. «wypełnić się od spodu cieczą (zwykle w połączeniu z formą

narzędnika)» підійти - підходити 5

Page 28: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Kojarzenie haseł ukr. > pol.• ПІДІЙТИ док. – ПІДХОДИТИ недок. (za słownikiem Biłodida)

1. наближатися akcjonalny ruchu podchodzić 12. мати ставлення nieakcjonalny relacji podchodzić 23. пасувати nieakcjonalny rel. podchodzić 4 починати(ся) niepełnoznaczny modyfikator fazowy zaczynać się бути близько чого-небудь nieakcjonalny relacyjny lokalizujący

znajdować się blisko збільшуючись в об’ємі, підійматися (про тісто) nieakcjonalny stanowy

rosnąć 7 насичуватись чим-небудь (рідиною) nieakcjonalny stanowy

podchodzić 6

Page 29: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Kilka najbardziej udanych przykładów zastosowania korpusów

Wielojęzyczny korpus równoległy OPUS (Joerg Tiedemann):

http://urd.let.rug.nl/tiedeman/OPUS/Zalety: szybkie generowanie słowników

wielojęzycznychProblemy: • ograniczenie materiałowe• homonimia i wieloznaczność

Page 30: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Zastosowanie, c.d.

Porównywalne• Technologia "Web as corpus", projekt Wacky• "rewizja" słówników dwujęczycznych (Andriano

Ferraresi i in.)Zalety: dużo wiarygodnego i współczesnego (up-to-

date) materiałuProblemy: słownik nie jest generowany automatycznie,

korpus jest materiałem wspomagającym (reference), dużo pracy „ręcznej” dla leksykografów

Page 31: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Zastosowanie, c.d.

Korpus Ratysboński• Zastosowanie w gramatycznych studiach konfrontatywnych

(wyniki można uwzględnić w słownikach też)• modalność epistemiczna w językach słowiańskich (Johan van

der Auwera, Ewa Schalley & Jan Nuyt, "Epistemic possibility in a Slavonic parallel corpus―a pilot study")

Page 32: Lingwistyka korpusowa i jej pomoc w tworzeniu słowników dwujęzycznych

Demonstracja pracy z korpusami

• PolUKR• Regensburg Parallel Corpus• OPUS• Korpus IPI PAN