28
WSPÓŁWYSTĘPOWANIE MIARY KOLOKACJI

Stat jk22 kolokacje

Embed Size (px)

Citation preview

Page 1: Stat jk22 kolokacje

WSPÓŁWYSTĘPOWANIE

MIARY KOLOKACJI

Page 2: Stat jk22 kolokacje

KOLOKACJA

• potocznie: «często spotykane połączenie wyrazów, którego znaczenie wynika ze

znaczenia jego składników» (sjp.pwn.pl);• językoznawstwo ogólne:

połączenie wyrazów powstałe na zasadzie zgodności semantycznej i formalnej, niebędące jednak stałym związkiem wyrazowym (Markowski 2012);

• językoznawstwo korpusowe: częste współwystępowanie (Stubbs 2001); systematyczne współwystępowanie słów w korpusie w ramach

zdefiniowanego wcześniej zasięgu (Forchtner, Kolvraa 2012); częste współwystępowanie słów, które nie ma zasadniczego wpływu na

indywidualne znaczenie słów (Sinclair 1996);

Page 3: Stat jk22 kolokacje

PYTANIA OPERACJONALIZACYJNEKOLOKACJA = częste, systematyczne

współwystępowanieCo to znaczy częste/systematycz

ne?CZĘSTE

(w stosunku do ogólnej

liczby wyrazów)ZBIĆ+SZYBA

WYJĄTKOWE(częste w

stosunku do występowani

a danego słowa)ZBIĆ+

PANTAŁYK

Jak często jest wystarczająco?

NAJCZĘŚCIEJ(w stosunku

do pozostałych

połączeń wyrazowych)NIE+TYLKO

obserwacja częstości

ĆŻĘŚCIEJ NIŻ LOSOWO

ZBIĆ +TROP

miary oparte na testowaniu hipotez;

MI

Page 4: Stat jk22 kolokacje

PYTANIA BADAWCZEKOLOKACJA = częste,

systematyczne współwystępowanie

Czy słowo X i słowo Y występują razem często?

Jakie słowa występują często ze słowem X?

Jakie słowa występują najczęściej w korpusie X?

OKREŚLANE NA PODSTAWIE

OKREŚLANE NA PODSTAWIE

Page 5: Stat jk22 kolokacje

CZĘSTOŚĆ

Page 6: Stat jk22 kolokacje

CZĘSTOŚĆ

1) Ustal listę biogramów dla analizowanego korpusu.2) najczęściej: pary słów funkcyjnych (dla angielskiego: przyimek + rodzajnik)3) Użyj parsera syntaktycznego, który wykluczy/uwzględni tylko kombinacje o określonych,

interesujących cechach np.:4) wyklucz przyimki/ rodzajniki5) przynajmniej jedno ze słów ma być rzeczownikiem/przymiotnikiem/czasownikiem6) itp.7) Justeson and Katz (1995)

Page 7: Stat jk22 kolokacje

CZĘSTOŚĆ – PRZYKŁAD - JUSTESON AND KATZ 1995

źródło: Manning, Schuetze, 1999

PRZED PO

Page 8: Stat jk22 kolokacje

PRZYDATNOŚĆ

1) Co pozwala ustalić taki sposób szukania kolokacji?2) W jakich badaniach może to być przydatne (2 konkretne przykłady)?3) Co ukrywa taki sposób szukania kolokacji?4) Jakie są zalety takiego sposobu szukania kolokacji?5) Jakie są wady takiego sposobu szukania kolokacji?

Page 9: Stat jk22 kolokacje

TEST T

Page 10: Stat jk22 kolokacje

PRZYPOMNIJMY

H0: średnia w badanej grupie jest równa średniej hipotetycznejH1: średnia w badanej grupie jest różna od średniej hipotetycznej

𝑡 = 𝑋ത− 𝜇ℎ𝑖𝑝𝑆𝑥ξ𝑛 = 𝑋ത− 𝜇ℎ𝑖𝑝ඨΣ(X− X)തതത2n(n− 1)

ŚREDNIA => PROPORCJA

Page 11: Stat jk22 kolokacje

WERSJA DLA KORPUSU

H0: proporcja występowania określonego połączenia (X, Y) w korpusie jest równa proporcji hipotetycznej;

H1: proporcja występowania określonego połączenia w korpusie jest różna od proporcji hipotetycznej;

𝑡=𝑃 (𝑋 ,𝑌 )−𝑃 (𝑋 ,𝑌 )h𝑖𝑝

√ 𝑠2𝑛 =P(X,Y)

Page 12: Stat jk22 kolokacje

PROPORCJA HIPOTETYCZNA

Mamy korpus 100 wyrazów; Załóżmy: występowanie wyrazów X

i Y jest zupełnie niezależne od siebie;

Wyraz X występuje 12 razy (proporcja 12/100);

Wyraz Y występuje 8 razy (proporcja 8/100);

Jak bardzo prawdopodobne jest, że spotkamy te wyrazy koło siebie:

• prawdopodobieństwo, że spotkamy X (12/100)x prawdopodobieństwo, że spotkamy Y (8/100)

Page 13: Stat jk22 kolokacje

TEST T DLA KOLOKACJI

𝑡=

𝐶 (𝑋 ,𝑌 )𝑛

−(𝐶 ( 𝑋 )𝑛

x𝐶 (𝑌 )𝑛

)

√ 𝐶 (𝑋 ,𝑌 )𝑛𝑛

Page 14: Stat jk22 kolokacje

PRZYKŁAD

korpus oficjalnych dokumentów Komisji Episkopatu Polski;

kolokacja: Jezus Chrystus;

dane:•korpus: 240582 • Jezus: 147 •Chrystus: 153 • Jezus Chrystus: 37

𝑡=

37240582

−( 147240582

x153

240582 )

√ 37240582240582

=6,067

Page 15: Stat jk22 kolokacje

INTERPRETACJA WYNIKU

porównujemy do rozkładu t:• df=n-1;

używamy rozkładu jednostronnego:• interesuje na, czy proporcja jest większa (a

nie czy jest inna); PAMIĘTAMY:• generalnie: im większe t, tym wyższe p;• t zależy m.in. od n;• WIĘC: przy dużych korpusach prawie

wszystkie wyniki są istotne na poziomie p<0,001• DLATEGO: test t wykorzystuje się raczej do

określania siły kolokacji niż stwierdzania jej istotności;

𝑡=

𝐶 (𝑋 ,𝑌 )𝑛

−(𝐶 ( 𝑋 )𝑛

x𝐶 (𝑌 )𝑛

)

√ 𝐶 (𝑋 ,𝑌 )𝑛𝑛

Page 16: Stat jk22 kolokacje

ĆWICZENIE

Na podstawie NKJP oblicz przy pomocy testu t siłę kolokacji dla następujących połączeń:

• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)

Page 17: Stat jk22 kolokacje

MI

Page 18: Stat jk22 kolokacje

MUTUAL INFORMATION (MI)

pojęcie wywodzące się z teorii informacji; na poziomie ogólnym:• ilość informacji o pojawieniu się zjawiska X dostarczana przez pojawienie się zjawiska Y

(i odwrotnie) przykład:• chcę wiedzieć, czy w określonym momencie pojawi się tęcza;• MI(tęcza, burza)=8,78;• interpretacja: ilość informacji, którą mamy o pojawieniu się tęczy wzrośnie o 8,78, jeśli

uzyskamy informację, że pojawi się burza

Page 19: Stat jk22 kolokacje

MATEMATYKA

MI=𝑙𝑜𝑔2

𝐶 (𝑋 ,𝑌 )𝑛

𝐶 ( 𝑋 )𝑛

x𝐶 (𝑌 )𝑛

Page 20: Stat jk22 kolokacje

PRZYKŁAD

korpus oficjalnych dokumentów Komisji Episkopatu Polski;

kolokacja: Jezus Chrystus;

dane:•korpus: 240582 • Jezus: 147 •Chrystus: 153 • Jezus Chrystus: 37

𝑀𝐼=𝑙𝑜𝑔2

37240582

147240582

x153

240582

=8,63INTERPRETACJA: liczba informacji, którą mamy o

pojawieniu się Chrystus na pozycji +1 wzrośnie o 8,63 jednostek, jeśli na pozycji i pojawi się Jezus.

Page 21: Stat jk22 kolokacje

ĆWICZENIE

Na podstawie NKJP oblicz przy pomocy MI siłę kolokacji dla następujących połączeń:

• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)

Page 22: Stat jk22 kolokacje

CHI KWADRAT

Page 23: Stat jk22 kolokacje

CHI KWADRAT

WYRAZ 1 NIE WYRAZ 1 SUMA

WYRAZ 2LICZBA

WSPÓLNYCH WYSTĄPIEŃ

LICZBA WSZYSTKICH

WYSTĄPIEŃ 2 - LICZBA

WSPÓLNYCH WYSTĄPIEŃ

LICZBA WSZYSTKICH WYSTĄPIEŃ 2

NIE WYRAZ 2

LICZBA WSZYSTKICH

WYSTĄPIEŃ 1 - LICZBA

WSPÓLNYCH WYSTĄPIEŃ

WIELKOŚĆ KORPUSU - LICZBA

WSZYSTKICH WYSTĄPIEŃ 1 I 2

SUMA

SUMALICZBA

WSZYSTKICH WYSTĄPIEŃ 1

SUMA SUMA

Page 24: Stat jk22 kolokacje

ĆWICZENIE

Na podstawie NKJP oblicz przy pomocy chi kwadrat siłę kolokacji dla następujących połączeń:

• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)

Page 25: Stat jk22 kolokacje

PORÓWNANIE

Page 26: Stat jk22 kolokacje

MOŻLIWE SYTUACJE – CZĘSTOŚĆ WSPÓŁWYSTĘPOWANIA

ZBIĆ, SZYBA

ZBIĆ, PANTAŁYK

NIE, TYLKO

WYRAZ X WYRAZ Y

Page 27: Stat jk22 kolokacje

MOŻLIWE SYTUACJE - CZĘSTOŚĆ

WYRAZ X

WYRAZ Y

WYRAZ X

WYRAZ Y

WYRAZ X

WYRAZ Y

ZBIĆ, SZYBA ZBIĆ, PANTAŁYK NIE, TYLKO

Page 28: Stat jk22 kolokacje

NA CO WRAŻLIWY JEST TEST?

MI x y x,y t MI chi (NKJP)

ZBIĆ, SZYBA 2801 10646 105 10,2348 9,72 155890,42

ZBIĆ, PANTAŁYK 2801 82 48 6,92807 15,62 1750986,37

NIE, TYLKO 1979869 468247 1922 44,1984 1,01 4382,03