View
185
Download
0
Category
Preview:
Citation preview
WSPÓŁWYSTĘPOWANIE
MIARY KOLOKACJI
KOLOKACJA
• potocznie: «często spotykane połączenie wyrazów, którego znaczenie wynika ze
znaczenia jego składników» (sjp.pwn.pl);• językoznawstwo ogólne:
połączenie wyrazów powstałe na zasadzie zgodności semantycznej i formalnej, niebędące jednak stałym związkiem wyrazowym (Markowski 2012);
• językoznawstwo korpusowe: częste współwystępowanie (Stubbs 2001); systematyczne współwystępowanie słów w korpusie w ramach
zdefiniowanego wcześniej zasięgu (Forchtner, Kolvraa 2012); częste współwystępowanie słów, które nie ma zasadniczego wpływu na
indywidualne znaczenie słów (Sinclair 1996);
PYTANIA OPERACJONALIZACYJNEKOLOKACJA = częste, systematyczne
współwystępowanieCo to znaczy częste/systematycz
ne?CZĘSTE
(w stosunku do ogólnej
liczby wyrazów)ZBIĆ+SZYBA
WYJĄTKOWE(częste w
stosunku do występowani
a danego słowa)ZBIĆ+
PANTAŁYK
Jak często jest wystarczająco?
NAJCZĘŚCIEJ(w stosunku
do pozostałych
połączeń wyrazowych)NIE+TYLKO
obserwacja częstości
ĆŻĘŚCIEJ NIŻ LOSOWO
ZBIĆ +TROP
miary oparte na testowaniu hipotez;
MI
PYTANIA BADAWCZEKOLOKACJA = częste,
systematyczne współwystępowanie
Czy słowo X i słowo Y występują razem często?
Jakie słowa występują często ze słowem X?
Jakie słowa występują najczęściej w korpusie X?
OKREŚLANE NA PODSTAWIE
OKREŚLANE NA PODSTAWIE
CZĘSTOŚĆ
CZĘSTOŚĆ
1) Ustal listę biogramów dla analizowanego korpusu.2) najczęściej: pary słów funkcyjnych (dla angielskiego: przyimek + rodzajnik)3) Użyj parsera syntaktycznego, który wykluczy/uwzględni tylko kombinacje o określonych,
interesujących cechach np.:4) wyklucz przyimki/ rodzajniki5) przynajmniej jedno ze słów ma być rzeczownikiem/przymiotnikiem/czasownikiem6) itp.7) Justeson and Katz (1995)
CZĘSTOŚĆ – PRZYKŁAD - JUSTESON AND KATZ 1995
źródło: Manning, Schuetze, 1999
PRZED PO
PRZYDATNOŚĆ
1) Co pozwala ustalić taki sposób szukania kolokacji?2) W jakich badaniach może to być przydatne (2 konkretne przykłady)?3) Co ukrywa taki sposób szukania kolokacji?4) Jakie są zalety takiego sposobu szukania kolokacji?5) Jakie są wady takiego sposobu szukania kolokacji?
TEST T
PRZYPOMNIJMY
H0: średnia w badanej grupie jest równa średniej hipotetycznejH1: średnia w badanej grupie jest różna od średniej hipotetycznej
𝑡 = 𝑋ത− 𝜇ℎ𝑖𝑝𝑆𝑥ξ𝑛 = 𝑋ത− 𝜇ℎ𝑖𝑝ඨΣ(X− X)തതത2n(n− 1)
ŚREDNIA => PROPORCJA
WERSJA DLA KORPUSU
H0: proporcja występowania określonego połączenia (X, Y) w korpusie jest równa proporcji hipotetycznej;
H1: proporcja występowania określonego połączenia w korpusie jest różna od proporcji hipotetycznej;
𝑡=𝑃 (𝑋 ,𝑌 )−𝑃 (𝑋 ,𝑌 )h𝑖𝑝
√ 𝑠2𝑛 =P(X,Y)
PROPORCJA HIPOTETYCZNA
Mamy korpus 100 wyrazów; Załóżmy: występowanie wyrazów X
i Y jest zupełnie niezależne od siebie;
Wyraz X występuje 12 razy (proporcja 12/100);
Wyraz Y występuje 8 razy (proporcja 8/100);
Jak bardzo prawdopodobne jest, że spotkamy te wyrazy koło siebie:
• prawdopodobieństwo, że spotkamy X (12/100)x prawdopodobieństwo, że spotkamy Y (8/100)
TEST T DLA KOLOKACJI
𝑡=
𝐶 (𝑋 ,𝑌 )𝑛
−(𝐶 ( 𝑋 )𝑛
x𝐶 (𝑌 )𝑛
)
√ 𝐶 (𝑋 ,𝑌 )𝑛𝑛
PRZYKŁAD
korpus oficjalnych dokumentów Komisji Episkopatu Polski;
kolokacja: Jezus Chrystus;
dane:•korpus: 240582 • Jezus: 147 •Chrystus: 153 • Jezus Chrystus: 37
𝑡=
37240582
−( 147240582
x153
240582 )
√ 37240582240582
=6,067
INTERPRETACJA WYNIKU
porównujemy do rozkładu t:• df=n-1;
używamy rozkładu jednostronnego:• interesuje na, czy proporcja jest większa (a
nie czy jest inna); PAMIĘTAMY:• generalnie: im większe t, tym wyższe p;• t zależy m.in. od n;• WIĘC: przy dużych korpusach prawie
wszystkie wyniki są istotne na poziomie p<0,001• DLATEGO: test t wykorzystuje się raczej do
określania siły kolokacji niż stwierdzania jej istotności;
𝑡=
𝐶 (𝑋 ,𝑌 )𝑛
−(𝐶 ( 𝑋 )𝑛
x𝐶 (𝑌 )𝑛
)
√ 𝐶 (𝑋 ,𝑌 )𝑛𝑛
ĆWICZENIE
Na podstawie NKJP oblicz przy pomocy testu t siłę kolokacji dla następujących połączeń:
• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)
MI
MUTUAL INFORMATION (MI)
pojęcie wywodzące się z teorii informacji; na poziomie ogólnym:• ilość informacji o pojawieniu się zjawiska X dostarczana przez pojawienie się zjawiska Y
(i odwrotnie) przykład:• chcę wiedzieć, czy w określonym momencie pojawi się tęcza;• MI(tęcza, burza)=8,78;• interpretacja: ilość informacji, którą mamy o pojawieniu się tęczy wzrośnie o 8,78, jeśli
uzyskamy informację, że pojawi się burza
MATEMATYKA
MI=𝑙𝑜𝑔2
𝐶 (𝑋 ,𝑌 )𝑛
𝐶 ( 𝑋 )𝑛
x𝐶 (𝑌 )𝑛
PRZYKŁAD
korpus oficjalnych dokumentów Komisji Episkopatu Polski;
kolokacja: Jezus Chrystus;
dane:•korpus: 240582 • Jezus: 147 •Chrystus: 153 • Jezus Chrystus: 37
𝑀𝐼=𝑙𝑜𝑔2
37240582
147240582
x153
240582
=8,63INTERPRETACJA: liczba informacji, którą mamy o
pojawieniu się Chrystus na pozycji +1 wzrośnie o 8,63 jednostek, jeśli na pozycji i pojawi się Jezus.
ĆWICZENIE
Na podstawie NKJP oblicz przy pomocy MI siłę kolokacji dla następujących połączeń:
• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)
CHI KWADRAT
CHI KWADRAT
WYRAZ 1 NIE WYRAZ 1 SUMA
WYRAZ 2LICZBA
WSPÓLNYCH WYSTĄPIEŃ
LICZBA WSZYSTKICH
WYSTĄPIEŃ 2 - LICZBA
WSPÓLNYCH WYSTĄPIEŃ
LICZBA WSZYSTKICH WYSTĄPIEŃ 2
NIE WYRAZ 2
LICZBA WSZYSTKICH
WYSTĄPIEŃ 1 - LICZBA
WSPÓLNYCH WYSTĄPIEŃ
WIELKOŚĆ KORPUSU - LICZBA
WSZYSTKICH WYSTĄPIEŃ 1 I 2
SUMA
SUMALICZBA
WSZYSTKICH WYSTĄPIEŃ 1
SUMA SUMA
ĆWICZENIE
Na podstawie NKJP oblicz przy pomocy chi kwadrat siłę kolokacji dla następujących połączeń:
• ZBIĆ, SZYBA (zasięg 2)• ZBIĆ, PANTAŁYK (zasięg 2)• NIE TYLKO (zasięg 1)
PORÓWNANIE
MOŻLIWE SYTUACJE – CZĘSTOŚĆ WSPÓŁWYSTĘPOWANIA
ZBIĆ, SZYBA
ZBIĆ, PANTAŁYK
NIE, TYLKO
WYRAZ X WYRAZ Y
MOŻLIWE SYTUACJE - CZĘSTOŚĆ
WYRAZ X
WYRAZ Y
WYRAZ X
WYRAZ Y
WYRAZ X
WYRAZ Y
ZBIĆ, SZYBA ZBIĆ, PANTAŁYK NIE, TYLKO
NA CO WRAŻLIWY JEST TEST?
MI x y x,y t MI chi (NKJP)
ZBIĆ, SZYBA 2801 10646 105 10,2348 9,72 155890,42
ZBIĆ, PANTAŁYK 2801 82 48 6,92807 15,62 1750986,37
NIE, TYLKO 1979869 468247 1922 44,1984 1,01 4382,03
Recommended