41
1 Seminarium NLP, IPI PAN, 26.06.06 Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek Wiech Instytut Podstaw Informatyki PAN

Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

1

Seminarium NLP, IPI PAN, 26.06.06

Gradacyjna analiza danych korpusowych

Łukasz Dębowski Emilia Jarochowska

Marek Wiech

Instytut Podstaw Informatyki PAN

Page 2: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

2

Plan wystąpienia

■ Narzędzie i dane:GradeStat i Korpus SFPW

■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady

● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników

Page 3: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

3

GradeStat wersja 2.6

■ implementacja m.in. gradacyjnej analizy danych■ główny autor: dr inż. Olaf Matyja■ wersja demonstracyjna do pobrania pod adresem:

http://gradestat.ipipan.waw.pl

Page 4: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

4

Korpus SFPW

Słownik frekwencyjny polszczyzny współczesnej

I. Kurcz, A. Lewicki, J. Sambor, K. Szafran, J.WoronczakInstytut Języka Polskiego PAN, Kraków, 1990

Korpus SFPW pochodzi z lat 60. XX w.

Zawiera 10 tys. próbek tekstów po około 50 słów.

Ogółem 500 tys słów, po 100 tys. słów z: tekstów popularnonaukowych, drobnych wiadomości prasowych, tekstów publicystycznych, prozy artystycznej dramatu artystycznego.

Page 5: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

5

Korpus SFPW jest anotowanyform lemma POS number case gender person degree aspect negation accommodability accentability post-

prepositionality agglutination vocalicity punctuationSztuka sztuka subst sg nom f - - - - - - - - - - utraciła utracić praet sg - f - - perf - - - - nagl - - swoją swój adj sg acc f - pos - - - - - - - - moc moc subst sg acc f - - - - - - - - - - pobudzającą pobudzający adj sg acc f - pos - - - - - - - - : : interp - - - - - - - - - - - - - przykrym przykry adj sg inst n - pos - - - - - - - - widowiskiem widowisko subst sg inst n - - - - - - - - - - staje stawać fin sg - - ter - imperf - - - - - - - się się qub - - - - - - - - - - - - - koncert koncert subst sg nom m3 - - - - - - - - - - wybitnej wybitny adj sg gen f - pos - - - - - - - - niegdyś niegdyś qub - - - - - - - - - - - - - śpiewaczki śpiewaczka subst sg gen f - - - - - - - - - - i i conj - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - uświetnią uświetnić fin pl - - ter - perf - - - - - - - go on ppron3 sg gen m3 ter - - - - nakc npraep - - - nawet nawet qub - - - - - - - - - - - - - nigdy nigdy qub - - - - - - - - - - - - - dotąd dotąd qub - - - - - - - - - - - - - nie nie qub - - - - - - - - - - - - - wykonywane wykonywać ppas pl nom m3 - - imperf aff - - - - - - utwory utwór subst pl nom m3 - - - - - - - - - - genialnego genialny adj sg gen m1 - pos - - - - - - - - kompozytora kompozytor subst sg gen m1 - - - - - - - - - -

Page 6: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

6

Plan wystąpienia

■ Narzędzie i dane:GradeStat i Korpus SFPW

■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady

● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników

Page 7: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

7

Mapy nadreprezentacji

acc dat gen inst loc nom voc

f

m1

m2

m3

n

f

m1

m2

m3

n

acc dat gen inst loc nom

253

2083

3456

4828

6201

7573

8946

1031

811

691

1306

314

436

1580

817

181

1855

319

926

2129

8

acc

dat

gen

inst loc

nom

voc

f

m1m2

m3

n

f

m1m2

m3

n

acc

dat

gen

inst loc

nom

voc

0.6

0.65

0.69

0.74

0.79

0.84

0.89

0.95

1.01

1.07

1.14

1.21

1.29

1.37

1.45

1.55

dane surowe mapa nadreprezentacji

częstości rodzajów i przypadków dla rzeczowników

Page 8: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

8

Ścisła definicja nadreprezentacji

■ częstość dla komórki (i,j): pij(częstości sumują się do 1)

■ suma częstości komórek w i-tym wierszu: pi+

■ suma częstości komórek w j-tej kolumnie: p+j

■ nadreprezentacja komórki (i,j): pij/pi+p+j

Page 9: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

9

Ścisła definicja GCA

Przestawmy wiersze i kolumny macierzy częstości tak, aby zmaksymalizować ρ Spearmana, czyli

gdzie dystrybuanty dla wierszy i kolumn

zależą od ich kolejności.

=3∑j=1

k

∑i=1

m

S i−1S i−1T j−1T j−1 pij

S i= p1 p2... pi ,

T j= p1 p2... p j .

Page 10: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

10

Gradacyjna analiza odpowiedniości

voc nom gen loc

m1m2

f

n

m3

m1m2

f

n

m3

0.60.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55

dat inst acc

mapa nadreprezentacji po GCA(grade correspondence analysis)

Page 11: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

11

Plan wystąpienia

■ Narzędzie i dane:GradeStat i Korpus SFPW

■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady

● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników

Page 12: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

12

Klasyfikacja słów nieodmiennych

■ 73 najczęstsze słowa a otaczające części mowy

Prz

ykła

d 1

w i na z nie że do a o ale się jak od po za topr

zez

dla czy

tak bo pr

zy no tylko

prze

dpo

djuż oraz

międ

zykie

dyna

d co bez

żeby

jako

jeszc

zewi

ęc gdy

gdzie

nawe

tpr

zecie

żm

oże

tu lub niech ani

jeśli u aby

równ

ież byjed

nak

też

właś

niete

raz

lecz

dlacz

ego

albo

tam iż

takż

ejeż

elijak

by niżgd

yby

zaws

zewś

ród

mim

opo

tem

chyb

awo

bec

dlate

gona

tom

iast

subst:subst

interp:subst

interp:qubinterp:adjqub:substsubst:adjadj:substfin:substinterp:fin

praet:substconj:subst

adj:adjinterp:prepinterp:praetinterp:ppronsubst:finqub:adjinterp:intersubst:praetinterp:conjfin:adjppas:substconj:adj

Page 13: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

13

Dwa skupienia (po GCA)

no niedla

czeg

ogd

zie ale jeśli

bo tak

kiedy

lecz

pote

mjeż

elidla

tego

moż

eże żeby aby

gdy a iż co to

gdyb

yjak

byza

wsze

jakpr

zecie

żte

raz

chyb

anie

ch tuna

tom

iast

więc tam

właś

nie już mim

oalb

ona

wet

czy

ani

jeszc

zetyl

ko by też

jedna

kró

wnież

się takż

e u po bez

jako o

wśró

dpr

zy zapr

zed

wwo

bec

niż od na pod do dla

międ

zy z ina

dor

azpr

zez

lub

interp:fininterp:interinterp:praetinterp:conjinterp:prepsubst:fin

interp:qubinterp:ppronsubst:praet

interp:subst

interp:adjfin:adjconj:adj

conj:substfin:substqub:adj

praet:substqub:substadj:substsubst:adj

subst:subst

ppas:substadj:adj

Page 14: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

14

Siedem skupień

no niedla

czeg

ogd

zie ale jeśli

bo tak

kiedy

lecz

pote

mjeż

elidla

tego

moż

eże żeby aby

gdy a iż co to

gdyb

yjak

byza

wsze

jakpr

zecie

żte

raz

chyb

anie

ch tuna

tom

iast

więc tam

właś

nie już mim

oalb

ona

wet

czy

ani

jeszc

zetyl

ko by też

jedna

kró

wnież

się takż

e u po bez

jako o

wśró

dpr

zy zapr

zed

wwo

bec

niż od na pod do dla

międ

zy z ina

dor

azpr

zez

lub

interp:fininterp:interinterp:praetinterp:conjinterp:prepsubst:fin

interp:qubinterp:ppronsubst:praet

interp:subst

interp:adjfin:adjconj:adj

conj:substfin:substqub:adj

praet:substqub:substadj:substsubst:adj

subst:subst

ppas:substadj:adj

Page 15: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

15

Kolumny najbardziej odstające

■ Posortowane według AvgDistA:

właśnie, tam, się, mimo, by, czy, albo, zawsze, też, tu, już, chyba, niech, natomiast, niż, iż, ...

Page 16: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

16

Plan wystąpienia

■ Narzędzie i dane:GradeStat i Korpus SFPW

■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady

● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników

Page 17: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

17

Współwystępowanie rzeczowników i liczebników

mał

o

czte

rnaś

cior

niew

iele

osie

m

dwad

zieś

cia

kilkan

aście

pięć

dzie

siąt

czte

rytrz

ecia

czwor

o

kilka

sied

emse

tkilkad

zies

dwa

oba

trzy

parę

babkagość

automatcentymetr

kilometrpozycjaprocent

dolarfrank

nagrodarodzina

delegat

pociskwyjazd

akrtyp

piesrozdziałprogramkopalnia

miśkieliszek

światłoczasofiaratytułwojewództwomegaherc

naukowieclekarzagronommilion

tysiąc

czasopismo

rokgazeta

kobietagrządkakomisjaobózszkołaparakrokminerałmorga

dwoj

e

wie

lepi

ęcio

rosz

eśćd

zies

osie

mse

t

sied

emna

ście

pięć

czte

rdzi

eści

trzys

tasz

esna

ście

półto

ratrz

ynaś

cie

dzie

sięć

oboj

e

czte

rnaś

cie

Prz

ykła

d 2

Page 18: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

18

Wynik GCA

sied

emna

sty

czte

rdzieś

cisied

emse

tje

dena

ście

czte

rnaś

cie

trzyn

aście

dwan

aście

milio

n

kilkas

et

czte

rydz

iewię

ć

trzy

kilkan

aście

parę

niew

iele

parę

set

piciedolar

kilometrdekagram

węzeł

frankwięzień

przedsiębior

rok

minutadychasklep

raz

dzieńblok

łokiećspółdzielnia

dziełocal

widok

wszystkotonaprocentcentymetrstopień

tysiąc

woltmilionjednostkawspółobwinioatom

klubreferatbudynekkołowłaścicieldziałaniekółkoalternatywaokręgkierowniksposóbokolica

troch

ępi

ęćse

t

sześ

ćdzi

esią

osie

mna

ście

trzyd

zieś

ci

pięt

naśc

iepi

ęć

dzie

sięć

sied

em

półto

ra pół

dwa

kilk

aty

lew

iele

dwoj

e

Czy »trochę«jest elementemodstającym?

Page 19: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

19

Odstępstwa od regularności dla kolumn

sied

emna

sty

osie

mse

tcz

tery

sta

sied

emdz

iesi

ąt

pięć

set

pięć

dzie

siąt

sześ

ćdzi

esią

t

dwie

ście

osie

mna

ście

trzyd

zieś

ci

sied

emna

ście

pięt

naśc

ie

pięć

dzie

sięć

szes

naśc

ie

sied

em

sześ

ć

półto

ra

kilk

adzi

esią

t

pół

dwa

kilk

a

tyle

czw

oro

parę

set

oba

jede

naśc

ioro

siedemnastyosiemsetczterysta

siedemdziesiąt

pięćset

pięćdziesiąt

sześćdziesiąt

dwieście

osiemnaście

trzydzieści

siedemnaście

piętnaście

pięć

dziesięć

szesnaście

siedem

sześć

półtora

kilkadziesiątpółdwakilkatyleczworoparęsetdwojesiedmioro 0.6

0.650.690.740.790.840.890.951.011.071.141.211.291.371.451.55

Page 20: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

20

GCA na odstępstwach od regularności

troch

ęos

iem

set

czte

ryst

a

sied

emdz

iesi

ąt

czte

rdzieś

ci

pięć

set

sześ

ćdzi

esią

t

dwie

ście

dwad

zieś

cia

czte

rnaś

cie

sied

emna

ście

pięt

naśc

ie

pięć

dwan

aści

e

szes

naśc

ie

milio

n

sześ

ć

czte

ry

dzie

wię

ć

trzy

pół

parę

czw

oro

ile trzec

iapa

ręse

tob

api

ęcio

ro

trochęosiemsetczterystasiedemdziesiątczterdzieścipięćset

sześćdziesiąt

dwieście

dwadzieścia

czternaście

trzydzieści

sto

trzynaście

dziesięć

szesnaście

siedem

kilkaset

półtora

kilkadziesiątkilkanaściedwakilkaniewieletylewieledwojesiedmioro

Odstępstwa od regularnościznalezionej przez GCArównież są regularne.

Page 21: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

21

Co widać na mapie odstępstw?

■ Dwa skupienia liczebników: precyzyjne określenia: pięćset, trzydzieści, nieprecyzyjne określenia: wiele, kilkanaście.

■ Trochę jest elementem odstającym: występuje

jako skrajny przykład określenia precyzyjnego.■ Słowa o szerokim zastosowaniu (np. tyle, ile,

wiele) występują najczęściej i w podobnym

kontekście, co liczebniki określające małe

wielkości.

Page 22: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

22

Odstępstwa od regularności dla wierszy

Czy widać wyraźneskupienia?

Page 23: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

23

Odstępstwa wierszy od regularnościpo GCA

Page 24: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

24

Co widać na mapie odstępstw?

■ Skupienia rzeczowników o podobnym rozkładzie

współwystępowania z liczebnikami – można

uporządkować liniowo.■ Odstawanie od liniowego porządku (łatwa zmiana

miejsca w kolejnych iteracjach) – słowa o wielu

znaczeniach.■ Czy współwystępowanie z liczebnikami jest

dobrym kryterium klasyfikacji rzeczowników?

Page 25: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

25

Plan wystąpienia

■ Narzędzie i dane:GradeStat i Korpus SFPW

■ Mapy nadreprezentacji■ Analiza odpowiedniości (GCA)■ Trzy przykłady

● klasyfikacja słów nieodmiennych● współwystępowanie rzeczowników i liczebników● deklinacja rzeczowników

Page 26: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

26

Prz

ykła

d 3

Deklinacja rzeczowników

■ z Korpusu zostały wyciągnięte informacje o częstościach występowania rzeczowników we wszystkich przypadkach

■ przypadki zostały rozdzielone do oddzielnych grup, co w uproszczeniu oznacza, że brzeg ignorowana jest informacja o tym, jak często wystąpił rzeczownik w danym przypadku w całym korpusie; przypadki są więc potraktowane jako równie ważne przy uporządkowaniu tabeli

■ czy w latach 60 wszystkie przypadki były rzeczywiście równoważne?

Page 27: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

27

Deklinacja rzeczowników

■ mapy danych surowych i nadreprezentacji przed posortowaniem zgodnie z GCA

acc dat gen inst loc nom voc

USA absolwentbóg bólco cokolwiekczłowiek cząsteczkadruk dyrektordziura eliminacjagomułka gronoimię interpretacjkartka kierownikkoncert konstrukcjakto któżmalarstwo mamusiamiejsce milionnamiot nawózobrazek ochotaokulary osiedlepan

panipanienkapiętropodstawaposełpowietrze

prezydiumproduktprzewódprzynależnoś

ranekredaktorrokowanieroztwórsekretariatsiebie

sprawasprawnośćsumasystemtaśmaten

toktokioulicauliczka

wieśćwilsonwyglądwyjściezakrętzakup

znakzobowiązanie 15.61091872653434214995776557338118899671045112312011279135714351513

acc dat gen inst loc nom voc

USA absolwentbóg bólco cokolwiekczłowiek cząsteczkadruk dyrektordziura eliminacjagomułka gronoimię interpretacjkartka kierownikkoncert konstrukcjakto któżmalarstwo mamusiamiejsce milionnamiot nawózobrazek ochotaokulary osiedlepan

panipanienkapiętropodstawaposełpowietrze

prezydiumproduktprzewódprzynależnoś

ranekredaktorrokowanieroztwórsekretariatsiebie

sprawasprawnośćsumasystem

taśmatentoktokio

ulicauliczkawieśćwilson

wyglądwyjściezakrętzakup

znakzobowiązanie 0.60.640.670.710.750.790.830.870.920.961.021.071.131.181.251.311.381.451.531.61

Page 28: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

28

Deklinacja rzeczowników

■ mapy danych surowych i nadreprezentacji posortowane zgodnie z GCA, wysokie zróżnicowanie (ρ* = 0.69)

■ wciąż są elementy odstające

voc dat nom inst gen acc loc

kochanie helenkabrat barbara

panwariatdyrektor

ewahankaprzyjacielfranekmaszynamuchapartyzantprojektantludzkośćktośniemiecoskarżony

problematykaczłonekrobotnikjesień

sektordrwpośrednictwoanioł

sportmałżonkaulgaduch

stopawyjazdpowodzeniepojęcie

colufażyciecierpieniewodabieg

programpytanieenergiaremont

budatwierdzawyposażeniepretensja

listwalkafrontzakup

wychowanietablicaakcjasprzętspórracja

razciągłośćalgieriaklasztorubraniemiejsce

rokwarszawa 15.61091872653434214995776557338118899671045112312011279135714351513

voc dat nom inst gen acc loc

kochanie helenkabrat barbara

panwariatdyrektor

ewahankaprzyjacielfranekmaszynamuchapartyzantprojektantludzkośćktośniemiecoskarżony

problematykaczłonekrobotnikjesień

sektordrwpośrednictwoanioł

sportmałżonkaulgaduch

stopawyjazdpowodzeniepojęcie

colufażyciecierpieniewodabieg

programpytanieenergiaremont

budatwierdzawyposażeniepretensja

listwalkafrontzakup

wychowanietablicaakcjasprzętspórracjarazciągłość

algieriaklasztorubraniemiejsce

rokwarszawa 0.60.640.670.710.750.790.830.870.920.961.021.071.131.181.251.311.381.451.531.61

Page 29: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

29

Deklinacja rzeczowników

mos

kwa

koc

tury

styk

apł

otpr

ośba

zwło

kano

gam

ajpa

szpo

rtrz

eczy

wis

toś

wym

ógin

terw

encj

aur

oczy

stoś

ćle

nin

pow

ódćw

icze

nie

pom

ocka

mie

nica

wils

onko

rpus

żniw

obo

gact

wo

środ

aba

nda

cyfr

aog

ród

lubl

inża

rtw

arta

cień

krew

nyog

onw

aria

ntsc

hem

atse

rce

bada

nie

ofia

rasz

kole

nie

etap

war

tość

solid

arno

śćtu

ryst

ają

dro

kom

enta

rzlo

slę

kta

lerz

wal

ecpr

asa

zest

awch

odni

ksi

ław

łasn

ość

garn

itur

śmie

chob

jaw

obow

iąze

kas

orty

men

tpo

tenc

jał

usłu

gaod

budo

wa

tros

kam

ilcze

nie

twie

rdza

mor

alno

śćch

ęćlic

zba

zast

rzeż

enie

gdyn

iapo

stać

zaw

ódst

udni

ata

blic

agn

iazd

opo

dręc

znik

funk

cjon

ariu

otw

órak

tba

rre

stau

racj

aba

lm

acie

kw

ikto

rof

icer

biał

ypl

asty

kki

elce

face

tw

icep

rem

ier

skal

ajo

rkoj

ciec

plaż

ado

ktor

kole

gaja

cek

augu

st

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Avg

Dis

tA

■ rzeczowniki na lewo od czarnej kropki zostały przeniesione do grupy elementów odstających (czarna kropka to również element odstający, wyraz co)

Page 30: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

30

Elementy odstające

voc gen loc dat nom acc inst

moskwa

waga

sklep

duchwidzeniekpzrleśnictwowrnkcpzprzbrojeniezłotyfuntbranżarwpgtonaużytekpłacawspółżyciemrnrzeczpospoliegzekutywatysiącleciekpoddziaływanicsrsdepartamentprawdopodobireuterwynagrodzenipolitechnikamoekonomiaoświataplanowaniebrygadamarkaprzewózczaszkakongoturystykapołównatobiuroobserwatoriujuniorusaepokaszkolnictwotowarzystwochałupapowstaniesprawiedliwoobradaambasadadaniawęgryklubczasopismoangliawrocławświątyniaplenumlecznictwoghanazakazdziejeporządekwynalazekrosjahalaprzeglądłódźrozruchśrednicahierarchiaopoleciemnośćwyspazatokastudiumwypadekprzekrójarchitekturapromieńnastrójsferaorganizmhiszpaniawillajezdniawalordolinafrancjasektorwytrzymałośćosadawyścigpraktykakolejnośćewolucjaczęstośćtokiowspółczynnikoblicze

celtoruńkiermaszsumaterytoriumzeszytpechnieobecnośćkomunikatzwłokapiętarezolucjalinkawyliczeniejurybiegświt

co

imieninykępawrażeniestawniespodziankprzestępczośmszapytaniecóżsamsprzężenieminusbudaprzekształceogłoszeniepłotwindawejściekawałcoś

powrótteraźniejszoowiesdzióbdłońnawiasnastępstwospódodrobinażądaniegestniewolnikpowiekaołówekprośbaadreskocerapewnośćdokładnośćszeptpośrednictwowyjątek

0.6666

0.99

1.0101

1.5

silna niedoreprezentacja

słaba niedoreprezentacja

idealna reprezentacja

słaba nadreprezentacja

silna nadreprezentacja

Page 31: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

31

Podział na 8 skupień

voc gen loc dat nom acc inst

moskwa

waga

sklep

duchwidzenie

złotywspółżycie

markausa

chałupadania

wrocławdziejehala

hierarchiastudium

przekrójorganizmfrancja

praktyka

celtoruń

nieobecność

co

imieninycóż

cośpowrót

następstwoadresszept

0.6666

0.99

1.0101

1.5

silna niedoreprezentacja

słaba niedoreprezentacja

idealna reprezentacja

słaba nadreprezentacja

silna nadreprezentacja

■ skupienie 1 – po prostu rzeczowniki, które wystąpiły chociaż raz w wołaczu: moskwa, waga, sklep, duch

Page 32: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

32

Ustawienie po GCA – bez wołaczainst acc nom loc dat gen

wyjątek pośrednictwo szeptdokładność pewność erakoc adres prośbapowieka ołówek gestniewolnik następstwo żądanienawias spód dłońdziób odrobina teraźniejszoowies powrót płotwejście winda cośprzekształce buda sprzężeniekawał ogłoszenie kępastaw pięta imieninyświt minus sammsza przestępczoś niespodziankpytanie duch pechbieg co cóżjury wyliczenie linkarezolucja wrażenie toruńkiermasz komunikat nieobecnośćzeszyt tokio współczynnikczęstość oblicze wagazwłoka terytorium celsuma kolejność skleppraktyka wypadek francjawyścig ciemność ghanadolina promień plenumdania czasopismo osadarozruch sfera średnicadzieje chałupa porządekłódź wytrzymałość angliawyspa wrocław moskwahiszpania architektura nastrójopole przekrój studiumsektor organizm jezdniawilla rosja walorzakaz ewolucja obserwatoriuklub kongo towarzystwohierarchia zatoka przeglądświątynia epoka halawynalazek węgry juniorczaszka połów powstanieambasada lecznictwo usabiuro obrada przewózszkolnictwo sprawiedliwo planowaniemarka brygada departamentekonomia csrs turystykamo politechnika wynagrodzeninato rzeczpospoli reuterprawdopodobi współżycie oddziaływanioświata kp tysiąclecieegzekutywa mrn użytekpłaca branża tonarwpg leśnictwo funtzłoty pzpr kczbrojenie wrn kpzrwidzenie

Page 33: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

33

Elementy odstające

Czyżby za ułożeniem stała opozycja rzeczywista informacja - nowomowa?

skupienie 1 – wyjątek, pośrednictwo, dokładność, adres, prośba, żądanie, wejście, teraźniejszość, ogłoszenie, niewolnik, coś skupienie 5 – biuro, obrada, sprawiedliwość, planowanie, departament, mo, csrs, turystyka, nato, rzepospolita, reuter, oświata, kp, współżycie, mrn, rwpg, pzpr, złoty, zbrojenie, kc, kpzr...

Page 34: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

34

Informacja a nowomowa

■ rzeczowniki ze skupienia 1 (rzeczywiście informujące?) częściej występowały w narzędniku

■ rzeczowniki ze skupienia 5 (nowomowa?) znacznie częściej występowały w dopełniaczu (planowania, departamentu, kc...)

9.84 13.6 8 2.43 0 3.53 32

4.69 43.6 46.7 8.57 1.07 11.3 26

3.61 8.26 8.92 17.1 1.42 15.4 26

0.66 3.33 5.52 9.14 1.11 16 42

0.02 1.35 2.87 1.1 0.22 31.6 40

inst acc nom loc dat gen Ilości

1

2

3

4

5

1

2

3

4

50.467.4711.214.918.622.426.129.933.637.341.144.8

Page 35: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

35

Deklinacja rzeczowników

mos

kwa

koc

tury

styk

apł

otpr

ośba

zwło

kano

gam

ajpa

szpo

rtrz

eczy

wis

toś

wym

ógin

terw

encj

aur

oczy

stoś

ćle

nin

pow

ódćw

icze

nie

pom

ocka

mie

nica

wils

onko

rpus

żniw

obo

gact

wo

środ

aba

nda

cyfr

aog

ród

lubl

inża

rtw

arta

cień

krew

nyog

onw

aria

ntsc

hem

atse

rce

bada

nie

ofia

rasz

kole

nie

etap

war

tość

solid

arno

śćtu

ryst

ają

dro

kom

enta

rzlo

slę

kta

lerz

wal

ecpr

asa

zest

awch

odni

ksi

ław

łasn

ość

garn

itur

śmie

chob

jaw

obow

iąze

kas

orty

men

tpo

tenc

jał

usłu

gaod

budo

wa

tros

kam

ilcze

nie

twie

rdza

mor

alno

śćch

ęćlic

zba

zast

rzeż

enie

gdyn

iapo

stać

zaw

ódst

udni

ata

blic

agn

iazd

opo

dręc

znik

funk

cjon

ariu

otw

órak

tba

rre

stau

racj

aba

lm

acie

kw

ikto

rof

icer

biał

ypl

asty

kki

elce

face

tw

icep

rem

ier

skal

ajo

rkoj

ciec

plaż

ado

ktor

kole

gaja

cek

augu

st

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

Avg

Dis

tA

■ druga grupa to rzeczowniki na prawo od czarnej kropki (zgodne z wyłonioną po GCA regularnością w macierzy)

Page 36: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

36

Rzeczowniki z grupy „regularnej” także tym razem wołacz najsilniej wpłynął na kolejność wierszy i kolumn (skupienie 2 i 3 to rzeczowniki, które nigdy nie wystąpiły w wołaczu)

voc dat nom inst gen acc loc

kochaniemariajózef

panwalterpani

władekkrólowaheniekfacetreżim

przewodnicząnaród

powiązaniewęgierwładza

sekretarzedekkrytyk

tofala

fragmentpszenica

wizytalimitpiwożyciewisła

substancjaugrupowanie

gazśmierć

usprawiedliwniechęć

sprawnośćgłowa

stowarzyszenzgłoszenie

tłumaczeniepapiereksport

proporcjazawódchwila

powierzchniachwileczka

posiłek

0.6666%

0.99%

1.0101%

1.5%

silna niedoreprezentacja

słaba niedoreprezentacja

idealna reprezentacja

słaba nadreprezentacja

silna nadreprezentacja

Page 37: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

<numer>

Wołacz wyłączony

po wyłączeniu wołacza i przeprowadzeniu GCA ustaliła się identyczna kolejność kolumn, ρ* = 0.557

dat nom inst gen acc loc

chwałapan

przestępcaradny

dziewczynaamatorchemikalkoholdzieckodyrekcja

ideałresztaurząd

żołnierznowość

torada

wieczórefektwada

wzmiankamaszyna

zarządzeniewydatekprojekt

nosjedno

gorączkaświęty

cywilizacjapieśńbrzeg

rachunekdokumentacja

żołądekkłopotziemia

solidarnośćkoniec

współzawodnidzieńskórakino

znaczeniewywiadniemcy

warszawaluty

0.6666%

0.99%

1.0101%

1.5%

silna niedoreprezentacja

słaba niedoreprezentacja

idealna reprezentacja

słaba nadreprezentacja

silna nadreprezentacja

Page 38: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

<numer>

Nadreprezentacje dla agregacji

czym różni się 8 wydzielonych skupień

dat nom inst gen acc loc

1

2

3

4

5

6

7

8

1

2

3

4

5

6

7

8

0.6666

0.99

1.0101

1.5

silna niedoreprezentacja

słaba niedoreprezentacja

idealna reprezentacja

słaba nadreprezentacja

silna nadreprezentacja

dat nom inst gen acc loc

Page 39: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

<numer>

Mapa danych surowych

średnie częstości wystąpienia danego przypadku dla rzeczowników w każdym ze skupień

4.6 24.3 2.05 8.39 3.91 0.52

2.39 18.7 3.55 17 5.16 1.24

1.43 21.5 5.64 22.2 10.2 3.87

0.6 11.8 6.53 20.4 9.29 4.32

0.21 9.9 4.52 22.8 11.4 4.63

0.21 8.22 3.46 23.7 10.9 9.96

0.07 5.89 2.55 18.7 13.8 12.6

0.01 4.15 1.4 17.2 10.6 24.8

dat nom inst gen acc loc

1

2

3

4

5

6

7

80.261.752.994.235.476.717.959.1910.411.612.914.115.416.617.819.120.321.622.824

161

278

294

345

392

375

310

213

Ilości

1

2

3

4

5

6

7

8

Page 40: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

<numer>

Podsumowanie analizy przykładu 3

skupienie 1 – pan, pani, siebie, nikt, ojciec, minister, naród, członek

skupienie 2 – człowiek, dziecko, państwo, kobieta, zmiana skupienie 3 – to, tysiąc, rada, problem, rząd, organizacja,

liczba skupienie 4 – sprawa, wszystko, życie, pomoc, siła skupienie 5 – praca, nic, oko, woda, szkoła, rzecz skupienie 6 – kraj, związek, świat, miasto, ręka, warunek,

głowa, ziemia skupienie 7 – raz, dzień, chwila, przykład, droga, dom,

polska, sposób, strona skupienie 8 – rok, czas, miejsce, godzina, okres

Page 41: Gradacyjna analiza danych korpusowychnlp.ipipan.waw.pl/NLP-SEMINAR/060626ld.pdf · 2006-06-26 · Gradacyjna analiza danych korpusowych Łukasz Dębowski Emilia Jarochowska Marek

<numer>

Dziękujemy!

Zapraszamy na nasze strony:http://korpus.plhttp://gradestat.ipipan.waw.pl