Upload
others
View
12
Download
0
Embed Size (px)
Citation preview
ZAKON O VELI^INIVOKABULARA TEKSTAHeapsov zakon i odre|ivanjeveli~ine vokabulara tekstovana hrvatskom jezikuMiroslav TU\MANFilozofski fakultet, Zagreb
UDK: 811.163.42'32004.9:81
Izvorni znanstveni rad
Primljeno: 29. 3. 2004.
Postoje}a formula Heapsova zakona o veli~ini vokabularateksta nije univerzalna te zakon treba redefinirati, kako bi semogao rabiti za analizu korpusa na raznim jezicima. Analizakorpusa tekstova na hrvatskom jeziku potvr|uje hipotezu da jebroj funkcionalnih pojavnica u tekstu konstantan te iznosi 21%veli~ine teksta. Autor dokazuje da se postotak funkcionalnihpojavnica u tekstu mo`e uzimati kao vrijednost za parametar Kte da je parametar K konstantna vrijednost za svaki jezi~nikorpus. Empirijska istra`ivanja potvr|uju autorovu tezu da sebroj funkcionalnih pojavnica u tekstu mo`e izra~unati poformuli F = nK/100, a da za veli~inu najfrekventnije pojavnice(MF) vrijedi formula MF = n (K/100)2. Vrijednost drugogaparametra Heapsova zakona tako|er se mo`e preciznoodrediti i zato autor predla`e novi oblik zakona o veli~inivokabulara teksta. Istra`ivanja potvr|uju da je vrlo visokakorelacija izme|u izra~unanih i stvarnih vrijednosti veli~inevokabulara, odnosno izme|u stvarnih i izra~unanih vrijednostijednokratnih rije~i u tekstu. Ovako interpretiran i definiranzakon o veli~ini vokabulara teksta omogu}uje izra~un veli~inevokabulara teksta na svakom jeziku, kada se zna postotakfunkcionalnih rije~i koji je konstantan za taj jezik. No ovainterpretacija zakona omogu}uje, osim izra~una veli~inevokabulara teksta, i odre|ivanje broja funkcionalnih pojavnicau tekstu, veli~ine najfrekventnije rije~i u tekstu te brojajednokratnih pojavnica koje tvore vokabular teksta.
Miroslav Tu|man, Filozofski fakultet Sveu~ili{ta u Zagrebu, Odsjekza informacijske znanosti, I. Lu~i}a 3, 10000 Zagreb, Hrvatska.E-mail: [email protected]
*
UVODLotkin zakon o produktivnosti autora, Bradfordov zakon o pra-vilnosti razdiobe ~lanaka po ~asopisima te Zipfov zakon o raz-diobi rije~i u tekstu – tri su temeljna zakona na kojima po~i-vaju empirijska istra`ivanja u informacijskoj znanosti. Ovi za-koni do`ivjeli su svoje modifikacije i razne interpretacije (V.Olui}-Vukovi}, 1999.), a postoje i poku{aji da se sva tri zakonaizvedu iz jedne jednad`be ili svedu na jednu zajedni~ku logiku.
Mnogo je manje poznat u teoriji, a manje se primjenjujei u praksi, Heapsov zakon.
Heapsov zakon (Heaps, 1978.) omogu}uje izra~unavanjefonda rije~i, tj. veli~ine vokabulara, koji se rabi u nekom dokumen-tu ili nizu dokumenata. Zakon je formuliran na sljede}i na~in:
(1) VR(n) = Knβ
VR je oznaka za dio vokabulara (VR ⊆ V) koji se rabi u tek-stu veli~ine n. K i ß su parametri koji se odre|uju empirijski.Za korpus tekstova na engleskom jeziku vrijednost K je izme-|u 10 i 100, a za ß iznosi:
0,4 ≤ ß ≤ 0,6
Tipi~ne razdiobe vokabulara prema Heapsovu zakonuprikazane su na sljede}em grafikonu.
* Na osi x prikazane su veli~ine teksta, a na osi y veli~ina vokabulara,tj. fonda rije~i koji se rabi u tekstu odre|ene veli~ine.Izvor: http://www.PlanetMathOrg.PlanetMathHeaps'Law.htm
Heapsov zakon u teoriji informacijske znanosti nije ne-poznat (Gelbukh, Sidorov, 2001.; Turner, 2001.), ali se o njemumanje raspravlja i manje se rabi nego ostali bibliometrijski za-koni: Bradfordov, Lotkin i Zipfov zakon. Tome su vjerojatnotri razloga.228
0 200 000 400 000 600 000 800 000 1e+06
10 000
8000
6000
4000
2000
0
Ü Grafikon 1Razdiobe vokabularaprema Heapsovuzakonu*
Prvo, Heapsova formula za izra~unavanje veli~ine voka-bulara (tj. fonda rije~i) nekoga teksta po svojoj formi odgo-vara metodi najmanjih kvadrata i iste rezultate mo`emo do-biti koriste}i se standardnim statisti~kim programima (poputSPSS).
Drugo, Heapsova formula nije univerzalna jer ne vrijediza sve jezike (Gelbukh, Sidorov, 2001.). Odnos fonda rije~i, tj.upotrijebljenoga vokabulara, i veli~ine teksta razli~it je od je-zika do jezika. Kao dokaz za ovu tezu dostatan je i primjer knji-ge Antoinea de Saint-Exuperyja "Mali princ" na osam jezika:
FunkcionalneTekst Veli~ina teksta Vokabular Vr rije~i Fs
Mali princ – engleski prijevod 16884 2203 4953Mali princ – njema~ki prijevod 14354 2664 3951Mali princ – {panjolski prijevod 13612 2865 4462Mali princ – ~e{ki prijevod 13500 3141 2370Mali princ – talijanski prijevod 13213 2558 4934Mali princ – hrvatski prijevod 13029 3250 2595Mali princ – poljski prijevod 12810 3364 1850Mali princ – srpski prijevod 12411 3332 2335
Iz ovoga se primjera vidi da je jedna te ista poruka ("Maliprinc") na razli~itim jezicima iskazana razli~itom du`inom tek-sta. (Engleska verzija ima 36% vi{e rije~i od srpske verzije.)Odnos izme|u veli~ine vokabulara i veli~ine teksta kre}e seod 1:4 do 1:8. Ukupan broj funkcionalnih rije~i tako|er je ra-zli~it: od 1/3 do 1/7 ukupnoga broja rije~i u tekstu.
Tre}e, ~injenica je da bi se prema Heapsovu zakonu vri-jednosti parametara i K i ß trebale odre|ivati empirijski. Do-sada{nja pak istra`ivanja potvrdila su njihove vrijednosti uprvom redu za engleski jezik. Da bi se Heapsov zakon mogaoprimjenjivati u istra`ivanju vokabulara tekstova na jezicimakoji nisu engleski, trebalo bi izra~unati vrijednosti parametaraK i ß za svaki jezik posebno. Takva istra`ivanja o~ito nisu broj-na, a primjena Heapsova zakona u istra`ivanju korpusa tek-stova na hrvatskom jeziku na samom je po~etku (M. Tu|man,2003.; M. Tu|man i dr., 2003.).
PROBLEMProblem kojim se bavimo u ovom istra`ivanju jest primjenaHeapsova zakona u istra`ivanju vokabulara tekstova na hr-vatskom jeziku. Zato je potrebno odrediti vrijednosti para-metara K i ß koje bi vrijedile za obradbu korpusa hrvatskihtekstova. Potrebno je odrediti empirijske vrijednosti parame-tara K i ß ali i istra`iti (me|usobnu) uvjetovanost veli~ina tihparametara. Zato su pitanja na koja tra`imo odgovore: u ka-kvim su odnosima vrijednosti parametara K i ß s drugim od-rednicama veli~ine vokabulara tekstova na hrvatskom jezi-229
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Ý TABLICA 1"Mali princ" na osamjezika; osam tekstovai vokabulara razli~itihveli~ina
ku? @elimo istra`iti mo`e li Heapsov zakon na}i svoju pri-mjenu u izra~unavanju veli~ine vokabulara tekstova na hrvat-skom jeziku, ali i za izra~unavanje broja funkcionalnih rije~i,jednokratnih rije~i te najfrekventnije rije~i u pojedinim tek-stovima ili korpusu tekstova.
O TERMINOLOGIJITerminologija koja se rabi u analizi jezi~nih korpusa nije usta-ljena. Jednako tako termini koji se rabe u primjeni Heapsovazakona nisu standardizirani ili se pak rabe uvjetno, s odre|e-nim ograni~enjima. Zato }emo izlo`iti kako smo upotrijebilineke osnovne termine vezane za tuma~enje Heapsova zakona.
– Veli~ina teksta (text size) odre|ena je ukupnim brojemrije~i koje se pojavljuju u tekstu. No i broj pojavnica (token) u-vrije`en je naziv za ukupan broj rije~i teksta, za sve rije~i kojetvore neki tekst. Zato se veli~ina teksta i broj pojavnica tekstarabe kao termini koji ozna~uju isti sadr`aj.
– Veli~ina vokabulara teksta odre|ena je fondom rije~i kojese rabe u nekom tekstu. Vokabular teksta jest rje~nik teksta,preciznije: vokabular je fond razli~nica (types) jednoga teksta.Veli~ina vokabulara i broj razli~nica teksta rabe se kao termi-ni koji ozna~uju isti sadr`aj: broj razli~itih rije~i u tekstu.
Razli~nice u istra`ivanju korpusa (engleskih i hrvatskih)tekstova nisu lematizirane (tj. svedene na osnovni oblik – no-minativ ili infinitiv). Zato se (semanti~ki) ista rije~ mo`e poja-viti vi{e puta kao razli~nica u vokabularu teksta, ako se javljau promijenjenu obliku (u razli~itim pade`ima ili vremenima).
Posljedica i ograni~enje ovakva odre|ivanja veli~ine voka-bulara teksta jest u tome da flektivni jezici s razgrananommorfologijom imaju ve}i vokabular od jezika ~ija morfologijanije jednako razgranana.
– Funkcionalne rije~i sinonim su za "gramati~ke rije~i", "pra-zne rije~i" ili "stop words". Funkcionalne rije~i tvore malen ikona~an razred rije~i kao {to su prijedlozi (u, na, s, od, do, priitd.), veznici (i, ili, ni itd.), odnosno ~lanovi u nekim jezicima(npr. a, the u engleskom). Funkcionalne rije~i tvore zatvorenirazred rije~i (R. Carter, 1998.), one su malobrojne i same za se-be ne nose semanti~ke poruke, nego slu`e za gramati~ku tvor-bu teksta. Zato su to najfrekventnije rije~i u tekstu.
– Hapax legomena (gr~. u zna~enju "jednom izgovoreno")upotrebljava se kao termin u analizi veli~ine tekstova, kao o-znaka za one rije~i koje se javljaju jednokratno, samo jedan-put, ili, preciznije, ~ija je frekvencija pojavljivanja jedan. Dabismo ozna~ili rije~i koje se javljaju jednokratno u tekstu, slu-`ili smo se kao sinonimima terminima hapax legomena, jedno-kratne rije~i, odnosno jednokratnice.
– Vi{ekratne rije~i ili vi{ekratnice rabimo kao termin da bismoopisali one rije~i u tekstu ~ija je frekvencija pojavljivanja ve}a230
od jedan. Jednokratnice i vi{ekratnice tvore vokabular teksta, stim da se jednokratnice javljaju samo jedanput u cijelom tekstu.
– Maksimalna frekvencija jest oznaka vrijednosti za onurije~ koja se najvi{e puta javlja u nekom tekstu.
O METODIAnalizu vokabulara tekstova na hrvatskom jeziku provodilismo na korpusu koji se sastoji od 111 hrvatskih tekstova, iliukupno 5.343.624 pojavnica. Tekstovi su preuzeti u digital-nom obliku i nisu posebno prilago|ivani za ovu analizu. Priodabiru tekstova nastojali smo uvrstiti samo prozne tekstove,tako da ne bude velike razlike u `anrovima. (Korpus od 111 tek-stova nastao je od nova 42 teksta koja su pridodana korpusuod 69 tekstova {to smo ih analizirali u radu M. Tu|man i dr., 2003.)
Kao kontrolnu grupu uzeli smo korpus od 35 tekstova naengleskom jeziku, korpus veli~ine 4.536.115 pojavnica. I ovajkorpus sastoji se prete`no od knji`evnih tekstova, jer pretpo-stavljamo da na razlike u veli~ini vokabulara tekstova moguutjecati i pojedini `anrovi sa svojim stilskim specifi~nostima.
Svaki je tekst iz korpusa odabranih tekstova podvrgnutobradbi kako bi se dobili osnovni podaci o tekstu: veli~inateksta (broj pojavnica), veli~ina vokabulara (broj razli~nica),broj funkcionalnih rije~i, broj jednokratnih i broj vi{ekratnihrije~i, pregled razli~nica po frekvenciji (izdvojili smo maksi-malnu frekvenciju u svakom tekstu). (Obradbom smo do{lido niza podataka koji nisu predmetom ove analize: broj zna-kova, broj slova, broj paragrafa, broj re~enica teksta.) Softver-ski program za ovu obradbu izradio je prof. dr. Damir Boras uokviru projekta "Modeli znanja i obrada prirodnog jezika".
Nismo radili lematizaciju, tako da se rezultati analize ve-li~ine vokabulara tekstova mogu upotrijebiti samo za kvanti-tativne, a ne i za kvalitativne, prosudbe.
Statisti~ka analiza podataka ra|ena je u Excelu, a grafi~kiprikaz u Microsoft Wordu.
Rezultati statisti~ke obradbe podataka korpusa tekstovana hrvatskom jeziku i korpusa tekstova na engleskom jeziku pri-kazani su u prilogu: M. Tu|man, D. Boras, N. Mikeli} "Heap-sov zakon i odre|ivanje veli~ine vokabulara tekstova na hrvat-skom jeziku. Dokumentacija" (Filozofski fakultet, Zagreb, 2004.).
Bez spoznaja do kojih smo do{li analiziraju}i podatkeprikazane u spomenutoj "Dokumentaciji" nije mogu}a anali-za Heapsova zakona u ovom radu. Na`alost, zbog opsega do-kumentacije prikupljene i obra|ene analizom vokabulara tek-stova na hrvatskom jeziku nismo mogli cijelu gra|u uvrstiti uovaj ~lanak, nego se mo`emo samo na nju pozivati. Me|utim,osnovni podaci ovoga empirijskog istra`ivanja prikazani su uTablici 2. Tako se rezultati istra`ivanja na koja upu}uju sljede-}i grafikoni i formule mogu provjeriti prilo`enim podacima uTablici 2.231
REZULTATI (1): KONSTANTE U HEAPSOVU ZAKONU
Broj funkcionalnih rije~i je konstantanU Heapsovu zakonu K i ß su parametri koji se odre|uju empi-rijski. No {to utje~e na njihovo odre|ivanje i mogu li ovi para-metri – ili jedan od njih – imati stalnu vrijednost za pojedine jezike?
Na Grafikonu 2 prikazan je rast vokabulara (V(n)), brojafunkcionalnih pojavnica (Fs) i maksimalne frekvencije (MF)ovisno o veli~ini teksta (n). S veli~inom teksta rastu i svi ostalipokazatelji i imaju isti trend rasta, svi osim funkcionalnih ri-je~i. Naime, kod tekstova ve}ih od 60.000 rije~i broj funkcio-nalnih pojavnica postaje ve}i od veli~ine vokabulara. Me|u-tim, pravi pokazatelj o odnosu broja funkcionalnih pojavnicai veli~ine teksta mo`e se vidjeti na Grafikonu 3.
Analizom podataka o broju funkcionalnih pojavnica utekstu mo`emo zaklju~iti da je u prosjeku 21% funkcionalnihrije~i u svakom tekstu. [tovi{e, ~ak i ukupan broj rije~i cijelo-ga korpusa /N=5.343.624 podijeljene s ukupnim brojem funk-cionalnih rije~i Fr=1.093.554/ upu}uje na isti zaklju~ak jer da-je sljede}i rezultat: 20,46% (Tablica 2).232
Ü GRAFIKON 2Logaritamski prikazosnovnih pokazateljaanaliziranih tekstova
Ü GRAFIKON 3Postotak funkcionalnihrije~i i razlike izme|uFs i Ft
233
Ü TABLICA 2Osnovni podaci zaanalizu vokabularahrvatskih tekstova
Veli~
ina
Izra
~una
niFs
: bro
jIz
ra~u
n fu
nk-
Hap
ax le
gom
eM
Fs:
teks
ta: b
roj
Voka
bula
r:vo
kabu
lar
funk
cion
al-
% fu
nkci
o-ci
onal
nih
rije~
ina
HLs
:m
aksi
mal
naO
znak
a te
ksta
poja
vnic
ara
zli~
nice
VR
t=(N
k)2/
3ni
h rij
e~i
naln
ih ri
je~i
Ft=
0,21
nfr
ekve
n.=
1H
Lt=
((Nk)
/2)2
/3fr
ekve
ncija
MFt
=N
(0,2
1)2/
3
1M
ilo{:
Pet
ar P
an68
142
560
813
519
,82
143
336
382
2530
2M
ilo{:
Jeze
ro70
642
262
312
317
,42
148
330
392
2331
3M
ilo{:
Pov
rata
k72
345
363
312
216
,87
152
363
398
2232
4M
ilo{:
Gib
ralta
r81
551
568
613
416
,44
171
422
431
2936
5M
ilo{:
Ex
pica
dor
886
509
726
178
20,0
918
639
545
636
396
Kov
a~in
a: B
akre
na s
vila
922
681
745
142
15,4
019
459
246
843
417
Milo
{: P
enel
ope
949
544
760
209
22,0
219
941
647
729
428
Loko
tar:
Esej
i o m
oru
999
617
786
209
20,9
221
050
849
436
449
Kov
a~in
a: P
au~i
na12
8177
992
925
119
,59
269
641
584
5356
10K
ova~
ina:
Lje
pota
1318
699
947
235
17,8
327
753
559
571
5811
Milo
{: A
frod
izija
k14
1585
199
326
218
,52
297
681
624
3862
12N
eko}
i sa
d - p
ogov
or17
0298
511
2432
118
,86
357
796
706
8675
13[k
olar
ac -
pogo
vor
1758
1061
1148
382
21,7
336
986
672
210
078
14To
nio
Kro
ger -
pog
ovor
2149
1218
1314
422
19,6
445
197
882
612
495
15Lj
ubej
: Pri~
a22
7111
5713
6346
920
,65
477
865
857
113
100
16Br
anis
avlje
vi}:
Mos
q25
1013
2414
5847
218
,80
527
1044
916
111
111
17@
udnj
a za
ljub
avlju
- po
govo
r32
6116
9917
3764
319
,72
685
1312
1092
179
144
18O
trag
i~no
m -
pogo
vor
3336
1740
1764
702
21,0
470
113
4011
0918
114
719
Ljud
ska
sudb
ina
- pog
ovor
3403
1893
1787
674
19,8
171
514
8411
2315
215
020
Berli
n A
lexa
nder
Pla
tz -
pogo
vor
3723
2002
1898
684
18,3
778
215
5611
9313
916
421
Bran
isav
ljevi
}: V
jeve
rica
3819
1666
1931
742
19,4
380
212
4212
1424
616
822
Vre
men
ski s
troj
- po
govo
r39
2719
0319
6783
721
,31
825
1460
1237
150
173
23Iv
anho
e - p
ogov
or40
5519
6120
1084
620
,86
852
1489
1263
161
179
24Pu
t do
Indi
je -
pogo
vor
4130
2014
2035
901
21,8
286
715
3912
7919
518
225
Gol
i i m
rtvi
- po
govo
r42
0121
6220
5888
521
,07
882
1713
1294
235
185
2619
84 -
pogo
vor
4361
2131
2111
919
21,0
791
616
0813
2717
119
227
Kon
trap
unkt
- po
govo
r47
8923
1522
4797
020
,25
1006
1746
1412
198
211DRU[. ISTRA@. ZAGREB
GOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Veli~
ina
Izra
~una
niFs
: bro
jIz
ra~u
n fu
nk-
Hap
ax le
gom
eM
Fs:
teks
ta: b
roj
Voka
bula
r:vo
kabu
lar
funk
cion
al-
% fu
nkci
o-ci
onal
nih
rije~
ina
HLs
:m
aksi
mal
naO
znak
a te
ksta
poja
vnic
ara
zli~
nice
VR
t=(N
k)2/
3ni
h rij
e~i
naln
ih ri
je~i
Ft=
0,21
nfr
ekve
n.=
1H
Lt=
((Nk)
/2)2
/3fr
ekve
ncija
MFt
=N
(0,2
1)2/
3
28K
i{: @
enik
4862
1795
2270
1250
25,7
110
2112
6014
2721
221
429
Plod
ovi g
njev
a - p
ogov
or48
9824
6622
8110
1920
,80
1029
1907
1434
264
216
30M
a`ur
ani}
161
3424
9226
5394
115
,34
1288
1692
1667
140
271
31Bl
aga
je n
o} -
pogo
vor
7828
3581
3123
1634
20,8
716
4427
3019
6340
234
532
Tom
i}: O
pan~
arev
a k}
i89
9430
9134
2818
0820
,10
1889
2125
2154
273
397
33Pa
sagi
}10
927
3571
3906
2148
19,6
622
9523
7524
5530
048
234
Don
adin
i: Ba
uk11
772
3556
4105
2380
20,2
224
7224
7825
8046
651
935
Mal
i prin
c (h
rvat
ski)
1302
932
5043
9425
9519
,92
2736
2011
2657
420
542
36A
ralic
a112
480
4132
4269
2989
23,9
526
2128
9826
8359
755
037
[eno
a113
001
4347
4388
1752
13,4
827
3027
1227
5826
457
338
[eno
a: K
aran
fil13
775
5183
4561
2455
17,8
228
9336
9628
6744
560
739
Ki{
: Obi
jalo
1465
049
6847
5332
0321
,86
3077
3572
2988
705
646
40A
ralic
a414
813
4531
4789
3533
23,8
531
1130
9930
1071
265
341
Ara
lica3
1580
850
7450
0236
7223
,23
3320
3448
3144
772
697
42[e
noa:
Prij
an L
ovro
1814
862
2754
8730
6416
,88
3811
4202
3448
484
800
43A
ralic
a518
647
5654
5587
4344
23,3
039
1639
3035
1287
382
244
Ara
lica2
1893
061
2356
4442
0122
,19
3975
4318
3547
836
835
45D
onad
ini:
Nov
ele
1960
956
3057
7937
8219
,29
4118
3930
3632
826
865
46To
nio
Kro
ger
2005
863
2158
6744
2122
,04
4212
4386
3687
1074
885
47A
ralic
a921
360
6205
6120
4982
23,3
244
8641
8438
4692
194
248
Nov
ak1
2280
766
0763
9444
8719
,67
4789
4442
4019
1050
1006
49A
ralic
a623
494
6823
6523
5484
23,3
449
3446
4541
0011
8210
3650
Lisa
c: S
avr{
eni k
rug
2451
268
3867
1148
7019
,87
5148
4645
4218
981
1081
51A
ralic
a724
917
6881
6785
5866
23,5
452
3346
0242
6411
7610
9952
Hla
pi}
2493
044
0267
8753
0221
,27
5235
2367
4266
1388
1099
53Jo
rgov
ani}
2570
279
0569
2752
6120
,47
5397
5448
4354
1038
1133
54D
onad
ini:
Kro
z {i
be28
727
7142
7463
5715
19,8
960
3347
8846
9118
8112
6755
Iren
a V
rklja
n30
019
8011
7687
6160
20,5
263
0451
8248
3113
1113
2456
[kol
arac
3225
985
6880
6672
1122
,35
6774
5530
5070
1512
1423
57[e
noa:
^uv
aj s
e32
269
9010
8068
5680
17,6
067
7655
8450
7181
414
2358
Wie
sner
-Liv
adi}
: Nov
ele
3292
384
3781
7765
9320
,03
6914
5586
5140
1450
1452
59K
ozar
ac: \
uka
3345
396
2082
6576
4822
,86
7025
6768
5195
2109
1475
60K
amov
: Nov
ele
3452
690
5684
4273
9621
,42
7250
6075
5306
2065
1523
61Le
skov
ar: P
ropa
li dv
ori
3667
493
8487
9071
0019
,36
7702
6173
5525
1444
1617
62G
jals
ki: D
olaz
ak H
rvat
a38
234
1000
690
3983
5521
,85
8029
6338
5681
2352
1686
63Le
skov
ar: N
ovel
e39
616
9780
9257
8312
20,9
883
1964
8958
1813
0017
4764
Kov
a~i}
I. G
.: Pr
ipov
ijetk
e39
814
1382
192
8879
0619
,86
8361
9693
5837
1764
1756
65K
ova~
i}: P
ripov
ijest
i42
054
1196
996
3575
3417
,92
8831
8039
6055
1302
1855
66M
inis
tar O
bran
e42
271
9219
9668
9211
21,7
988
7758
7360
7626
7718
6467
Koz
arac
142
575
9831
9715
8741
20,5
389
4164
9361
0616
2918
7868
Ara
lica8
4357
283
7998
6698
4622
,60
9150
3015
6201
2036
1922
69Pr
i~e
iz d
avni
ne44
027
9225
9935
1036
723
,55
9246
5360
6244
1900
1942
Veli~
ina
Izra
~una
niFs
: bro
jIz
ra~u
n fu
nk-
Hap
ax le
gom
eM
Fs:
teks
ta: b
roj
Voka
bula
r:vo
kabu
lar
funk
cion
al-
% fu
nkci
o-ci
onal
nih
rije~
ina
HLs
:m
aksi
mal
naO
znak
a te
ksta
poja
vnic
ara
zli~
nice
VR
t=(N
k)2/
3ni
h rij
e~i
naln
ih ri
je~i
Ft=
0,21
nfr
ekve
n.=
1H
Lt=
((Nk)
/2)2
/3fr
ekve
ncija
MFt
=N
(0,2
1)2/
3
70K
ozar
ac2
5036
111
277
1087
210
151
20,1
610
576
7541
6833
2008
2221
71G
jals
ki: B
oris
lavi
} Ja
nko
5052
111
876
1089
510
700
21,1
810
609
7693
6847
1957
2228
72Br
li}: J
a{a
Dal
mat
in50
961
1453
510
958
1009
319
,81
1070
293
6068
8720
7122
4773
Tom
i} 2
5221
711
560
1113
810
587
20,2
810
966
6940
7001
2122
2303
74N
a{i i
va{
i52
966
9737
1124
598
8918
,67
1112
357
9470
6824
9823
3675
[kol
a pl
ivan
ja54
021
1200
711
395
1205
122
,31
1134
475
6371
6218
5823
8276
Mat
o{: P
ripov
ijetk
e54
933
1765
211
523
1204
221
,92
1153
612
278
7242
2395
2423
77K
ova~
i}: F
i{ka
l55
761
1352
611
639
1049
418
,82
1171
086
6773
1518
4624
5978
[eno
a: P
rosj
ak L
uka
5598
510
432
1167
110
343
18,4
711
757
6055
7335
1882
2469
79Ta
jna
jedn
og v
ideo
zapi
sa58
938
1219
312
080
1184
420
,10
1237
771
8675
9223
0025
9980
Kum
i~i}
259
687
1025
012
182
1069
717
,92
1253
458
1976
5721
7826
3281
Usm
ene
naro
dne
pri~
e60
253
1051
712
259
1350
222
,41
1265
344
9977
0523
3626
5782
Nek
o} i
sad
6214
912
462
1251
713
487
21,7
013
051
7615
7867
2653
2741
83@
udnj
a za
ljub
avlju
6311
514
398
1264
712
521
19,8
413
254
9433
7949
3358
2783
84K
umi~
i}: Z
a~u|
eni s
vato
vi67
831
1274
213
272
1299
019
,15
1424
574
2083
4223
7729
9185
Nov
ak2
6928
214
660
1346
213
779
19,8
914
549
9198
8461
2382
3055
86Lj
udsk
a su
dbin
a79
428
1615
614
753
1491
618
,78
1668
097
9892
7233
7435
0387
[eno
a381
500
1549
315
009
1559
719
,14
1711
588
9394
3325
6735
9488
O tr
agi~
nom
osj
e}an
ju `
ivot
a84
097
1520
215
328
1980
223
,55
1766
092
8096
3436
8937
0989
Kum
i~i}
185
276
1296
015
472
1493
017
,51
1790
871
6697
2431
6937
6190
Vre
men
ski s
troj
- R
at s
vjet
ova
8797
117
751
1579
819
108
21,7
218
474
1110
399
2938
2438
8091
1984
9224
217
819
1630
818
781
20,3
619
371
1086
010
249
4917
4068
92[e
noa2
9552
617
548
1669
416
605
17,3
820
060
9900
1049
226
6142
1393
Tom
i}1
9741
117
534
1691
418
129
18,6
120
456
1050
910
631
4958
4296
94Pu
t do
Indi
je99
062
1833
117
106
2034
020
,53
2080
311
232
1075
144
4543
6995
Gja
lski
110
0702
2124
317
295
2020
620
,07
2114
713
274
1087
038
1644
4196
Blag
a je
no}
1017
7521
454
1741
819
525
19,1
821
373
1386
110
948
6183
4488
97[i
mun
ovi}
: Prip
ovije
tke
1036
9119
039
1763
725
483
24,5
821
775
7767
1108
558
4245
7398
Dru
go li
ce m
arke
tinga
1077
8821
689
1810
125
420
23,5
822
635
1345
711
377
4598
4753
99K
amov
: Isu
{ena
kal
ju`a
1085
9821
452
1819
223
673
21,8
022
806
1312
711
434
6823
4789
100
Jagm
a11
4720
2043
818
873
2317
720
,20
2409
112
013
1186
245
4850
5910
1G
jals
ki2
1262
0322
229
2011
925
653
20,3
326
503
1331
212
645
4093
5566
102
Berli
n A
lexa
nder
Pla
tz13
7531
1983
521
312
3063
522
,27
2888
211
538
1339
451
6260
6510
3K
ova~
i}1
1447
2426
603
2205
229
612
20,4
630
392
1620
913
860
7156
6382
104
Ivan
hoe
1495
9626
951
2254
728
824
19,2
731
415
1543
914
171
4709
6597
105
Kon
trap
unkt
1541
4829
265
2300
430
035
19,4
832
371
1795
014
458
6838
6798
106
Plod
ovi g
njev
a16
4244
2150
224
003
3261
319
,86
3449
111
845
1508
665
2672
4310
7K
umi~
i}: U
rota
1707
9225
622
2464
032
796
19,2
035
866
1422
815
486
5462
7532
108
Kum
i~i}
317
5021
2563
025
047
3280
518
,74
3675
414
228
1574
254
6377
1810
9A
ralic
a1-9
2175
1530
432
2897
450
401
23,1
745
678
1428
418
210
1028
795
9211
0G
oli i
mrt
vi22
1609
2778
829
338
4319
319
,49
4653
814
802
1843
997
6197
7311
1Be
govi
}: G
iga
Bari}
eva
2510
1336
021
3189
252
678
20,9
952
713
2150
020
044
1096
611
070
Isti stalni omjer veli~ine teksta i broja funkcionalnih rije~iu tekstu pokazuju podaci iz kontrolne grupe – za tekstove naengleskom jeziku (Grafikon 4). Samo u korpusu tekstova na en-gleskom udio je funkcionalnih pojavnica u veli~ini teksta 26%.
Grafikon 4 koristi se dvjema ordinatama s razli~itim ska-lama vrijednosti za prikaz veli~ine teksta, odnosno broj funk-cionalnih rije~i. To omogu}uje da se zorno poka`e kako su o-bje krivulje jednake, odnosno da se omjer izme|u ovih veli-~ina ne mijenja s veli~inom teksta.
Zato mo`emo zaklju~iti da je postotak funkcionalnih ri-je~i u tekstu konstantan. On za tekstove na hrvatskom jeziku iz-nosi 21%, a za one na engleskom 26%. Mo`da bi mogle posto-jati varijacije izme|u `anrova, no to je ve} predmet novih analiza.
Broj stvarnih funkcionalnih rije~i (Fs) dobili smo empirij-ski. Teorijski izra~un postotka funkcionalnih rije~i (Ft), kada jeK = 21, pokazuje minimalna odstupanja.
(2) Ft = n(K/100)
Grafi~ki prikaz razlika izme|u Fs i Ft potvr|uje tezu dapokazatelj postotka funkcionalnih rije~i u tekstu mo`emouzeti kao konstantu za pojedini jezik. Funkcionalne su rije~iprazne rije~i, slu`e za gramati~ku gradnju re~enica, a ne zaoblikovanje obavijesti. Udio broja funkcionalnih pojavnica utekstu ne mijenja se s veli~inom teksta nego ostaje isti. "Pro-blem" jest kod kratkih tekstova do 1000 rije~i, gdje je postotakfunkcionalnih pojavnica ne{to manji (17-20%) i gdje je najve-}i odmak izme|u stvarnoga (Fs) i procijenjenoga broja (Ft)svih funkcionalnih rije~i (Tablica 2). To je isti problem s kojimsu suo~eni teoretici bibliometrijskih zakona, jer je na po~etkulogaritamske krivulje koja pokazuje bibliometrijske razdiobenajvi{e odstupanja (V. Oluji}-Vukovi}, 1999.; R. Rousseau, 1990.).
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
236
Ü GRAFIKON 4Veli~ina teksta i brojfunkcionalnih rije~iFs i Ft
Analiza obra|enoga korpusa tekstova na hrvatskom i en-gleskom jeziku vodi k zaklju~ku da je udio funkcionalnih po-javnica u tim korpusima konstantan i da za hrvatske tekstoveK = 21, a za engleske K = 26.
Maksimalne su frekvencije konstantaAko usporedimo odnose izme|u ukupnoga broja funkcional-nih rije~i (Fs) i najfrekventnije rije~i u tekstu (MFs), mo`emozaklju~iti da je rije~ o razdiobama koje su pravilne (Tablica 2).To nam pokazuje i Grafikon 5.
[tovi{e, statisti~ka analiza odnosa vodi nas k hipotezi daje odnos veli~ine teksta prema broju funkcionalnih pojavnicajednak omjeru broja funkcionalnih pojavnica prema maksi-malnoj frekvenciji (MF). Zato taj odnos mo`emo prikazati iovako:
(3) MF = Ft(K/100)
odnosno:
(4) MF = n(K/100)2
Na Grafikonu 6 prikazani su odnosi izme|u stvarnih (MFs)i izra~unanih vrijednosti (MFt), prema formuli (4) za najfre-kventnije rije~i u analiziranim tekstovima. Odstupanja izme-|u stvarnih i izra~unanih vrijednosti mnogo su manja nego uslu~ajevima nekih drugih bibliometrijskih pojava i procesa; ugotovo 40% slu~ajeva odstupanja su ~ak manja od ± 10% (Ta-blica 2). Korelacija izme|u stvarnih i izra~unanih vrijednostinajfrekventnijih rije~i jest 0,976.
Na Grafikonu 7 prikazane su maksimalne frekvencije zatekstove na engleskom jeziku, stvarne i izra~unane:
I na temelju ovoga grafikona mo`e se zaklju~iti da su ra-zlike izme|u stvarnih i izra~unanih maksimalnih frekvencijau statisti~ki dopu{tenim granicama.237
Ü GRAFIKON 5Odnos brojafunkcionalnih rije~ii maksimalnafrekvencija
Konstante u Heapsovu zakonu (komentar)Do sada smo uo~ili dvije konstante u analizi teksta:
– Prvo, udio funkcionalnih pojavnica u tekstu, neovisnoo duljini teksta, jest konstantan.
Komentar: funkcionalne rije~i ne grade poruku teksta, ne-go strukturiraju tekst; K se mo`e mijenjati prema jezicima i`anrovima, ali je konstantan za pojedini jezik i pojedini `anr.
– Drugo, maksimalna frekvencija (MF) u tekstu jest kon-stanta, jer je odre|uju gradbeni elementi teksta, a ne poruke.
MFt izra~unana je po formuli:
MFt = F(K/100)ili
MFt = n(K/100)2
Komentar: maksimalna frekvencija (MF) uvijek je kon-stanta i iznosi 4,41% od ukupnoga broja pojavnica; odnosnoMFt je 4,41% od veli~ine teksta na hrvatskom jeziku, ili 6,76%od veli~ine teksta na engleskom jeziku (prema K2/100).
– Tre}e, mo`emo zaklju~iti da postoji i pravilnost u grad-nji teksta, odnosno odnosima koji postoje izme|u veli~ine tek-
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Ü GRAFIKON 6Odnos stvarnihi izra~unanihnajfrekventnijih rije~i(MFs i MFt)
Ü GRAFIKON 7Maksimalnefrekvencije rije~iu tekstovima –MFs i MFt
238
sta (n), broja svih funkcionalnih pojavnica (F) i najfrekventnijerije~i (MF). Ako je na{a analiza to~na, onda su ti odnosi ovakvi:
n : F = F : MF
Odnosno: broj pojavnica ili du`ina teksta (n) prema bro-ju funkcionalnih pojavnica (F) u istom je omjeru kao broj funk-cionalnih pojavnica prema maksimalnoj frekvenciji (MF).
Ako je tako, onda vrijede i sljede}i izvodi:
n = F2/MFMF = F2/nF = (nMF)1/2
– ^etvrto, nema razloga da se za parametar K u Heap-sovu zakonu ne uzme pokazatelj o broju svih funkcionalnihrije~i u tekstu. To je empirijska veli~ina koja se izra~unava zabroj pojavljivanja svih funkcionalnih rije~i u tekstovima narazli~itim jezicima. Vrijednost ovoga parametra u granicamaje onoga {to je odre|eno Heapsovim zakonom (1), ali je pred-nost u tome {to se mogu izra~unati i drugi pokazatelji rele-vantni za veli~inu teksta.
REZULTATI (2): VARIJABLE U HEAPSOVU ZAKONU
Vrijednost parametra ß je konstantna?Podsjetimo da je Heapsov zakon formuliran na sljede}i na~in:
(1) VR(n) = Knβ,
a da su K i ß parametri koji se prema Heapsu odre|ujuempirijski. Za korpus tekstova na engleskom jeziku vrijed-nost za ß iznosi (Heaps'Law.PlanetMath.Org.):
0,4 ≤ ß ≤ 0,6
Mogu li se ove vrijednosti teorijski utemeljiti ili samo iz-vu}i iz empirije? Vrijednost parametra ß za izra~unavanje vo-kabulara tekstova na hrvatskom jeziku iznosi 0,67, ako je K = 21(vidi Tablica 2; "Dokumentacija"), a prema drugim istra`iva-njima mo`e iznositi i 0,74 (vidi M. Tu|man i dr., 2003.). No naszanima mo`e li se odrediti po nekoj drugoj osnovi vrijednostparametra ß, kako bi bio op}evrijedan i kako se ne bi moraoempirijski odre|ivati u svakom istra`ivanju posebno.
Podsjetili smo na to da analiti~ari vokabulara tekstova naengleskom jeziku tvrde kako eksponent ß ima vrijednost izme-|u 2/5 i 3/5. Na{e istra`ivanje (Tablica 2) pokazuje da je vrijed-nost ß za hrvatske tekstove 0,67 ili 2/3. Nije te{ko zaklju~iti dasu ove vrijednosti zapravo logaritamske vrijednosti od K/100.
Naime:Logaritam broja 0,21 = – 0,67778Logaritam broja 0,22 = – 0,65757Logaritam broja 0,23 = – 0,63827239
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Logaritam broja 0,24 = – 0,61978Logaritam broja 0,25 = – 0,60205Logaritam broja 0,26 = – 0,58502Znamo da je logaritam broj kojim treba potencirati bazu
a da se dobije broj x, tj. iz ay = x, slijedi y = log ax (y je logaritamod x po bazi a).
Ali {to je priroda logaritma i kakav je odnos izme|u loga-ritamskih i aritmeti~kih progresija? Ve} op}i rje~nici tuma~e lo-garitam (logos – govor, odnos, ra~un, ra~unanje + arithmos – broj)kao matemati~ki broj uzet u jednoj aritmeti~koj progresiji, kojiodgovara broju uzetom u geometrijskoj progresiji, pri ~emu suobje progresije prilago|ene odre|enim uvjetima (B. Klai}, 1978.).
Teorijsko je pitanje mo`emo li istu paralelu povu}i i u na-{em slu~aju i zagovarati tezu da je eksponent ß u formuli (1)vrijednost logaritma od K/100? Za{to bismo mogli zastupatiovakvu hipotezu? Zato {to je vrijednost K u formulama (2) i(3) empirijska veli~ina, parametar kojim utvr|ujemo omjerveli~ine teksta i broja funkcionalnih pojavnica (2), odnosno ve-li~ine teksta i najfrekventnije pojavnice (3). Ali ako tim istimparametrom K `elimo izra~unati veli~inu vokabulara teksta,onda to zna~i da odnos funkcionalnih rije~i i veli~inu voka-bulara teksta stavljamo u novu progresiju, koju odre|uje eks-ponent ß. Zato se i vrijednost K mijenja u malo k, tj. k = Kß.
To ima za posljedicu da formulu (1) VR(n) = Knß mo-ramo prikazati na sljede}i na~in:
(5) VR(n) = Kßnß,
ili VR(n) = (kn)ß.
Parametri K i k imaju istu po~etnu vrijednost koja se mi-jenja kada se rabi za izra~unavanje odnosa u razli~itim pro-gresijama.
Empirijskih potvrda za ovakvu vrstu tuma~enja mo`emona}i ve} u ~injenici da pojedini elementi teksta rastu u razli-~itim omjerima: veli~ina teksta raste eksponencijalno u odno-su na vokabular teksta, koji raste linearno; ali vokabular tek-sta raste linearno u odnosu na broj funkcionalnih pojavnica,koji raste eksponencijalno; ili broj jednokratnih rije~i raste line-arno u odnosu na broj najfrekventnijih rije~i koji raste ekspo-nencijalno itd. (vidi Tablica 2, "Dokumentacija"). O~ito je dapojedini elementi teksta rastu razli~itim progresijama i da i-maju razli~ite prote`nosti u tekstu i korpusu tekstova. Nekiautori s pravom upozoravaju na to da "priroda ovih zakona(Zipfova i Heapsova, op. M.T.) nije poznata" (Gelbukh, Sido-rov, 2001.). To nas upu}uje na spoznajno-teorijski problemmultidimenzionalnosti teksta i potrebu epistemolo{koga tu-ma~enja pojedinih dimenzija teksta. Samo bismo na taj na~inmogli teorijski obrazlo`iti tezu za{to vrijednost parametra ßmo`e biti ß = log K/100.
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
240
Kako se u ovom radu bavimo empirijskom provjeromzakona o veli~ini vokabulara teksta, tako }emo samo upozori-ti na mogu}nost koju treba potvrditi novim istra`ivanjima, alii epistemolo{kim tuma~enjima, da vrijednost parametra ß
mo`e biti logaritam od K/100. [to bi zna~ilo i da vrijednostparametra ß mo`e biti konstantna za tekstove na istom jeziku.
Izra~un veli~ine vokabulara tekstova na hrvatskom jezikuUtvrdili smo da je broj funkcionalnih pojavnica u tekstu kon-stantan. Postotak funkcionalnih rije~i uzeli smo kao vrijednostparametra K. Empirijska istra`ivanja pokazuju da parametarß mo`e biti logaritamska vrijednost od K/100. Zato za formulu(1) za izra~unavanje veli~ine vokabulara tekstova na hrvatskomjeziku vrijede parametri K = 21, i ß = log K/100, pod uvjetomda izvornu formulaciju Heapsova zakona (1) redefiniramo:
(5) VR(n) = (Kn)ß
Za ovakvu formulaciju zakona o veli~ini vokabulara tek-sta nalazimo potvrdu u empirijskim istra`ivanjima. Teorijskotuma~enje trebalo bi slijediti iz razumijevanja multidimen-zionalnosti teksta. Operativno smo u formulu (5) uvrstili pa-rametre do kojih smo do{li empirijski:
(6) VR(n) = (21n)2/3,
odnosno:
(6b) VR(n) = (21n)0,67.
Koriste}i se ovom formulom, dobili smo sljede}e rezul-tate (Vrt) koji su prikazani na Grafikonima 8 i 9 te u Tablici 2.
Na oba prethodna grafikona, kao i u Tablici 2, prikazanesu stvarne i izra~unane vrijednosti vokabulara tekstova nahrvatskom jeziku. Iz grafikona i Tablice 2 mo`emo zaklju~itida je formula (6, 6b) pouzdano sredstvo za procjenu vokabu-lara tekstova, jer je korelacija izme|u dviju varijabli (stvarne iizra~unane veli~ine vokabulara) 0,984.
241
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Ü GRAFIKON 8Prikaz stvarnihi izra~unanih vrijednostivokabulara
Pogre{ka prognoze veli~ine vokabulara najve}a je na po-~etku krivulje, tj. kod tekstova do 1000 rije~i. Kod tekstova do1000 rije~i udio vokabulara u veli~ini teksta iznosi otprilike 60%,a procjene se kre}u od 90% do 78%. Kod tekstova od 100.000 do250.000 rije~i stvarni udio vokabulara u odnosu na veli~inu tek-sta pada od 21% prema 14% (odnosno, izra~unana vrijednostvokabulara u odnosu na veli~inu teksta pada od 17% prema 13%).
Zato moramo postaviti metodolo{ko pitanje: koja je naj-manja veli~ina teksta koji mo`emo smatrati tekstom, odnosnopredmetom kvantitativnih analiza? Ili, tekst koje veli~ine imazna~ajke {to se mogu kvantitativno analizirati? Prije ili kasni-je morat }emo na}i odgovor na ovo pitanje, jer o njemu ovisii odgovor na pitanje o prihvatljivosti ove ili one formule za iz-ra~unavanje veli~ine vokabulara teksta ili korpusa tekstova.
Broj jednokratnih rije~i u vokabularu teksta jest konstantanNa Grafikonu 10 prikazan je eksponencijalni rast i veli~ine vo-kabulara teksta, ali i jednokratnih rije~i (hapax legomena) u tek-stu. O~ito je da ove dvije varijable veli~ine teksta rastu ekspo-nencijalno i da su stalno u istom omjeru. Veli~inu vokabularateksta izra~unavamo po formuli (5). Omjer veli~ine vokabula-ra i jednokratnih rije~i mo`emo izra~unati ako taj omjer uklju-~imo u formulu (5), jer je o~ito da je posrijedi opis empirijskihodnosa.
Zato se broj jednokratnih rije~i (HL) u tekstu mo`e izra-~unati po sljede}oj formuli:
(7) HL = ((Kn)/2)ß
(8) HL = ((21n)/2)2/3,
odnosno:
(9) HL = ((21n)/2)0,67.
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
242
Ü GRAFIKON 9Udio vokabularau veli~ini teksta (u %)
Grafi~ki prikaz odnosa veli~ine vokabulara, stvarnih (HLs)i izra~unanih (HLt) jednokratnih rije~i (formula (9)), dan je uGrafikonu 11 i u Tablici 2.
Korelacija izme|u stvarne i izra~unane vrijednosti jedno-kratnih rije~i vrlo je visoka: 0,956. Statisti~ke razlike izme|ustvarnih i izra~unanih vrijednosti i u ovom su slu~aju pri-hvatljive. Osim toga, omjeri koji postoje izme|u broja jedno-kratnica i teksta te broja jednokratnica i vokabulara tekstapokazuju pravilnosti koje se mogu o~itati i u Grafikonu 12.
Ve} smo upozorili da postoje samo zna~ajnija odstupa-nja u izra~unu vokabulara, ali i jednokratnih rije~i (HL), kodkratkih tekstova (do 1000 rije~i). Ta se odstupanja mo`da mo-gu tuma~iti i kao nepreciznosti, jer je parametar K izra~unankao prosjek na temelju velikog uzorka. Realni K pak varira,jer kod malih tekstova (do 1000 rije~i) iznosi ~ak 17%. Ako seizra~unava Vr (vokabular) i HL s realnim K, onda su odstu-panja u granicama dopu{tenog.243
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Ü GRAFIKON 10Prikazeksponencijalnogarasta vokabulara ihapax legomena
Ü GRAFIKON 11Prikaz veli~inevokabulara i veli~inehapax legomena
Broj vi{ekratnih rije~i u tekstu lako se mo`e izra~unati ka-da se zna veli~ina vokabulara i broj jednokratnih rije~i. Kakovi{ekratnice nisu predmet na{e analize, nego zakon o veli~inivokabulara teksta, u Grafikonu 13 prikazujemo samo omjereizme|u jednokratnih i vi{ekratnih rije~i u analiziranom kor-pusu tekstova.
ODRE\IVANJE VELI^INE VOKABULARA TEKSTOVANA HRVATSKOM JEZIKU
Izra~unavanje veli~ine vokabulara teksta bit }e to preciznije{to se parametri koji odre|uju veli~inu teksta mogu precizni-je odrediti. U ovom smo pristupu po{li od empirijskoga po-datka da je broj svih funkcionalnih pojavnica onaj parametarkoji se dosta precizno mo`e odrediti za svaki korpus tekstovana nekom jeziku. Analiziraju}i podatke o korpusu tekstovakoje smo istra`ivali, ustanovili smo da je K za korpus teksto-
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
244
Ü GRAFIKON 12Postotak jednokratnihrije~i u tekstu ivokabularu teksta
Ü GRAFIKON 13Broj jednokratnih ivi{ekratnih rije~i uvokabularu teksta
va na hrvatskom 21, a za korpus tekstova na engleskom je-ziku K = 26. [tovi{e, ustanovili smo i omjere koji postoje iz-me|u broja funkcionalnih pojavnica i najfrekventnije rije~i.Time smo dobili empirijsko polazi{te za istra`ivanje odnosaizme|u dva parametra u Heapsovu zakonu. Utvrdili smo dadrugi parametar (ß) mo`e biti logaritam od K/100. Slijedomtoga na{e je istra`ivanje potvrdilo sljede}e odnose u korpusi-ma tekstova koje smo istra`ivali, a koji se mogu opisati for-mulama:
– za broj funkcionalnih pojavnica (F) u tekstu ili korpusutekstova
(2) F = n(K/100)
– za maksimalnu frekvenciju (MF) rije~i u tekstu
(4) MF = n(K/100)2
– za veli~inu vokabulara (Vr) teksta
(5) VR(n) = (Kn)ß
– za broj jednokratnih rije~i (HL) u (vokabularu) tekstu
(7) HL = ((Kn)/2)ß.
Vrijednost je parametara K i ß za korpus tekstova (n) nahrvatskom jeziku 21, odnosno 0,67.
Prema ovim formulama izra~unane vrijednosti veli~ine vo-kabulara teksta, broja funkcionalnih i najfrekventnijih pojav-nica te jednokratnih rije~i u tekstu prikazane su u Tablici 3. Zausporedbu, izra~unana je veli~ina vokabulara (Vr) i premaizvornoj Heapsovoj formuli (1).
HeapsovaVeli~ina Vokabular Funkcionalne Jednokratnice formulateksta n Vr=(nk)0,67 F=nk/100 MF=N(K/100)2 HL=((nk)/2)0,67 Vr=21n0,67
5000 2313 1050 221 1454 631710000 3680 2100 441 2313 1005120000 5856 4200 882 3680 1599230000 7683 6300 1323 4829 2098440000 9317 8400 1764 5856 2544550000 10819 10500 2205 6800 2954860000 12225 12600 2646 7683 3338770000 13555 14700 3087 8519 3702080000 14824 16800 3528 9317 4048590000 16041 18900 3969 10082 43809
100000 17214 21000 4410 10819 47013120000 19451 25200 5292 12225 53122140000 21567 29400 6174 13555 58901160000 23586 33600 7056 14824 64414180000 25522 37800 7938 16041 69703200000 27389 42000 8820 17214 74801220000 29195 46200 9702 18349 79734240000 30948 50400 10584 19451 84520260000 32653 54600 11466 20522 89177
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Þ TABLICA 3Prikaz teorijskih veli~inavokabulara teksta,broja funkcionalnih inajfrekventnijihpojavnica te jedno-kratnih rije~i u tekstu
Usporedba podataka sa stvarnim vrijednostima iz Tablice2, s izra~unanim podacima iz Tablice 3, upu}uje na zaklju~ako prihvatljivosti predlo`enih formula. No isto tako mo`emorazabrati da je izvorna Heapsova formula neuporabljiva, ako`elimo kao vrijednost parametra K rabiti postotak funkcional-nih rije~i u tekstu.
Iako se to mo`e razabrati iz podataka u Tablici 3, na slje-de}em je grafikonu (14) jo{ o~itije da tekstovi i korpusi tekso-va rastu eksponencijalno, a da veli~ine vokabulara tekstovarastu po drugoj progresiji.
Grafi~ki prikaz veli~ina vokabulara tekstova i svih funk-cionalnih rije~i prikazan je u Grafikonu 15. I ovdje ukupan brojfunkcionalnih pojavnica raste eksponencijalno, a veli~ina vo-kabulara linearno. No mnogo je va`nije podsjetiti na to da jepostotak funkcionalnih pojavnica u tekstovima stalan, pa za-to tu vrijednost mo`emo rabiti kao parametar u formuli zaizra~unavanje veli~ine vokabulara teksta.
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
246
Ü GRAFIKON 14Teorijske veli~ineteksta i vokabulara
Ü GRAFIKON 15Teorijske veli~inevokabulara tekstai funkcionalnih rije~iu tekstu
Predlo`ene formule za izra~unavanje veli~ine vokabula-ra tekstova, broja svih funkcionalnih pojavnica u tekstovima,broja jednokratnih rije~i i najfrekventnije rije~i imaju empirij-sku potvrdu u na{im istra`ivanjima. Na{a formula temelji sepak na Heapsovu zakonu i izvedena je iz njega. Kako je ipakHeapsova formulacija zakona o veli~ini vokabulara teksta po-ne{to promijenjena, potrebno je da idu}a istra`ivanja potvrdeuporabljivost, predlo`enih formuli te vrijednost parametaraza tekstove na hrvatskom jeziku.
MOGU]E PRIMJENE ZAKONA O VELI^INI VOKABULARA TEKSTAHeapsov se zakon nije ustalio kao istra`iva~ka metoda, a za-{to nije naveli smo u uvodnom dijelu. Zato je jo{ uvijek samzakon predmet istra`ivanja (G. R. Turner, 2001.; A. C. Fang, 1997.)i poku{aja da se definiraju parametri presudni za njegovo razu-mijevanje (C. M. Urzua, 2000.; A. Gelbukh, G. Sidorov, 2001.).
Heapsov zakon smatra se izvedenicom iz Zipfova zako-na i zato je povezan s istra`ivanjem jezika. Me|utim, sve vi{enalazi primjenu u istra`ivanju kvantitativnih odrednica tek-stova, korpusa tekstova te umre`enih tekstova na internetu.
Na to upu}uju poku{aji primjene toga zakona na raznimpodru~jima. Nazna~imo samo neka istra`ivanja koja se pro-vode u nabrojenim podru~jima, iako se ~ini da istra`iva~i me-|usobno nisu upu}eni jedni na druge. Ova istra`ivanja navo-dimo kao primjere mogu}e primjene Heapsova zakona, a nekao temeljna istra`ivanja za ta podru~ja.
U lingvistici Heapsov zakon ima svoju primjenu u istra-`ivanju veli~ine vokabulara teksta (G. R. Turner, 2001.; P. Ba-tke), leksi~ke gusto}e i segmenata diskursa (J. Ure, 1971.; L. Y.L. Cheung i dr., 2001.; P. Batke) te topologije teksta (M. M. A.Juillard, N. X. Luong, 1996.). Svoju primjenu ~ini se da }e na}ii u istra`ivanju podataka na web stranicama (J. C. French, 2002.)te istra`ivanju veli~ine servera i broja HTML dokumenata (S.Sanguanpong, S. Warangrit, 2000.).
Nije te{ko pretpostaviti i druga podru~ja primjene ovogazakona: u kriptologiji i za{titi podataka. Ali i u rekonstrukcijidokumenata i korpusa dokumenata na raznim podru~jima:od arheologije i povijesti do kvantitativnih metoda za analizustila i vokabulara djela u knji`evnosti i lingvistici. Analiza vo-kabulara pojedinih struka ili socijalnih grupa mo`e biti zani-mljiva sociologiji, leksikologiji i kulturnoj politici. No isto ta-ko ra{~lamba i prepoznavanje osnovnoga vokabulara jezikasocijalnih grupa mo`e biti od koristi za sve one discipline kojekomuniciraju tekstom sa svim tim grupama – bilo u medijimaili u formalnim i neformalnim komunikacijama. Poznavanjerazvoja i rasta vokabulara teksta te segmenata od kojih se tekstili korpus tekstova sastoji mo`e biti od prakti~ne koristi i zarazvoj novih metoda i tehnika u~enja (stranih) jezika.247
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Ovaj zakon zacijelo }e imati mnogo primjena, ali pret-hodno valja razumjeti njegovu prirodu i precizno odreditiparametre bez kojih se ne mo`e izra~unati veli~ina vokabu-lara teksta ili korpusa tekstova.
LITERATURABatke, P. The Philology and Philosophy Project. Methodology.http://www.princeton. edu/~batke/phph/meth/meth_wm1.htm
Carter, R. (1998.), Vocabulary. Applied Linguistic Perspectives. London:Routledge.
Cheung, L. Y. L., Lai, T. B. Y., Tsou, B. K., Chik, F. C. Y., Luk, R. W. P.,Kwong, O. Y. (2001.), A preliminary Study of Lexical Density for the De-velopment of XML-based Discourse Structure Tagger. 1st NLP and XMLWorkshop Tokyo, Nov. 2001.
Fang, A. C. (1997.), STRATA 4.0. Department of Phinetics and Lin-guistics, University College London. www.phon.ucl.ac.uk/home/alex/project/strata/strata.htm. (Last updated: 9 September 1997.)
French, J. C. (2002.), Modeling Web Data. Department of ComputerScience University of Virginia Charlotttesville, VA. Proceedings ofthe second ACM/IEEE-CS joint conference on Digital libraries, July14-18, 2002, Portland, Oregon, USA.
Gelbukh, A., Sidorov, G. (2001.), Zipf and Heaps' Laws Coefficients De-pends on Language. http://www.cic.ipn.mx/~gelbukh/CV/Publications/2001/CICLing-2001-Zipf.htm [03/19/2003]
Heaps H. S. (1978.), Information Retrieval: Computational andTheoretical Aspects. New York: Academic Press.
Heaps' Law. PlanetMath.Org.http://www.PlanetMathOrg\PlanetMathHeaps'law.htm
Juillard, M. M. A., Luong, N. X. (1996.), New maps of text: a new wayto account for the distribution of lexems in texts. In ALLC-ACH'96:157-158.
Klai}, B. (1978.), Rje~nik stranih rije~i. Zagreb: Matica Hrvatska.
Olui}-Vukovi}, V. (1999.), Vremenska komponenta u informetrijskim raz-diobama. Zagreb: Sveu~ili{te u Zagrebu, Filozofski fakultet, doktor-ska disertacija.
Rousseau, R. (1990.), Relations between continuous versions of bi-bliometric laws. Journal of the American Society for Information Science, 41(3): 197-203.
Sanguanpong, S., Warangrit, S. (2000.), Facts about the Thai Web. De-partment of Computer Engineering, Kasetsart University Bangkok,Thailand. Proceedings of National Computer Science and Engineer-ing Conference (NCSEC-2000, Bangkok), pp. 102-103.
Tu|man, M. (ur.) (2003.), Modeli znanja i obrada prirodnog jezika. Za-greb: Zavod za informacijske studije.
Tu|man, M., Nives, M., Boras, D. (2003.), Vocabulary size prediction ofCroatian texts. Proceedings of the 25th Int. Conf. Information Tech-nology Interfaces ITI 2003, June 16-19, Cavtat, Croatia.248
Tu|man, M., Boras, D., Mikeli}, N. (2004.), Heapsov zakon i odre|ivanjeveli~ine vokabulara tekstova na hrvatskom jeziku. Dokumentacija. Filo-zofski fakultet, Odsjek za informacijske znanosti, Zagreb.
Turner, G. R. (2001.), Relationship Between Vocabulary, Text Length andZipf's Law; http://www.btinternet.com/~g.r.turner/ZipfDoc.htm [02/20/2003]
Ure, J. (1971.), Lexical density and variety differentiation. U: G. Per-ren, J. Trim (ur.), Applications of Linguistics. Papers From the 2nd AILACongress. Cambridge: Cambridge University Press; str. 443-52.
Urzua, C. M. (2000.), A simple and efficient test for Zipf's law. Eco-nomics Letters, 66: 257-260.
The Text Vocabulary Size Law.Heaps' Law and Determining TextVocabulary Size in Croatian LanguageMiroslav TU\MANFaculty of Philosophy, Zagreb
The existing formula / Vr(n)=Knß / of Heaps' Law regarding thesize of a text's vocabulary is not universal, thus the law needs tobe redefined, in order to be used for analysis of a differentlanguage corpus. The analysis of a corpus of texts in the Cro-atian language confirms the hypothesis that the number offunctional items (F) in a text is constant and amounts to 21% ofthe size of the text n (there are 26% of functional items in Englishtexts). The author proves that the percentage of functional itemsin a text can be used as the value for the parameter K, and thatthe parameter K presents a constant value for every languagecorpus. Empirical research has confirmed the author's thesis thatthe number of functional items in a text can be calculated accor-ding to the formula F=nK/100, and that for the value of themost frequent item (MF) the formula MF=n(K/100)2 can be ap-plied. The value of the other parameter of Heaps' Law can alsobe accurately determined: ß=log K/100. The author thereforesuggests a new form of the text vocabulary size law: Vr(n)=(Kn)ß.The number of words appearing only once (HL) in the text can becalculated according to the formula: HL= ((Kn)/2)ß . Researchconfirms that there is a very high correlation between the calcu-lated and real values of the vocabulary size, i.e. between the realand calculated values of single words in the text. Interpreted anddefined in such a way, the law of the text vocabulary size enablesthe calculation of the text's vocabulary size in every language, ifthe percentage of constant functional words for this language isknown. However, this interpretation of the law enables, apartfrom determining the size of the text's vocabulary, also thecalculation of the number of functional items in the text, the sizeof the most frequent word in the text, and the number of singleitems comprising the text's vocabulary.249
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
Gesetz zur Bestimmungdes Wortschatzumfangs von Texten.Das Heaps'sche Gesetz und dieBestimmung der Wortschatzgrößein kroatischen TextenMiroslav TUÐMANPhilosophische Fakultät, Zagreb
Die bestehende Formel / Vr(n)=Knß / des Heaps'schenGesetzes zur Bestimmung des Wortschatzumfangs von Textenhat keine universale Gültigkeit, sodass das Gesetz, soll es zurTextkorpusanalyse in verschiedenen Sprachen angewandtwerden, redefiniert werden muss. Die Analyse vonTextkorpora in kroatischer Sprache bestätigt die Hypothese,dass die Zahl funktionaler Wörter (F) in einem Text konstantist und 21% der Größe eines Textes n ausmacht (inenglischen Texten beträgt die Zahl funktionaler Wörter 26%).Der Verfasser weist nach, dass der in einem Text vertreteneProzentsatz funktionaler Wörter als Wertangabe für denParameter K benutzt werden kann und dass der Parameter Keinen gleichbleibenden Wert für jedes sprachliche Korpusdarstellt. Empirische Forschungen bestätigen die These desVerfassers, dass die Zahl funktionaler Wörter in einem Textmit der Formel F = nK/100 errechnet werden kann, dasswiederum für die Größe der häufigsten Wörter (MF) dieFormel MF = n(K/100)2 gilt. Der zweite Parameter desHeaps'schen Gesetzes kann ebenfalls genau bestimmtwerden: ß = log K/100. Der Verfasser schlägt daher vor, dasHeaps'sche Gesetz in neuer Form zu bestimmen:Vr(n) = (Kn)ß. Die Zahl der nur einmal im Textvorkommenden Wörter (HL) kann anhand der folgendenFormel errechnet werden: HL = ((Kn)/2)ß. Forschungen habenbestätigt, dass die errechneten und die wirklichen Werte desVokabularumfanges, bzw. dass die wirklichen und dieerrechneten Werte von einmalig vorkommenden Wörtern ineinem Text in hohem Maße miteinander korrelieren. Einsolchermaßen interpretiertes und definiertes Gesetz zurBestimmung des Wortschatzumfangs ermöglicht uns, denWortschatzumfang eines Textes in jeglicher Spracheauszurechnen, hat man erst einmal den Prozentsatzfunktionaler Wörter, der für die betreffende Sprachegleichbleibend ist, erstellt. Des Weiteren ermöglicht dieseInterpretation des Heaps'schen Gesetzes, die Zahl derfunktionalen Wörter, den Umfang der am häufigstenvertretenen Wörter sowie die Zahl der einmaligvorkommenden Wörter in einem Text zu bestimmen.
DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250
TU\MAN, M.:ZAKON O VELI^INI...
250