ZAKON O VELI^INI Heapsov zakon i odre|ivanje veli~ine

ZAKON O VELIÎNIVOKABULARA TEKSTAHeapsov zakon i odre|ivanjeveli~ine vokabulara tekstovana hrvatskom jezikuMiroslav TU\MANFilozofski fakultet, Zagreb

UDK: 811.163.42'32004.9:81

Izvorni znanstveni rad

Primljeno: 29. 3. 2004.

Postoje}a formula Heapsova zakona o veli~ini vokabularateksta nije univerzalna te zakon treba redefinirati, kako bi semogao rabiti za analizu korpusa na raznim jezicima. Analizakorpusa tekstova na hrvatskom jeziku potvr|uje hipotezu da jebroj funkcionalnih pojavnica u tekstu konstantan te iznosi 21%veli~ine teksta. Autor dokazuje da se postotak funkcionalnihpojavnica u tekstu moè uzimati kao vrijednost za parametar Kte da je parametar K konstantna vrijednost za svaki jezi~nikorpus. Empirijska istraìvanja potvr|uju autorovu tezu da sebroj funkcionalnih pojavnica u tekstu moè izra~unati poformuli F = nK/100, a da za veli~inu najfrekventnije pojavnice(MF) vrijedi formula MF = n (K/100)2. Vrijednost drugogaparametra Heapsova zakona tako|er se moè preciznoodrediti i zato autor predlaè novi oblik zakona o veli~inivokabulara teksta. Istraìvanja potvr|uju da je vrlo visokakorelacija izme|u izra~unanih i stvarnih vrijednosti veli~inevokabulara, odnosno izme|u stvarnih i izra~unanih vrijednostijednokratnih rije~i u tekstu. Ovako interpretiran i definiranzakon o veli~ini vokabulara teksta omogu}uje izra~un veli~inevokabulara teksta na svakom jeziku, kada se zna postotakfunkcionalnih rije~i koji je konstantan za taj jezik. No ovainterpretacija zakona omogu}uje, osim izra~una veli~inevokabulara teksta, i odre|ivanje broja funkcionalnih pojavnicau tekstu, veli~ine najfrekventnije rije~i u tekstu te brojajednokratnih pojavnica koje tvore vokabular teksta.

Miroslav Tu|man, Filozofski fakultet Sveu~ili{ta u Zagrebu, Odsjekza informacijske znanosti, I. Lu~i}a 3, 10000 Zagreb, Hrvatska.E-mail: [email protected]

*

UVODLotkin zakon o produktivnosti autora, Bradfordov zakon o pra-vilnosti razdiobe ~lanaka po ~asopisima te Zipfov zakon o raz-diobi rije~i u tekstu – tri su temeljna zakona na kojima po~i-vaju empirijska istraìvanja u informacijskoj znanosti. Ovi za-koni doìvjeli su svoje modifikacije i razne interpretacije (V.Olui}-Vukovi}, 1999.), a postoje i poku{aji da se sva tri zakonaizvedu iz jedne jednad`be ili svedu na jednu zajedni~ku logiku.

Mnogo je manje poznat u teoriji, a manje se primjenjujei u praksi, Heapsov zakon.

Heapsov zakon (Heaps, 1978.) omogu}uje izra~unavanjefonda rije~i, tj. veli~ine vokabulara, koji se rabi u nekom dokumen-tu ili nizu dokumenata. Zakon je formuliran na sljede}i na~in:

(1) VR(n) = Knβ

VR je oznaka za dio vokabulara (VR ⊆ V) koji se rabi u tek-stu veli~ine n. K i ß su parametri koji se odre|uju empirijski.Za korpus tekstova na engleskom jeziku vrijednost K je izme-|u 10 i 100, a za ß iznosi:

0,4 ≤ ß ≤ 0,6

Tipi~ne razdiobe vokabulara prema Heapsovu zakonuprikazane su na sljede}em grafikonu.

* Na osi x prikazane su veli~ine teksta, a na osi y veli~ina vokabulara,tj. fonda rije~i koji se rabi u tekstu odre|ene veli~ine.Izvor: http://www.PlanetMathOrg.PlanetMathHeaps'Law.htm

Heapsov zakon u teoriji informacijske znanosti nije ne-poznat (Gelbukh, Sidorov, 2001.; Turner, 2001.), ali se o njemumanje raspravlja i manje se rabi nego ostali bibliometrijski za-koni: Bradfordov, Lotkin i Zipfov zakon. Tome su vjerojatnotri razloga.228

0 200 000 400 000 600 000 800 000 1e+06

10 000

8000

6000

4000

2000

0

Ü Grafikon 1Razdiobe vokabularaprema Heapsovuzakonu*

Prvo, Heapsova formula za izra~unavanje veli~ine voka-bulara (tj. fonda rije~i) nekoga teksta po svojoj formi odgo-vara metodi najmanjih kvadrata i iste rezultate moèmo do-biti koriste}i se standardnim statisti~kim programima (poputSPSS).

Drugo, Heapsova formula nije univerzalna jer ne vrijediza sve jezike (Gelbukh, Sidorov, 2001.). Odnos fonda rije~i, tj.upotrijebljenoga vokabulara, i veli~ine teksta razli~it je od je-zika do jezika. Kao dokaz za ovu tezu dostatan je i primjer knji-ge Antoinea de Saint-Exuperyja "Mali princ" na osam jezika:

FunkcionalneTekst Veli~ina teksta Vokabular Vr rije~i Fs

Mali princ – engleski prijevod 16884 2203 4953Mali princ – njema~ki prijevod 14354 2664 3951Mali princ – {panjolski prijevod 13612 2865 4462Mali princ – ~e{ki prijevod 13500 3141 2370Mali princ – talijanski prijevod 13213 2558 4934Mali princ – hrvatski prijevod 13029 3250 2595Mali princ – poljski prijevod 12810 3364 1850Mali princ – srpski prijevod 12411 3332 2335

Iz ovoga se primjera vidi da je jedna te ista poruka ("Maliprinc") na razli~itim jezicima iskazana razli~itom duìnom tek-sta. (Engleska verzija ima 36% vi{e rije~i od srpske verzije.)Odnos izme|u veli~ine vokabulara i veli~ine teksta kre}e seod 1:4 do 1:8. Ukupan broj funkcionalnih rije~i tako|er je ra-zli~it: od 1/3 do 1/7 ukupnoga broja rije~i u tekstu.

Tre}e, ~injenica je da bi se prema Heapsovu zakonu vri-jednosti parametara i K i ß trebale odre|ivati empirijski. Do-sada{nja pak istraìvanja potvrdila su njihove vrijednosti uprvom redu za engleski jezik. Da bi se Heapsov zakon mogaoprimjenjivati u istraìvanju vokabulara tekstova na jezicimakoji nisu engleski, trebalo bi izra~unati vrijednosti parametaraK i ß za svaki jezik posebno. Takva istraìvanja o~ito nisu broj-na, a primjena Heapsova zakona u istraìvanju korpusa tek-stova na hrvatskom jeziku na samom je po~etku (M. Tu|man,2003.; M. Tu|man i dr., 2003.).

PROBLEMProblem kojim se bavimo u ovom istraìvanju jest primjenaHeapsova zakona u istraìvanju vokabulara tekstova na hr-vatskom jeziku. Zato je potrebno odrediti vrijednosti para-metara K i ß koje bi vrijedile za obradbu korpusa hrvatskihtekstova. Potrebno je odrediti empirijske vrijednosti parame-tara K i ß ali i istraìti (me|usobnu) uvjetovanost veli~ina tihparametara. Zato su pitanja na koja traìmo odgovore: u ka-kvim su odnosima vrijednosti parametara K i ß s drugim od-rednicama veli~ine vokabulara tekstova na hrvatskom jezi-229

DRU[. ISTRA@. ZAGREBGOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250

TU\MAN, M.:ZAKON O VELIÎNI...

Ý TABLICA 1"Mali princ" na osamjezika; osam tekstovai vokabulara razli~itihveli~ina

ku? @elimo istraìti moè li Heapsov zakon na}i svoju pri-mjenu u izra~unavanju veli~ine vokabulara tekstova na hrvat-skom jeziku, ali i za izra~unavanje broja funkcionalnih rije~i,jednokratnih rije~i te najfrekventnije rije~i u pojedinim tek-stovima ili korpusu tekstova.

O TERMINOLOGIJITerminologija koja se rabi u analizi jezi~nih korpusa nije usta-ljena. Jednako tako termini koji se rabe u primjeni Heapsovazakona nisu standardizirani ili se pak rabe uvjetno, s odre|e-nim ograni~enjima. Zato }emo izloìti kako smo upotrijebilineke osnovne termine vezane za tuma~enje Heapsova zakona.

– Veli~ina teksta (text size) odre|ena je ukupnim brojemrije~i koje se pojavljuju u tekstu. No i broj pojavnica (token) u-vrijeèn je naziv za ukupan broj rije~i teksta, za sve rije~i kojetvore neki tekst. Zato se veli~ina teksta i broj pojavnica tekstarabe kao termini koji ozna~uju isti sadràj.

– Veli~ina vokabulara teksta odre|ena je fondom rije~i kojese rabe u nekom tekstu. Vokabular teksta jest rje~nik teksta,preciznije: vokabular je fond razli~nica (types) jednoga teksta.Veli~ina vokabulara i broj razli~nica teksta rabe se kao termi-ni koji ozna~uju isti sadràj: broj razli~itih rije~i u tekstu.

Razli~nice u istraìvanju korpusa (engleskih i hrvatskih)tekstova nisu lematizirane (tj. svedene na osnovni oblik – no-minativ ili infinitiv). Zato se (semanti~ki) ista rije~ moè poja-viti vi{e puta kao razli~nica u vokabularu teksta, ako se javljau promijenjenu obliku (u razli~itim padeìma ili vremenima).

Posljedica i ograni~enje ovakva odre|ivanja veli~ine voka-bulara teksta jest u tome da flektivni jezici s razgrananommorfologijom imaju ve}i vokabular od jezika ~ija morfologijanije jednako razgranana.

– Funkcionalne rije~i sinonim su za "gramati~ke rije~i", "pra-zne rije~i" ili "stop words". Funkcionalne rije~i tvore malen ikona~an razred rije~i kao {to su prijedlozi (u, na, s, od, do, priitd.), veznici (i, ili, ni itd.), odnosno ~lanovi u nekim jezicima(npr. a, the u engleskom). Funkcionalne rije~i tvore zatvorenirazred rije~i (R. Carter, 1998.), one su malobrojne i same za se-be ne nose semanti~ke poruke, nego sluè za gramati~ku tvor-bu teksta. Zato su to najfrekventnije rije~i u tekstu.

– Hapax legomena (gr~. u zna~enju "jednom izgovoreno")upotrebljava se kao termin u analizi veli~ine tekstova, kao o-znaka za one rije~i koje se javljaju jednokratno, samo jedan-put, ili, preciznije, ~ija je frekvencija pojavljivanja jedan. Dabismo ozna~ili rije~i koje se javljaju jednokratno u tekstu, slu-ìli smo se kao sinonimima terminima hapax legomena, jedno-kratne rije~i, odnosno jednokratnice.

– Vi{ekratne rije~i ili vi{ekratnice rabimo kao termin da bismoopisali one rije~i u tekstu ~ija je frekvencija pojavljivanja ve}a230

od jedan. Jednokratnice i vi{ekratnice tvore vokabular teksta, stim da se jednokratnice javljaju samo jedanput u cijelom tekstu.

– Maksimalna frekvencija jest oznaka vrijednosti za onurije~ koja se najvi{e puta javlja u nekom tekstu.

O METODIAnalizu vokabulara tekstova na hrvatskom jeziku provodilismo na korpusu koji se sastoji od 111 hrvatskih tekstova, iliukupno 5.343.624 pojavnica. Tekstovi su preuzeti u digital-nom obliku i nisu posebno prilago|ivani za ovu analizu. Priodabiru tekstova nastojali smo uvrstiti samo prozne tekstove,tako da ne bude velike razlike u ànrovima. (Korpus od 111 tek-stova nastao je od nova 42 teksta koja su pridodana korpusuod 69 tekstova {to smo ih analizirali u radu M. Tu|man i dr., 2003.)

Kao kontrolnu grupu uzeli smo korpus od 35 tekstova naengleskom jeziku, korpus veli~ine 4.536.115 pojavnica. I ovajkorpus sastoji se prete`no od knjièvnih tekstova, jer pretpo-stavljamo da na razlike u veli~ini vokabulara tekstova moguutjecati i pojedini ànrovi sa svojim stilskim specifi~nostima.

Svaki je tekst iz korpusa odabranih tekstova podvrgnutobradbi kako bi se dobili osnovni podaci o tekstu: veli~inateksta (broj pojavnica), veli~ina vokabulara (broj razli~nica),broj funkcionalnih rije~i, broj jednokratnih i broj vi{ekratnihrije~i, pregled razli~nica po frekvenciji (izdvojili smo maksi-malnu frekvenciju u svakom tekstu). (Obradbom smo do{lido niza podataka koji nisu predmetom ove analize: broj zna-kova, broj slova, broj paragrafa, broj re~enica teksta.) Softver-ski program za ovu obradbu izradio je prof. dr. Damir Boras uokviru projekta "Modeli znanja i obrada prirodnog jezika".

Nismo radili lematizaciju, tako da se rezultati analize ve-li~ine vokabulara tekstova mogu upotrijebiti samo za kvanti-tativne, a ne i za kvalitativne, prosudbe.

Statisti~ka analiza podataka ra|ena je u Excelu, a grafi~kiprikaz u Microsoft Wordu.

Rezultati statisti~ke obradbe podataka korpusa tekstovana hrvatskom jeziku i korpusa tekstova na engleskom jeziku pri-kazani su u prilogu: M. Tu|man, D. Boras, N. Mikeli} "Heap-sov zakon i odre|ivanje veli~ine vokabulara tekstova na hrvat-skom jeziku. Dokumentacija" (Filozofski fakultet, Zagreb, 2004.).

Bez spoznaja do kojih smo do{li analiziraju}i podatkeprikazane u spomenutoj "Dokumentaciji" nije mogu}a anali-za Heapsova zakona u ovom radu. Naàlost, zbog opsega do-kumentacije prikupljene i obra|ene analizom vokabulara tek-stova na hrvatskom jeziku nismo mogli cijelu gra|u uvrstiti uovaj ~lanak, nego se moèmo samo na nju pozivati. Me|utim,osnovni podaci ovoga empirijskog istraìvanja prikazani su uTablici 2. Tako se rezultati istraìvanja na koja upu}uju sljede-}i grafikoni i formule mogu provjeriti priloènim podacima uTablici 2.231

REZULTATI (1): KONSTANTE U HEAPSOVU ZAKONU

Broj funkcionalnih rije~i je konstantanU Heapsovu zakonu K i ß su parametri koji se odre|uju empi-rijski. No {to utje~e na njihovo odre|ivanje i mogu li ovi para-metri – ili jedan od njih – imati stalnu vrijednost za pojedine jezike?

Na Grafikonu 2 prikazan je rast vokabulara (V(n)), brojafunkcionalnih pojavnica (Fs) i maksimalne frekvencije (MF)ovisno o veli~ini teksta (n). S veli~inom teksta rastu i svi ostalipokazatelji i imaju isti trend rasta, svi osim funkcionalnih ri-je~i. Naime, kod tekstova ve}ih od 60.000 rije~i broj funkcio-nalnih pojavnica postaje ve}i od veli~ine vokabulara. Me|u-tim, pravi pokazatelj o odnosu broja funkcionalnih pojavnicai veli~ine teksta moè se vidjeti na Grafikonu 3.

Analizom podataka o broju funkcionalnih pojavnica utekstu moèmo zaklju~iti da je u prosjeku 21% funkcionalnihrije~i u svakom tekstu. [tovi{e, ~ak i ukupan broj rije~i cijelo-ga korpusa /N=5.343.624 podijeljene s ukupnim brojem funk-cionalnih rije~i Fr=1.093.554/ upu}uje na isti zaklju~ak jer da-je sljede}i rezultat: 20,46% (Tablica 2).232

Ü GRAFIKON 2Logaritamski prikazosnovnih pokazateljaanaliziranih tekstova

Ü GRAFIKON 3Postotak funkcionalnihrije~i i razlike izme|uFs i Ft

233

Ü TABLICA 2Osnovni podaci zaanalizu vokabularahrvatskih tekstova

Veli~

ina

Izra

~una

niFs

: bro

jIz

ra~u

n fu

nk-

Hap

ax le

gom

eM

Fs:

teks

ta: b

roj

Voka

bula

r:vo

kabu

lar

funk

cion

al-

% fu

nkci

o-ci

onal

nih

rije~

ina

HLs

:m

aksi

mal

naO

znak

a te

ksta

poja

vnic

ara

zli~

nice

VR

t=(N

k)2/

3ni

h rij

e~i

naln

ih ri

je~i

Ft=

0,21

nfr

ekve

n.=

1H

Lt=

((Nk)

/2)2

/3fr

ekve

ncija

MFt

=N

(0,2

1)2/

3

1M

ilo{:

Pet

ar P

an68

142

560

813

519

,82

143

336

382

2530

2M

ilo{:

Jeze

ro70

642

262

312

317

,42

148

330

392

2331

3M

ilo{:

Pov

rata

k72

345

363

312

216

,87

152

363

398

2232

4M

ilo{:

Gib

ralta

r81

551

568

613

416

,44

171

422

431

2936

5M

ilo{:

Ex

pica

dor

886

509

726

178

20,0

918

639

545

636

396

Kov

a~in

a: B

akre

na s

vila

922

681

745

142

15,4

019

459

246

843

417

Milo

{: P

enel

ope

949

544

760

209

22,0

219

941

647

729

428

Loko

tar:

Esej

i o m

oru

999

617

786

209

20,9

221

050

849

436

449

Kov

a~in

a: P

au~i

na12

8177

992

925

119

,59

269

641

584

5356

10K

ova~

ina:

Lje

pota

1318

699

947

235

17,8

327

753

559

571

5811

Milo

{: A

frod

izija

k14

1585

199

326

218

,52

297

681

624

3862

12N

eko}

i sa

d - p

ogov

or17

0298

511

2432

118

,86

357

796

706

8675

13[k

olar

ac -

pogo

vor

1758

1061

1148

382

21,7

336

986

672

210

078

14To

nio

Kro

ger -

pog

ovor

2149

1218

1314

422

19,6

445

197

882

612

495

15Lj

ubej

: Pri~

a22

7111

5713

6346

920

,65

477

865

857

113

100

16Br

anis

avlje

vi}:

Mos

q25

1013

2414

5847

218

,80

527

1044

916

111

111

17@

udnj

a za

ljub

avlju

- po

govo

r32

6116

9917

3764

319

,72

685

1312

1092

179

144

18O

trag

i~no

m -

pogo

vor

3336

1740

1764

702

21,0

470

113

4011

0918

114

719

Ljud

ska

sudb

ina

- pog

ovor

3403

1893

1787

674

19,8

171

514

8411

2315

215

020

Berli

n A

lexa

nder

Pla

tz -

pogo

vor

3723

2002

1898

684

18,3

778

215

5611

9313

916

421

Bran

isav

ljevi

}: V

jeve

rica

3819

1666

1931

742

19,4

380

212

4212

1424

616

822

Vre

men

ski s

troj

- po

govo

r39

2719

0319

6783

721

,31

825

1460

1237

150

173

23Iv

anho

e - p

ogov

or40

5519

6120

1084

620

,86

852

1489

1263

161

179

24Pu

t do

Indi

je -

pogo

vor

4130

2014

2035

901

21,8

286

715

3912

7919

518

225

Gol

i i m

rtvi

- po

govo

r42

0121

6220

5888

521

,07

882

1713

1294

235

185

2619

84 -

pogo

vor

4361

2131

2111

919

21,0

791

616

0813

2717

119

227

Kon

trap

unkt

- po

govo

r47

8923

1522

4797

020

,25

1006

1746

1412

198

211DRU[. ISTRA@. ZAGREB

GOD. 14 (2005),BR. 1-2 (75-76),STR. 227-250


Veli~

ina

Izra

~una

niFs

: bro

jIz

ra~u

n fu

nk-

Hap

ax le

gom

eM

Fs:

teks

ta: b

roj

Voka

bula

r:vo

kabu

lar

funk

cion

al-

% fu

nkci

o-ci

onal

nih

rije~

ina

HLs

:m

aksi

mal

naO

znak

a te

ksta

poja

vnic

ara

zli~

nice

VR

t=(N

k)2/

3ni

h rij

e~i

naln

ih ri

je~i

Ft=

0,21

nfr

ekve

n.=

1H

Lt=

((Nk)

/2)2

/3fr

ekve

ncija

MFt

=N

(0,2

1)2/

3

28K

i{: @

enik

4862

1795

2270

1250

25,7

110

2112

6014

2721

221

429

Plod

ovi g

njev

a - p

ogov

or48

9824

6622

8110

1920

,80

1029

1907

1434

264

216

30M

aùr

ani}

161

3424

9226

5394

115

,34

1288

1692

1667

140

271

31Bl

aga

je n

o} -

pogo

vor

7828

3581

3123

1634

20,8

716

4427

3019

6340

234

532

Tom

i}: O

pan~

arev

a k}

i89

9430

9134

2818

0820

,10

1889

2125

2154

273

397

33Pa

sagi

}10

927

3571

3906

2148

19,6

622

9523

7524

5530

048

234

Don

adin

i: Ba

uk11

772

3556

4105

2380

20,2

224

7224

7825

8046

651

935

Mal

i prin

c (h

rvat

ski)

1302

932

5043

9425

9519

,92

2736

2011

2657

420

542

36A

ralic

a112

480

4132

4269

2989

23,9

526

2128

9826

8359

755

037

[eno

a113

001

4347

4388

1752

13,4

827

3027

1227

5826

457

338

[eno

a: K

aran

fil13

775

5183

4561

2455

17,8

228

9336

9628

6744

560

739

Ki{

: Obi

jalo

1465

049

6847

5332

0321

,86

3077

3572

2988

705

646

40A

ralic

a414

813

4531

4789

3533

23,8

531

1130

9930

1071

265

341

Ara

lica3

1580

850

7450

0236

7223

,23

3320

3448

3144

772

697

42[e

noa:

Prij

an L

ovro

1814

862

2754

8730

6416

,88

3811

4202

3448

484

800

43A

ralic

a518

647

5654

5587

4344

23,3

039

1639

3035

1287

382

244

Ara

lica2

1893

061

2356

4442

0122

,19

3975

4318

3547

836

835

45D

onad

ini:

Nov

ele

1960

956

3057

7937

8219

,29

4118

3930

3632

826

865

46To

nio

Kro

ger

2005

863

2158

6744

2122

,04

4212

4386

3687

1074

885

47A

ralic

a921

360

6205

6120

4982

23,3

244

8641

8438

4692

194

248

Nov

ak1

2280

766

0763

9444

8719

,67

4789

4442

4019

1050

1006

49A

ralic

a623

494

6823

6523

5484

23,3

449

3446

4541

0011

8210

3650

Lisa

c: S

avr{

eni k

rug

2451

268

3867

1148

7019

,87

5148

4645

4218

981

1081

51A

ralic

a724

917

6881

6785

5866

23,5

452

3346

0242

6411

7610

9952

Hla

pi}

2493

044

0267

8753

0221

,27

5235

2367

4266

1388

1099

53Jo

rgov

ani}

2570

279

0569

2752

6120

,47

5397

5448

4354

1038

1133

54D

onad

ini:

Kro

z {i

be28

727

7142

7463

5715

19,8

960

3347

8846

9118

8112

6755

Iren

a V

rklja

n30

019

8011

7687

6160

20,5

263

0451

8248

3113

1113

2456

[kol

arac

3225

985

6880

6672

1122

,35

6774

5530

5070

1512

1423

57[e

noa:

ûv

aj s

e32

269

9010

8068

5680

17,6

067

7655

8450

7181

414

2358

Wie

sner

-Liv

adi}

: Nov

ele

3292

384

3781

7765

9320

,03

6914

5586

5140

1450

1452

59K

ozar

ac: \

uka

3345

396

2082

6576

4822

,86

7025

6768

5195

2109

1475

60K

amov

: Nov

ele

3452

690

5684

4273

9621

,42

7250

6075

5306

2065

1523

61Le

skov

ar: P

ropa

li dv

ori

3667

493

8487

9071

0019

,36

7702

6173

5525

1444

1617

62G

jals

ki: D

olaz

ak H

rvat

a38

234

1000

690

3983

5521

,85

8029

6338

5681

2352

1686

63Le

skov

ar: N

ovel

e39

616

9780

9257

8312

20,9

883

1964

8958

1813

0017

4764

Kov

a~i}

I. G

.: Pr

ipov

ijetk

e39

814

1382

192

8879

0619

,86

8361

9693

5837

1764

1756

65K

ova~

i}: P

ripov

ijest

i42

054

1196

996

3575

3417

,92

8831

8039

6055

1302

1855

66M

inis

tar O

bran

e42

271

9219

9668

9211

21,7

988

7758

7360

7626

7718

6467

Koz

arac

142

575

9831

9715

8741

20,5

389

4164

9361

0616

2918

7868

Ara

lica8

4357

283

7998

6698

4622

,60

9150

3015

6201

2036

1922

69Pr

i~e

iz d

avni

ne44

027

9225

9935

1036

723

,55

9246

5360

6244

1900

1942

Veli~

ina

Izra

~una

niFs

: bro

jIz

ra~u

n fu

nk-

Hap

ax le

gom

eM

Fs:

teks

ta: b

roj

Voka

bula

r:vo

kabu

lar

funk

cion

al-

% fu

nkci

o-ci

onal

nih

rije~

ina

HLs

:m

aksi

mal

naO

znak

a te

ksta

poja

vnic

ara

zli~

nice

VR

t=(N

k)2/

3ni

h rij

e~i

naln

ih ri

je~i

Ft=

0,21

nfr

ekve

n.=

1H

Lt=

((Nk)

/2)2

/3fr

ekve

ncija

MFt

=N

(0,2

1)2/

3

70K

ozar

ac2

5036

111

277

1087

210

151

20,1

610

576

7541

6833

2008

2221

71G

jals

ki: B

oris

lavi

} Ja

nko

5052

111

876

1089

510

700

21,1

810

609

7693

6847

1957

2228

72Br

li}: J

a{a

Dal

mat

in50

961

1453

510

958

1009

319

,81

1070

293

6068

8720

7122

4773

Tom

i} 2

5221

711

560

1113

810

587

20,2

810

966

6940

7001

2122

2303

74N

a{i i

va{

i52

966

9737

1124

598

8918

,67

1112

357

9470

6824

9823

3675

[kol

a pl

ivan

ja54

021

1200

711

395

1205

122

,31

1134

475

6371

6218

5823

8276

Mat

o{: P

ripov

ijetk

e54

933

1765

211

523

1204

221

,92

1153

612

278

7242

2395

2423

77K

ova~

i}: F

i{ka

l55

761

1352

611

639

1049

418

,82

1171

086

6773

1518

4624

5978

[eno

a: P

rosj

ak L

uka

5598

510

432

1167

110

343

18,4

711

757

6055

7335

1882

2469

79Ta

jna

jedn

og v

ideo

zapi

sa58

938

1219

312

080

1184

420

,10

1237

771

8675

9223

0025

9980

Kum

i~i}

259

687

1025

012

182

1069

717

,92

1253

458

1976

5721

7826

3281

Usm

ene

naro

dne

pri~

e60

253

1051

712

259

1350

222

,41

1265

344

9977

0523

3626

5782

Nek

o} i

sad

6214

912

462

1251

713

487

21,7

013

051

7615

7867

2653

2741

83@

udnj

a za

ljub

avlju

6311

514

398

1264

712

521

19,8

413

254

9433

7949

3358

2783

84K

umi~

i}: Z

a~u|

eni s

vato

vi67

831

1274

213

272

1299

019

,15

1424

574

2083

4223

7729

9185

Nov

ak2

6928

214

660

1346

213

779

19,8

914

549

9198

8461

2382

3055

86Lj

udsk

a su

dbin

a79

428

1615

614

753

1491

618

,78

1668

097

9892

7233

7435

0387

[eno

a381

500

1549

315

009

1559

719

,14

1711

588

9394

3325

6735

9488

O tr

agi~

nom

osj

e}an

ju `

ivot

a84

097

1520

215

328

1980

223

,55

1766

092

8096

3436

8937

0989

Kum

i~i}

185

276

1296

015

472

1493

017

,51

1790

871

6697

2431

6937

6190

Vre

men

ski s

troj

- R

at s

vjet

ova

8797

117

751

1579

819

108

21,7

218

474

1110

399

2938

2438

8091

1984

9224

217

819

1630

818

781

20,3

619

371

1086

010

249

4917

4068

92[e

noa2

9552

617

548

1669

416

605

17,3

820

060

9900

1049

226

6142

1393

Tom

i}1

9741

117

534

1691

418

129

18,6

120

456

1050

910

631

4958

4296

94Pu

t do

Indi

je99

062

1833

117

106

2034

020

,53

2080

311

232

1075

144

4543

6995

Gja

lski

110

0702

2124

317

295

2020

620

,07

2114

713

274

1087

038

1644

4196

Blag

a je

no}

1017

7521

454

1741

819

525

19,1

821

373

1386

110

948

6183

4488

97[i

mun

ovi}

: Prip

ovije

tke

1036

9119

039

1763

725

483

24,5

821

775

7767

1108

558

4245

7398

Dru

go li

ce m

arke

tinga

1077

8821

689

1810

125

420

23,5

822

635

1345

711

377

4598

4753

99K

amov

: Isu

{ena

kal

juà

1085

9821

452

1819

223

673

21,8

022

806

1312

711

434

6823

4789

100

Jagm

a11

4720

2043

818

873

2317

720

,20

2409

112

013

1186

245

4850

5910

1G

jals

ki2

1262

0322

229

2011

925

653

20,3

326

503

1331

212

645

4093

5566

102

Berli

n A

lexa

nder

Pla

tz13

7531

1983

521

312

3063

522

,27

2888

211

538

1339

451

6260

6510

3K

ova~

i}1

1447

2426

603

2205

229

612

20,4

630

392

1620

913

860

7156

6382

104

Ivan

hoe

1495

9626

951

2254

728

824

19,2

731

415

1543

914

171

4709

6597

105

Kon

trap

unkt

1541

4829

265

2300

430

035

19,4

832

371

1795

014

458

6838

6798

106

Plod

ovi g

njev

a16

4244

2150

224

003

3261

319

,86

3449

111

845

1508

665

2672

4310

7K

umi~

i}: U

rota

1707

9225

622

2464

032

796

19,2

035

866

1422

815

486

5462

7532

108

Kum

i~i}

317

5021

2563

025

047

3280

518

,74

3675

414

228

1574

254

6377

1810

9A

ralic

a1-9

2175

1530

432

2897

450

401

23,1

745

678

1428

418

210

1028

795

9211

0G

oli i

mrt

vi22

1609

2778

829

338

4319

319

,49

4653

814

802

1843

997

6197

7311

1Be

govi

}: G

iga

Bari}

eva

2510

1336

021

3189

252

678

20,9

952

713

2150

020

044

1096

611

070

Isti stalni omjer veli~ine teksta i broja funkcionalnih rije~iu tekstu pokazuju podaci iz kontrolne grupe – za tekstove naengleskom jeziku (Grafikon 4). Samo u korpusu tekstova na en-gleskom udio je funkcionalnih pojavnica u veli~ini teksta 26%.

Grafikon 4 koristi se dvjema ordinatama s razli~itim ska-lama vrijednosti za prikaz veli~ine teksta, odnosno broj funk-cionalnih rije~i. To omogu}uje da se zorno pokaè kako su o-bje krivulje jednake, odnosno da se omjer izme|u ovih veli-~ina ne mijenja s veli~inom teksta.

Zato moèmo zaklju~iti da je postotak funkcionalnih ri-je~i u tekstu konstantan. On za tekstove na hrvatskom jeziku iz-nosi 21%, a za one na engleskom 26%. Mo`da bi mogle posto-jati varijacije izme|u ànrova, no to je ve} predmet novih analiza.

Broj stvarnih funkcionalnih rije~i (Fs) dobili smo empirij-ski. Teorijski izra~un postotka funkcionalnih rije~i (Ft), kada jeK = 21, pokazuje minimalna odstupanja.

(2) Ft = n(K/100)

Grafi~ki prikaz razlika izme|u Fs i Ft potvr|uje tezu dapokazatelj postotka funkcionalnih rije~i u tekstu moèmouzeti kao konstantu za pojedini jezik. Funkcionalne su rije~iprazne rije~i, sluè za gramati~ku gradnju re~enica, a ne zaoblikovanje obavijesti. Udio broja funkcionalnih pojavnica utekstu ne mijenja se s veli~inom teksta nego ostaje isti. "Pro-blem" jest kod kratkih tekstova do 1000 rije~i, gdje je postotakfunkcionalnih pojavnica ne{to manji (17-20%) i gdje je najve-}i odmak izme|u stvarnoga (Fs) i procijenjenoga broja (Ft)svih funkcionalnih rije~i (Tablica 2). To je isti problem s kojimsu suo~eni teoretici bibliometrijskih zakona, jer je na po~etkulogaritamske krivulje koja pokazuje bibliometrijske razdiobenajvi{e odstupanja (V. Oluji}-Vukovi}, 1999.; R. Rousseau, 1990.).



236

Ü GRAFIKON 4Veli~ina teksta i brojfunkcionalnih rije~iFs i Ft

Analiza obra|enoga korpusa tekstova na hrvatskom i en-gleskom jeziku vodi k zaklju~ku da je udio funkcionalnih po-javnica u tim korpusima konstantan i da za hrvatske tekstoveK = 21, a za engleske K = 26.

Maksimalne su frekvencije konstantaAko usporedimo odnose izme|u ukupnoga broja funkcional-nih rije~i (Fs) i najfrekventnije rije~i u tekstu (MFs), moèmozaklju~iti da je rije~ o razdiobama koje su pravilne (Tablica 2).To nam pokazuje i Grafikon 5.

[tovi{e, statisti~ka analiza odnosa vodi nas k hipotezi daje odnos veli~ine teksta prema broju funkcionalnih pojavnicajednak omjeru broja funkcionalnih pojavnica prema maksi-malnoj frekvenciji (MF). Zato taj odnos moèmo prikazati iovako:

(3) MF = Ft(K/100)

odnosno:

(4) MF = n(K/100)2

Na Grafikonu 6 prikazani su odnosi izme|u stvarnih (MFs)i izra~unanih vrijednosti (MFt), prema formuli (4) za najfre-kventnije rije~i u analiziranim tekstovima. Odstupanja izme-|u stvarnih i izra~unanih vrijednosti mnogo su manja nego uslu~ajevima nekih drugih bibliometrijskih pojava i procesa; ugotovo 40% slu~ajeva odstupanja su ~ak manja od ± 10% (Ta-blica 2). Korelacija izme|u stvarnih i izra~unanih vrijednostinajfrekventnijih rije~i jest 0,976.

Na Grafikonu 7 prikazane su maksimalne frekvencije zatekstove na engleskom jeziku, stvarne i izra~unane:

I na temelju ovoga grafikona moè se zaklju~iti da su ra-zlike izme|u stvarnih i izra~unanih maksimalnih frekvencijau statisti~ki dopu{tenim granicama.237

Ü GRAFIKON 5Odnos brojafunkcionalnih rije~ii maksimalnafrekvencija

Konstante u Heapsovu zakonu (komentar)Do sada smo uo~ili dvije konstante u analizi teksta:

– Prvo, udio funkcionalnih pojavnica u tekstu, neovisnoo duljini teksta, jest konstantan.

Komentar: funkcionalne rije~i ne grade poruku teksta, ne-go strukturiraju tekst; K se moè mijenjati prema jezicima iànrovima, ali je konstantan za pojedini jezik i pojedini ànr.

– Drugo, maksimalna frekvencija (MF) u tekstu jest kon-stanta, jer je odre|uju gradbeni elementi teksta, a ne poruke.

MFt izra~unana je po formuli:

MFt = F(K/100)ili

MFt = n(K/100)2

Komentar: maksimalna frekvencija (MF) uvijek je kon-stanta i iznosi 4,41% od ukupnoga broja pojavnica; odnosnoMFt je 4,41% od veli~ine teksta na hrvatskom jeziku, ili 6,76%od veli~ine teksta na engleskom jeziku (prema K2/100).

– Tre}e, moèmo zaklju~iti da postoji i pravilnost u grad-nji teksta, odnosno odnosima koji postoje izme|u veli~ine tek-



Ü GRAFIKON 6Odnos stvarnihi izra~unanihnajfrekventnijih rije~i(MFs i MFt)

Ü GRAFIKON 7Maksimalnefrekvencije rije~iu tekstovima –MFs i MFt

238

sta (n), broja svih funkcionalnih pojavnica (F) i najfrekventnijerije~i (MF). Ako je na{a analiza to~na, onda su ti odnosi ovakvi:

n : F = F : MF

Odnosno: broj pojavnica ili duìna teksta (n) prema bro-ju funkcionalnih pojavnica (F) u istom je omjeru kao broj funk-cionalnih pojavnica prema maksimalnoj frekvenciji (MF).

Ako je tako, onda vrijede i sljede}i izvodi:

n = F2/MFMF = F2/nF = (nMF)1/2

– êtvrto, nema razloga da se za parametar K u Heap-sovu zakonu ne uzme pokazatelj o broju svih funkcionalnihrije~i u tekstu. To je empirijska veli~ina koja se izra~unava zabroj pojavljivanja svih funkcionalnih rije~i u tekstovima narazli~itim jezicima. Vrijednost ovoga parametra u granicamaje onoga {to je odre|eno Heapsovim zakonom (1), ali je pred-nost u tome {to se mogu izra~unati i drugi pokazatelji rele-vantni za veli~inu teksta.

REZULTATI (2): VARIJABLE U HEAPSOVU ZAKONU

Vrijednost parametra ß je konstantna?Podsjetimo da je Heapsov zakon formuliran na sljede}i na~in:

(1) VR(n) = Knβ,

a da su K i ß parametri koji se prema Heapsu odre|ujuempirijski. Za korpus tekstova na engleskom jeziku vrijed-nost za ß iznosi (Heaps'Law.PlanetMath.Org.):

0,4 ≤ ß ≤ 0,6

Mogu li se ove vrijednosti teorijski utemeljiti ili samo iz-vu}i iz empirije? Vrijednost parametra ß za izra~unavanje vo-kabulara tekstova na hrvatskom jeziku iznosi 0,67, ako je K = 21(vidi Tablica 2; "Dokumentacija"), a prema drugim istraìva-njima moè iznositi i 0,74 (vidi M. Tu|man i dr., 2003.). No naszanima moè li se odrediti po nekoj drugoj osnovi vrijednostparametra ß, kako bi bio op}evrijedan i kako se ne bi moraoempirijski odre|ivati u svakom istraìvanju posebno.

Podsjetili smo na to da analiti~ari vokabulara tekstova naengleskom jeziku tvrde kako eksponent ß ima vrijednost izme-|u 2/5 i 3/5. Na{e istraìvanje (Tablica 2) pokazuje da je vrijed-nost ß za hrvatske tekstove 0,67 ili 2/3. Nije te{ko zaklju~iti dasu ove vrijednosti zapravo logaritamske vrijednosti od K/100.

Naime:Logaritam broja 0,21 = – 0,67778Logaritam broja 0,22 = – 0,65757Logaritam broja 0,23 = – 0,63827239



Logaritam broja 0,24 = – 0,61978Logaritam broja 0,25 = – 0,60205Logaritam broja 0,26 = – 0,58502Znamo da je logaritam broj kojim treba potencirati bazu

a da se dobije broj x, tj. iz ay = x, slijedi y = log ax (y je logaritamod x po bazi a).

Ali {to je priroda logaritma i kakav je odnos izme|u loga-ritamskih i aritmeti~kih progresija? Ve} op}i rje~nici tuma~e lo-garitam (logos – govor, odnos, ra~un, ra~unanje + arithmos – broj)kao matemati~ki broj uzet u jednoj aritmeti~koj progresiji, kojiodgovara broju uzetom u geometrijskoj progresiji, pri ~emu suobje progresije prilago|ene odre|enim uvjetima (B. Klai}, 1978.).

Teorijsko je pitanje moèmo li istu paralelu povu}i i u na-{em slu~aju i zagovarati tezu da je eksponent ß u formuli (1)vrijednost logaritma od K/100? Za{to bismo mogli zastupatiovakvu hipotezu? Zato {to je vrijednost K u formulama (2) i(3) empirijska veli~ina, parametar kojim utvr|ujemo omjerveli~ine teksta i broja funkcionalnih pojavnica (2), odnosno ve-li~ine teksta i najfrekventnije pojavnice (3). Ali ako tim istimparametrom K èlimo izra~unati veli~inu vokabulara teksta,onda to zna~i da odnos funkcionalnih rije~i i veli~inu voka-bulara teksta stavljamo u novu progresiju, koju odre|uje eks-ponent ß. Zato se i vrijednost K mijenja u malo k, tj. k = Kß.

To ima za posljedicu da formulu (1) VR(n) = Knß mo-ramo prikazati na sljede}i na~in:

(5) VR(n) = Kßnß,

ili VR(n) = (kn)ß.

Parametri K i k imaju istu po~etnu vrijednost koja se mi-jenja kada se rabi za izra~unavanje odnosa u razli~itim pro-gresijama.

Empirijskih potvrda za ovakvu vrstu tuma~enja moèmona}i ve} u ~injenici da pojedini elementi teksta rastu u razli-~itim omjerima: veli~ina teksta raste eksponencijalno u odno-su na vokabular teksta, koji raste linearno; ali vokabular tek-sta raste linearno u odnosu na broj funkcionalnih pojavnica,koji raste eksponencijalno; ili broj jednokratnih rije~i raste line-arno u odnosu na broj najfrekventnijih rije~i koji raste ekspo-nencijalno itd. (vidi Tablica 2, "Dokumentacija"). O~ito je dapojedini elementi teksta rastu razli~itim progresijama i da i-maju razli~ite prote`nosti u tekstu i korpusu tekstova. Nekiautori s pravom upozoravaju na to da "priroda ovih zakona(Zipfova i Heapsova, op. M.T.) nije poznata" (Gelbukh, Sido-rov, 2001.). To nas upu}uje na spoznajno-teorijski problemmultidimenzionalnosti teksta i potrebu epistemolo{koga tu-ma~enja pojedinih dimenzija teksta. Samo bismo na taj na~inmogli teorijski obrazloìti tezu za{to vrijednost parametra ßmoè biti ß = log K/100.



240

Kako se u ovom radu bavimo empirijskom provjeromzakona o veli~ini vokabulara teksta, tako }emo samo upozori-ti na mogu}nost koju treba potvrditi novim istraìvanjima, alii epistemolo{kim tuma~enjima, da vrijednost parametra ß

moè biti logaritam od K/100. [to bi zna~ilo i da vrijednostparametra ß moè biti konstantna za tekstove na istom jeziku.

Izra~un veli~ine vokabulara tekstova na hrvatskom jezikuUtvrdili smo da je broj funkcionalnih pojavnica u tekstu kon-stantan. Postotak funkcionalnih rije~i uzeli smo kao vrijednostparametra K. Empirijska istraìvanja pokazuju da parametarß moè biti logaritamska vrijednost od K/100. Zato za formulu(1) za izra~unavanje veli~ine vokabulara tekstova na hrvatskomjeziku vrijede parametri K = 21, i ß = log K/100, pod uvjetomda izvornu formulaciju Heapsova zakona (1) redefiniramo:

(5) VR(n) = (Kn)ß

Za ovakvu formulaciju zakona o veli~ini vokabulara tek-sta nalazimo potvrdu u empirijskim istraìvanjima. Teorijskotuma~enje trebalo bi slijediti iz razumijevanja multidimen-zionalnosti teksta. Operativno smo u formulu (5) uvrstili pa-rametre do kojih smo do{li empirijski:

(6) VR(n) = (21n)2/3,

odnosno:

(6b) VR(n) = (21n)0,67.

Koriste}i se ovom formulom, dobili smo sljede}e rezul-tate (Vrt) koji su prikazani na Grafikonima 8 i 9 te u Tablici 2.

Na oba prethodna grafikona, kao i u Tablici 2, prikazanesu stvarne i izra~unane vrijednosti vokabulara tekstova nahrvatskom jeziku. Iz grafikona i Tablice 2 moèmo zaklju~itida je formula (6, 6b) pouzdano sredstvo za procjenu vokabu-lara tekstova, jer je korelacija izme|u dviju varijabli (stvarne iizra~unane veli~ine vokabulara) 0,984.

241



Ü GRAFIKON 8Prikaz stvarnihi izra~unanih vrijednostivokabulara

Pogre{ka prognoze veli~ine vokabulara najve}a je na po-~etku krivulje, tj. kod tekstova do 1000 rije~i. Kod tekstova do1000 rije~i udio vokabulara u veli~ini teksta iznosi otprilike 60%,a procjene se kre}u od 90% do 78%. Kod tekstova od 100.000 do250.000 rije~i stvarni udio vokabulara u odnosu na veli~inu tek-sta pada od 21% prema 14% (odnosno, izra~unana vrijednostvokabulara u odnosu na veli~inu teksta pada od 17% prema 13%).

Zato moramo postaviti metodolo{ko pitanje: koja je naj-manja veli~ina teksta koji moèmo smatrati tekstom, odnosnopredmetom kvantitativnih analiza? Ili, tekst koje veli~ine imazna~ajke {to se mogu kvantitativno analizirati? Prije ili kasni-je morat }emo na}i odgovor na ovo pitanje, jer o njemu ovisii odgovor na pitanje o prihvatljivosti ove ili one formule za iz-ra~unavanje veli~ine vokabulara teksta ili korpusa tekstova.

Broj jednokratnih rije~i u vokabularu teksta jest konstantanNa Grafikonu 10 prikazan je eksponencijalni rast i veli~ine vo-kabulara teksta, ali i jednokratnih rije~i (hapax legomena) u tek-stu. O~ito je da ove dvije varijable veli~ine teksta rastu ekspo-nencijalno i da su stalno u istom omjeru. Veli~inu vokabularateksta izra~unavamo po formuli (5). Omjer veli~ine vokabula-ra i jednokratnih rije~i moèmo izra~unati ako taj omjer uklju-~imo u formulu (5), jer je o~ito da je posrijedi opis empirijskihodnosa.

Zato se broj jednokratnih rije~i (HL) u tekstu moè izra-~unati po sljede}oj formuli:

(7) HL = ((Kn)/2)ß

(8) HL = ((21n)/2)2/3,

odnosno:

(9) HL = ((21n)/2)0,67.



242

Ü GRAFIKON 9Udio vokabularau veli~ini teksta (u %)

Grafi~ki prikaz odnosa veli~ine vokabulara, stvarnih (HLs)i izra~unanih (HLt) jednokratnih rije~i (formula (9)), dan je uGrafikonu 11 i u Tablici 2.

Korelacija izme|u stvarne i izra~unane vrijednosti jedno-kratnih rije~i vrlo je visoka: 0,956. Statisti~ke razlike izme|ustvarnih i izra~unanih vrijednosti i u ovom su slu~aju pri-hvatljive. Osim toga, omjeri koji postoje izme|u broja jedno-kratnica i teksta te broja jednokratnica i vokabulara tekstapokazuju pravilnosti koje se mogu o~itati i u Grafikonu 12.

Ve} smo upozorili da postoje samo zna~ajnija odstupa-nja u izra~unu vokabulara, ali i jednokratnih rije~i (HL), kodkratkih tekstova (do 1000 rije~i). Ta se odstupanja mo`da mo-gu tuma~iti i kao nepreciznosti, jer je parametar K izra~unankao prosjek na temelju velikog uzorka. Realni K pak varira,jer kod malih tekstova (do 1000 rije~i) iznosi ~ak 17%. Ako seizra~unava Vr (vokabular) i HL s realnim K, onda su odstu-panja u granicama dopu{tenog.243



Ü GRAFIKON 10Prikazeksponencijalnogarasta vokabulara ihapax legomena

Ü GRAFIKON 11Prikaz veli~inevokabulara i veli~inehapax legomena

Broj vi{ekratnih rije~i u tekstu lako se moè izra~unati ka-da se zna veli~ina vokabulara i broj jednokratnih rije~i. Kakovi{ekratnice nisu predmet na{e analize, nego zakon o veli~inivokabulara teksta, u Grafikonu 13 prikazujemo samo omjereizme|u jednokratnih i vi{ekratnih rije~i u analiziranom kor-pusu tekstova.

ODRE\IVANJE VELIÎNE VOKABULARA TEKSTOVANA HRVATSKOM JEZIKU

Izra~unavanje veli~ine vokabulara teksta bit }e to preciznije{to se parametri koji odre|uju veli~inu teksta mogu precizni-je odrediti. U ovom smo pristupu po{li od empirijskoga po-datka da je broj svih funkcionalnih pojavnica onaj parametarkoji se dosta precizno moè odrediti za svaki korpus tekstovana nekom jeziku. Analiziraju}i podatke o korpusu tekstovakoje smo istraìvali, ustanovili smo da je K za korpus teksto-



244

Ü GRAFIKON 12Postotak jednokratnihrije~i u tekstu ivokabularu teksta

Ü GRAFIKON 13Broj jednokratnih ivi{ekratnih rije~i uvokabularu teksta

va na hrvatskom 21, a za korpus tekstova na engleskom je-ziku K = 26. [tovi{e, ustanovili smo i omjere koji postoje iz-me|u broja funkcionalnih pojavnica i najfrekventnije rije~i.Time smo dobili empirijsko polazi{te za istraìvanje odnosaizme|u dva parametra u Heapsovu zakonu. Utvrdili smo dadrugi parametar (ß) moè biti logaritam od K/100. Slijedomtoga na{e je istraìvanje potvrdilo sljede}e odnose u korpusi-ma tekstova koje smo istraìvali, a koji se mogu opisati for-mulama:

– za broj funkcionalnih pojavnica (F) u tekstu ili korpusutekstova

(2) F = n(K/100)

– za maksimalnu frekvenciju (MF) rije~i u tekstu

(4) MF = n(K/100)2

– za veli~inu vokabulara (Vr) teksta

(5) VR(n) = (Kn)ß

– za broj jednokratnih rije~i (HL) u (vokabularu) tekstu

(7) HL = ((Kn)/2)ß.

Vrijednost je parametara K i ß za korpus tekstova (n) nahrvatskom jeziku 21, odnosno 0,67.

Prema ovim formulama izra~unane vrijednosti veli~ine vo-kabulara teksta, broja funkcionalnih i najfrekventnijih pojav-nica te jednokratnih rije~i u tekstu prikazane su u Tablici 3. Zausporedbu, izra~unana je veli~ina vokabulara (Vr) i premaizvornoj Heapsovoj formuli (1).

HeapsovaVeli~ina Vokabular Funkcionalne Jednokratnice formulateksta n Vr=(nk)0,67 F=nk/100 MF=N(K/100)2 HL=((nk)/2)0,67 Vr=21n0,67

5000 2313 1050 221 1454 631710000 3680 2100 441 2313 1005120000 5856 4200 882 3680 1599230000 7683 6300 1323 4829 2098440000 9317 8400 1764 5856 2544550000 10819 10500 2205 6800 2954860000 12225 12600 2646 7683 3338770000 13555 14700 3087 8519 3702080000 14824 16800 3528 9317 4048590000 16041 18900 3969 10082 43809

100000 17214 21000 4410 10819 47013120000 19451 25200 5292 12225 53122140000 21567 29400 6174 13555 58901160000 23586 33600 7056 14824 64414180000 25522 37800 7938 16041 69703200000 27389 42000 8820 17214 74801220000 29195 46200 9702 18349 79734240000 30948 50400 10584 19451 84520260000 32653 54600 11466 20522 89177



Þ TABLICA 3Prikaz teorijskih veli~inavokabulara teksta,broja funkcionalnih inajfrekventnijihpojavnica te jedno-kratnih rije~i u tekstu

Usporedba podataka sa stvarnim vrijednostima iz Tablice2, s izra~unanim podacima iz Tablice 3, upu}uje na zaklju~ako prihvatljivosti predloènih formula. No isto tako moèmorazabrati da je izvorna Heapsova formula neuporabljiva, akoèlimo kao vrijednost parametra K rabiti postotak funkcional-nih rije~i u tekstu.

Iako se to moè razabrati iz podataka u Tablici 3, na slje-de}em je grafikonu (14) jo{ o~itije da tekstovi i korpusi tekso-va rastu eksponencijalno, a da veli~ine vokabulara tekstovarastu po drugoj progresiji.

Grafi~ki prikaz veli~ina vokabulara tekstova i svih funk-cionalnih rije~i prikazan je u Grafikonu 15. I ovdje ukupan brojfunkcionalnih pojavnica raste eksponencijalno, a veli~ina vo-kabulara linearno. No mnogo je va`nije podsjetiti na to da jepostotak funkcionalnih pojavnica u tekstovima stalan, pa za-to tu vrijednost moèmo rabiti kao parametar u formuli zaizra~unavanje veli~ine vokabulara teksta.



246

Ü GRAFIKON 14Teorijske veli~ineteksta i vokabulara

Ü GRAFIKON 15Teorijske veli~inevokabulara tekstai funkcionalnih rije~iu tekstu

Predloène formule za izra~unavanje veli~ine vokabula-ra tekstova, broja svih funkcionalnih pojavnica u tekstovima,broja jednokratnih rije~i i najfrekventnije rije~i imaju empirij-sku potvrdu u na{im istraìvanjima. Na{a formula temelji sepak na Heapsovu zakonu i izvedena je iz njega. Kako je ipakHeapsova formulacija zakona o veli~ini vokabulara teksta po-ne{to promijenjena, potrebno je da idu}a istraìvanja potvrdeuporabljivost, predloènih formuli te vrijednost parametaraza tekstove na hrvatskom jeziku.

MOGU]E PRIMJENE ZAKONA O VELIÎNI VOKABULARA TEKSTAHeapsov se zakon nije ustalio kao istraìva~ka metoda, a za-{to nije naveli smo u uvodnom dijelu. Zato je jo{ uvijek samzakon predmet istraìvanja (G. R. Turner, 2001.; A. C. Fang, 1997.)i poku{aja da se definiraju parametri presudni za njegovo razu-mijevanje (C. M. Urzua, 2000.; A. Gelbukh, G. Sidorov, 2001.).

Heapsov zakon smatra se izvedenicom iz Zipfova zako-na i zato je povezan s istraìvanjem jezika. Me|utim, sve vi{enalazi primjenu u istraìvanju kvantitativnih odrednica tek-stova, korpusa tekstova te umreènih tekstova na internetu.

Na to upu}uju poku{aji primjene toga zakona na raznimpodru~jima. Nazna~imo samo neka istraìvanja koja se pro-vode u nabrojenim podru~jima, iako se ~ini da istraìva~i me-|usobno nisu upu}eni jedni na druge. Ova istraìvanja navo-dimo kao primjere mogu}e primjene Heapsova zakona, a nekao temeljna istraìvanja za ta podru~ja.

U lingvistici Heapsov zakon ima svoju primjenu u istra-ìvanju veli~ine vokabulara teksta (G. R. Turner, 2001.; P. Ba-tke), leksi~ke gusto}e i segmenata diskursa (J. Ure, 1971.; L. Y.L. Cheung i dr., 2001.; P. Batke) te topologije teksta (M. M. A.Juillard, N. X. Luong, 1996.). Svoju primjenu ~ini se da }e na}ii u istraìvanju podataka na web stranicama (J. C. French, 2002.)te istraìvanju veli~ine servera i broja HTML dokumenata (S.Sanguanpong, S. Warangrit, 2000.).

Nije te{ko pretpostaviti i druga podru~ja primjene ovogazakona: u kriptologiji i za{titi podataka. Ali i u rekonstrukcijidokumenata i korpusa dokumenata na raznim podru~jima:od arheologije i povijesti do kvantitativnih metoda za analizustila i vokabulara djela u knjièvnosti i lingvistici. Analiza vo-kabulara pojedinih struka ili socijalnih grupa moè biti zani-mljiva sociologiji, leksikologiji i kulturnoj politici. No isto ta-ko ra{~lamba i prepoznavanje osnovnoga vokabulara jezikasocijalnih grupa moè biti od koristi za sve one discipline kojekomuniciraju tekstom sa svim tim grupama – bilo u medijimaili u formalnim i neformalnim komunikacijama. Poznavanjerazvoja i rasta vokabulara teksta te segmenata od kojih se tekstili korpus tekstova sastoji moè biti od prakti~ne koristi i zarazvoj novih metoda i tehnika u~enja (stranih) jezika.247



Ovaj zakon zacijelo }e imati mnogo primjena, ali pret-hodno valja razumjeti njegovu prirodu i precizno odreditiparametre bez kojih se ne moè izra~unati veli~ina vokabu-lara teksta ili korpusa tekstova.

LITERATURABatke, P. The Philology and Philosophy Project. Methodology.http://www.princeton. edu/~batke/phph/meth/meth_wm1.htm

Carter, R. (1998.), Vocabulary. Applied Linguistic Perspectives. London:Routledge.

Cheung, L. Y. L., Lai, T. B. Y., Tsou, B. K., Chik, F. C. Y., Luk, R. W. P.,Kwong, O. Y. (2001.), A preliminary Study of Lexical Density for the De-velopment of XML-based Discourse Structure Tagger. 1st NLP and XMLWorkshop Tokyo, Nov. 2001.

Fang, A. C. (1997.), STRATA 4.0. Department of Phinetics and Lin-guistics, University College London. www.phon.ucl.ac.uk/home/alex/project/strata/strata.htm. (Last updated: 9 September 1997.)

French, J. C. (2002.), Modeling Web Data. Department of ComputerScience University of Virginia Charlotttesville, VA. Proceedings ofthe second ACM/IEEE-CS joint conference on Digital libraries, July14-18, 2002, Portland, Oregon, USA.

Gelbukh, A., Sidorov, G. (2001.), Zipf and Heaps' Laws Coefficients De-pends on Language. http://www.cic.ipn.mx/~gelbukh/CV/Publications/2001/CICLing-2001-Zipf.htm [03/19/2003]

Heaps H. S. (1978.), Information Retrieval: Computational andTheoretical Aspects. New York: Academic Press.

Heaps' Law. PlanetMath.Org.http://www.PlanetMathOrg\PlanetMathHeaps'law.htm

Juillard, M. M. A., Luong, N. X. (1996.), New maps of text: a new wayto account for the distribution of lexems in texts. In ALLC-ACH'96:157-158.

Klai}, B. (1978.), Rje~nik stranih rije~i. Zagreb: Matica Hrvatska.

Olui}-Vukovi}, V. (1999.), Vremenska komponenta u informetrijskim raz-diobama. Zagreb: Sveu~ili{te u Zagrebu, Filozofski fakultet, doktor-ska disertacija.

Rousseau, R. (1990.), Relations between continuous versions of bi-bliometric laws. Journal of the American Society for Information Science, 41(3): 197-203.

Sanguanpong, S., Warangrit, S. (2000.), Facts about the Thai Web. De-partment of Computer Engineering, Kasetsart University Bangkok,Thailand. Proceedings of National Computer Science and Engineer-ing Conference (NCSEC-2000, Bangkok), pp. 102-103.

Tu|man, M. (ur.) (2003.), Modeli znanja i obrada prirodnog jezika. Za-greb: Zavod za informacijske studije.

Tu|man, M., Nives, M., Boras, D. (2003.), Vocabulary size prediction ofCroatian texts. Proceedings of the 25th Int. Conf. Information Tech-nology Interfaces ITI 2003, June 16-19, Cavtat, Croatia.248

Tu|man, M., Boras, D., Mikeli}, N. (2004.), Heapsov zakon i odre|ivanjeveli~ine vokabulara tekstova na hrvatskom jeziku. Dokumentacija. Filo-zofski fakultet, Odsjek za informacijske znanosti, Zagreb.

Turner, G. R. (2001.), Relationship Between Vocabulary, Text Length andZipf's Law; http://www.btinternet.com/~g.r.turner/ZipfDoc.htm [02/20/2003]

Ure, J. (1971.), Lexical density and variety differentiation. U: G. Per-ren, J. Trim (ur.), Applications of Linguistics. Papers From the 2nd AILACongress. Cambridge: Cambridge University Press; str. 443-52.

Urzua, C. M. (2000.), A simple and efficient test for Zipf's law. Eco-nomics Letters, 66: 257-260.

The Text Vocabulary Size Law.Heaps' Law and Determining TextVocabulary Size in Croatian LanguageMiroslav TU\MANFaculty of Philosophy, Zagreb

The existing formula / Vr(n)=Knß / of Heaps' Law regarding thesize of a text's vocabulary is not universal, thus the law needs tobe redefined, in order to be used for analysis of a differentlanguage corpus. The analysis of a corpus of texts in the Cro-atian language confirms the hypothesis that the number offunctional items (F) in a text is constant and amounts to 21% ofthe size of the text n (there are 26% of functional items in Englishtexts). The author proves that the percentage of functional itemsin a text can be used as the value for the parameter K, and thatthe parameter K presents a constant value for every languagecorpus. Empirical research has confirmed the author's thesis thatthe number of functional items in a text can be calculated accor-ding to the formula F=nK/100, and that for the value of themost frequent item (MF) the formula MF=n(K/100)2 can be ap-plied. The value of the other parameter of Heaps' Law can alsobe accurately determined: ß=log K/100. The author thereforesuggests a new form of the text vocabulary size law: Vr(n)=(Kn)ß.The number of words appearing only once (HL) in the text can becalculated according to the formula: HL= ((Kn)/2)ß . Researchconfirms that there is a very high correlation between the calcu-lated and real values of the vocabulary size, i.e. between the realand calculated values of single words in the text. Interpreted anddefined in such a way, the law of the text vocabulary size enablesthe calculation of the text's vocabulary size in every language, ifthe percentage of constant functional words for this language isknown. However, this interpretation of the law enables, apartfrom determining the size of the text's vocabulary, also thecalculation of the number of functional items in the text, the sizeof the most frequent word in the text, and the number of singleitems comprising the text's vocabulary.249



Gesetz zur Bestimmungdes Wortschatzumfangs von Texten.Das Heaps'sche Gesetz und dieBestimmung der Wortschatzgrößein kroatischen TextenMiroslav TUÐMANPhilosophische Fakultät, Zagreb

Die bestehende Formel / Vr(n)=Knß / des Heaps'schenGesetzes zur Bestimmung des Wortschatzumfangs von Textenhat keine universale Gültigkeit, sodass das Gesetz, soll es zurTextkorpusanalyse in verschiedenen Sprachen angewandtwerden, redefiniert werden muss. Die Analyse vonTextkorpora in kroatischer Sprache bestätigt die Hypothese,dass die Zahl funktionaler Wörter (F) in einem Text konstantist und 21% der Größe eines Textes n ausmacht (inenglischen Texten beträgt die Zahl funktionaler Wörter 26%).Der Verfasser weist nach, dass der in einem Text vertreteneProzentsatz funktionaler Wörter als Wertangabe für denParameter K benutzt werden kann und dass der Parameter Keinen gleichbleibenden Wert für jedes sprachliche Korpusdarstellt. Empirische Forschungen bestätigen die These desVerfassers, dass die Zahl funktionaler Wörter in einem Textmit der Formel F = nK/100 errechnet werden kann, dasswiederum für die Größe der häufigsten Wörter (MF) dieFormel MF = n(K/100)2 gilt. Der zweite Parameter desHeaps'schen Gesetzes kann ebenfalls genau bestimmtwerden: ß = log K/100. Der Verfasser schlägt daher vor, dasHeaps'sche Gesetz in neuer Form zu bestimmen:Vr(n) = (Kn)ß. Die Zahl der nur einmal im Textvorkommenden Wörter (HL) kann anhand der folgendenFormel errechnet werden: HL = ((Kn)/2)ß. Forschungen habenbestätigt, dass die errechneten und die wirklichen Werte desVokabularumfanges, bzw. dass die wirklichen und dieerrechneten Werte von einmalig vorkommenden Wörtern ineinem Text in hohem Maße miteinander korrelieren. Einsolchermaßen interpretiertes und definiertes Gesetz zurBestimmung des Wortschatzumfangs ermöglicht uns, denWortschatzumfang eines Textes in jeglicher Spracheauszurechnen, hat man erst einmal den Prozentsatzfunktionaler Wörter, der für die betreffende Sprachegleichbleibend ist, erstellt. Des Weiteren ermöglicht dieseInterpretation des Heaps'schen Gesetzes, die Zahl derfunktionalen Wörter, den Umfang der am häufigstenvertretenen Wörter sowie die Zahl der einmaligvorkommenden Wörter in einem Text zu bestimmen.



250

Documents

ZAKON O VELI^INI Heapsov zakon i odre|ivanje veli~ine