7
BELE@ENJE IN PRIKAZOVANJE PODATKOV O JEZIKOVNI RABI: OD LEKSIKALNE BAZE DO SPLETNEGA SLOVARJA Polona Gantar In{titut za slovenski jezik Frana Ramov{a, ZRC SAZU, Ljubljana Iztok Kosem Trojina, zavod za uporabno slovenistiko, Ljubljana UDK 81’27:81’322:81’374 V prispevku obravnavamo postopek pridobivanja in slovarskega prikazovanja podatkov o rabi besed oz. pomenov v razli~nih govornih polo`ajih, ki jih narekujejo realne sporo~anjske situacije. Najprej opi{emo na~in bele`enja in prikazovanja tovrstnih podatkov v predkorpusnih slovarjih, nato pa prika`emo spremenjene okoli{~ine bele`enja jezikovne rabe, ki so posledica analize obse`nih besedil- nih korpusov, avtomatizacije leksikografskih postopkov, predhodne izdelave slovarskih baz in prenosa slovarske informacije na splet. Zadnji del prispevka je namenjen opisu postopka pridobivanja podatkov iz referen~nega korpusa Gigafida, s poudarkom na avtomatizaciji ter na~inu bele`enja in strukturiranja tovrstnih podatkov v Leksikalni bazi za sloven{~ino. kvalifikatorji, oznake, avtomatizacija leksikografskih postopkov, korpusna leksikografija This paper deals with the extraction, recording and visualisation of information related to usage of words or their meaning(s) in different communication situations. First, methods of recording and visualising word usage information in non-corpus-based dictionaries are discussed. Then, new trends and approaches to recording word usage are presented, based on analyses of large corpora, automated lexicographic procedures, building of dictionary databases and subsequent transfer of dictionary infor- mation to the the internet. We then present the process of usage data extraction from the Gigafida corpus for the purposes of the Slovene Lexical Database, focussing on automatic methods used, and ways of recording and structuring usage information. qualifiers, labels, automating lexicographic work, corpus lexicography 1 Uvod Pojasnila o tem, kako je besedo, zvezo ali posamezni pomen smiselno rabiti v besedilu glede na to, katere slovni~ne omejitve pred- videva, na katerem strokovnem podro~ju se rabi, kak{en odnos do vsebine ali udele`en- cev izra`a, na katero ~asovno obdobje, bese- dilni tip, regionalne ali kulturolo{ke poseb- nosti je vezana, se v slovarjih navajajo v obliki kraj{ih pojasnil, kot so kvalifikatorji, kvalifikatorska pojasnila ali oznake. Ta poja- snila pa so lahko zajeta tudi v razlage ali druge segmente geselskih ~lankov, kar po- meni, da se od preostalih delov oblikovno ne lo~ijo. Za na{ prispevek je pomembno, da ostajajo v slovarjih, ki so zasnovani za spletni medij, ti podatki pri~akovani del informacije. V nadaljevanju najprej opi{emo bele`enje jezikovne rabe v slovarjih predkorpusnega obdobja, ki niso nastajali na podlagi vnaprej strukturiranih slovarskih baz in so bili pre- te`no vezani na knji`ne izdaje. V slovenskem prostoru sta taka Slovar slovenskega knji- `nega jezika (SSKJ) in njegov naslednik Slovar novej{ega besedja slovenskega jezika (2012; SNB). Nato na kratko predstavimo prenovljeno slovarsko situacijo, ki jo dolo- ~ajo obse`ne elektronske besedilne zbirke, in tipe oznak, ki smo jih uporabili v Leksikalni bazi za sloven{~ino (LBS), izdelani pri Simpozij OBDOBJA 32 133

BELE@ENJE IN PRIKAZOVANJE PODATKOV O JEZIKOVNI RABI: … · 2016. 1. 4. · BELE@ENJE IN PRIKAZOVANJE PODATKOV O JEZIKOVNI RABI: OD LEKSIKALNE BAZE DO SPLETNEGA SLOVARJA Polona Gantar

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • BELE@ENJE IN PRIKAZOVANJE PODATKOV O JEZIKOVNI RABI:OD LEKSIKALNE BAZE DO SPLETNEGA SLOVARJA

    Polona GantarIn{titut za slovenski jezik Frana Ramov{a, ZRC SAZU, Ljubljana

    Iztok KosemTrojina, zavod za uporabno slovenistiko, Ljubljana

    UDK 81’27:81’322:81’374

    V prispevku obravnavamo postopek pridobivanja in slovarskega prikazovanja podatkov o rabibesed oz. pomenov v razli~nih govornih polo`ajih, ki jih narekujejo realne sporo~anjske situacije.Najprej opi{emo na~in bele`enja in prikazovanja tovrstnih podatkov v predkorpusnih slovarjih, nato paprika`emo spremenjene okoli{~ine bele`enja jezikovne rabe, ki so posledica analize obse`nih besedil-nih korpusov, avtomatizacije leksikografskih postopkov, predhodne izdelave slovarskih baz in prenosaslovarske informacije na splet. Zadnji del prispevka je namenjen opisu postopka pridobivanja podatkoviz referen~nega korpusa Gigafida, s poudarkom na avtomatizaciji ter na~inu bele`enja in strukturiranjatovrstnih podatkov v Leksikalni bazi za sloven{~ino.

    kvalifikatorji, oznake, avtomatizacija leksikografskih postopkov, korpusna leksikografija

    This paper deals with the extraction, recording and visualisation of information related to usage ofwords or their meaning(s) in different communication situations. First, methods of recording andvisualising word usage information in non-corpus-based dictionaries are discussed. Then, new trendsand approaches to recording word usage are presented, based on analyses of large corpora, automatedlexicographic procedures, building of dictionary databases and subsequent transfer of dictionary infor-mation to the the internet. We then present the process of usage data extraction from the Gigafida corpusfor the purposes of the Slovene Lexical Database, focussing on automatic methods used, and ways ofrecording and structuring usage information.

    qualifiers, labels, automating lexicographic work, corpus lexicography

    1 Uvod

    Pojasnila o tem, kako je besedo, zvezo aliposamezni pomen smiselno rabiti v besediluglede na to, katere slovni~ne omejitve pred-videva, na katerem strokovnem podro~ju serabi, kak{en odnos do vsebine ali udele`en-cev izra`a, na katero ~asovno obdobje, bese-dilni tip, regionalne ali kulturolo{ke poseb-nosti je vezana, se v slovarjih navajajo vobliki kraj{ih pojasnil, kot so kvalifikatorji,kvalifikatorska pojasnila ali oznake. Ta poja-snila pa so lahko zajeta tudi v razlage alidruge segmente geselskih ~lankov, kar po-meni, da se od preostalih delov oblikovno nelo~ijo. Za na{ prispevek je pomembno, da

    ostajajo v slovarjih, ki so zasnovani za spletnimedij, ti podatki pri~akovani del informacije.

    V nadaljevanju najprej opi{emo bele`enjejezikovne rabe v slovarjih predkorpusnegaobdobja, ki niso nastajali na podlagi vnaprejstrukturiranih slovarskih baz in so bili pre-te`no vezani na knji`ne izdaje. V slovenskemprostoru sta taka Slovar slovenskega knji-`nega jezika (SSKJ) in njegov naslednikSlovar novej{ega besedja slovenskega jezika(2012; SNB). Nato na kratko predstavimoprenovljeno slovarsko situacijo, ki jo dolo-~ajo obse`ne elektronske besedilne zbirke, intipe oznak, ki smo jih uporabili v Leksikalnibazi za sloven{~ino (LBS), izdelani pri

    Simpozij OBDOBJA 32

    133

  • projektu Sporazumevanje v slovenskem je-ziku.1 Posebej izpostavimo prednosti avtoma-tizacije leksikografskih postopkov na prehoduiz korpusa v slovarsko bazo ter razli~ne mo`no-sti posredovanja podatkov o jezikovni rabiuporabniku, ki jih omogo~a spletni medij.

    2 Bele`enje jezikovne rabe

    2.1 Kategorizacija oznak v predkorpusnihslovarjih

    Predkorpusni slovarji so temeljili na ro~nianalizi obse`nih listkovnih datotek, saj karto-tek ni bilo mogo~e ra~unalni{ko urejati gledena besedilni tip, slovni~no omejitev, prefe-renco dolo~enega skladenjskega vzorca, pod-ro~je rabe ipd. Zato je bilo dolo~anje rabebesed, zvez in pomenov z vidika omenjenihposebnosti ne le zamudno, ampak tudi bolj alimanj prepu{~eno intuiciji leksikografov.

    Gradivo za izdelavo SSKJ predstavlja list-kovna kartoteka, ki je ob koncu izdelavevsebovala {tiri milijone izpisov (Müller 2009:17, 22). Kvalifikatorjev in kvalifikatorskihpojasnil, ki dolo~ajo normo knji`nega jezikaoz. opozarjajo na razmerje do nje, je ve~ vrstin so podrobno opisani v Uvodu (str. XVIII–XXII). V pregledu kriti~nih odzivov na SSKJ(Kr`i{nik 2004; Logar Berginc 2000/01;Müller 2009: 18) je v zvezi s kvalifikatorjiizpostavljeno, da so potrebni »sistemske indistribucijske preureditve in prevetritve«(Müller 2009: 18), v zvezi s slovni~nimi kva-lifikatorji, zlasti pri preverjanju njihoverazumljivosti pri {olski populaciji (Rozman2010), pa je bilo ugotovljeno, da je sistemprikazovanja prezahteven in zato pogostokratza uporabnika nerazumljiv ali celo zavaja-jo~.2

    Pribli`no 20 let pozneje je z namenomprese~i obdobje, ko slovenska leksika ni bila

    popisana v slovarju, iz{el SNB. ^eprav te-melji na korpusu Nova beseda,3 preglednekaterih razmeroma pogostih besed (npr.biatlonka, bluetooth, bedno)4 v korpusuGigafida5 in njihova odsotnost v SNB poka-`eta neprimernost uporabljenega korpusa zaizdelavo sodobnega slovarja (prim. tudi Lo-gar Berginc 2009: 157). Kvalifikatorji so vSNB glede na SSKJ deloma preurejeni inprina{ajo nekatere premike v pravo smer.Taka je na primer kombinacija kvalifikatorja»`argonsko« s terminolo{kim kvalifikato-rjem, npr. film. `arg. – filmski `argon, inpremik v kvalifikatorska pojasnila tipa »zlastiv spro{~enem o`jem krogu«, ki dopolnjujepogosto nejasen ali neustrezen kvalifikator»pogovorno«, npr. za hostel, bar koda,nacionalka, ki glede na kontekst in besedilnookolje take zaznamovanosti ne ka`ejo. Medpomanjkljivosti sodi tudi uporaba kvalifika-torja »ekspresivno«, zlasti tedaj, ko bi bilapotrebna jasnej{a opredelitev »~ustvene za-znamovanosti«, npr. pri balkanec, govejaglasba, oz. odsotnost kakr{nekoli opredelitvepri besedah, kot so: googlati, googlanje ipd.

    2.2 Bele`enje jezikovne rabe v obdobjupospe{enega razvoja jezikovnih tehnologij

    V obdobju zadnjih nekaj let so se slo-varske informacije preselile na splet, kjerpostajajo del celovite jezikovne podpore zarazli~ne profile uporabnikov. Sodobni slovarima glede na slovarske priro~nike v knji`niobliki ve~ prednosti. Kot kon~ni izdelek jepredviden za pregledovanje na spletu oz. narazli~nih mobilnih napravah (Lorentzen,Theilgaard 2012). Da je kot spletni priro~nikzasnovan `e v izhodi{~u, je pomembno z ve~vidikov, izpostaviti pa je mogo~e neomeje-nost s prostorom, vklju~evanje ve~je koli~ineinformacij, razli~ne iskalne mo`nosti,

    Simpozij OBDOBJA 32

    134

    1 Projekt financira Evropska unija iz Evropskega socialnega sklada ter Ministrstvo za izobra`evanje, zna-nost in {port, http://projekt.slovenscina.eu/Vsebine/Sl/Domov/Domov.aspx.

    2 Npr. oznaka »nedov.« za ,nedovr{no’, razumljena tudi kot ,nedovoljeno’ (Rozman idr. 2010: 208).3 Sestava geslovnika temelji na zbirki novej{ega besedja, ki je nastala pri projektu Novej{a slovenska

    leksika (v povezavi s spletnimi jezikovnimi viri) in na korpusu Nova beseda (SNB Uvod: 9).4 V Gigafidi imajo vse tri besede ve~ kot 2100 pojavitev.5 http://demo.gigafida.net

  • hiperpovezave, vklju~itev multimedije, rednoposodabljanje ter prilagodljivost prikazainformacij.

    Poleg omenjenih lastnosti je spletnim slo-varjem skupno tudi to, da temeljijo na elek-tronskih slovarskih podatkovnih bazah, ki sostrukturirane tako, da je podatke mogo~e v~im ve~ji meri pridobivati avtomatsko, jihurejati in povezovati z drugimi podatkovnimibazami in uporabljati za nadaljnje jeziko-slovne analize, hkrati pa jih izrabljati tudi vjezikovnotehnolo{ke namene. Kot primeredobre prakse lahko omenimo DANTE, leksi-kalno bazo za angle{~ino,6 Splo{ni nizozem-ski slovar (Algemeen Nederlands Woorden-boek),7 leksikalno podatkovno bazo zafranco{~ino (Base lexicale du français)8 inVeliki slovar poljskega jezika (Wielki s³ow-nik jêzyka polskiego).9

    Ena od zna~ilnosti takih slovarskih baz je,da vsebujejo ve~ informacij, kot se jih dejan-sko prikazuje v slovarju. Sem sodi tudibele`enje jezikovne rabe v obliki oznak, kjerje med prednostmi, ki jih leksikografom po-nuja slovarska baza, mogo~e izpostaviti zlastifleksibilnost in iz~rpnost pri njihovem opisuin kategorizaciji. Fleksibilnost se ka`e vmo`nosti raz{iritve prvotnega nabora oznak

    in relativne svobode pri njihovi ubeseditvi,saj se leksikografu ni treba togo dr`ati sezna-ma, ~e realna jezikovna raba sugerira dolo-~ene posebnosti. To sicer ne velja v enakimeri za vse tipe oznak, ampak predvsem zatiste, kjer jezikovna raba niha in ka`e razli~nepomenske, stilne, pragmati~ne in druge ome-jitve, ki jih je te`ko ustrezno zajeti z vnaprejdolo~enimi kategorijami.

    Ko govorimo o iz~rpnosti, imamo v mi-slih te`njo, da se v fazi izdelave slovarskebaze jezikovna raba opi{e ~im bolj podrobno,in sicer ne glede na to, kako in ~e sploh bodoti opisi predstavljeni v slovarju. Na ta na~inleksikograf opozori na posebnost v jezikovnirabi, odlo~itev o tem, ali in v kak{ni obliki sebo podatek prenesel v slovar, pa je stvarkon~ne redakcije in na~ina njihove predsta-vitve. Primer tega je slovarska baza, na katerinastaja Splo{ni nizozemski slovar, kjer jebele`enje podro~nih oznak zelo podrobno inpoteka na ve~ ravneh: geslo qualifier (,kvali-fikant’), kot prikazuje Slika 1, ima oznako{port, ki je lahko {e podrobneje ~lenjena, npr.badminton, biljard, hkrati pa so navedenetudi nadkategorije, npr. {port z `ogo, dvo-ranski {port ipd.

    Slika 1: Del gesla qualifier v slovarski bazi ANW

    Podrobno bele`enje oznak ne ponujaprednosti le leksikografom, temve~ tudi slo-varskim uporabnikom, saj lahko na podlagipodrobne kvalifikacije leksike v slovarski

    bazi, ki ni nujno prikazana tudi v slovarju,omogo~imo razli~na napredna iskanja. Kotprimer navajamo spletni enojezi~ni angle{kislovar Oxford,10 ki omogo~a napredno

    Simpozij OBDOBJA 32

    135

    6 http://www.webdante.com7 http://anw.inl.nl8 http://ilt.kuleuven.be/blf9 http://www.wsjp.pl

    10 Slovar je dostopen na spletni strani: http://oxforddictionaries.com.

  • iskanje po 15 razli~nih strokovnih podro~jih s{tevilnimi podpodro~ji, kot prikazuje Slika 2.Uporabnik lahko na ta na~in poi{~e vsa gesla,ki vsebujejo pomene oz. podpomene z dolo-~eno podro~no oznako.

    Slika 2: Napredno iskanje po strokovnem podro~juv slovarju Oxford

    Pri posameznem (pod)podpomenu se vposebnem oken~ku izpi{ejo tudi druge v baziobstoje~e kategorije, ki uporabnika opozar-jajo na (pod)pomene ali besede sorodnihkategorij, kot prikazuje Slika 3.

    3 Oznake v leksikalni bazi za sloven{~ino(LBS)

    V LBS smo jezikovno rabo bele`ili vobliki oznak, za katere smo predvidevali, dajih bo v spletni verziji slovarja mogo~e pri-kazovati v obliki kraj{ih, uporabniku ~im boljrazumljivih opozoril, in kot del stav~nihrazlag. Tako prakso poznajo zlasti slovarji,namenjeni u~enju tujega jezika, ki ve~inopragmati~nih in skladenjskih elementov po-mena vklju~ujejo neposredno v razlago,11

    zaradi ~esar uporabnik la`je uzavesti rabobesede ali njenega pomena (Barnbrook 2002:178). Podobne ugotovitve veljajo za navaja-nje slovni~nih podatkov, saj ti pogosto zaradiprezahtevnega metajezika ali kraj{anj nedose`ejo uporabnikov oz. jih uporabnikinajve~krat ignorirajo (Cowie 1981: 206;Summers 1987: F8). Pri bele`enju podatkov ojezikovni rabi v slovarski bazi smo zatosledili na~elu sprotnega oblikovanja in ube-sedenja oznak, kategorizacijo in poenotenjepa smo, kjer je bilo to smiselno, opravili obzaklju~ni redakciji.

    Najve~ besedi{~a je v LBS ozna~enegaglede na strokovno podro~je rabe, kjer smopredvideli seznam podro~ij na podlagi ob-stoje~ih taksonomij, hkrati pa smo podro~jadodali, ~e se je ob pomenski analizi pokazalataka potreba.

    Poleg podro~nih smo na ravni baze pred-videli tudi t. i. kontekstualne oznake, ki sonamenjene ozna~evanju omejitve rabe bese-de, zveze ali pomena na dolo~en diskurz alibesedilni tip, vendar se je pokazalo, da je nanekaterih podro~jih, zlasti {portnem, poli-ti~nem, v ra~unalni{tvu ipd., te`ko lo~evatimed strokovno rabo besede ali pomena in

    Simpozij OBDOBJA 32

    136

    11 V zvezi s tem je bila dana pobuda za stav~no razlaganje ~lenkov (Müller 2009: 105) v novem slovarjuslovenskega jezika, kjer naj se razlag ne bi ve~ lo~evalo od kvalifikatorskih pojasnil, ampak bi se vsapojasnila oz. t. i. situativna semantika vklju~ila v razlago.

  • vezanostjo na besedila z dolo~eno tematiko,npr. kloniti – v {portu ,izgubiti tekmo’; bob-nati – v politi~nem kontekstu ,veliko govo-riti’.

    Stilne oznake smo v LBS lo~ili na (a)registrske oznake za ozna~evanje rabe besedeoz. pomena, glede na vrsto sporo~anjskesituacije, npr. v neformalnih govornih situaci-jah (kasirati), ali besedi{~a, ki ga uporabljajosamo dolo~ene skupine govorcev, npr. mla-dostniki (ke{), ali ki se uporablja v govoru zotroki (ritka), in na (b) konotacijske oznake,s katerimi smo ozna~evali rabo besede oz.pomena glede na konotativne pomenskelastnosti, kot je odnos govorca do sogovorca,vsebine besedila ipd. Skupni oznaki, kot jenpr. »ekspresivno« v SSKJ in SNB, smo sezaradi premajhne obvestilnosti odpovedali inraje uporabljali kraj{e opise, s katerimi smosku{ali natan~neje zajeti vrsto konotacije,npr. kli{e – z negativnim vrednotenjem ,vzo-rec; ponavljanje’.

    Pri glagolskih pomenih, zlasti pa pri fra-zeolo{kih enotah smo uporabljali t. i. prag-mati~ne oznake, s katerimi smo opozorili narabo besede v posebni vlogi, vezani na sporo-~anjsko situacijo, kot je npr. pozdrav, opozo-rilo, izraz odobravanja ipd., sicer pa smotovrstne podatke vklju~evali v t. i. pomenskesheme ali razlage. Prav tako smo v pomenskiopis vklju~evali podatek o tipi~ni skladenjskirabi posameznega pomena, npr. aktiven –,dejaven’: ~lovek je aktiven na nekem podro-~ju ali v neki dejavnosti, ~e se vanjo vklju~uje

    in pri njej redno sodeluje. Z implicitnimnavajanjem tovrstnih podatkov smo `eleli priuporabniku uzavestiti tipi~no skladenjskorabo na na~in, ki najbolje odra`a dejanskostanje, kar je zlasti pomembno pri u~enjusloven{~ine kot tujega jezika in pri {olskihuporabnikih.

    3.1 Avtomatizacija in objektivizacijabele`enja jezikovne rabe

    Novi trendi v leksikografiji, ki jih dolo-~ajo velike koli~ine jezikovnih podatkov inprenos slovarskih informacij na splet, v velikimeri spreminjajo na~in izdelave in podoboslovarjev. Leksikografi, ki svoje delo oprav-ljajo v digitalnem okolju, i{~ejo re{itve, ki biv enaki meri upo{tevale relevantnost in kre-dibilnost leksikalnih informacij ter mo`nostiza optimizacijo in racionalizacijo leksiko-grafskega dela. Ena od re{itev je ~im ve~jaavtomatizacija rutinskih leksikografskih po-stopkov, ki je neposredno povezana s prihran-kom ~asa in denarja. Rundell in Kilgarriff(2011) pri razmi{ljanju o mo`nostih avtoma-tizacije razli~nih segmentov leksikografskegadela med drugim izpostavita, da je o avto-matskem bele`enju oznak treba razmi{ljati `ev ~asu gradnje korpusa (prim. Kosem 2011).Eden od na~inov avtomatskega lu{~enjaoznak je namre~ izdelava podkorpusov bese-dil, ki se uvr{~ajo pod obseg dolo~ene ozna-ke, npr. za dolo~eno strokovno podro~je,regijo ali ~asovno obdobje. Leksika, ki sepojavlja ve~inoma ali izklju~no v besedilih

    Simpozij OBDOBJA 32

    137

    Slika 3: Informacija o kategorijah (Categories) pri dolo~enem pomenu v slovarju Oxford

  • katerega od podkorpusov, pridobi tudi z njimpovezano oznako.

    Nekoliko druga~en pristop zahteva avto-matsko lu{~enje slovni~nih oznak, ki smo gapreizkusili v zaklju~ni fazi izdelave LBS.Postopek je bil primarno namenjen lu{~enjuslovni~nih relacij, kolokacij in z njimi pove-zanih zgledov iz korpusa neposredno v pro-gramski vmesnik LBS (Kosem idr. 2011),hkrati pa smo na ta na~in pridobili tudipodatke o jezikovni rabi. Na eni strani gre zainformacije, ki leksikografa opozarjajo natipi~no sopojavljanje dane besede s {tevili(finalist), koli~inskimi izrazi (denar) ali last-nimi imeni (mesto), tipi~no pojavljanje v po-vratnih se/si-stav~nih konstrukcijah (izvoliti),v nedolo~niku (bla`iti) in v zvezi z glagolombiti (v{e~). Na drugi strani pa za informacije,ki jih je mogo~e neposredno prepisati v slo-varske oznake, npr. tipi~no v 3. os. (boleti),navadno v mno`ini (katakomba), pogostozanikano (nakloniti) ipd.

    Tovrstne informacije smo iz korpusa pri-dobili prek gramati~nih relacij v slovnicibesednih skic v orodju Sketch Engine, kjerposamezno relacijo v osnovi sestavljajo trijeelementi: (procesna) direktiva, ki dolo~a tipodnosa v relaciji, ime in poizvedba (Krek2010). Znotraj poizvedbe je mogo~e skla-denjske odnose definirati glede na en samelement, ki izpostavlja en pojav v odnosu dovseh ostalih elementov v korpusu. Za namenepridobivanja slovni~nih oznak je glede napoizvedbo – tj. besedo v izto~nici – mogo~etako pridobiti podatek o tem, da je nek pojav,npr. mno`inska oblika, sopojavljanje s koli-~inskimi izrazi ipd., statisti~no izstopajo~.Pomembna odlo~itev pri lu{~enju slovni~nihoznak je vezana na statisti~no mejo, pri katerise posamezni izto~nici pripi{e oznaka. Kotponazarjata Rundell in Kilgarriff (2011), jeodstotkovno mejo mogo~e dolo~iti glede narazmerje pojavitev v dolo~eni obliki do vsehpojavitev, npr. izto~nica se mora pojaviti vmno`inski obliki v X odstotkih, da se ji pri-pi{e oznaka navadno v mno`ini, temu pa je popotrebi mogo~e dodati {e merilo, ki dolo~e-

    nemu odstotku tako izbranih izto~nic pripi{eoznako v slovarju.

    4 Zaklju~ek

    Podatki, ki besede, njihove variante alipomene opredeljujejo z vidika slovni~nih,stilisti~nih, pragmati~nih, podro~nih, ~asov-nih, regionalnih, registrskih in drugih ome-jitev, ostajajo ena klju~nih informacij vslovarjih tudi v ~asu, ko se slovarske vsebineselijo na splet in postajajo sestavni del celost-nih jezikovnopriro~ni{kih portalov. Obse`nikorpusi in napredna orodja za njihovo analizona eni strani ter oblikovanje predhodnih slo-varskih baz z mo`nostjo avtomatiziranjapostopkov pridobivanja podatkov, njihovegaurejanja ter procesiranja na drugi so v temeljuspremenili na~ine bele`enja in prikazovanjainformacij o jezikovni rabi. Ro~no pregle-dovanje velike koli~ine podatkov, sledenjeintuiciji in vnaprej dolo~enim seznamomkategorij so nadomestili postopki avtomati-zacije zlasti pri prepoznavanju slovni~nihomejitev besed in pri prepoznavanju njiho-vega tipi~nega pojavljanja na dolo~enem stro-kovnem podro~ju. Bele`enje rabe, ki senana{a na stilisti~ne, pragmati~ne in drugepomensko specifi~ne posebnosti sicer ostajav pristojnosti leksikografske analize, vendarpa elektronske leksikalne baze, iz katerihizhajajo kon~ni slovarski produkti, ponujajovrsto prednosti tako v na~inu bele`enjatovrstnih podatkov kot v mo`nostih njihovegaurejanja. Podatke je v bazi mogo~e kadarkolipoenotiti, opustiti ali pa uporabiti za zdru-`evanje besedi{~a s sorodnimi stilisti~nimi,pragmati~nimi in drugimi pomenskimi last-nostmi. Podlaga, ki jo imajo spletni slovarji vslovarskih bazah, omogo~a tudi razli~nemo`nosti kon~nega, slovarskega prikazovanjapodatkov o jezikovni rabi. Ker vsebujejopodrobne, za posamezne besede in pomenespecifi~ne opise, jih je ob prenosu v slovarmogo~e vizualizirati na razli~ne na~ine:eksplicitno v obliki kratkih in razumljivih po-jasnil, npr. koketiranje – v politi~nem dis-kurzu medsebojno povezovanje, in implicitno

    Simpozij OBDOBJA 32

    138

  • znotraj stav~no strukturiranih slovarskihrazlag, ki uporabniku omogo~ajo uzave{~anjeinformacije na na~in, ki ga pozna iz vsako-dnevne komunikacije oz. ki je za pripadnikedolo~ene jezikovne skupnosti najbolj nara-ven, npr. komentar – ~e da ^LOVEK komen-tar na nek DOGODEK, SITUACIJO aliTEMO, izrazi o tem svoje mnenje.

    LiteraturaBARNBROOK, Geoff, 2002: Defining language:

    A local grammar of definition sentences. Stu-dies in Corpus Linguistics. Amsterdam: JohnBenjamins Publishing Company.

    BIZJAK, Aleksandra, SNOJ, Marko (ur.), 2012:Slovar novej{ega besedja slovenskega jezika.Ljubljana: Zalo`ba ZRC, ZRC SAZU.

    COWIE, Anthony, 1981: Introduction to specialissue on pedagogical dictionaries. Applied Lin-guistics 2/3. Oxford: Oxford University Press.

    KOSEM, Iztok, 2011: Prihodnost leksikografije:dinami~ni slovar. Marko Jesen{ek (ur.): Izzivisodobnega slovenskega slovaropisja. Maribor:Mednarodna zalo`ba Oddelka za slovanskejezike in knji`evnosti, Filozofska fakulteta.38–48.

    KOSEM, Iztok, GANTAR, Polona, KREK,Simon, 2012: Avtomatsko lu{~enje leksikalnihpodatkov iz korpusa. Toma` Erjavec, Jerneja@ganec Gros (ur.): Zbornik osme konferenceJezikovne tehnologije, 8. do 12. oktober 2012,Ljubljana, Slovenija: zbornik 15. mednarodnemultikonference Informacijska dru`ba – IS2012, zvezek. Ljubljana: Institut Jo`ef Stefan.117–122.

    KREK, Simon, 2010: Pridobivanje jezikovnihpodatkov iz besedilnih korpusov za namenizdelave enojezi~nih slovarjev in slovnic.Doktorska disertacija. Ljubljana: Filozofskafakulteta.

    KR@I[NIK, Erika, 2004: Dolo~anje jezikovno-in/ali besedilnozvrstne zaznamovanosti v fra-zeologiji. Erika Kr`i{nik (ur.): Aktualizacijajezikovnozvrstne teorije na Slovenskem: ~leni-tev jezikovne resni~nosti. Obdobja 22. Ljub-ljana: Center za sloven{~ino kot drugi/tujijezik pri Oddelku za slovenistiko Filozofskefakultete. 103–120.

    LOGAR BERGINC, Nata{a, 2000/01: Kvalifika-tor ekspr. v Slovarju slovenskega knji`negajezika na ravni frazeologije. Jezik in slovstvo46/4. 137–148.

    LOGAR BERGINC, Nata{a, 2009: O dveh znan-stvenomonografskih leksikalnih seznamih:Alenka Glo`an~ev, Primo` Jakopin, MijaMichelizza, Lu~ka Ur{i~, Andreja @ele: No-vej{a slovenska leksika (v povezavi s spletnimijezikovnimi viri). Ljubljana: Zalo`ba ZRC,ZRC SAZU, 2009. Jezik in slovstvo 54/3–4.153–159.

    LORENTZEN, Henrik, THEILGAARD, Liisa,2012: Online dictionaries – how do users findthem and what do they do once they have?R. Vatvedt Fjeld, J. M. Torjusen (ur.): Proceed-ings of the 15th EURALEX InternationalCongress, Oslo, 7–11 August 2012. Oslo:University of Oslo, Department of Linguisticsand Scandinavian Studies. 654–660.

    MÜLLER, Jakob, 2009: Kriti~ne misli in zamisli oSSKJ. Andrej Perdih (ur.): Strokovni posvet oslovarju slovenskega jezika, 23. in 24. oktober2008. Ljubljana: Zalo`ba ZRC, ZRC SAZU.17–20 (25).

    ROZMAN, Tadeja, 2010: Vloga enojezi~nega raz-lagalnega slovarja sloven{~ine pri razvojujezikovne zmo`nosti. Doktorska disertacija.Ljubljana: Filozofska fakulteta.

    ROZMAN, Tadeja, STRITAR, Mojca, KRAP[VODOPIVEC, Irena, KOSEM, Iztok, KREK,Simon, 2010: Nova didaktika pou~evanja slo-venskega jezika: sporazumevanje v slovenskemjeziku. Ljubljana: Ministrstvo za {olstvo in{port, Amebis. www.slovenscina.eu/Media/Kazalniki/Kazalnik15/Nova_didaktika_Sporazumevanje.pdf.

    RUNDELL, Michael, KILGARRIFF, Adam,2011: Automating the creation of dictionaries:where will it all end? F. Meunier, S. De Cock,G. Gilquin, M. Paquot (ur.): A Taste for Cor-pora. A tribute to Professor Sylviane Granger.Benjamins. 257–281.

    Slovar slovenskega knji`nega jezika (1970–1991/spletna razli~ica 2000): http://bos.zrc-sazu.si/sskj.html. Ljubljana: Zalo`ba ZRC, ZRCSAZU.

    SUMMERS, D., 1987: Introduction to LDOCE2.Harlow: Longman.

    Simpozij OBDOBJA 32

    139