32
Avtomatsko indeksiranje 1 Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod.

Avtomatsko indeksiranje 1

  • Upload
    sienna

  • View
    35

  • Download
    0

Embed Size (px)

DESCRIPTION

Avtomatsko indeksiranje 1. Poizvedovanje po dokumentih, ročno vs. avtomatsko indeksiranje, uvod v statistične metode avtom. indeksiranja, krnjenje - uvod. Reference vs. dokumenti. V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije. - PowerPoint PPT Presentation

Citation preview

Page 1: Avtomatsko indeksiranje 1

Avtomatsko indeksiranje 1

Poizvedovanje po dokumentih,

ročno vs. avtomatsko indeksiranje,

uvod v statistične metode avtom. indeksiranja,

krnjenje - uvod.

Page 2: Avtomatsko indeksiranje 1

Reference vs. dokumenti

V večini klasičnih tekstovnih zbirk je iskanje informacij v resnici iskanje referenc na informacije.

Za izpolnitev informacijske potrebe potrebujemo dokument in ne referenco nanj.

Bibliografska podatkovna zbirka je oddaljen približek informacijskega orodja, ki ga potrebujemo.

Page 3: Avtomatsko indeksiranje 1

Razlogi za prevlado referenčnih zbirk

Majhna zmogljivost računalnikov v času razvoja prvih bibliografskih zbirk.

Pobudniki razvoja zbirk sami raziskovalci in ne informatiki.

Raziskovalci poznali od informacijskih orodij le kartične kataloge.

Bibliografska zbirka je v osnovi kartični katalog na elektronskem mediju.

Page 4: Avtomatsko indeksiranje 1

Kritika deskriptorskih sistemov (1/4)

Bibliografska zbirka kot moderniziran kartični katalog je dokončno uveljavila deskriptorski način opisovanja vsebine.

Kritike so se osredotočale na: ceno intelektualnega dela, zamudnost indeksiranja.

Kritike deskriptorskih sistemov so redko podvomile v ustreznost pristopa nasploh. Izjema Cleverdon (1984).

Page 5: Avtomatsko indeksiranje 1

Kritika deskriptorskih sistemov (2/4)

Cyril W. Cleverdon (1984): Če dve skupini strokovnjakov gradita tezaver za neko

strokovno področje, se ujema samo 60% deskriptorjev, če dva izkušena indekserja indeksirata isti dokument in

uporabljata isti tezaver, določita samo 30% istih deskriptorjev,

če naredita dva informacijska posrednika poizvedbo na isto temo v isti podatkovni zbirki, je med zadetki samo 40% istih bibliografskih zapisov in

če dva raziskovalca ocenjujeta rezultate iste poizvedbe z njunega strokovnega področja, se pri oceni relevantnosti zadetkov ujemata samo v 60%.

Page 6: Avtomatsko indeksiranje 1

Kritika deskriptorskih sistemov (3/4)

Ves postopek od priprave tezavra do iskanja po zbirki vsebuje vse omenjene faze.

Nenatančnosti v postopkih se deloma seštevajo, tako da sta običajen 60% priklic in 50% natančnost

najboljših bibliografskih zbirk zelo dober rezultat.

Page 7: Avtomatsko indeksiranje 1

Kritika deskriptorskih sistemov (4/4)

Cleverdonova kritika je le delno utemeljena za dobro organizirana informacijska okolja s

strogo kontrolo gradnje in vzdrževanja tezavra, standardizacijo vseh postopkov, izobraževanjem informacijskih posrednikov in

uporabnikov, dodatnimi orodji za pomoč pri indeksiranju in

iskanju.

Page 8: Avtomatsko indeksiranje 1

Pomanjkljivosti klasičnega indeksiranja

Toga pravila indeksiranja, počasnost pri uvajanju novih deskriptorjev, velik vložek intelektualnega dela ljudi, šolanih

v stroki in s prakso v indeksiranju, presenetljiva ohlapnost postopkov in rezultatov

pri uporabi kontroliranih tezavrov (Cleverdon, 1984).

Page 9: Avtomatsko indeksiranje 1

Prednosti klasičnega indeksiranja

Predvidljivost, neodvisnost od jezika dokumenta in posebnosti

avtorjevega izrazja, enostavno avtomatiziranje širjenja in oženja

poizvedbe z hierarhičnimi tezavri.

Page 10: Avtomatsko indeksiranje 1

Prednosti avtomatskega indeksiranja

Manj intelektualnega dela, (vsaj teoretično) reprezentirana natančno in

samo vsebina dokumenta, (vsaj teoretično) reprezentirani vsi eksplicitno

opisani aspekti vsebine dokumenta.

Page 11: Avtomatsko indeksiranje 1

Pomanjkljivosti avtomatskega indeksiranja

Ni semantičnih povezav med elementi opisa, kot jih sicer uvaja tezaver,

velik obseg elementov vsebinskega opisa, jezikovna in stilistična odvisnost postopkov

indeksiranja in iskanja.

Page 12: Avtomatsko indeksiranje 1

Avtomatsko indeksiranje (uvod)

Avtomatsko indeksiranje ima prednost pri zbirkah polnih dokumentov (full-text databases), med njimi še posebej pri

zelo velikih zbirkah, zelo dinamičnih zbirkah.

Teoretično bi lahko iskalni algoritmi iskali neposredno po besedilu dokumentov, iz praktičnih razlogov pa tudi avtomatsko indeksiranje zahteva predhodno procesiranje dokumenta.

Page 13: Avtomatsko indeksiranje 1

Avtomatsko indeksiranje (uvod)

Avtomatsko indeksiranje poskuša v dokumentu najti besede (ali besedne zveze), ki predstavljajo najpomembnejše vsebine.

Take besede nosijo največjo količino informacije (povedno moč).

Te besede (ali besedne zveze) postanejo indeksni termini.

Pri teh postopkih ni potrebno sodelovanje informacijskega strokovnjaka.

Page 14: Avtomatsko indeksiranje 1

Avtomatsko indeksiranje (uvod)

Osnovna pristopa k procesiranju besedil pri avtomatskem indeksiranju sta

lingvistično procesiranje in statistično procesiranje.

Page 15: Avtomatsko indeksiranje 1

Lingvistične metode avtom. indeksiranja

uporabljajo sintaktično in semantično znanje o jeziku, prepoznavajo jezikovne strukture.

Zaenkrat metode še niso zelo učinkovite, ker so računalniško potratne, in obstajajo le parcialne teorije jezika, ki se jih ne da

formalizirati v učinkovite algoritme, ki bi veljali vsaj za večino jezikovnih struktur.

Metode poskušajo razumeti vsebino in s pomočjo razumevanja izbrati najustreznejše vsebinske predstavnike. Pri tem

Page 16: Avtomatsko indeksiranje 1

Statistične metode avtom. indeksiranja - uvod

Osnovne predpostavke: besede niso slučajno porazdeljene po besedilih, frekvenca pojavljanja neke besede je pozitivno

povezana s pomembnostjo vsebine, ki jo ta beseda zastopa,

besede, ki se v besedilu pojavljajo večkrat, v splošnem več prispevajo k njegovi vsebini.

Temeljijo na enostavnih metodah frekvenčne analize besedil.

Page 17: Avtomatsko indeksiranje 1

Statistične metode avtom. indeksiranja - uvod

Običajno zaporedje postopkov je: blokiranje, krnjenje, računanje povednih moči.

Besede iz dokumenta je treba preoblikovati tako, da so primerne za vlogo vsebinskih predstavnikov – indeksnih terminov.

Page 18: Avtomatsko indeksiranje 1

Blokiranje

Izvor ideje v delu Luhna in Zipfa. Besede iz korpusa angl. jezika sta preštela in

razvrstila po rangih frekvenc. Odvisnost med frekvenco besede in njeno

pozicijo v rangu je hiperbolična funkcija.

Page 19: Avtomatsko indeksiranje 1

Blokiranje

Besede v korpusu lahko navidezno razdelimo na tri skupine: zelo pogoste, ki ne “nosijo” vsebine dokumenta, zelo redke, ki niso primerne za vsebinske predstavnike, in tiste “vmes”, ki “nosijo” vsebino.

Page 20: Avtomatsko indeksiranje 1

Blokiranje

V skupini zelo pogostih besed je malo različnih besed. Te besede se pojavljajo v vseh besedilih v nekem jeziku.

Ker nosijo malo informacije, jih lahko zavržemo.

Te besede sestavljajo t.i. seznam blokiranih besed (stop-words list).

Blokirane besede sodijo v nekatere besedne vrste: števniki, predlogi, prislovi, zaimki...

Page 21: Avtomatsko indeksiranje 1

Blokiranje

V angleških besedilih je število zelo pogostih različnih besed manjše kot pri slovenščini, ker za eno angleško besedo obstaja veliko besednih oblik slovenskega prevoda

Seznami blokiranih besed za slovenščino so zato precej večji od angleških.

Page 22: Avtomatsko indeksiranje 1

Blokiranje

avtor št. blokiranih besed

van Rijsbergen (angl.) 250

Brown corpus (angl.) 425

Popovič (slov.) 1593

Dimec (slov.) 1205

Različne velikosti seznamov blokiranih besed za slovenščino in angleščino

Page 23: Avtomatsko indeksiranje 1

Pogojno blokiranje

Zbirke dokumentov, ki jih avtomatsko indeksiramo, so običajno tematsko omejene.

Različna strokovna področja uporabljajo različne podjezike: “bibliotekarščina, medicinščina…”

Page 24: Avtomatsko indeksiranje 1

Pogojno blokiranje

V podjeziku nekatere besede nosijo veliko manj informacije, kot v splošnem jeziku. Primer: “knjižnica” v bibliotekarščini.

Pri pogojnem blokiranju besedil v podjeziku zavržemo take besede.

Seznam pogojno blokiranih besed ni sestavljen iz besed določenih besednih vrst, ampak iz besed, ki se pojavljajo v največjem številu dokumentov.

Pogojno blokiranje je danes redko.

Page 25: Avtomatsko indeksiranje 1

Krnjenje

Postopek, s katerim nevtraliziramo morfološko bogastvo jezika.

Besede v dokumentih nastopajo v različnih pojavnih oblikah (zaradi sklanjanja, spreganja, števila, spola…).

Pri krnjenju (stemming) iščemo zaporedje znakov, ki lahko zastopa vse oblike neke besede in samo oblike te besede.

Page 26: Avtomatsko indeksiranje 1

Krnjenje

Krnjenje ne določa pravega korena besede, zato raje govorimo o krnih.

Koren in krn sta pogosto enaka. Krn ni nujno vsebovan v vseh oblikah neke

besede S krnjenjem dosežemo isto kot z “ročnim

krajšanjem” pri oblikovanju iskalne zahteve, le da ga opravimo že pri vključevanju dokumenta v zbirko.

Page 27: Avtomatsko indeksiranje 1

Krnjenje

Osnova so predpostavke: besede z dovolj dolgim enakim zaporedjem

začetnih znakov so tudi vsebinsko sorodne (dokaz: etimologija besed),

pojavljanje različnih končnih delov besed s skupnim začetnim zaporedjem se ravna po nekih pravilih (dokaz: morfološka pravila),

ta pravila so dovolj enostavna, da jih je mogoče formalizirati v ekonomičen algoritem.

Page 28: Avtomatsko indeksiranje 1

Krnjenje

Obstajata dve široki skupini algoritmov: algoritmi brez seznama kočnic

iščejo skupne krne z upoštevanjem nekaterih statističnih posebnosti besed,

algoritmi s seznamom končnicoblikujejo krne tako, da od besed režejo njihove

končnice.

Page 29: Avtomatsko indeksiranje 1

Algoritmi brez seznama končnic

Črke v besedi niso naključno postavljene. Verjetnost pojavljanja neke črke je odvisna od

prejšnjih in ta odvisnost z dolžino besede narašča.

Odvisnost se poruši na meji med krnom in končnico.

Pestrost nadaljevanj (successor variety), Hafer, Weiss, 1974

Page 30: Avtomatsko indeksiranje 1

Pestrost nadaljevanjPrimer:Besede v zbirki: CABLE, APE, BEATABLE, FIXABLE, READ, READABLE,

READING, READS, RED, ROPE, RIPE.

Krnjenje besede READABLE, krn READ

krn pestrost nadaljevanja črke v nadaljevanju

R 3 E, I, O

RE 2 A, D

REA 1 D

READ 3 A, I, S

READA 1 B

READAB 1 L

READABL 1 E

READABLE 1 ---

Page 31: Avtomatsko indeksiranje 1

Algoritmi brez seznama končnic

Metoda odkriva gruče besed in besednih oblik.

Predpostavke: Besede in njihove oblike, ki so dovolj sorodne,

da sodijo v isto gručo, predstavljajo isto vsebino.

Katerakoli beseda iz gruče lahko zastopa vse besede v gruči.

Metoda skupnih digramov, Adamson, Boreham, 1974

Page 32: Avtomatsko indeksiranje 1

Metoda skupnih digramov

Računanje sorodnosti besed statistics in statistical.

beseda digrami unikatni digrami št. unikatnihdigramov

statistics st ta at ti is st ti ic cs at cs ic is st ta ti 7 = A

statistical st ta at ti is st ti ic ca al al at ca ic is st ta ti 8 = B

skupnidigrami

at ic is st ta ti

št.skupnihdigramov

6 = C

2CSorodnost S = ------------ = (2*6) / (7 + 8) = 0,8 A + B