18
Projekt digitalizacije izdanja Leksikografskoga zavoda Miroslav Krleža Cvijeta Kraus, [email protected] Irina Starčević Stančić, [email protected] Leksikografski zavod Miroslav Krleža

Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Embed Size (px)

Citation preview

Page 1: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Projekt digitalizacije izdanja

Leksikografskoga zavoda

Miroslav Krleža

Cvijeta Kraus, [email protected]

Irina Starčević Stančić, [email protected]

Leksikografski zavod Miroslav Krleža

Page 2: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

2

Page 3: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Uvod

• osnovan 1950. godine, LZMK se sustavno bavi

enciklopedistikom i leksikografijom

• više od 250 različitih enciklopedija, leksikona,

rječnika, atlasa, bibliografija

• 2009. godine portal http://enciklopedija.lzmk.hr

• Enciklopedija Miroslava Krleže, Hrvatski obiteljski

leksikon, Filmski leksikon, Istarska enciklopedija,

Medicinski leksikon, Nogometni leksikon,

odabrani članci HBL-a

3

Page 4: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Uvod …

• prvo izdanje Hrvatskog biografskog leksikona objavljeno je

1983. godine; 2013. godine objavljen je 8. svezak (Kr-Li)

• u tijeku je prebacivanje svih članaka objavljenih 1983.-2009.

u digitalnu inačicu Hrvatskoga biografskoga

leksikona (do kraja 2014. godine biti će

dostupni svi objavljeni svesci)

• Hrvatska enciklopedija (1999.–2009.)

od 2013. godine dostupna je u

mrežnom izdanju

http://www.enciklopedija.hr

4

Page 5: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Projekt digitalizacije arhivskih izdanja

• s razvojem informacijske i komunikacijske tehnologije javlja

se potreba prezentacije, dostupnosti i povezivanja izdanja

Leksikografskoga zavoda u elektroničkome obliku

• cilj projekta je objaviti sva izdanja u elektroničkome obliku,

učiniti ih pretraživima i dostupnima korisnicima putem

Interneta

• na samom početku projekta bilo je potrebno odrediti

prioritetna izdanja za digitalizaciju

5

Page 6: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Projekt digitalizacije arhivskih izdanja …

• određujući faktor vrijednosti i zanimanje korisnika kao

prioritetna pokazala su se izdanja:

• Pomorska enciklopedija I. izdanje (1954.-1964.)

– prvo Zavodsko enciklopedijsko izdanje

• Filmska enciklopedija (1986.-1990.)

– višestruko zanimljiva korisnicima

• Medicinski leksikon (1992.)

• Enciklopedija Miroslava Krleže (1999.)

• Hrvatski biografski leksikon (1983.-2014.)

6

Page 7: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Postupak digitalizacije

• tehnička potpora

• 1 skener (Microtek Artix DI 2020) s uvlakačem

• 4 licence za Abbyy FineReader

• izdanja se službi za digitalizaciju dostavljaju izrezana u listove

• stranice izdanja se skeniraju, pohranjuju na server u slikovnom formatu, a onda se dodatno obrađuju programom za optičko prepoznavanje znakova (OCR – Optical Character

Recognition) da bi se dobio tekst

7

Page 8: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

OCR – optičko prepoznavanje znakova

• svaka skenirana stranica provlači se kroz OCR program Abbyy

FineReader koji sliku automatski pretvara u tekstualni oblik

• nakon što program pretvori sliku u tekst potrebno je tekst

provjeriti i ispraviti eventualne greške koje je program

napravio

• ukoliko ima više elemenata na

stranici oni se mogu označiti

ručno (tekst, slika, tablica ...)

8

Page 9: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Problemi / nedostaci OCR-a

• prilikom obrade teksta OCR programom Abbyy FineReader

potrebno je obratiti pažnju na određene dijelove teksta zbog

mogućnosti pogrešnog prepoznavanja znakova

• greške je potrebno ručno ispraviti prije spremanja

dokumenta, odnosno stranice izdanja u Word dokument

9

Page 10: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Problemi / nedostaci OCR-a …

1. ZNAKOVI UNUTAR TEKSTA

• slova sa znakovima svojstvena drugim jezicima (ö; á; ...)

• nazivi natuknica

• imena autora

• literatura

• datumi unutar teksta ...

• tekst koji je pročitan kroz program potrebno je ujednačiti s

originalnim tekstom izdanja (veličina slova, stilovi

podebljano, kurziv, razmaci ...)

10

Page 11: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Problemi / nedostaci OCR-a …

2. SLIKE UNUTAR TEKSTA / LEGENDE SLIKA

• slike se označavaju izdvojeno od teksta, a potpisi ispod slika

se označavaju kao tekstualni dio

• ukoliko se slika nalazi na sredini stranice potrebno je

napraviti ručno označavanje teksta i slike

11

Page 12: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Problemi / nedostaci OCR-a …

3. TABLICE

• Abbyy FineReader daje mogućnost oblikovanja tablica kao u

originalnom tekstu

• program ih automatski pročita i analizira, a naknadno ih je

moguće dodatno urediti

12

Page 13: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Problemi / nedostaci OCR-a …

4. FORMULE

• Abbyy FineReader nema mogućnost čitanja matematičkih

formula te se one označavaju kao slike ili dodatno uređuju

dostupnim programima

13

Page 14: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Primjer digitalizacije Filmske enciklopedije

• skeniranje stranica enciklopedije

• obrada u programu Abbyy FineReader

• pretvaranje slike u tekst

• provjera i usklađivanje s originalnim tekstom

• spajanje Word dokumenata

• prilagođavanje teksta za

digitalno izdanje

14

Page 15: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Primjer digitalizacije Tehničke enciklopedije

(1963.-1997.)

• primjer stručne enciklopedije s mnogo matematičkih

formula

• Tehnička enciklopedija je u potpunosti skenirana

• zbog svoje specifičnosti matematičkih formula nije se radio

OCR teksta, odnosno pretvaranje u tekstualni format

• formule su označene kao slike te je enciklopedija

napravljena u obliku pretraživog PDF formata

15

Page 16: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Statistički podaci o provedenoj digitalizaciji

16

Naziv izdanja Izdanje Br. sv.Br.

stranicaSkenirano

OCR

ukupno

Pomorska enciklopedija I. 8 5.687 100% 1.013

Pomorska enciklopedija II. 8 5.709 100% 0

Filmska enciklopedija I. 2 1.530 100% 1.530

Enciklopedija likovnih

umjetnostiI. 4 2.861 100% 1.427

Muzička enciklopedija II. 3 2.244 100% 134

18.031 4.104

Page 17: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Zaključak

• Projekt digitalizacije arhivskih izdanja Leksikografskoga

zavoda Miroslav Krleža je u tijeku

• Cilj: sva izdanja prebaciti u digitalni oblik da bi bila dostupna

i pretraživa kroz sustav portala

• Projekt se izvodi u okviru vlastitih financijskih i kadrovskih

mogućnosti, ali se istražuju mogućnosti financiranja i

realizacije kroz fondove ili programe EU

17

Page 18: Projekt digitalizacije izdanja Leksikografskog zavoda Miroslav Krleža

Projekt digitalizacije izdanja

Leksikografskoga zavoda

Miroslav Krleža

Cvijeta Kraus, [email protected]

Irina Starčević Stančić, [email protected]

Leksikografski zavod Miroslav Krleža