Vēsturisko materiālu digitalizācija LNB

Preview:

DESCRIPTION

Vēsturisko materiālu digitalizācija LNB. Artūrs Žogla, Aigars Staks Rāmava, 06.10.2010. Digitalizācijas vēsture LNB. ~1998.g statēģiskie lēmumi – mikrofilmas vs. skenētie attēli 2006. maijs digitālās bibliotēkas attīstības pāns. - PowerPoint PPT Presentation

Citation preview

Vēsturisko materiālu digitalizācija LNB

Artūrs Žogla, Aigars Staks

Rāmava, 06.10.2010.

Digitalizācijas vēsture LNB

• ~1998.g statēģiskie lēmumi – – mikrofilmas vs. skenētie attēli

• 2006. maijs digitālās bibliotēkas attīstības pāns

DiBi misija ir organizēt Latvijas valsts un latviešu tautas kultūrvēsturiskā mantojuma saglabāšanu digitalizētā formā un nodrošināt tā pieejamību

sabiedrībai.

Digitizējamo datu tipi, problēmas

• Grāmatas un avīzes– Milzīgs apjoms, reizēm slikta kvalitāte, dažadas valodas

• Mikrofilmas– Mehāniski bojājumi, zemas kvalitātes darbs

• Audio ieraksti– Bojājumi, lēns apstrādes process

• Fotogrāfijas– Metadatu atklāšana

• Citi – Kartes, Plakāti utt.– Lietojamības izaicinājumi

Lielākie projekti

• Periodika.lv - 2008

• DOM - 2009

• “Zudusī Latvija” (Europeana Local) - 2010

• ERAF – digitālās bibliotēkas 2.kārta -2011

• ERAF – e-pakalpojumi - 2012

• ...

DiBI 2.kārtas projekta mērķis

• Digitalizēt:– ~2.1 milj. periodisko izdevumu lpp. (~700 nosaukumi)– ~1.4 milj. grāmatu lpp. (~7000 grāmatas)

• Izveidot vēsturisko tekstu portālu• Iesaistīt lietotājus satura uzlabošanā

Digitalizācijas process

Materiālu atlase [1]

• Periodiskie izdevumi– Laika periods: 1760.-1995.– Tipi: avīzes, žurnāli, zinātniskie raksti– Valodas: latviešu, vācu, krievu

• Grāmatas– Laika periods: 19.gs. vidus – 2009.– Valodas: latviešu, vācu, krievu, latgaliešu, franču,

zviedru, u.c.

Materiālu atlase [2]• LNB galvenā grāmatu krātuve• LNB periodisko izdevumu nod.• LNB restaurācijas nod.• Latvijas Akadēmiskā bibliotēka• LU bibliotēka

• LNB Silakroga depozitārijs

Skenēšana [1]

• Projekta periods: 2010. feb. – 2011. jūn.• Kopējais lapu skaits: ~3.5 milj.• Viens sūtījums reizi 2 nedēļās

– Periodika: ~46 000 lappušu– Grāmatas: ~55 000 lappušu

• Skenētājs:

Skenēšana [6]

• Materiālu atlases principi1. Pieprasītākie2. Fiziski sabrūkošie (laikraksti)3. Kultūrvēsturiski nozīmīgie

– Vairāku izdevumu gadījumā – pirmizdevumi– Vairāku eksemplāru gadījumā – labākās kvalitātes

eksemplārs

Skenēšana [7]

• Pavaddokuments – katram sūtījumam

Skenēšana [8]

Skenēšana [9]

Skenēšana [10]

• JPEG 2000 datne katrai lappusei– Grāmatām, žurnāliem – krāsainas (RGB)– Laikrakstiem – melnbaltas (Greyscale)– Izšķirtspēja: 400 dpi

• Datnes izmērs: 3-100 MB

Skenēšana [11]

Katrā mapē – viena grāmata

Skenēšana [12]

Katrā datnē – viena lpp

Skenēšana [13]

• Sūtījumu izsekošanas rīks

Skenēšana [14]

Tipisks epasts digitalizēšanas gaitā

Skenēšana [15]

• “Latviešu avīzes”, 1828. g.

Skenēšana [16]

~1.4

cm

Segmentēšana [1]

• Izdevuma loģisko daļu identificēšana– Raksti/rakstu virsraksti– Attēli/attēlu paraksti– Autori– Tabulas– Reklāmas

• Teksta atpazīšana (OCR)

Segmentēšana [2]

Maksims GorkijsRīgas jūrmalā

1905. gada rudenī ievērojamais krievu proletariātarakstnieks M a k s i m s G o r k i j s pavadīja dažas nedēļasRīgas jūrmalā...

OCR

Segmentēšana [3]

Valodas:•LV, GE, RU, LA, LG, SE, LT, FR, ....

Druka:•Jaunā druka•Vecā druka•Jauktā druka (jaunā+vecā)•Mašīnraksts•Rokraksts

Segmentēšana [4]

• Vecā druka

Segmentēšana [5]

• Jauktā druka

Vecādruka

Jaunādruka

Segmentēšana [6]

• Mašīnraksts

Segmentēšana [7]

• Vecā krievu rakstība

Segmentēšana [8]

• Latgaliešu

Segmentēšana [9]

• Franču

Segmentēšana [10]

• Senprūšu

Segmentēšana [11]

• OCR kvalitāte (pa simboliem)– Mūsdienu tekstiem – tuvu 100%– Vecai drukai – 80%– Visblāvākajam mašīnrakstam - <50%

• Virsrakstus un attēlu parakstus labo manuāli

Segmentēšana [12]

• Mūsdienu teksta OCR kvalitāte

Oriģināls OCRSimboli pareizi/kopā: 396/403 (~98%)

Segmentēšana [13]

• Vecās drukas teksta OCR kvalitāte

Oriģināls OCRSimboli pareizi/kopā: 685/739 (~92.7%)

Segmentēšana [14]

• Gala rezultāts:– 1 METS datne – katram izdevumam– 1 ALTO datne – katrai lappusei– 1 JPG datne – katrai lappusei– 1 OCR datne – katram rakstam

– 1 PDF datne – katram izdevumam

Nepieciešamisaskarnei

Segmentēšana [15]

PDF datne ar satura rādītāju

Segmentēšana [16]

Atpazīts, iezīmējams un kopējams teksts

Saskarne [1]

• Mantojums-1

http://data.lnb.lv/digitala_biblioteka/laikraksti/

Saskarne [2]

http://www.periodika.lv

Saskarne [3]

• Mantojums-1– Avīzes digitalizētas un pieejamas Internetā

• Periodika.lv– Atpazīts avīžu teksts (OCR) un padarīts meklējams

• Nākotnes saskarne– Lietotāju līdzdalība satura pilnveidošanā– Interaktivitāte

Saskarne [4]

• Austrālijas pieredze– Austrālijas NB avīžu digitalizācijas projekts

http://newspapers.nla.gov.au/ndp/del/home

Saskarne [5]

• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā

OCR kļūdu labošana Komentāri Birkas

Saskarne [6]

• Austrālijas pieredze– Lietotāju iesaiste satura pilnveidošanā

Saskarne [7]

• “Gudrā” personu identificēšana

Andris Bērziņšpolitiķis

Andris Bērziņšaktieris

Andris Bērziņšpolitiķis

Andris Bērziņš?

Saskarne [8]

• “Gudrā” vietu identificēšana

“Mežciems”?

PamatnosaukumsObjekta

veids Administratīvā vai teritoriālā vienībaMežciems dzc. pietura Daugavpils, Latvija, Eiropas Savienība

Mežciems lielciemsJaunsvirlaukas pagasts, Jelgavas novads, agrāk Jelgavas rajons

Mežciems pilsētas daļa Vidzemes priekšpilsēta, LatvijaMežciems pilsētas daļa Daugavpils, Latvija, Eiropas Savienība

Mežciems skrajciemsGaujienas pagasts, Apes novads, agrāk Alūksnes rajons

Mežciemsvasarnīcu ciems

Carnikavas novads, agrāk Rīgas rajons

Mežciems viensētaGaiķu pagasts, Brocēnu novads, agrāk Saldus rajons

Latvijas Ģeotelpiskās informācijas aģentūras dati

Saskarne [9]

• “Gudrā” vietu identificēšana

“Ogre”?

Ogre – pilsēta Ogre – upe “Ogre” – trikotāžas kombināts

Paldies par uzmanību!

arturs.zogla@lnb.lvaigars.staks@lnb.lv

Recommended