11
Postupak Skaniranje teksta. Program na raspolaganju: ABBYY Fine Reader 11. Odabrati jezik dokumenta – ovo je izuzetno važno zbog pravilnog OCR):

Detaljna uputstva za skaniranje i sredjivanje teksta.doc

  • View
    251

  • Download
    9

Embed Size (px)

Citation preview

Postupak

Postupak

Skaniranje teksta.

Program na raspolaganju: ABBYY Fine Reader 11.

Odabrati jezik dokumenta ovo je izuzetno vano zbog pravilnog OCR):

Rezoluciju podesiti na 300dpi, opcija Greyscale (ne Color), raditi Preview da bi se oznaila povrina skaniranja (vano za knjige manjeg formata, postupak je bri jer skener prelazi manji put a raunar obrauje manje podataka):

Preskakati "zagrevanje" (vai za skener u kabinetu 332, prastari Mustek BearPaw):

Kada je gotov preview, podesiti povrinu za skaniranje (pomeranjem takice u uglu), zatim pritisnuti SCAN poinje skaniranje. Kada zavri s jednom stranicom, postaviti novu stranicu i pritisnuti SCAN, i tako do kraja knjige (ili sesije za dati dan, ili dok se skener ne zaglavi na zidu iznad skenera su uputstva za taj sluaj). Kada zavrite sa skaniranjem, pritisnete "close" i program prelazi automatski na OCR (prepoznavanje jezika i slova):

Za vreme oitavanja (OCR) dokumenta ekran moe da izgleda ovako; ukoliko ABBYY ne pokrene Word, moete pritisnuti dugme "Send" kod ikonice za Word.

Word se automatski otvara, dobiete neto nalik na ovo:

Sauvati takvu verziju u Wordu (za dalju obradu; PAZI: u kabinetu 332 sauvaj na disku D, u ovom formatu: PREZIME AUTORA DELO npr. Calvino Il barone rampante da ne bude moj seminarski, moj rad i sl.). Takoe, sauvati skaniran materijal kao PDF/A (na slici strelica pokazuje pogrenu opciju) radi daljeg ili budueg poreenja digitalne (word) verzije i originala, u pdf-u (knjige se nakon skaniranja vraaju u biblioteke, nema razloga da sebi oteavamo posao tako to bismo u sluaju potrebe ponovo ili u biblioteku i traili datu knjigu). Program automatski deli skanirane dvostruke stranice na pojedinane stranice, to je estetski bolje. Sami birate "adrese" gde ete uvati doc i pdf fajlove najbolje je u istom direktorijumu, na disku D, i obavezno pravite kopije na svom fleu (i u "oblaku", ako koristite):

Dokument u Wordu treba urediti tako da se:

1. Uklone:

MANUAL PAGE BREAK (Find-Replace, opcija MORE, opcija SPECIAL, odabrati M.P. Break u find, u replace umetnuti Paragraph Mark do njega dolazi se na isti nain) (umesto prekida stranice umeemo u dokument oznaku za kraj paragrafa: proveriti vizuelno da li je reenje dobro i da li odgovara izgledu originala);SECTION BREAK (Find-Replace, More, Special, u replace umetnuti razmak)OPTIONAL HYPHEN (Find-Replace, More, Special, odabrati O Hyphen, u replace umetnuti NITA ostaviti prazno)MANUAL LINE BREAK (Find-Replace, kao gore, u replace umetnuti RAZMAK).Postupak: pritisnuti istovremeno CTRL i F, otvara se prozor Find and Replace, kliknuti na More, kliknuti na Special, odabrati gorenavedene objekte za pretraivanje. Oni e biti vidljivi kada se u opcijama VIEW odabere NORMAL VIEW (Word 2003), ili DRAFT (Word 2007). Bie vidljivi i razmaci, krajevi paragrafa i sl. Vreme: 10 minuta.2. Uklone:RAZMAK+KRAJ PARAGRAFA (paragraph mark) , zameniti samo KRAJEM PARAGRAFA.KRAJ PARAGRAFA+RAZMAK, zameniti samo KRAJEM PARAGRAFA.Postupak: Find-Replace, More, Special, odabrati Paragraph mark, dodati razmak; prei u Replace, uneti samo Paragraph mark. Vreme: 2 minuta.3. Zameni dupli prored jednostrukim proredom, ponavljati dok se ne uklone svi dupli proredi (odnosno, Replace all, vie puta). Postupak: Find-replace, u find uneti dva razmaka, u replace jedan razmak, izvriti. Vreme: 1 minut.

4. Obelei ceo tekst i podesi: veliina stranice A4, margine (sve) 2 cm. Vreme: 1 minut.

5. Obelei ceo tekst, podesi font Times New Roman, veliina 12; podesiti irinu izmeu slova (Font-Character Spacing) fonta na NORMAL. Vreme: 1 minut.5b. Obelei ceo tekst, otvori opciju Paragraph, podesiti na nulu Indentation i Spacing (po dve vrednosti), postavi Special-First Line 1 cm, Line Spacing single, Alignement: Justified.6. Traiti RAZMAK+taka/zarez/dvotaka/taka zarez/upitnik/uzvinik, ukloniti RAZMAK. Pre znaka interpunkcije nema razmaka. NIGDE U TEKSTU NE UNOSITE PROIZVOLJNO RAZMAKE I NE LUPATE TAB-TABULACIJU, to jest ne uvlaite runo pasus!!!. Obrati panju na ovaj nain nai ete i "zalutale" take unutar reenice, ispred rei koja poinje malim slovom takve take ukloniti runo. Vreme: 2 minuta.

6b. Traiti taka-razmak-taka-razmak-taka (. . .), zameniti takama bez razmaka (...), spojiti taj znak s prethodnom rei (ne: e cos via ... ve: e cos via... ). Negde spajanje nije mogue, zamenu raditi peke. Vreme: 3 minuta.7. Traiti i ukloniti crticu ( - ). Pazi! Crtica mora ostati u polusloenicama, kao znak za direktni govor i kao znak za umetnutu reenicu (obino 2 crtice, u paru). Pretraivanje i zamena obavlja se peke, paljivo i s punom koncentracijom. Uklonite, paljivo, crticu, kao u rei sa-drala . Pazite na polusloenice (kao manje-vie, due-tre), tu crtica mora da ostane, dakle, radite peke. Zameniti duplu crticu (--) jednom crticom (-). Ako pogreite, idete na Undo.Vreme: do 20 minuta, u zavisnosti od duine teksta i broja crtica u papirnom izdanju.8. Kada se primeti strelica za uvlaenje pasusa, TAB vidljiva je kada se ukljui dugme Show/Hide), selektovati je, kopirati i ubaciti u Find, u Replace staviti RAZMAK, zameniti sve. Ne dirati pasuse koji su ispali kao numerisani, ne smetaju. Ponoviti postupak 2 (uklanjanje duplih razmaka). Vreme: 2 minuta.9. Traiti mesta na kojima je pasus nepravilno prekinut PARAGRAPH MARKOM. Prepoznaju se po tome to naredni pasus poinje malim slovom. Pretraga: Find PARAGRAPH MARK+slovo a (ii na More, obavezno odabrati Match case, da trai samo malo a). Na ovaj nain nai ete sve nepravilno podeljene pasuse koji poinju malim slovom a. Ukloniti runo greku (spojiti dva pasusa u jedan) i ponoviti postupak za celu abecedu (i srpska slova, ukoliko je tekst srpski). Vreme: 20 minuta.

10. Traiti u italijanskom tekstu broj 10 (zameniti, po potrebi, lanom lo), traiti broj 11, zameniti lanom il). U srpskom tekstu traiti broj 1 (= veznik i), broj 0 (= veznik o). Obratiti panju, u srpskom tekstu, na veliko I, u reima kao ljubav = Ijubav ispraviti (traiti Ij, s opcijom Match Case). Kada je tekst irilini, slovo u preslovljavanju moe postati broj 6 u latinici proveriti pretragom. Vreme: 5 minuta

11. Fusnote ubaciti u tekst. Pre broja za fusnotu staviti dve uglaste zagrade [] i kopirati u njih tekst fusnote. Obrisati broj fusnote, izjednaiti font. Ako je fusnota na kraju reenice, voditi rauna da posle uglastih zagrada stavite taku []. Ovo je vano zbog paralelizacije (program za paralelizaciju reaguje na prisustvo take). Staviti ekran u mod Draft ili Normal View, odabrati View footnotes i ii redom. Provera: radite Word count, s iskljuenim fusnotama i posle s ukljuenim fusnotama: ako su brojevi karaktera isti, to znai da ste obradili sve fusnote (obino ih ima u prevodima). Na kraju, Find More Special Footnote Mark, ako je fusnota prazna, ukloniti taj znak. Vreme: zavisi od broja fusnota, minut po fusnoti.Primer: and nella arija1 e and nella arija [tekst fusnote] e12. Ukloniti sve headere i footere. Uglavnom, dovoljno je obraditi dve stranice (nakon to su uklonjeni Section Break tada su headeri i footeri isti u celom dokumentu), brisanje vai za ceo dokument. Ukloniti i ilustracije. Kada zavrite rad s headerima i footerima, iskljuite komandnu liniju za ove opcije pritiskom na Close (negde u vrhu ekrana). Vreme: 2 minuta.13. irilini tekst prebaciti u latinicu. Za Word 2003 imam makro, instaliran je i u Wordu na kompjuteru u 332. Vreme: 2 minuta.

14. Proi kroz dokument i vizuelno proveriti da li su pasusi pravilnog izgleda i da li odgovaraju originalu (poetna re, zavrna re pasusa).

15. Tipske greke (prilog ve) ukloniti opcijom Find-Replace, vodei rauna da za ve treba uneti RAZMAK ve RAZMAK i zameniti sa RAZMAK ve RAZMAK na taj nain iskljuiete rei koje poinju, zavravaju se ili sadre delove rei venost. Vreme kratko, zavisi od broja tipskih greaka koje uoite u tekstu.

16. Provera pravopisa: radi se na Wordu 2003, uz dodatak za Windows (dodatak ne radi za Word 2007). Obaviti na kompjuteru u kabinetu 332, ili instalirati na vlastiti kompjuter Word 2003 (imam) i dodatak za proveru pravopisa (imam, srpski i italijanski). Tekst se obelei kao italijanski ili srpski (latinica/irilica), pritisne se F7, programu nepoznate rei koje su pravilno napisane preskau se (ignore), rei koje su nepravilno napisane treba ispraviti. Ko ima dodatke za proveru pravopisa koje rade u Wordu 2007 neka podeli!Ako primetite udne rezultate digitalizacije teksta, signalizirajte ili ispravite. Moe biti zbog irilice (, --, -, itd., to se uklanja spell-checkerom za srpski). Vreme: do 60 minuta, zavisno od duine teksta. Ovaj deo posla je izuzetno vaan i osetljiv, za srpski, zbog padea, moe da potraje i due.17. Tekst na stranom jeziku treba prepisati (copy paste) iz originala ili pdf-a, naroito ako je skaniran irilini dokument (toga je bilo puno u Enciklopediji mrtvih, u Sitniarnici itd.) koji sadri francuski, nemaki, engleski tekst. Radi se peke.18. Paralelizacija srpskog i italijanskog tekstaNakon to su tekstovi originala i prevoda ureeni (pasusi, poglavlja, odeljci, take na kraju reenica itd.), pomou programa LF Aligner izvriti paralelizaciju i nakon toga proveriti preciznost paralelizacije. Rezultati su bolji ukoliko je tekst podeljen na poglavlja (to zavisi od autora; up. Timinu Upotrebu oveka, koju je on podelio samo na poglavlja koja nisu podeljena na pasuse, dok je italijanski prevod podeljen i na pasuse, prema proceni prevodioca).

Due segmente teksta koji su u istom redu treba podeliti u dva ili vie redova, runo, dodajui redove u tabelu i premetajui odgovarajue delove teksta (levo moe da se zavri zarezom, desno takom, bitan je prevod).Sve slovne greke koje primetite u ovom postupku morate uneti i u izvorni tekst.