35
Pokušat ću objediniti kompletan proces „proizvodnje“ od p-knjige do e-knjige što je moguće jezgrovitije, a da bude korisno – očekujem i pomoć sa strane tako da ovo nije posao od nekoliko dana. Trajanje je nepoznato. Radne verzije će se postavljati u isti post uz jasne oznake kako bi svi mogli pročitati. Komentirajte na PM, a ne uzimajte ništa za zlo dok se ne pojavi finalna verzija. („Samo budala ne mijenja mišljenje“ – evo samo tijekom izrade ovoga promijenio se kompletan način dolaska do epub) Za sada sve ovdje izneseno je isključivo moj(naš) stav, može vam se svidjeti, a i ne mora. Svi ste pozvani pljuvati po autorima, paliti im svijeće ispred slika, davati prijedloge i savjete… (što uopće ne mora, a može biti usvojeno) (usput: p-knjiga = papirna knjiga) Dokument nastaje iz jednog osobnog PM što će se izgubiti tijekom dorade, a do, makar, beta verzije ostavit ću ga u .doc obliku (kasnije će završiti u PDF kome je to i jedna od pravih namjena, napuci za TV, pećnice, računala…) Ovo sada već postaje koautorsko djelu – kako se dobro razumijem s Krbom ugnjavio sam ga neka i sam nešto piše i ispravlja kad već ima toliko vremena da objašnjava po forumima Najbolje je i da njega gnjavite na PM (na crowarez.org) – ja imam jako malo vremena za to (dugo ćete čekati odgovor), a i planiram se ostaviti ovog posla s knjigama… Vaš Chita(m) & krbo

Od P Do E-Knjige v0.34

  • Upload
    luris1

  • View
    122

  • Download
    13

Embed Size (px)

DESCRIPTION

Kako napraviti e-knjigu

Citation preview

Page 1: Od P Do E-Knjige v0.34

Pokušat ću objediniti kompletan proces „proizvodnje“ od p-knjige do e-knjige što je moguće jezgrovitije, a da bude korisno – očekujem i pomoć sa strane tako da ovo nije posao od nekoliko dana.

Trajanje je nepoznato.

Radne verzije će se postavljati u isti post uz jasne oznake kako bi svi mogli pročitati.

Komentirajte na PM, a ne uzimajte ništa za zlo dok se ne pojavi finalna verzija.(„Samo budala ne mijenja mišljenje“ – evo samo tijekom izrade ovoga promijenio se kompletan način dolaska do epub)

Za sada sve ovdje izneseno je isključivo moj(naš) stav, može vam se svidjeti, a i ne mora.

Svi ste pozvani pljuvati po autorima, paliti im svijeće ispred slika, davati prijedloge i savjete…(što uopće ne mora, a može biti usvojeno)

(usput: p-knjiga = papirna knjiga)

Dokument nastaje iz jednog osobnog PM što će se izgubiti tijekom dorade, a do, makar, beta verzije ostavit ću ga u .doc obliku (kasnije će završiti u PDF kome je to i jedna od pravih namjena, napuci za TV, pećnice, računala…)

Ovo sada već postaje koautorsko djelu – kako se dobro razumijem s Krbom ugnjavio sam ga neka i sam nešto piše i ispravlja kad već ima toliko vremena da objašnjava po forumima

Najbolje je i da njega gnjavite na PM (na crowarez.org) – ja imam jako malo vremena za to (dugo ćete čekati odgovor),a i planiram se ostaviti ovog posla s knjigama…

Vaš Chita(m) & krbo

Page 2: Od P Do E-Knjige v0.34

Mali vodič za izradu sređenih e-knjiga

Prije svega da razjasnimo pojam „sređen“

Sređena e-knjiga je:

1. svojim izgledom gotovo istovjetna p-knjizi (no cijeni se jednostavnost, nismo kaligrafi)2. prošla spell-check3. pročitana i korigirana prije objave4. ePub formata (he, sad sam vas!)

doc,docx ,rtf i html su samo priprema za izradu e-knjigetxt je blagi užas (uništen prijelom i kosa/masna slova, grafički elementi nemogući)PDF je izvrsna stvar za znanost čak i multimediju no nikada za beletristiku – obvezno izbjegavati . PDF je zamišljen i dizajniran kao krajnji format u kojem je naj bitniji vrlo precizan raspored elemenata (slika i teksta) te je zbog toga izuzetno neprijatan prema izmjenama i popravcima. Sam Adobe ima odlične alate za izradu PDF no živi jad za njihovu doradu. Poštujte sve veću penetraciju specijaliziranih e-book čitača kao i tableta manjih ekrana – njima je PDF potpuna groza. PDF je toliko „krajnji“ da se zna koristiti i kao ulaz u tiskaru. No opet jednu knjigu recepata mi je sasvim O. K. čitati u PDF jer je to priručnik – dobre slike i tekst oko njih dižu uporabnu vrijednost.I konačno najgroznija grozota su slike stranica prave knjige u PDF obliku (monstruozne veličine ili očajne rezolucije - oba ekstrema su nazočna), strip se, jasno, sastoji od slika no zašto netko ima potrebu staviti sliku teksta i to proglasiti „elektronskom knjigom“ mi je zagonetka.

Ne vjerujete?

Hajde, probajte otići na Amazon ili Barnes&Noble online knjižare (većih u svijetu nema) i kupiti, recimo, Gospodara Prstena u PDF ili doc formatu...(usput, prodaja e-knjiga je nadmašila p-knjige tako da to postaje vrlo značajno)

Ako knjige čitate na bilo kojem obliku računala (PC, tablet...) uvijek postoji neki zgodan program za čitanje ePub-a koji će vam omogućiti glavnu značajku e-knjige: presloživost („reflow“). Jednom pravilno složena e-knjiga će uvijek zadržati svoj osnovni izgled (pasusi, poglavlja, uvlačenja) ma kako vi po svojim željama mijenjali font (tip, veličinu, razmak redova, margine).

(još jedan primjer: dobar ePub se u desetak sekundi pretvori u dobar mobi za Kindle čitače, a Amazon ima „Kindle“ program za sve živo: PC, android, Apple, Mac… i još se sve međusobno i sinkronizira pa u tramvaju čitate na telefonu, na pauzi nastavite na PC, za ručkom buljite u Kindle, a prije spavanja dovršite na tabletu uvijek od one stranice gdje ste zadnji puta stali.

S druge strane osobno koristim ekrane od 3 do 42 inča dijagonale, a tu se služiti Wordom ili PDF-om je blagi užas. Obična promjerna margina najčešće razbija potpuno Word prijelom (zbog ENTERIRANJA kako ga ja nazivam, vidi kasnije)

ePub format je besplatan i slobodan, malo spakiranih HTML (to vam je format gotovo svega onoga što gledate po internetu) stranica u arhivi s nastavkom .epub, izuzetno lako se pretvara u druge formate (mobi/azw3 prije svega za

Page 3: Od P Do E-Knjige v0.34

Amazonove Kindle čitače) i mizerne je veličine (ako nema slika knjiga je 300-500 kilobajta, gotovo ništa, mem. kartice to niti ne primijete)

Naravno, nema svatko ni volje ni želje ni mogućnosti kompletne obrade knjige od scana do ePub-a no ako pogledate malo pažljivije i primijetit će te kako postoje ljudi koji žele nešto dati.Jedni imaju scanner i pristup knjigama pa odrade to – drugi to rado prihvate pa naprave OCR – treći to uobliče u dobar .doc (ove bih volio uvjeriti da to preskoče i krenu na ePub) i na kraju ima onih koji lijepo sve dotjeraju na kraju u krasan ePub.

Ovi moji razni teoremi (ima nešto i aksioma) biti će i kasnije razrađivani pa pročitajte sve prije ocjene ovog naputka.

Svakako neke od ovih točaka mogu biti i modificirane, ako baš ne možete napraviti dobar spell-check onda se sve može popraviti i tijekom prvog čitanja no opseg posla je jako velik, a svašta će vam promaći.

Page 4: Od P Do E-Knjige v0.34

PREDUVJETI:

1. solidan scanner (scan) ili zamjenska naprava2. Abbyy Finereader 11 (OCR) – najbolje što postoji3. Microsoft Word 2010 + jezični paket (spell-check)4. Libre Office (ako nemamo Word 2010, a i inače)5. Sigil (izrada i dorada ePub)6. Calibre (konverzija ePub-ePub-mobi-azw3)7. pomoćne aplikacije: WinRAR, Notepad++, nešto za slike…

(naravno da ću pokušati o svemu gornjem nešto i reći)

Page 5: Od P Do E-Knjige v0.34

1. solidan scanner

Što bi to bilo. To bi bilo nešto tipa „najveća brzina i najbolja slika za najmanje novca“, a kako toga u životu gotovo nikada nema prisiljeni smo na kompromise.Prije svega se morate odlučiti na koji način ćete „nahraniti“ Abbyy. On nije zahtjevan (čak je i vrlo tolerantan i dosta pametan) – traži se rezolucija minimalno 300dpi u sivim nijansama („grayscale“).Svakako, ako knjiga ima sitan font poželjno je podići rezoluciju no to dovodi do usporenja skeniranja pa je najbolje napraviti par proba raznih rezolucija i vidjeti kako se mijenja količina pogrešno prepoznatih znakova.

Znači Abbyy zanima samo slika, a ne način na koji ste došli do nje.

Apsolutno najbolji način je izgradnja jedne čudovite naprave koja koristi dva fotoaparata, nešto drveta, stakla i dobro svjetlo. Ničim nama dostupnim se ne može konkurirati toj brzini skeniranja.(naći ćete po internetu i jednostavnijih naprava od donje)

Čak i danas potpuno zastarjeli fotoaparati od 3Mpixela daju Abbyyju jako dobar materijal (isprobano) tako da i kartonske naprave daju odličan rezultat i veliku brzinu.

Page 6: Od P Do E-Knjige v0.34

Ako nikako ne ide s fotoaparatima onda idemo u svijet stolnih scannera.

Naravno postoje specijalizirani scanneri za slike koji čak sami i listaju knjige (to košta stotine tisuća $)

Smrtnicima najdostupnije naprave radi firme Avision i Plustek sa svojim Bookedge/OpticBook serijama scannera (na slici dolje je Plustek)

Glavni trik je vrlo uzak rub scannera (samo 2mm) pa se knjiga ne razvlači, rasteže i pritišće nego jednostavno visi jednim krajem dok optika bez problema čita baš svaki tip uveza.

A cijena? Pa, nije baš lijepa – ovaj na slikama, model 3800 (skoro pa najniži) u HR košta oko 300€ - s druge strane to vam je samo dvadesetak novih knjiga u tvrdom izdanju.

Tako ulazimo u svijet klasičnih, višenamjenskih A4 skenera (na A3 možete zaboraviti ogromne su im i dimenzije i cijene, recimo odlični Avision 6820 je oko 1.200€) Tu ima svega i svačega no ako se nabavlja nešto novo čija je osnovna namjena skeniranje knjiga tada je glavni podatak brzina skeniranja u nijansama sivog.

Ono što vaš skener obvezno, obvezno mora imati je barem jedno programibilno dugme na sebi

Page 7: Od P Do E-Knjige v0.34

(obično ih ima više no ne tako davno je bilo ili nijedno ili samo jedno) jer kad krenete s knjigom želite što manje ometanja – skener se postavi ispred sebe, obično bočno i sve što treba raditi je listati knjigu, pravilno je postaviti na staklo i pritisnuti dugme podešeno za funkciju „skeniraj i spremi“.Dok se optika vraća na početak vi samo okrenete list, opet knjiga na staklo i pritisak dugmeta.

Ako dugmeta nema pa se mora klikati po računalu mišem to će dosta usporiti i zakomplicirati.

Nedavno sam i sam kupovao novi skener, kako sam imao jako dobra iskustva sa Canonom, a lošija sa HP odlučio sam se za Canon i krenuo u pregled tehničkih podatka – znači traži se najbolji omjer cijena/brzina.Evo što je bilo na tržištu:

Lide 110 - 72€ C/B: 3.7 ms/linija (300 dpi)Lide 210 – 94€ C/B: 2.2 ms/linija (300 dpi)Lide 700F – 127€ C/B 2.3 ms./linija (300 dpi)5600F – 158€ C/B 1,8 ms/linija (300 dpi)9000F – 250€ C/B 1.2 ms/linija (300 dpi)

Preračunato na A4 (cca 3507 linija) stranicu:

Lide 110 12,98sLide 210 7,72sLide 700F 8,066s 5600F 6,3s 9000F 4,2s

Jasno je kako je najskuplji model i najbrži no pogledajmo omjere – dva najjeftinija: za 20€ više dobije se skoro duplo brži skener koji je samo 1.4 do 3.5 sekundi sporiji od najskupljih modela.Za mene je pobjednik bio jasan i Lide 210 je uskoro stigao.

Page 8: Od P Do E-Knjige v0.34

Obzirom da još imam i stari N650U kojemu treba 20 sekundi za A4 razlika u brzini je bila oooogromna.

No još jedna stvar – nije danas jednostavno dati 100€ za skener, ali ovog mog starog ima po oglasima po cijenama od 9 do 13€ za jako dobro očuvan! To je i više nego jadno da bi se branili izgovorima „joj, kad ja nemam skener“ – evo, možete ga imati za mizeriju. Istina, ne briljira brzinom no nekoliko je puta robusniji od 210 modela (na samo staklo se može staviti debeli uteg na knjigu da mu ne smeta)

Od pojave Windowsa7 postoji velika količina polovnih skenera u prodaji jer više nisu podržani (nećete ni N650 uspjeti instalirati ako niste iskusni PC korisnik) no evo vam male tajne. Hrpetina tih skenera (tvrde 1850) je podržana jednim krasnim softverom zvanim VueScan na Win7.Evo liste podržanih: http://www.hamrick.com/vuescan/vuescan.htm#supportedIsprobano – N650 je bez problema proradio u 64-bitnom Win7, stvarno odlična stvarčica.

Page 9: Od P Do E-Knjige v0.34

I Poglavlje – Scan

Scanner smo nabavili – hajdemo onda nešto i skenirati.

Prvo i osnovno – ne skenirajte iz bilo kakvih aplikacija namijenjenih kasnijoj obradi – skeniranje se radi onim alatima koje ste dobili u scanner . Tim načinom imate najbolju kontrolu, najviše mogućnosti i najveću brzinu.Kako smo nabavili scanner s tipkama jednu od njih (ako već nije) treba programirati (metodom koja ovisi o scanneru) i odrediti da se pritiskom na nju obavi scan i slika pohrani pod nazivom XXXX.jpg u željenu mapu.Recimo skeniramo prvi dio Dina - slike će se zvati Dina1_xxxx.jpg i idu u mapu ...\knjige\Frank Herbert\Dina1\ - xxxx će dodati sam scan program kao brojač.

Podesimo prve osnovne parametre – traži se scan u nijansama sivog rezolucije 300 točkica po inču (300dpi greyscale) – to je ono što Abbyy najviše voli. Naravno to je podložno promjenama na višu rezoluciju – 400 ili 600dpi ako naletimo na knjigu s malenim fontom pa OCR postane problematičan.

Naslovnu stranicu, svakako, skeniramo u boji - 300dpi.Obvezno, obvezno skenirajte i naslovnu stranicu (ukoliko nije previše oštećena). Vidio sam i previše knjiga kojima se za naslovnu stranicu stavljaju neke jadne sličice niske rezolucije s Interneta ili još gore – slike sasvim drugog izdanja i jezika.

U ovom poslu naletjet ćemo na prijateljske i izrazito neprijateljske knjige.

Naši najbolji prijatelji su knjige tvrdog uveza koje rasklopljene taman lijepo stanu na staklo A4 scannera.Zašto tvrdi uvez? Zato jer se najljepše otvara i lako ga je minimalnom silom priljubiti uz staklo.

Naš najgori neprijatelj su meko uvezane, debele knjige malog formata – e to je živi užas pravilno postaviti, ponekad i nemoguće bez rezanja listova. (osim vlasnicima book-scannera i foto-stalaka)

Na svakom scanneru označena je početna točka iz koje kreće skeniranje i od nje postavljamo svoju knjigu. Evo jasno vidljivo:

Page 10: Od P Do E-Knjige v0.34

Jedna, na prvi pogled, prilično debela i zastrašujuća knjiga:

No izgled vara – skenirajmo korice:

Color scan obično radim u nekom programu za obradu slika, recimo Paint Shop Pro 9 koji je dovoljno malen, a dovoljno sposoban (razna izrezivanja, podešavanje svjetline, boja, kontrasta, izoštravanje…)

Page 11: Od P Do E-Knjige v0.34

Druga stvar koju trebamo reći aplikaciji za skeniranje je veličina scan područja – ne treba nam cijela staklena ploča (gubimo bitno vrijeme) pa se možemo poslužiti i metrom ,a i probnim scanom te očitavanjem veličine slike u programu nakon izrezivanja onoga što nam treba.

Za prvu stranicu knjige tvrdog uveza dovoljan je i pritisak jednog prsta:

Page 12: Od P Do E-Knjige v0.34

No kako se primičemo polovici knjiga pruža sve veći otpor priljubljivanju koje je strahovito važno – samo se malo zaboravite i bit će vagoni grešaka kod OCR-a. Zato se pomažemo svime što imamo :)

Ukoliko je rasklopljena knjiga veća od stakla scannera imamo duplo dulji no ne i neostvariv posao.Skeniramo stranicu po stranicu i dalje pazeći na što ravnije ležanje listova. Recimo ovako nakošen dio koji se ne skenira kako bi unutarnji uvez što bolje legao na staklo:

I tako redom do kraja - nema neke velike nauke.Svakih nekoliko stranica provjerite kakav vam scan izlazi, lakše se vratiti nekoliko stranica nego kod OCR primijetiti kako ih 50 ne valja.I da, knjige imaju gadnu prhut i općenito su slabe higijene – vrlo često morate sa stakla brisati ili otpuhivati kojekakve čestice koje također uzrokuju krivo očitane znakove, a nije loše tu i tamo očistiti staklo od naših otisaka.Kako sve te knjige treba uvijati amo-tamo često nam trebaju obje ruke kako bi ih održali priljubljene i tu se vidi koliko vrijede tipke na scanneru.Jednostavno nema šanse držati knjigu tako i kliknuti miša no uvijek se uspije osloboditi koji prst koji može pritisnuti tipku na scanneru.(mada postoji i intervalno skeniranje te scanneri koji „osjete“ papir na sebi pa kreću u akciju, sve ovisi što ste nabavili)

Page 13: Od P Do E-Knjige v0.34

Za kraj primjer knjige-neprijatelja:

Page 14: Od P Do E-Knjige v0.34

II Poglavlje – OCR

I tako je naša knjigica lijepo skenirana te čeka prevođenje u oblik razumljiv računalima – OCR ili optičko prepoznavanje znakova.

Za naše ččćžćžđš jezike apsolutni šampion je Abbyy Fine Reader – zadnja inačica je 11.Komercijalni program, ne pretjerano preskup (no sigurno bi se bolje prodao da mu je cijena 50 ili manje €) –

nabavite si ga kako znate jer ste bez njega „u banani“.

Nakon instalacije potrebno je podesiti nekoliko osnovnih stavki.

Osnovni način rada i spremanja OCR teksta će biti HTML i Formatted text pa tako i postavimo:

(nikakav Word, epub i slično ukoliko ne želite debelu glavobolju, samo HTML)

Idemo podesiti ostalo u Tools izborniku

Tools-Options:

Document: jako je bitno imati što manje jezika za prepoznavanje, za početak su Croatian i English dovoljni. Dobra je praksa samu knjigu malo prelistati i vidjeti ima li kakvih riječi drugih stranih jezika sa preglasima, kukama i motikama iznad i ispod (francuski, španjolski...)

Tada je jako dobro taj jezik uključiti kako bi specifična slova bila ispravno prepoznata (klik na Edit Languages dugme) inače ostadoste bez èéöú, a to ne želimo, zar ne?

Color mode: Black and White – sve radi brže, a baš i nema teksta u boji (obično)

Scan/Open: za početnike preporučujem postavljanje opcije „Do not read and analyze acquired pages...“ kako bi imali vremena proučiti što se sve događa, napraviti neke probe i slično,

Read: Thorough reading uključen, Fonts: preporučujem prvo Clear all pa uključiti samo Times New Roman ili neki vama drag - ali samo jedan jedini!

Ovo je jako bitno – Abbyy jako voli izmisliti gomile fontova u skeniranom materijalu kao i njihove različite veličine. Još ćemo se protiv toga jednom boriti u dijelu o obradi u Wordu no dobro je i ovdje se pokušati riješiti viškova – lakše se prati OCR-an tekst.

Save: Svaki format spremanja koji Abbyy zna ovdje ima svoja zasebna podešavanja pa idemo u HTML podtab te isključujemo „Keep headers and footers“ - to e-knjige ne koriste.

Otprilike bi to bilo sve od podešavanja.

Klik na „Open“ tipku i pronađite gdje se nalazi sken vaše knjige – obzirom da smo Abbyyju rekli da ne radi ništa pametno dok mu se ne kaže to ide brzo, samo će korigirati rezolucije, razdijeliti duple stranice, okrenuti naopake i neće ići u OCR dok ne kliknete na „Read“ tipku.

Page 15: Od P Do E-Knjige v0.34

Otvorite sve stranice i apsolutna prva stvar koja se mora napraviti je provjera jesu li sve tu.

Vjerujte mi, gotovo uvijek neka nedostaje ili bude i duplikata – treba dobro gledati u brojeve stranica i brzo prelistati knjigu te skenirati ono što nedostaje.

Promijenite imena tim nedostajućim stranicama kako bi se složile po abecedi tamo gdje trebaju i biti (recimo sken se zove Dina1_0016, Dina1_0017, Dina1_0018 i između 17 i 18 treba umetnuti. Svoju novu stranicu nazovite Dina_0017a i bit će gdje treba)

Svakako u Abbyyju se može promijeniti i broj stranice i redoslijed no kada toga ima više lako se zagubiti.Veliki je problem kada vam netko ukaže kako vašem ponosu nedostaje 3 stranice u 15. poglavlju, a knjige više

nigdje na vidiku…

Kad su sigurno sve stranice tu učitajte ih sve i klik na „Read“ – Abbyy kreće u OCR koji će vam udaviti računalo na dulje ili kraće vrijeme ovisno o snazi (a OCR je zahtjevan proces) i čim završi napravite „Save Finereader Document“ (traje dugo prvi put no dobar je backup ako nešto treba promijeniti i popraviti)

Dobra je praksa brzo pregledati rezultate OCR još u Abbyyju, nekako se lakše uklone brljotine (čudni nizovi nemuštih znakova koji će se obvezno pojaviti, obično neka prašina i slično)

Dalje ne bih o Abbyyju, upoznat ćete se prilično lako, svi njegovi prozori su lako razumljivi te idemo spremiti OCR-anu knjigu u HTML file i preći na obradu Wordom.

Page 16: Od P Do E-Knjige v0.34

III Poglavlje – Word

Zašto Microsoft Word i to zadnji 2010 (2013 nisam još isprobao)? Tri razloga:

- najbolja jezična baza spell checkera (tu nema konkurenciju)- većina popravaka i dotjerivanja se najlakše radi u njemu (za ovo može poslužiti i Libre Write)- docx format koji sada Calibre nevjerojatno kvalitetno pretvara u epub

Osnovni gradbeni element teksta (i ovoga i vaše knjige) je pasus (paragraf). Definira ga sve ono što se nalazi između dva ENTER znaka (nazovimo ih tako po tipkovnici) i kompletno uređenje teksta se radi isključivo putem podešavanja osobina pasusa (pogledajte iduću sličicu). S toga, nakon tisuća viđenih užasnih tekstova dajem vam najstrožu zabranu:

Pritiskanja tipki ENTER i RAZMAK više od jednom !!!!!

('ajde, tolerirat ću još jedan dodatni ENTER kada je scene-break u tekstu – vidi Dodatak1)

Najviše zlorabljena tipka je ENTER – ne, na novu stranicu se ne prelazi uzastopnim lupanjem po njoj nego se jednostavno drži tipka CTRL pa kucne ENTER ili klik putem menija na „Insert Page Break“.Nakon toga što god radili s tekstom nova stranica je nepromijenjena.Ukoliko ENTERIRATE (kako ja to volim znati) dovoljna je najsitnija promjena fonta, margine, veličine stranice,pisača… da se sva vaša poglavlja i naslovi raspadnu i nađu se na vrlo čudnim pozicijama.Isto se tako tekst ne uvlači razmacima ili tipkom TAB, niti se tako radi neki popis sa stupcima (s proporcionalnim fontovima)

Prva stvar koju moramo napraviti otvaranjem skeniranog HTML u Wordu je unifikacija dokumenta – podesiti glavne elemente teksta istima - jednaki font, veličinu, jezik i parametre pasusa za cijeli tekst.

Zašto su to važne stvari?

Jezik dokumenta mora biti jedan jedini inače ćemo u epubu završiti sa gomilom nepotrebnih jezičnih tagova (nešto ovako : <span lang="HR">neki tekst</span>) koji sami po sebi ništa ne znače čitačima (dobro hajde, time se može upravljati ugrađenim rječnicima), a opterećuju HTML kod. Pazite tu ima često zamki – Review -> Language -> Set proofing Language i dobijete ovakav prozor – često je kućica „Do not check…“ ovako zatamnjena – to uklonite klikanjem – mora biti prazna kao i ona ispod nje:

Page 17: Od P Do E-Knjige v0.34

Jedan font – knjige obično imaju jako malo različitih fontova jer to ometa čitanje, obično maksimalno dva od kojih se jedan koristi za naslove, poglavlja i slično. Čitači imaju neku količinu internih fontova i mi u našem epubu dajemo preporuke tipa „za ovo uzmi Times New Roman, ako ga nemaš onda neki tvoj serifni font“. No nemaju desetke fontova i često svi ne podržavaju potreban kodni raspored. (kasnije ćete vidjeti kako nije dobro navoditi „Times New Roman“ u epubu)

Zato se ograničimo samo na nekolicinu ili ako baš jako želimo da knjiga izgleda striktno po našim idejama onda moramo isporučiti i fontove u njenoj strukturi (što znatno povećava veličinu knjige)

Veličinu podešavamo na max 12pt za sve, a naknadno sređujemo poglavlja – time smo se riješili Abbyyjevih mušica (voli ubacivati neobične veličine potpuno slučajno)

Dakle, selektiramo sav tekst (CTRL+A) i podešavamo gornje tri stvari.

Dok je kompletan tekst selektiran - desni klik negdje na tekst – Paragraph i podešavamo za početak ovako:

Time smo dobili jednake početne pasuse za cijeli tekst koji imaju uvučen prvi red za 1cm, a razmaknuti su jedan od drugoga 3pt (uvijek koristite razmak među pasusima, olakšava čitanje)

Dok je sve selektirano preporučujem dva puta za redom kliknuti na Bold i Underline tipke.

Time smo uklonili opet neke Abbyy mušice – voli ubaciti ponegdje (gdje ih inače nema) masni i podvučeni tekst – postoji jako mala mogućnost da smo time poništili i nešto što je bilo u knjizi – masni i podvučeni tekst se jako, jako rijetko koriste no svejedno bi trebalo pregledati knjigu i pokušati vidjeti ima li toga. (ako se ne zaboravi )

Page 18: Od P Do E-Knjige v0.34

Pazite da to ne napravite s kosim slovima – ona se koriste vrlo često i imamo gomile skeniranih knjiga (raniji radovi uglavnom) u kojima su potpuno uništena.

Sljedeći potez je popravak nečega što ja zovem „obveznim provjerama“ – OCR često neke riječi ne rastavi ili pogrešno protumači, ubaci čudne znakove - evo jednog popisa što treba provjeriti s Find ili Find&Replace (ovo su HR riječi pa će neke otpasti ili biti drukčije u srpskom, uglavnom popis je dinamičan – ako mi se neka greška pojavi dosta puta ja ju dodam):

lije – li jesije – si jegaje – ga jedaje – da jemiga – mi gamije – mi jemuje – mu jelija – li jaseja – se jastoje – što jedjevi - cijevi

-- u – (dvije crtice u jednu)'' u „ (dva apostrofa u navodnik)dupli razmak u jednostruki (potjerati više puta jer bude i trostrukih razmaka)vv u w

\ /$><Ij (ovo je veliko I i malo j – česta OCR greška) 1^sto – što (oprez – nikako „replace all“ jer postoji i broj sto! isto tako paziti da vam „gusto“ ne ispadne „gušto“)Sto - Što)(Zao - ŽaoCak - Čak{}<sup> i <sub>*» (ukoliko se ne koristi umjesto navodnika)•~.... ili .. u ... (može postojati samo 3 i 1 točke - 2,4 ili 5 i više ne)

Page 19: Od P Do E-Knjige v0.34

(gornje greščice jako ovise o fontu knjige, njegovoj veličini, boji papira i količini tinte pri tiskanju tako će te naletjeti na iznimke, primjer: u nekim knjigama mi je uporno OCR umjesto „tl“ vraćao slovo „d“ pa sam umjesto „tlo“, „tlu“ dobivao „do“, „du“. „h“ se znao pojaviti umjesto „li“ (dobivah – dobivali) i svakakvih drugih „zabavnih“ stvari koje nisu bile tako česte da bi završile na popisu „obveznih provjera“)

RegEx-i:

1. „([a-z])-([a-z])“ možda replace „\1\2“2. „([a-z])- ([a-z])“ možda replace „\1\2“ ili „\1-\2“3. „^13([a-z])“ obvezni replace „ \2“ (pazi, postoji razmak!)4. „([a-z])^13([-])“ možda replace „\1 - „ (pazi, postoji razmak!)

Ono <sup> i <sub> znači provjeriti postoje li pogrešni superscript ili subscript znakovi u tekstu (dosta često, imao sam jednom napad y umjesto zareza (sad zumirajte da vidite tu kvržicu – radi se o slovu „y“). Tražiš ih tako da u Replace prozoru klikneš na prazno „Find what“ polje da bi ono bilo aktivno - otvoriš More pa Format->Font i odabereš u prvom prolazu superscript , a u drugom subscript. (Takve posebne provjere se poništavaju klikom na No Formatting dugme)

Sad ćemo odmah popraviti nešto zbog čega bi spell-check odmah stao, a ne vidi se na prvu ruku – pritisnite dugme

sa znakom paragrafa i opla – evo skrivenih znakova – obvezno ovo napravite na samom početku dotjerivanja teksta u Wordu čisto da uočite što se tu svega može naći. Evo za primjer u riječima „Moj slatki Sputnik“ nalazi se nešto na što ćete često naletjeti - vidite je u „Sputnik“ – kliknite sada na Show/Hide dugmić i pogledajte (liči na na malu kvaku). Kako se toga riješiti? Prije svega naći smetnji ime (google je naš prijatelj) – ovo se konkretno zove „optional hypen“ pa otvorite opet Find&Replace – More – Special i selektirate na popisu „optional hypen“ (pri dnu je) i Word ubaci u „Find what“ oznaku ^-.

Replace with ostavite prazno (brišemo znak) i klik na Replace All – gotovo nema nekoliko stotina (bude ih i tisuća) nepotrebnih znakova.

E, RegEx je prava magija (kratica od „Regular Expression“) – omogućuju vam pronaći i ispraviti hrpe stvari precizno definiranim, „izrazima“ tako izraz [a-z] znači „bilo koje jedno malo slovo od a do z“, a kad se izraz stavi u okruglu zagradu ( ovako: ([a-z]) )pretraga će spremiti ono što pronađe u varijablu kojom se kasnije koristimo u Replace polju kako bi se restaurirao točan tekst. Varijable se spremaju redom kako dodajemo okrugle zagrade, može ih biti do 9 pa ćemo sadržaj prvih zagrada pozvati u Replace polju sa \1 , sadržaj idućih sa \2 i tako dalje.

RegEx se koristi u Wordu tako da se u Find&Replace-More uključi „Use wildcards“ (malo blesavo no tako je) – naravno, navodnici se ne koriste, tu su da istaknu prije svega razmake unutar izraza.

Za primjer, uđite s tim 1. Regexom u pretragu i on nađe riječ „konk-retno“ i zapamti slova „k“ i „r“ pa ako se u Replace polju nalazi \1\2 što su oznake za varijable 1 i 2, kada kliknete na Replace dugme tekst postane „konkretno“. S ovim RegExom ne smije se klikati na „Replace All“ jer bi pobrkao i potpuno ispravne riječi tipa „amo-tamo“ i slične. Zato sam i napisao „možda replace“ jer se po tekstu prolazi jedno po jedno i pojedinačno se odlučuje treba li ili ne raditi Replace.

Varijable možete pozvati kojim redom želite, ne mora biti \1\2\3\4 nego i \4\2\1\3 što nam omogućuje velike mogućnosti automatskog uređenja teksta.

Page 20: Od P Do E-Knjige v0.34

Regex 2. će odmah naći riječ „potporuč- nika“ i slične no opet sami morate odlučiti što raditi: brisati crticu i razmak viška ili samo razmak (konkretno briše se i jedno i drugo)

Regex 3. služi za lov na lažne pasuse – to su oni koji počinju malim slovom jer niti jedan pasus nikada ne počinje malim slovom – unutra je znak „^13“ koji znači „fizički novi red – udarena ENTER tipka“. I to on lijepo nađe i zamijeni samo jednim razmakom tako da se lažni pasus priključi onom iznad sebe. Obzirom da postoje i lažni pasusi koji počinju velikim slovom oni se mogu pronaći samo čitanjem.

Bitna napomena: ja ovaj sistem Wordovih džokera (wildcards) nazivam RegEx-om no to nije baš potpuno precizno, RegEx je dobro standardiziran i neke stvari su drukčije. Recimo, tvrdi se da u klasičnom RegEx izrazu [a-z] nisu uključena naša slova te ih je potrebno posebno dodati u stilu [a-đčćšž] no to nije slučaj kod HR Worda 2010 kakav ja koristim, jednostavno [a-z] znači sva mala slova uključujući šumnike osim slova „ž“ (ha, šašavo) no nitko nas ne smeta da napišemo opseg [a-ž] – Word to prihvaća i koristi.

Evo ovdje krenite u potragu za lažnim pasusima – u Find What upišite ^13[a-z] pa probajte (Find Next) donjih 5 s malim slovom i zamijetite kako je preskočio „žao mi je“, a onda ponovite sa [a-ž] opsegom.

Isto probajte i s velikim slovima [A-Z] i [A-Ž]

žao mi jećaleđakovočačkalicašto je to

Žao mi jeĆaleĐakovoČačkalicaŠto je to

Znači HR Word 2010 poštiva kompletnu HR abecedu, (kako ide SR, s azbukom ili SLO ostaje nekome drugome za test) i ukoliko radite s njim koristite oblike [a-ž]

Regex 4. pronalazi i uklanja lažne pasuse koji počinju crticom (–)

odmah napomena, postoje 3 tipa crtica:

1. dash (crtica) -2. endash (n crtica) –3, emdash (m crtica) —

pa u pretrazi morate voditi o tome računa.Osobno mi se emdash — ne sviđa jer je preduga, koristim samo malu u riječima tipa crno-bijelo (znači samo tamo

gdje nema razmaka između crtice i okolnih znakova) i endash – kao razmake u pasusima, govoru ili početke pasusa. Sve se to dotjera i zamijeni RegEx-om.

Page 21: Od P Do E-Knjige v0.34

Postoje i obrate situacije – krivo spojeni pasusi – na to sam naletio tijekom rada na Dina serijalu. Odjednom sam primijetio ovakvu konstrukciju: …rekla sam dođi ovamo.” „Odrade je otišla… – pojavila su se dva navodnika s razmakom između – provjera je pokazala kako tu treba biti novi pasus, a ne spoj odvojen razmakom.

Regex spašava, sam vrag zna koliko ima takvih situacija – brza provjera pokazuje da sve pojave „ ” trebaju biti pasusi. Idemo

Find What : „ ”Replace with: „^p”

tu se krije jedan mali trik - ^p znači početak novog pasusa koji je zadan po defaultu, a kako smo ranije već sve podesili (poravnanje, uvlačenje, uvlačenje prvog reda, razmak pasusa…) to će se sve uporabom ^p preslikati na novostvoreni pasus. Da smo iskoristili ^13 ne bio stvoren pasus po zadanim uvjetima nego bi samo sve poslije drugog navodnika skočilo u novi red i nabilo se na lijevu marginu.

Osobno nisam neki majstor RegEx-a – no snađem se ovako pomalo olakšati si život koji mi pogrešni OCR zagorčava. Ne morate ni vi, dovoljan ih je manji broj da se tekstovi mogu ugodnije dotjerivati.

Microsoft ima na posebnim lokacijama bolje upute od onih uz sam Word, probat ću to prikačiti kao dodatak jednom no to je korisno samo znalcima engleskog jezika.

I nakon svih tih popravaka prva obvezna stvar koja se radi je spell-check , meni najveći davež jer, mada je Word 2010 tu najbolji (ništa drugo nema takve rječnike), ima svoje gadne mušice.

Prije bilo kakve ozbiljne obrade u Wordu prvo osigurajte zadnje inačice service packova za Office i Language pack ako ga koristite. Nedavno je izišao drugi – znači tzv. SP2.

Nakon toga ima još jedna bitna stvar – podesiti „Save AutoRecover information“ na što manju minutažu kojavam neće ometati rad, a za koju su PC i njegov disk sposobni (kod mene na 2x3GHz PC je na 2 minute) te uključiti i

„Keep the last autosaved version….“ (opcija odmah ispod AutoRecover).

Ove dvije stvari će vam često spasiti jako puno posla – Word zna tako lijepo zaglaviti da ga se samo može ubiti u Task Mangeru, a onda znate što se dogodi s onim što nije spremljeno – radi iznova!

Odmah sitni trik – Word se uvijek čudi riječima koje završavaju sa tri točke (i onda je on otišao... ) i stane na njima, a tih trotočaka zna biti vagon. Zato ja prije spell checka sve „...“ zamijenim u „ žž ” (razmak žž razmak) i kad naleti na to samo jedan klik na „ignore all“ i k'o curica. Naravno kasnije morate vratiti „...“ nazad.

Ako želite stvarno sređenu knjigu spell-check je prva osnova – druga je čitanje (i nakon pažljivog spell checka ostane između 30 do 200-300 grešaka koje se mogu locirati samo čitanjem)

Nakon što je spell obavljen ide se u prijelom knjige – pokušati ostvariti izgled sličan p-knjizi s tim da je nepotrebno gubiti vrijeme (ne samo to, treba ih sve i ukloniti) na brojeve stranica, headere i footere.

To i je prvo što se radi – razlomi se knjiga po cjelinama – poglavljima pa se uređuju naslovi (boldanje, centriranje, veliko slovo, dupli razmaci ponegdje) . Ovo važi za one koji neće ići dalje od Wordovog docx formata.

(ubaciti dio oko page-breaks i stilova)

Još jedna sitnica – napomene (fusnote) treba napraviti tako da su „žive“ – klikabilne – klik na oznaku napomene nas odvede na pojašnjenje.

Page 22: Od P Do E-Knjige v0.34

(recimo neka ja zbog vida čitam s velikim slovima i kad naletim na obojanu fusnotu moram skrolati do dna stranice da ju pročitam pa opet scroll nazad, „živa“ fusnota to olakšava klikanjem)

Evo stavimo jednu fusnotu1 mada to nije ono što e-knjige koriste – u uporabi su samo endnotes koje su grupirane negdje na kraju knjige i prije nego krenemo u epub sve footnotes treba pretvoriti u endnotes (vrlo jednostavno, nekoliko klikova mišem)

1 Sa klikom na Insert footnote i samo se dopiše tekst – kad dođeš mišem na nju pokaže se tekst

Page 23: Od P Do E-Knjige v0.34

Uz pozdrave,

&

Chita(m) krbo

zahvale za komentarei sugestije: chargerx, ShamanNS

Page 24: Od P Do E-Knjige v0.34

Dodatak 1

SCENE-BREAK

Počeli smo spominjati jedan engleski termin za jednu često pojavu grafičkog uređenja knjiga (prijeloma), a to je:

scene-break

nemam pojma kako bi se to pravilno nazvalo na HR ("prijelaz" možda, od "prijelaz radnje" ??) pa ću ostati kod eng. dok me neki jezikoslovac grafičar ne prosvijetli :) No svi znate što to je, vidjeli ste ih u p-knjigama gotovo uvijek.

O čemu se radi?

Vrlo često pisci unutar poglavlja (koja su tu da znatno naglase nešto novo) naglo mijenjaju mjesto radnje ili komplet likova. Kad se to čita kao rečenica za rečenicom obvezno nastupi "zbunjola".

Sad čitam o nekoj dnevnoj sobi - odjednom neki čiča hoda po podnožju Himalaje!

Kako bi se olakšao takav prijelaz čitateljima na mjestu prekida ubacuje se scene-break da bi na neki način jasno pokazao kako slijedi nešto novo.

Najčešći način je ubacivanje praznine od jedan ili dva retka.

Tako lijepo zapazimo "bjelinu" i odmah smo nesvjesno spremni prebaciti maštu na drukčiji tijek radnje:

“Sranje”, promrsi. Morat će se vratiti do tabora. Mora se nadati da suTupoglavci otišli dalje, nadati se da su ostavili nešto za sobom. Nešto što će muposlužiti da preživi. Bilo je to prokleto mnogo nadanja, ali nije imao izbora.Nikad nije imao nikakvog izbora.

Dok je Logen pronašao tabor, već je počelo kišiti. Kaplje koje su sipile lijepilesu mu kosu za lubanju i zadržale mu odjeću u posve promočenom izdanju. Priljubiose uz deblo prekriveno mahovinom i provirio prema taboru, dok mu je srce lupalo

Page 25: Od P Do E-Knjige v0.34

Drugi najčešći način su, valjda, poznate tri zvjezdice * * * :

za pedantne → vrlo, vrlo često nakon scene-breaka slijedi drukčije formatiran pasus, najčešće bez indenta (uvlačenja) što još pojačava novu scenu.

za vrlo pedantne → scene-break mora biti jednako udaljen od gornjeg i donjeg pasusa, znači nova CSS klasa samo za njega za podešavanje top i bottom bordera.

Ostali česti načini uključuju neki sitni grafički element poput medaljona, grba , crtice ili zgodno ukomponiranih slova odabranog fonta (kod slova morate biti oprezni jer ne podržavaju svi čitači kompletan unicode pa umjesto, recimo

tri tilde "~ ~ ~" možete na nekom čitaču završiti sa nečim vrlo neobičnim.

No to se neće dogoditi s tildama nego sa "donjim" znakovima u mapi znakova,onima prema dnu (pogledajte u Win Character map kojeg fonta)

Za primjer jedna grafikica iz "Inferna" - samo 776 bajta velika sličica linije (povećano da se bolje vidi):

Ukoliko se odlučite za grafiku pokušajte glavnu boju podloge napraviti prozirnom (transparentnom) - zbog onih kojie-book čitaju na računalima/tabletim pa recimo vole žućkasti "papir". Tada vaša grafika s neprozirnom bijelom bojom bode oči. E-čitači uglavnom nemaju taj problem (barem većina, oni u boji su rijetka roba)

Zašto sve ovo?

Dosta često se dogodi da se tijekom izrade epuba scene-breaks izgube i time stvarno otežavamo čitanje. Čini mi se kako Abbyy kod spremanja u HTML voli maksimalno "pojesti" prazne redove (ako ih budu tri, ostane samo jedan ili ni jedan).

Zato pokušajte obratiti pažnju na to jer jedan od poslića tijekom izrade trebao bi biti i pokušaj podražavanja izgleda p-knjige, a scan se u Abbyyju može jako brzo prelistati u potrazi za naslovima, pjesmicama, grafikamapa time i za scene-breaksima.

“Čekaj...” No West je već odlazio.

* * *

Samo da ne bude preružna, Jezal je razmišljao dok se polako približavao stanumajora Westa i podizao nevoljku šaku da pokuca. Samo da ne bude preružna.

Page 26: Od P Do E-Knjige v0.34

I postoji jedna dobra, neslužbena preporuka:

U formatima za čitače maksimalno izbjegavajte prazne redove – slobodno ubacite nešto, samo da nije prazan red jer na čitaču nemate pojma gdje će scene-break završiti, a vrlo često završi na dnu ili početku nove stranice gdje je gotovo neuočljiv i eto nam opet zbunjole čitatelja.Iz istog razlog ćete često naći u p-knjigama koje koriste uglavnom prazne redove kao scene-breaks na nekim mjestima još i zvjezdice (ili nešto slično) i ako se pažljivo zagledate vidjet ćete kako te zvjezdice stoje na početku nove stranice.Zašto? Zato što je došlo do premještanja radnje i nova baš počinje na idućoj stranici tako da prazan red ne bi imao svrhu kao i kod e-čitača te autor/urednik to naglasi zvjezdicama.

Povratak

Page 27: Od P Do E-Knjige v0.34

Verzije:

11.09.2013. 0.34 – ispravljene mnoge slovne greške, dodane neke stavke, promjena strukture rečenica, dodan dodatak1