Formaty hybrydowe Formaty hybrydowe w bibliotekach cyfrowychw bibliotekach cyfrowych
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
(kontekst i praktyka)
Konferencja „Praktyczne aspekty tworzenia bibliotek cyfrowych”. Wojewódzka Biblioteka Publiczna w Krakowie, 12.09.2008
Plan wyk�aduPlan wyk�adu –– cz. 1 z 3cz. 1 z 31. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inneW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Dokument elektroniczny Dokument elektroniczny w sensie normatywnymw sensie normatywnym
• Definicje prawne
• Normy
• Cechy DE
• Struktura DE
• Co to jest format?
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DEDE –– prawo i normyprawo i normy- ISO 15489 (mi�dzynarodowe)- Model of Requirements for Records
Management (UE)Polska:
- PN-ISO 15489-1:2006 i in.
- Ustawa o informatyzacji ... (Dz.U. 2005 nr 64, poz. 565),
- Ustawa o �wiadczeniu us�ug drog� elektroniczn�(Dz.U. 2002 nr 144, poz. 1204)
- Ustawa o podpisie elektronicznym (Dz.U. 2001 nr 130, poz. 1450)
- Kodeks Karny
Wojewódzka Biblioteka Publiczna w Krakowie
Definicje DE (1)Definicje DE (1)DE (komputerowy, cyfrowy) - dokument z sygna�emutrwalonym na no�niku elektronicznym. Mog� to by�komunikaty ró�nych j�zyków naturalnych w subkodachakustycznych i graficznych, inne komunikaty graficzne jak obrazy, wykresy, animacje, filmy, komunikaty d�wi�kowe, np. muzyka (S�ownik encyklopedyczny informacji, j�zyków i systemów... Warszawa 2002)
DE - zbiór danych wprowadzonych lub przechowywanychna dowolnym no�niku przez system informatyczny lub podobny uk�ad, które mog� by� odczytane lub wy�wietlone przez osob� lub przez tego rodzaju system lub uk�ad, a tak�e wszelkiego rodzaju prezentacja i wszelkiego rodzaju przedstawienie tych danych w formie drukowanej lub innej (Decyzja KE, 2004/563/WE)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Definicje DE (2)Definicje DE (2)DE - „dokument istniej�cy w postaci elektronicznej, dost�pny za po�rednictwem techniki komputerowej” (PN-ISO 690-2)
DE - „stanowi�cy odr�bn� ca�o�� znaczeniow� zbiór danych uporz�dkowanych w okre�lonej strukturze wewn�trznej i zapisany na informatycznym no�nikudanych(Ustawa o informatyzacji... 2005)
DE - „ka�dy przedmiot lub zapis na komputerowym no�niku informacji, z którym jest wi�zane okre�loneprawo albo który ze wzgl�du na zawart� w nim tre��stanowi dowód prawa, stosunku prawnego lub okoliczno�ci maj�cej znaczenie prawne” (Kodeks Karny)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Prace nad terminologi�Prace nad terminologi�Ustawa o zmianie ustaw w celu ujednolicenia terminologii informatycznej (w toku – skier. do podpisu Prezydenta - 5.09.2008)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
W �wietle PNW �wietle PN--ISO 690ISO 690--22
DE – [...] dokument istniej�cy w postaci elektronicznej, dost�pny za po�rednictwemtechniki komputerowej [...]
• posta�
• medium
PN-ISO 690-2 Informacja i dokumentacja - Zarz�dzanie dokumentami
Wojewódzka Biblioteka Publiczna w Krakowie
DEDE -- cechycechy1. Utrwalone na materialnym no�niku;
2. Mo�na je odtwarza� w formie umo�liwiaj�cej ich percepcj�;
- Nie jest istotny rodzaj no�nika i sposób transmisji;
- istotne za� jest, aby dane mog�y by� wielokrotnieodtwarzane.
Wojewódzka Biblioteka Publiczna w Krakowie
DEDE -- wyró�nikiwyró�niki1. Zawarto�� – tekst, obraz, d�wi�k i in.;
2. Struktura logiczna, która nie musi by� to�sama ze struktur� fizyczn�, gdy� mo�e by� zawartabezpo�rednio w dokumencie, w bazie danych lubpliku zewn�trznym;
3. Kontekst, czyli metadane techniczne okre�laj�ce w jakiej postaci dokument b�dzie prezentowany.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Struktura DEStruktura DEStruktura logiczna dokumentu elektronicznego - sposób u�o�enia informacji w dokumencie elektronicznym zdefiniowany poprzez okre�lenie elementów informacyjnych oraz powi�za� mi�dzy nimi;
Struktura fizyczna dokumentu elektronicznego – wynik przetworzenia, w tym kodowania i szyfrowania, informacji zawartych w dokumencie elektronicznym na dane w uk�adzie bitowym (czyli format danychformat danych);
Rozporz�dzenie Prezesa Rady Ministrów z dnia 29 wrze�nia 2005 r. w sprawie warunków organizacyjno-technicznych dor�czania dokumentów elektronicznych podmiotom publicznym (Dz.U. 2005, nr 200, poz. 1651)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Dokument elektroniczny Dokument elektroniczny w sensie praktycznymw sensie praktycznym
• Rozumienie DE w bibliotece cyfrowej
• Oczekiwania wobec publikacji w bibliotece cyfrowej
• Porównanie procesu tworzenia publikacji tradycyjnej i elektronicznej
• Konsekwencje dla bibliotek
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DEDE w sensie praktycznymw sensie praktycznymZ punktu widzenia bibliotek cyfrowych obecnej generacji w�a�ciwsze jest operowanie poj�ciem publikacji cyfrowej, któr� nale�y traktowa� w�sko:
... to ksi��ka tradycyjna na no�niku elektronicznym
Podobny lub identyczny:
� proces tworzenia
� proces redakcji, recenzowania
� proces sk�adu
Wojewódzka Biblioteka Publiczna w Krakowie
Oczekiwania czytelników Oczekiwania czytelników Format zapisu e-ksi��ki winien oferowa� takie parametry, aby higiena jej czytania by�a nie gorsza ni� ksi��kitradycyjnej.
600 DPI
24 BPP
djvu
6283x9094 pikseli
280 kB
Wojewódzka Biblioteka Publiczna w Krakowie
Z my�l� o przysz�o�ciZ my�l� o przysz�o�ci
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Ile cali b�dzie mia�monitorprzysz�o�ci?
Ksi��ka tradycyjna a eKsi��ka tradycyjna a e--ksi��kaksi��ka
Autor
Recenzent
Redakcja
DTP
Przygotowanie
Przygotowanie
Maszynydrukarskie
Bibliotekacyfrowa
+ metadane
Ksi��ka wspó�czesna (druk cyfrowy)
Ksi��ka tradycyjna
e-Ksi��ka
Wojewódzka Biblioteka Publiczna w Krakowie
Ksi��ka tradycyjna a eKsi��ka tradycyjna a e--ksi��kaksi��ka
Autor
Recenzent?
Redakcja?
DTP?Przygotowanie Biblioteka
cyfrowa
+ metadaneSkanowanie TIFF
Ksi��ka dawna lub drukowana z u�yciem klisz
Wojewódzka Biblioteka Publiczna w Krakowie
Biblioteka cyfr. Biblioteka cyfr. –– nowe zadanianowe zadania• Funkcje typowe dla drukarni:
• przetwarzanie sk�adu;
• montowanie publikacji;
• skanowanie, konwersja;
• Funkcje typowe dla wydawców:
• umowy licencyjne;
• regulacja praw autorskich;
• dora�na redakcja i sk�ad DTP;
• Funkcje typowe dla firm hostingowych:
• utrzymanie w ruchu infrastruktury serwerów i ��czy.
Wojewódzka Biblioteka Publiczna w Krakowie
Plan wyk�aduPlan wyk�adu –– cz. 2 z 3cz. 2 z 31. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inneW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty dokumentówFormaty dokumentów• Formaty w cyklu tworzenia publikacji cyfrowej
• O etapach cyklu
• Ogólna typologia formatów
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Cykl tworzenia PC a formatyCykl tworzenia PC a formaty1. Przygotowanie materia�ów do digitalizacji
2. Digitalizacja
3. Obróbka plików, porz�dkowanie
4. Przechowywanie
5. Udost�pnianie
* PC - publikacja cyfrowa
W. M. Kolasa
Formatarchiwalny
Formatprezencyjny
Formatypo�rednie
Wojewódzka Biblioteka Publiczna w Krakowie
1. Przygotowanie materia�u1. Przygotowanie materia�uStrategie:
• Digitalizacja;
• Digitalizacja wraz z konserwacj�;
• Digitalizacja po��czona z mikrofilmowaniem.
• Konwersja z formatów stosowanych w DTP do PDF
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PrzygotowaniePrzygotowanie –– podzia� mat.podzia� mat.Typ orygina�u:
• czarno-bia�e (druk, rysunek itp.);
• kolorowe i pó�tonowe (fotografie, grafika itp.);
Format orygina�u
• Ma�e (do A4);
• rednie (A3-A2);
• Du�e (A1 i wi�ksze);
Obiekty cenne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
2. Digitalizacja2. DigitalizacjaMetody:
• Skanowanie lub filmowanie orygina�u;
• Skanowanie z mikroform;
• Skanowanie z filmów negatywowych;
• Konwersja z formatów po�rednich „paradigitalizacja”
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
3. Obróbka plików3. Obróbka plików• Formaty plików (standardy i dobór);
• Wersjonowanie (f. archiwalny i prezencyjny);
• Retusz (f. prezencyjny);
• Konwersja (f. prezencyjny);
• OCR (f. prezencyjny);
• �czenie i indeksowanie (f. archiwalny i prezencyjny).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
4. Utrwalenie, archiwizacja4. Utrwalenie, archiwizacjaNo�niki:
• CD/DVD/BD;
• Dyski;
System oznacze�
• Notacja;
• Obs�uga wersjonowania;
Zabezpieczenia:
• 1 kopia (macierz archiwalna) – f. archiwalny;
• 2 kopia (macierz u�ytkowa) – f. archiwalny;
• 3 kopia (egz. u�ytkowy) – f. prezencyjny.W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty po�rednieFormaty po�rednieZagadnienia:
• Automatyzacja zapisu skanów
• System notacji (nazwa, _,-, Aa, cyfry)
gazeta_polska_1867_nr_078_s_0001
• No�nik
Problemy:
• Pliki jedno- i wielostronicowe
• Skanowanie stron nieparzystych
• Skanowanie mat. w ró�nych trybach (bitonal, gray)W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
5. Przechowywanie i udost�pnianie5. Przechowywanie i udost�pnianieProblem trwa�o�ci no�nika:
• CD/DVD/BD, HDD, Internet
• mikroformy
Udost�pnianie:
• Offline (f. prezencyjny, f. archiwalny);
• intranet;
• no�niki CD/DVD/BD;
• Online (f. prezencyjny);
Us�ugi: wydruki, wyp. miedzybibliot., us�ugi komercyjne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty archiwalne i prezencyjneFormaty archiwalne i prezencyjneCechy formatu archiwalnego (FA):
1. wysoka jako��;
2. wierne odwzorowanie orygina�u.
Cechy formatu prezencyjnego (FP):
1. ma�e rozmiary;
2. akceptowalna jako��;
3. wysoki poziom zorganizowania (indeksowania).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty archiwalne i prezencyjneFormaty archiwalne i prezencyjne
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Zalecane formaty archiwalneZalecane formaty archiwalne• TIF – bezstratna kompresja, obs�uga przestrzeni
barwnej (RGB, CMYK) i wszystkich trybów g��bibitowej; standard mi�dzyplatformowy (win/mac/unix)
• w wersji master - raczej bez kompresji
• raczej nie stosowa� plików wielostronicowych.
• PDF/A - ISO 19005:2005
• zasadniczo chodzi tu o zaimportowanie do PDF dowolnych plików pierwotnych.
• bezpo�rednio nie s�u�y do odtwarzania danych – ma jedynie umo�liwi� ich bezstratny eksport.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Zalecane parametry dla FAZalecane parametry dla FADokumenty tekstowe: rozdzielczo�� (600 DPI); g��bia
bitowa (24 lub 36 BPP)
R�kopisy: rozdzielczo�� (600-800 DPI); g��bia bitowa (36 lub 48 BPP)
Ikonografia: rozdzielczo�� (300-600 DPI); g��bia bitowa (24 lub 36 BPP);
Fotografie: rozdzielczo�� (3200-6400 DPI); g��biabitowa (16, 36, 48 BPP);
Mikrofilmy: rozdzielczo�� (3200 DPI); g��bia bitowa (16 BPP);
Szerzej - Decyzja NDAP (2005)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Obj�to�� a g��bia i rozdzielczo��Obj�to�� a g��bia i rozdzielczo��Obj�to�� przyk�adowego skanu A4 (TIF, bez kompresji)
W. M. Kolasa
0100200300400500600700800
Skalaszaro�ci 8
bit
Skalaszaro�ci
16 bit
Kolor 36
bit
Kolor 48
bit
300 dpi400 dpi600 dpi1200 dpi
Wojewódzka Biblioteka Publiczna w Krakowie
Obj�to�� a g��bia i rozdzielczo��Obj�to�� a g��bia i rozdzielczo��Obj�to�� przyk�adowego skanu A4 (TIF, bez kompresji)
W. M. Kolasa
Rozdzielczo��
Gray8 bit
Gray16 bit
Kolor36 bit
Kolor48 bit
300 dpi 8 16 33 50
400 dpi 16 32 60 100
600 dpi 33 66 133 200
1200 dpi 133 266 533 800
Wojewódzka Biblioteka Publiczna w Krakowie
TIFTIF –– kompresjakompresjaWojewódzka Biblioteka Publiczna w Krakowie
�ród�o: A. Trembowiecki, Digitalizacja zbiorów bibliotecznych. Teoria i praktyka, Warszawa 2006
Formaty prezencyjne Formaty prezencyjne -- typologiatypologia� Tekstowe
• nieadnotowane (np. TXT) ***
• adnotowane (np. RTF)
� Graficzne
• rastrowe (TIF, BMP, JPG, GIF, PNG) ***
• wektorowe (np. CorelDraw, AutoCAD)
• inne natywne (np. Photoshop, CorelPhoto-Paint)
� Hybrydowe (PDF, djVu) ***
� Specjalne: audio, wideo, aplikacyjne...
*** Formaty stosowane w bibliotekach cyfrowychW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty a generacje bibliotekFormaty a generacje bibliotekBiblioteki I generacji (1971-1995):
- tekstowe (ASCI, HTML, RTF itp.) lub
- grafika rastrowa (GIF, JPG, TIF, PNG).
Biblioteki II generacji:
- formaty hybrydowe: DJVu, PDF;
- formaty graficzne: JPG, JPG2000, PNG, GIF + java;
- formaty specjalne: mapy, nuty (zoomity, sibelius);
- formaty multimedialne: mp3, mpeg, flash;
- formaty aplikacyjne: np. java.
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty tekstowe Formaty tekstowe -- nieadnotowanenieadnotowaneTXT – plik tekstowy pozbawiony elementów
typograficznych (formatowania). Zakodowany w standardzie ANSI lub UTF.
Przyk�ad: Ala ma kota (11 znaków – 11 bajtów)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty tekstowe Formaty tekstowe -- adnotowaneadnotowaneNp. RTF - (Rich Text Format). W odró�nieniu od TXT
pozwala na zapis formatowania. Od wersji 1.6 obs�uguje UTF.
Przyk�ad: Ala ma kota(11 znaków – 189 b)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty tekstowe Formaty tekstowe -- zalety i wadyzalety i wadyZalety:
• Ma�y rozmiar pliku;
• Mo�liwo�� wyszukiwania tekstowego;
Wady:
• Niski wspó�czynnik bezpiecze�stwa;
• Liczne standardy kodowania (ANSI, ISO, UTF...);
• Formaty i aplikacje natywne (np. Word);
• Brak mo�liwo�ci wiernego odwzorowania oryg.;
• Mo�liwe problemy z czcionkami (typy, kroje);
• Du�y nak�ad pracy podczas konwersji (OCR).W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Grafika rastrowa Grafika rastrowa -- wybórwybór•• JPEGJPEG – pe�na paleta barw, wysoki wspó�czynnik
kompresji (tylko stratna), mo�liwa progresja, brak kana�u przezroczysto�ci. Dobre efekty i wierne odwzordla obrazów z du�a liczb� szczegó�ów.
•• GIFGIF – 256 kolorów, kana� przezroczysto�ci, wysoki wspó�czynnik kompresji (tylko stratna). Dobre efekty dla obrazów z du�ymi jednorodnymi przestrzeniami.
•• PNGPNG – nast�pca GIFa, pe�na paleta barw, mo�liwakompresja bezstratna. Sprawdza si� tylko dla niektórych kategorii obrazów (zrzuty, mapy).
•• TIFTIF – jako format prezencyjny sprawdza si� tylko dla obrazów bitonalnych, mo�liwa kompresja bezstratna.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
ObrazObraz –– kompresja stratnakompresja stratnaBez kompresji (196 kB)
Kompresja 5% (1,7 kB)
Kompresja 25% (4 kB)
�ród�o: Wikipedia
Wojewódzka Biblioteka Publiczna w Krakowie
TekstTekst –– kompresja tekstukompresja tekstuBez kompresji (5 kB)
W. M. Kolasa
Kompresja 25% (2 kB)
Kompresja 5% (1,2 kB)
Wojewódzka Biblioteka Publiczna w Krakowie
G��bia a jako��G��bia a jako��
24 BPP 8 BPP 4 BPP
W. M. Kolasa
8 BPP 4 BPP 1 BPP
Wojewódzka Biblioteka Publiczna w Krakowie
Dla wi�kszo�ci skanowanych drukówDla wi�kszo�ci skanowanych druków
Kolor 4-8 BPP Gray 4 BPPW. M. Kolasa
Bitonal1 BPP
Wojewódzka Biblioteka Publiczna w Krakowie
Dla wspó�czesnych wyd. ilustrowanychDla wspó�czesnych wyd. ilustrowanych
W. M. Kolasa
RGB
Kolor
24 BP
Wojewódzka Biblioteka Publiczna w Krakowie
Problem prezentacji rastraProblem prezentacji rastra• Raster - bitonalny obraz sk�adaj�cy si� z drobnych
kropek (lub linii), daj�cy podczas ogl�dania z normalnej odleg�o�ci wra�enie istnienia pó�tonów
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Raster w gazecie z lat 60.Raster w gazecie z lat 60.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Z�udzenia optyczne Z�udzenia optyczne (raster, 1BPP)(raster, 1BPP)
wyg�adzony brak wyg�adzenia
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Programowe renderowanie obrazów
FastStoneImageViewer
FastStoneMaxView
xnView
KorektyKorekty
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
�ród�o: L. Buczy�ski: Skanery i skanowanie. Warszawa 2005
Przetwarzanie wsadowe (win)Przetwarzanie wsadowe (win)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Przetwarzanie wsadowe (Przetwarzanie wsadowe (unixunix))
W. M. Kolasa
ImageMagick/DJVulibre/bash (przyk�ady):
• Wszystkie djvu do tiff [1 strona] (ddjvu):
• Miniatury 200 pix z wszystkich tiff (ImageMagick):
find . -name '*.djvu' -exec ddjvu -v -format=tiff -page=1 {} {}.tiff ';’
find . -name '*.tiff' -exec mogrify -format jpg -quality82 -thumbnail 200 {} ';’
Wojewódzka Biblioteka Publiczna w Krakowie
Narz�dzia do grafiki rastrowejNarz�dzia do grafiki rastrowejEdytory:
• Adobe Photoshop – komercyjny (win, mac) – GUI;
• Gimp – bezp�atny (unix, win, mac) – GUI;
• ImageMagic – bezp�atny (unix, win, mac) – konsola.
Przegl�darki i konwertery (bezp�atne):
• FastStone Viewer (win);
• xnView (win);
• irfanView (win);
• liczne narz�dzia (linux, mac)W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Formaty rastrowe Formaty rastrowe -- zalety i wadyzalety i wadyZalety:
• Wierne odwzorowanie orygina�u;
• Ma�y nak�ad pracy podczas tworzenia;
• Standardy mi�dzyplatformowe (jpeg, gif, tif, png);
• atwo�� u�ytkowania, du�a popularno�� na www.
Wady:
• Du�a obj�to�� pliku (w stosunku do jako�ci);
• Brak mo�liwo�ci osadzania warstwy tekstowej;
• Zwykle poddane kompresji stratnej (prezencyjne);
• Niski poziom zorganizowania (obrazy jednostr.).W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Dylemat: tekst czy grafikaDylemat: tekst czy grafikaKazania �wi�tokrzyskie
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
czytelne,nieautentyczne
nieczytelne,autentyczne
Plan wyk�aduPlan wyk�adu –– cz. 3 z 3cz. 3 z 31. Dokument elektroniczny i jego konteksty
• Kontekst normatywny
• Kontekst praktyczny
2. Typologia formatów
• Formaty w cyklu tworzenia publikacji cyfrowej
• Formaty archiwalne
• Formaty prezencyjne
3. Formaty hybrydowe
• Portable Document Format
• DJVu, inneW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Format hybrydowyFormat hybrydowyCechy:
• Mo�e ��czy� cechy formatów tekstowych i graficznych;
• Oferuje wysoki poziom zorganizowania – mo�liwa obs�uga struktury logicznej dokumentu;
• Inne nowe mo�liwo�ci
Wybrane specyfikacje:
• DJVu
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Portable DocumentPortable Document FormatFormatPDF (Portable Document Format) - jest formatem plików
s�u��cym do prezentacji, przenoszenia, drukowania i przechowywania tre�ci tekstowo-graficznych.
J�zykiem opisu PDF jest okrojona wersja j�zykaPostScript wzbogacona o elementy hipertekstowe i aplikacyjne.
Twórca: Adobe Systems
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Portable DocumentPortable Document FormatFormatPDF w zale�no�ci od wersji mo�e pe�ni� okre�lone
funkcje:
1. Zastosowanie do celów poligraficznychpoligraficznych – PDF/X(ISO 15930; ISO TC130)
2.2. KonteneraKontenera danych – PDF/A (ISO 19005; ISO TC171)
3. Zastosowanie do wymianywymiany obiektów graficznych i dokumentacji technicznej – PDF/E (ISO TC171)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Portable DocumentPortable Document FormatFormat• W plikach PDF mo�e by� zawarty tekst, grafika
(rastrowa, wektorowa), a tak�e elementy aktywne.
• W styczniu 2007 Adobe ca�kowicie otwar�a format PDF i przekaza�a jego specyfikacj� organizacji AIIM.
• 2 lipca 2008 og�oszono norm� ISO 32000-1:2008
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Czym jest PDF?Czym jest PDF?1. PDF – podstawa nowoczesnej poligrafii
(du�e pliki wysoka jako�� – np. PDF/X).
2. Mo�e pe�ni� funkcj� kontenerakontenera (PDF/A; PDF/E).
3. PDF – jako format prezencyjnyprezencyjny- ale po wyrafinowanych zabiegach adaptacyjnych.
4. PDF – w pe�ni poprawnie funkcjonuje tylko na oprogramowaniu Adobe.
5. Mog� istnie� problemy prawne (por. licencje EULA).
6. PDF – format bardzo z�o�ony, ��czy: tekst, grafik�rastrowa i wektorow� oraz elementy aplikacyjne.
Wojewódzka Biblioteka Publiczna w Krakowie
PDF (w poligrafii i nie tylko)PDF (w poligrafii i nie tylko)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF -- narz�dzianarz�dzia
W. M. Kolasa
1. Adobe Acrobat - edytor (komercyjny)*
2. Brak godnych polecenia edytorów bezp�atnych;
3. Liczne przegl�darki (na czele z Adobe Reader);
4. Liczne drukarki wirtualne (z regu�y bezp�atne) lub wbudowane w aplikacje (np. MS Office, AutoCad);
5. Liczne narz�dzia do manipulacji na plikach PDF;
6. Poza Adobe Acrobatem wszystkie narz�dza oferuj�tylko pewien poziom obs�ugi formatu PDF (skutkuje to z�� jako�ci�, rozmiarem, niepoprawnymi parametrami).
* Nadto inne specjalistyczne stosowane w poligrafii
Wojewódzka Biblioteka Publiczna w Krakowie
Adobe AcrobatAdobe Acrobat 8.0 Prof. (9.0)8.0 Prof. (9.0)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Adobe Acrobat Adobe Acrobat –– wybrane funkcjewybrane funkcje- mo�liwo�� manipulacji na danych (uk�ad, grafika,
tekst, czcionki, parametry obiektów itp.);
- mo�liwo�� importu dowolnych danych;
- mo�liwo�� dodania warstwy OCR*;
- zabezpieczenia; metadane;
- narz�dza do edycji i optymalizacjioptymalizacji;
- formularze, komentarze,
- liczne opcje eksportu;
- narz�dzia kontroli i inspekcji.
* Niska jako�� wbudowanego engine OCR
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– (zaimportowany TIF)(zaimportowany TIF)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– obiekt tekstowoobiekt tekstowo--graficznygraficzny
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– osadzonyosadzony DublinCoreDublinCore
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
OptymalizacjaOptymalizacja –– zawsze potrzebnazawsze potrzebna
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– wirtualne drukarkiwirtualne drukarki
W. M. Kolasa
Mimo szerokiej oferty programów – tylko nieliczne dzia�aj� w pe�ni poprawnie:
1. Narz�dzia oparte na silniku Adobe:
• Acrobat Distiller i kontrolki Adobe (InDesign i in.)
• Wtyczki do popularnych programów (Word, Corel, AutoCad)
2. Niektóre programy oparte na GPL/AFPL GhostScript:
• PDF Creator*;
• Wtyczki do OpenOffice i GoogleDoc.
3. Uniksowe narz�dzia do PostScriptu.* Drobne b��dy
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– eksport z eksport z InDesignInDesign
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFPDF –– edycjaedycjaNieliczne dzia�aj�ce poprawnie bezp�atne programy,
które s�u�ba do ��czenia, dzielenia, naprawy, nak�adania znaków wodnych; ustawiania zabezpiecze�; manipulacji na PDF.
- PDF Tools (win)
- PDFTK (win, unix)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDFToolsPDFTools
W. M. Kolasa
• http://www.sheelapps.com/
Wojewódzka Biblioteka Publiczna w Krakowie
PDF TK (PDF TK (unixunix))Wybrane polecenia:
• rozdziel na pojedyncze strony:
• sklej wszystkie pliki pdf):
• napraw plik:
• zmie� wersj� PDF (do 1.2):
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
pdftk cat *.pdf output nowy.pdf
pdftk stary.pdf output nowy.pdf
ps2pdf12 stary.pdf nowy.pdf
pdftk nazwa.pdf burst
PDFPDF –– eksporteksportFunkcj� kontrolera eksportu do tif/jpg mo�e pe�ni� :
• Ghostscript/Ghostview lub jego klony:
• PDFill PDF Tools lub
• PDF-XChange
Narz�dzia te nie oferuj� dost�pu do opcji zaawansowanych
Brak jednak sprawnych bezp�atnych programów do optymalizacji PDF i edycji metadanych.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
AFPLAFPL GhostScriptGhostScript++GSviewGSview
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Nowe horyzonty Nowe horyzonty AdobeDigitalAdobeDigital
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Spo�eczno��:Spo�eczno��: AdobeAdobe DC: http://DC: http://wwwwww..adobeadobe..comcom//devnetdevnet//acrobatacrobat//
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Spo�eczno��:Spo�eczno��: PDFPDF ZoneZone: http://: http://wwwwww..pdfzonepdfzone..comcom//
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Spo�eczno��:Spo�eczno��: Planet PDF http://Planet PDF http://wwwwww..planetpdfplanetpdf..comcom//
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Zalety i wady PDF Zalety i wady PDF (jako formatu prezencyjnego)(jako formatu prezencyjnego)
Zalety
• Popularno��, �atwo�� u�ytkowania;
• Idealny dla ma�ych tekstowych dokumentów;
• Umo�liwia popr. wy�wietlanie skomplikowanych znaków (np. mat., chem.) tworzonych LaTeXem.
Wady:
• Du�e rozmiary plików dla dokumentów innych ni�tekstowe;
• Problem z sekwencyjnym serwowaniem i wy�wietlaniem stron;
• Potencjalne problemy z osadzonymi fontami.W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DjVuDjVuDjVu - technologia rozwijana od 1996 r. przez koncern
AT&T do kompresji skanowanych dokumentów.
Oprogramowanie oparte na tej technologii stworzy�a i opatentowa�a firma LizardTech Inc.
Od 2008 roku – technologia rozwijana pod szyldem Celartem Technology Inc. (spó�ki matki, która jest w�a�cicielem LizardTecha).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Czym jest DjVuCzym jest DjVuFormat DJVu w przeciwie�stwie do PDF ma charakter
czysto graficzny.
• Algorytm DJVu opiera si� na metodzie segmentacji obrazu i wydzieleniu warstw (por. Photoshop)
• Wynikowe pliki - najmniejsze z mo�liwych (por. JPG)
• Mo�e mie� zakotwiczona warstw� tekstow� OCR.
• Jasny status prawny – brak ogranicze� licencyjnych zarówno do celów nie komercyjnych jak i niekomerc.
• Istniej� zarówno komercyjne (Cartlem/LizardTech), jak i bezp�atne aplikacje (DJVuLibre)
Wojewódzka Biblioteka Publiczna w Krakowie
DjVuDjVu –– w�a�ciwo�ci dokumentuw�a�ciwo�ci dokumentu
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
WarstwyWarstwy
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Kolor
Tre��
T�o
Trzy warstwy t�a
Warstwy djvuWarstwy djvu
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
�ród�o: Léon Bottou: Efficient Conversion of Digital Documents to Raster Formats Multilayer (2001)
DjVuDjVu –– ma�e rozmiaryma�e rozmiaryMa�e rozmiary
Dokumenty DjVu s� nieedytowalne daj� wi�c gwarancj�wiarygodno�ci
Wojewódzka Biblioteka Publiczna w Krakowie
Morfologia pliku djvu
DjVuDjVu –– kompresja (zestawienie)kompresja (zestawienie)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Dokumentacja technicznaDokumentacja techniczna
�ród�o – GB Soft
Wojewódzka Biblioteka Publiczna w Krakowie
DJVuDJVu –– zoom 1000% (600 zoom 1000% (600 dpidpi))
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Jako��poligraficzna
DjVuDjVu -- oprogramowanieoprogramowanieEdytory:
Document Express – edytor, komercyjny (win, unix)
DJVU Virtual Printer – drukarka, komercyjna (win)
DjVu Solo – prosty bezp�atny edytor (win)
DjVuLibre – bezp�atny pakiet narz�dziowy (unix, win)
Przegl�darki (bezp�.):
- DjVu Browser (LizardTech) 6.1
- DJView 4.3 (DjVuLibre)
- Inne (unix, win i inne) – wyra�nie s�abszeW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DocumentDocument ExpressExpress EditorEditor
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DocumentDocument ExpressExpress EditorEditor Prof.Prof.Funkcje*:
- import plików (TIF, BMP, inne)
- manipulacje stronami dokumentu;
- dodawanie adnotacji, etykiet, linków;
- OCR
- eksport do formatów graficznych;
- wydruk do DjVu z dowolnej aplikacji (drukarka)
- obs�uga skanowania
* W wersji Enterprise znacznie wi�cej opcji i funkcji
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DjVuLibreDjVuLibre ((unixunix)) -- przyk�adyprzyk�ady• Wszystkie PDF do djvu (bez OCR) [pe�ny kolor]
• Wstaw adnotacj� do wszystkich djvu
find . -name 'e*.djvu' -exec djvused -f nasz.txt {} -s -v ';’
• Osad� miniaturki we wszystkich djvu
find . -name '*.djvu' -exec djvused {} -e 'set-thumbnails' -s -v ';'
• Zapisz jako rozdzielony:
...\ djvmcvt -i input.djvu . index.djvuW. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
find . -name '*.pdf' -exec djvudigital -dpi=600 -exact-color {} ';'
find . -name 'e*.djvu' -exec djvused -f nasz.txt {} -s -v ';’
find . -name '*.djvu' -exec djvused {} -e 'set-thumbnails' -s -v ';'
.../djvmcvt -i input.djvu . index.djvu
pdf2djvu (pdf2djvu (unixunix)) -- przyk�adyprzyk�adyKonwersja pdf do djvu (wraz z OCR)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Niestabilna wersja windows/cygwin
root@helios:~/pdfx/$ pdf2djvu --words --dpi=600 pismo.pdf > pismo.djvu: - page #1 -> #1 ...
0.227 bits/pixel; 1.656:1, 39.62% saved, 1275423bytes in, 770040 bytes out
DjVu BrowserDjVu Browser –– szybki, sprawnyszybki, sprawny• Tre��
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DJViewDJView 4.34.3 –– nowe mo�liwo�cinowe mo�liwo�ci
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Najwi�ksze biblioteki (z Najwi�ksze biblioteki (z DJVuDJVu))• Internet Archive: http://www.archive.org/
• Open Library: http://openlibrary.org/
• Gutenberg Consortia Center: http://gutenberg.cc/
• Nadto liczne o zasi�gu narodowym:
• USA
• Japonia
• Rosja
• Polska
• Islandia
• W�ochy i in.W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Wiele formatów: IA/OLWiele formatów: IA/OL• Tre��
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Zalety i wady Zalety i wady DJVuDJVuZalety
• Bardzo ma�e rozmiary;
• Sekwencyjne wy�wietlanie (str. fizycznie rozdzielone);
• Idealny dla d�ugich dokumentów;
• Du�y wybór aplikacji komercyjnych i bezp�atnych;
• Jasna sytuacja prawna, wsparcie w Polsce (GB Soft).
Wady
• Nieco trudny w obs�udze w fazie tworzenia, konwersji;
• Ma�o skuteczny engine OCR wbudowany w DE.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Kilka wskazówekKilka wskazówek• Jak w djvu poprawi� OCR?
• Jak wykona� djvu i OCR przy 72 dpi?
• Jak zaprojektowa� rozwi�zanie serwerowe
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Poprawa OCRPoprawa OCR1.1. EksportEksport DJVuDJVu do TIFF wielostronicowy (najlepiej 1BPP)do TIFF wielostronicowy (najlepiej 1BPP)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Poprawa OCRPoprawa OCR2.2. OCR wOCR w Abbyy Fine Reader Abbyy Fine Reader i zapis do wi�zkii zapis do wi�zki
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Poprawa OCR Poprawa OCR –– osadzanie wi�zkiosadzanie wi�zki
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DJVuLibreDJVuLibre –– djvuseddjvused [edytor][edytor]• Fragment strony pomocy:
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Parametr:Parametr:
---- setset--txttxt [djvusedtxtfile]
Insert hidden text information into the selected pages. The optionalargument djvusedtxtfile names a file containing the hidden text information.This file must contain data similar to what is produced by command print-txt. When the optional argument is omitted, the program reads the hidden text information from the djvused script until reaching an end-of-file or aline containing a single period.
....
Jak wykona� djvu i OCR z 72 Jak wykona� djvu i OCR z 72 dpidpi??
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Jak wykona� djvu i OCR z 72 Jak wykona� djvu i OCR z 72 dpidpi??
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DJVuDJVu –– rozwi�zanierozwi�zanie serweroweserwerowe1. Infrastruktura oparta na Document Express Enterprise
wraz z elementami dedykowanymi – komercyjne
2. Infrastruktura wykorzystuj�ca równolegle DocumentExpress Prof. i komponenty bezp�atne na platform�linuksa (DJVuLibre, Tesseract, ImageMagick, pdftk).
3. Jak 2. – ale zamiast Tesseracta u�ywany jest Abbyy FineReader (komercyjny).
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DJVuDJVu –– serw. rozwi�zanie 2serw. rozwi�zanie 2--331. Dwie metody tworzenia djvu:
• na platformie linuksa – wówczas jedynie kopiujemypdf lub tif na serwer (DJVuLibre lub pdf2djvu);
• wykonane w aplikacjach windows – w tym przypadku kopiujemy na serwer pliki djvu do dalszej obróbki;
2. Przed OCR. eksport djvu do TIFF (ddjvu);
3. OCR (Tesseract lub FineReader);
4. Osadzanie tekstu z djvu (djvused)
5. Czynno�ci ko�cowe: miniatury jpg, thumb, rozdzielnie6. Kopiowanie gotowych katalogów z serwera na udzia�y samby.
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
DJVuDJVu –– rozwi�zanierozwi�zanie serweroweserwerowe
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
PDF/Xmaj� du��obj�to��FTP 4 Mb/s
PDF-djvu –konwersjaformatu A2 trwa d�ugo(30 sek./str.)
Obróbkagrafikipotrzebujedu�ej mocy
Abbyy FineReaderAbbyy FineReader –– skuteczny, inteligentnyskuteczny, inteligentny
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
API (rozwi�zania dedykowane) wersja pude�kowa
�ród�o: AutoID
Inne formaty: Inne formaty: TeXTeXNatywne formaty prezencyjne TeX, Latex – popularne w
kr�gach matematyków, fizyków i in�ynierów (*.dvi)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
Inne formaty: postscriptInne formaty: postscriptPostScript - niezale�nym od urz�dzenia wyj�ciowego
j�zykiem programowania, który opisuje tekst i grafik� na stronie.
Jego polecenia steruj� drukark� laserow� (lub dowolnyminnym urz�dzeniem postscriptowym), umieszczaj�c w odpowiednim miejscu lini�, okr�g, tekst czy te� map�bitow�.
Do odczytu plików Postscriptowych (*.ps) mo�na u�y�programu GhostScript (GSview)
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie
ZoomifyZoomify EZ,EZ, Google Maps Google Maps Wojewódzka Biblioteka Publiczna w Krakowie
Inteligentna forma prezentacji jpg (ci�cie, scalanie)
Technologia czy sztuka?Technologia czy sztuka?
W. M. Kolasa
Wojewódzka Biblioteka Publiczna w Krakowie