11
14. Digitális szöveges, képi stb. dokumentumok létrehozásának lehetőségei Szöveges formátumok Digitális szöveges dokumentumokat begépeléssel, vagy másolással hozhatunk létre. Ez annyit jelent, hogy pl. egy internetes oldalról, egy már elektronikus dokumentumból másoljuk a szöveget, és mentjük el a nekünk tetsző formátumba. Szöveg digitalizálásakor a szöveget alkotó karakterek és a karakterekből álló lexikai, szemantikai egységekhez kapcsolódó értelmező információ digitális "fordítását" kell megoldani. Az SGML Az SGML, vagyis Structured Generalized Markup Language a legrégibb jelölőnyelv, 1986-ban fogadták el szabványát. Ebből származik a HTML és az XML is. A megjelenítéstől függetlenül írja le a dokumentum struktúráját, így információvesztés nélkül lehet megjeleníteni különböző hordozókon. 1 Három fő részből áll: az elemkészletet és az elemek struktúráját leíró DTD (Data Type Definition), az elemkészlettel jelölt szöveg, és a stíluslap, mely a logikai elemekhez megjelenítést rendel. Az SGML-t számítógépes nyelvészettel foglalkozó intézmények tervezték szövegek tudományos igényű feldolgozására, a hely- és 1 Sütheő Péter: Elektronikus, digitális, virtuális könyvtárak. In: Könyvtárosok Kézikönyve 3. kötet/szerk. Horváth Tibor, Papp István. Bp.: Osiris Kiadó, 2001. 221. p. 1

14. tétel Digitális formátumok

Embed Size (px)

Citation preview

Page 1: 14. tétel Digitális formátumok

14. Digitális szöveges, képi stb. dokumentumok létrehozásának lehetőségei

Szöveges formátumok

Digitális szöveges dokumentumokat begépeléssel, vagy másolással hozhatunk létre. Ez annyit

jelent, hogy pl. egy internetes oldalról, egy már elektronikus dokumentumból másoljuk a

szöveget, és mentjük el a nekünk tetsző formátumba. Szöveg digitalizálásakor a szöveget

alkotó karakterek és a karakterekből álló lexikai, szemantikai egységekhez kapcsolódó

értelmező információ digitális "fordítását" kell megoldani.

Az SGML

Az SGML, vagyis Structured Generalized Markup Language a legrégibb jelölőnyelv, 1986-

ban fogadták el szabványát. Ebből származik a HTML és az XML is. A megjelenítéstől

függetlenül írja le a dokumentum struktúráját, így információvesztés nélkül lehet

megjeleníteni különböző hordozókon. 1 Három fő részből áll: az elemkészletet és az elemek

struktúráját leíró DTD (Data Type Definition), az elemkészlettel jelölt szöveg, és a stíluslap,

mely a logikai elemekhez megjelenítést rendel. Az SGML-t számítógépes nyelvészettel

foglalkozó intézmények tervezték szövegek tudományos igényű feldolgozására, a hely- és

időtakarékosság nem volt szempont, és a nyelv bonyolultra sikerült, ezért a programfejlesztés

nagyon lelassult. 2

A HTML

A Hypertext Markup Language 1991-ben készült DTD az SGML nyelv alapján, kifejezetten

weblapok megjelenítésére. Könnyű rá programokat írni, mivel az SGML lehetőségeinek csak

kis részét használja. Nem teszi lehetővé a dokumentumok készítői számára a jelölések

kiegészítését, így az egész világon azonosan működnek a HTML weblapok (az internetes

szabványokkal a W3C szervezete biztosítja). Előnye, hogy jól kereshető, azonban nem lehet

jegyzetelni, nehézkes a több részből álló dokumentumok nyomtatása, és általában csak azon

HTML szerkesztővel módosítható, mellyel készült.

Az XML

1 Sütheő Péter: Elektronikus, digitális, virtuális könyvtárak. In: Könyvtárosok Kézikönyve 3. kötet/szerk. Horváth Tibor, Papp István. Bp.: Osiris Kiadó, 2001. 221. p.2 Tapolczai Ágnes: Hogyan tároljuk digitális dokumentumainkat? In: Könyv, Könyvtár, Könyvtáros, 14. évf. 2005. 2. sz. 25-28. p.

1

Page 2: 14. tétel Digitális formátumok

1996-ban alakították át az SGML-t, kifejezetten internetes célokra készült jelölőnyelv. A cél

az volt, hogy a forrás szemmel olvasható és világos legyen, valamint a szerkesztéshez ne

kelljen speciális szoftvereket használni, így akár szövegszerkesztő is használható. A

dokumentum készítője maga találhatja ki az elemek neveit és a hierarchiát, nem előre

megadott elemekből kell válogatnia, mint a HTML-nél. Tehát egy olyan közös nyelv, melyet

minden program érthet, és a lényeg emberi szemmel is felfogható. Szintén három részből áll:

az elemkészletet és hierarchiájukat meghatározó DTD, a szöveget és jelöléseket tartalmazó

XML fájl, és a stíluslap. 3 Hátránya, hogy használata szakértelmet igényel, valamint a

hangsúlyt nem a megjelenítésre helyezi, márpedig ez a használóknak fontos.

A PostScript

Az Adobe cég által kifejlesztett formátum vagy leíró nyelv, szöveges dokumentumok és

képek tárolására. Megjelenítésükhöz speciális szoftver, illetve a PostScript nyelvet felismerő

nyomtató kell. Eredetileg a UNIX-os szövegszerkesztők, TEX, LATEX nyomtatási

formátuma volt.

Az RTF

PostScript-hez hasonló formátum, nyomdakész szöveges dokumentumok és képek tárolására. 4 Az RTF formátumot sok szövegszerkesztő ismeri, azonban a különböző szoftverek olyan

egyéni feltételeket tesznek a fájlokba, melyeket utána egy másik alkalmazás nem tud

megjeleníteni. 5

A PDF

Szintén az Adobe cég fejlesztette ki, több program által támogatott formátum, formázott

dokumentumok tárolására. A dokumentumok általában egységesen jeleníthetők meg bármely

számítógépen, így az interneten is szívesen használják.6 Az Adobe Reader ingyenes

nézegetővel lehet megjeleníteni és kinyomtatni. Hátránya, hogy nem lehetett szerkeszteni,

másolni és keresni pedig csak nehezen. Az Adobe továbbfejlesztette, és készített olyan

3 U. ott4 Drótos László: Elektronikus könyvtári értelmező szótár. <http://mek.oszk.hu/00000/00079/html/index.htm> [Letöltve: 2009. április 4.]5 Drótos László: Egy szegény elektronikus könyvtáros panaszai: a digitális szövegformátumok problémái. In: Könyvtári Figyelő, 47. évf. 2001. 1. sz. 53-55. p.6 Drótos László: Elektronikus könyvtári értelmező szótár. <http://mek.oszk.hu/00000/00079/html/index.htm> [Letöltve: 2009. április 4.]

2

Page 3: 14. tétel Digitális formátumok

„nézegető-verziót” melynél már nem merülnek fel ezek a problémák, lehetőség van a PDF

dokumentumot átkonvertálni, így szerkeszthető is.

A Microsoft Word

A Word szövegszerkesztő program, melyhez ma már ingyenes plug-in is van a böngésző

programokhoz, így online is olvasható. Tartalma módosítható, másolható, formázható, lehet

keresni és nyomtatni is belőle. Azonban a régi és az új verziók inkompatibilisek (pl. 2003-as

és a 2008-as), így nincs rá garancia, hogy egy Word-dokumentumot bármely gépen meg lehet

nyitni. 7

Kép-formátumok

A digitális képet előállíthatjuk egyrészt digitálisan: rajzoló- és tervezőprogramok (Paint,

Photoshop…), modellező programok segítségével, másrészt hagyományos dokumentum

digitalizálásával: digitális fényképezőgép, és kézi, lap-, vagy behúzó szkenner használatával.

A szkenner a nyomtatott szöveget is képnek észleli, melyet képpontokból álló digitális

jelsorozattá alakít. Állóképek digitalizálásakor a képet alkotó, a számítógép monitorán

képpontként megjelenő pixeleket és a megjelenítésükhöz szükséges információkat kell tárolni.

A TIFF

A Tagged Image File Format eredetileg fekete-fehér képek digitalizálására készült, végül

standardként terjedt el. A digitalizálást 24 bit színmélységig támogatja, de rendkívül nagy,

több Mb tárolókapacitást igényel. Ezért érdemes tömörítve tárolni.

A PNG

A Portable Network Graphics kifejlesztésénél a cél az volt, hogy olyan formátumot hozzanak

létre, melyet jól lehet tömöríteni, és jó minőségben képes az adatok rögzítésére és

továbbítására. Nagyobb színmélységig képes az információkat rögzíteni, mint a TIFF, de

azzal szemben nem lehet szöveges információkat kapcsolni hozzá.

A GIF

7 Drótos László: Egy szegény elektronikus könyvtáros panaszai: a digitális szövegformátumok problémái. In: Könyvtári Figyelő, 47. évf. 2001. 1. sz. 54-55. p.

3

Page 4: 14. tétel Digitális formátumok

A Graphics Interchange Format hardverfüggetlensége miatt főleg csereformátumként

használatos. Fekete-fehér vagy kevés árnyalattal rendelkező képekhez ajánlják, illetve az

interneten előnézeti képek formátumaként. 8

A JPEG

A JPEG (Joint Photographic Experts Group) népszerű tömörítési eljárás a 256-nál több

színárnyalatú képek esetében. A tömörítés foka egyénileg is beállítható, azonban

információvesztéssel jár. A kép minősége a tömörítés arányában romlik, de csak nagyításkor

vehető észre. 9

BMP (Windows Bitmap Format)

A Microsoft által a Windows rendszerhez kifejlesztett formátum. Alkalmas 1, 4, 8 és 24 bit

színmélységű képek tárolására, tömörítés nélkül vagy veszteség nélküli, RLE tömörítéssel.

Nem csak önálló, .BMP kiterjesztésű állományokban találkozhatunk ezzel a formátummal,

hanem Windows programok állományaiba beépülve is. Corel Photo-Painttal meg is nyithatjuk

a régebbi Windows 3.x/NT platformra készült .EXE fájlokat. Egy .EXE számos grafikát

tartalmazhat, az Open an Image dialógus Preview ablaka alatt megjelenő csúszkával

választhatjuk ki, melyik képet akarjuk kinyerni. Ugyancsak BMP állományokat használ az

IBM által kifejlesztett OS/2 operációs rendszer, de ezek szerkezetükben némileg eltérnek a

Windows-os BMP-ktől. A BMP formátum hátránya, hogy nem támogatja a CMYK

színábrázolást, ezért nyomdai felhasználásra nem alkalmas.

PSD (Photoshop Draw)

Az Adobe Photoshop saját formátuma, de manapság minden magára valamit adó grafikai

program képes feldolgozni. A program 3-as verziója óta képes több rétegű képek tárolására,

veszteségmentes tömörítéssel rendelkezik. Tárolja a Photshopban használható valamennyi

jellemzőt, például az alfacsatornákat, a maszkokat, a rétegek átlátszóságát, egymásra hatását

(pl. Add, Multipy, Overlay), effektjeit (pl. az egyik réteg által a másikra vetett árnyék).

CPT (Corel Photo-Paint)

8 Sütheő Péter: Elektronikus, digitális, virtuális könyvtárak. In: Könyvtárosok Kézikönyve 3. kötet/szerk. Horváth Tibor, Papp István. Bp.: Osiris Kiadó, 2001. 219-220. p.9 Drótos László: Elektronikus könyvtári értelmező szótár. <http://mek.oszk.hu/00000/00079/html/index.htm> [Letöltve: 2009. április 4.]

4

Page 5: 14. tétel Digitális formátumok

A Corel PhotoPaint saját formátuma. Funkcionalitásában az előbbihez hasonló, minden

információ tárolására alkalmas, amit a Photo-Paint képes előállítani. A PSD-nél kevesebb

program képes értelmezni.

TGA (Truevision File Format)

A Targa (*.TGA) formátum széles körben használt, főleg PC-s környezetben. Különleges

szolgáltatásai – alfa-csatorna, gamma-érték, felületinformációk – közkedveltté tették a

multimédia- és a programfejlesztők körében. Gyakorta használt formátum a 3D

modellezésben és animáció-készítésben.

Video formátumok

DivX

A DivX a DivXNetworks Inc. által kifejlesztett videó kodek (mozgókép-tömörítési eljárás),

amely főleg arról ismert, hogy képes jelentősen összetömöríteni terjedelmes videókat. A DivX

neve valójában „DivX ;-)”, tehát tartalmaz egy emoticon-t, amely egy gúnyos utalás a

megbukott DIVX rendszerre.

Egy átlagos film a DVD-n 5-6 GB nagyságú, de DivX-szel akár 600 MB-ra is

összetömöríthető, mely így már kényelmesen elfér egy CD-n is. A video adatfolyamok ilyen

nagymértékű tömörítését úgy érik el, hogy kihasználják az egymás után következő képkockák

hasonlóságát. A képkocka tömörítése során pedig nemcsak egyszerűen egy Jpeg vagy JPG

kódolást használnak, hanem úgy kódolják le az adott képkockát, hogy „ez olyan mint az előző

képkocka, csak itt meg itt meg itt más”. Sőt, a jelenlegi képkockát a következőhöz is szokták

viszonyítani, hisz ahhoz is valószínűleg nagyon hasonló. Ha két képkocka hasonló, akkor

pedig azt kevesebb bittel le lehet írni, hogy miben különböznek. Ezt a módszert egyébként az

MPEG szabványban írták le először.

XviD

Az XviD egy GPL nyílt forráskódú MPEG-4 képtömörítési algoritmus amely eredetileg az

OpenDivX-en alapul. Az XviD-et egy önkéntes programozókból álló csapat készítette, miután

az OpenDivX-et lezárták. A jelenlegi stabil verzió a 1.2.1 (2008. 12. 04.). Az Xvid-be

megjelenése óta rengeteg extra szolgáltatást építettek, így erős versenytársa a DivX-nek,

amely vele együtt napjaink egyik legelterjedtebb képtömörítési eljárása. Az XviD előnye

5

Page 6: 14. tétel Digitális formátumok

hogy amíg a DivX Pro eljárás használatáért vagy fizetnünk kell, vagy el kell viselnünk a

megjelenő hirdetéseket, reklámokat (ez az MPEG licenc miatt van így), addig az XviD egy

teljesen ingyenes, nyílt fejlesztésű projekt. A szabadalmi jogok miatt az XviD 0.9.x verzióit

nem licencelték személyeknek/vállalatoknak az olyan országokban, ahol az ezen típusú

engedélyeket nem alkalmazzák (pl: az USA-ban és Japánban). Az 1.x kiadásoknál egy

egyszerű GNU GPLv2 licencet használnak, egyértelmű földrajzi korlátozások nélkül, bár

ennek ellenére az XviD használatát még mindig a helyi törvények szabályozzák.

MPEG-formátumok

Az MPEG az angol Moving Picture Experts Group (magyarul: mozgóképszakértők

csoportja) rövidítése. Ez a csoport dolgozta ki az MPEG-1 és MPEG-2 szabványokat is.

MPEG-1: Progresszív többréteges video-formátum. Többek között a Video-CDk használják.

Az audio részhez tartozik a népszerű MP3 formátum (MPEG-1 Layer 3).

MPEG-2: Video és hangformátumok TV minőségben.

MPEG-4: egy az MPEG (Moving Picture Experts Group) által 1998-ban bemutatott

kölcsönös megállapodású audio/videó kódolási standard, amelynek elsődleges célja az

alacsony bit gyorsaságú , 4800 bit/sec-tól kb. 4 Mbit/sec-ig, tartalmak kódolása. Leginkább

webes média folyamok átvitelére és CD-k terjesztésére használják, videó-telefonokhoz és

televíziós programok sugárzásához.

Az MPEG fájlok különböző alakúak lehetnek:

MPG: Ez a legalapabb formátum az MPEG fájl formátumok közül. MPEG-1 videót

és MP2 (MPEG-1 layer 2) vagy ritkán MP1 audiót tartalmaz.

DAT: Ez majdnem ugyan olyan formátum, mint az MPG, csak a kiterjesztés

különbözik. Video CD-ken használják. A VCD-k készítési és a Linux tervezési módja

miatt a DAT fájlokat nem lehet sem lejátszani sem átmásolni a VCD-kről mint rendes

fájlokat. A vcd:// előtagot kell használnod a Video CD lejátszásához.

VOB: Ez a DVD-ken használt MPEG fájl formátum. Ugyan az, mint az MPG, plusz

tartalmazhat feliratot és nem-MPEG (AC-3) hangot. Kódolt MPEG-2 videót és

általában AC-3 audiót tartalmaz, de DTS, MP2 és tömörítetlen LPCM is megengedett.

Olvasd el a DVD részt!

TY: Ez egy TiVo MPEG stream. MPEG PES adatot tartalmaz az audió és videó

stream-hez, valamint extra információkat, mint pl. zárt feliratok. A konténer nem

MPEG program stream, csak egy TiVo által készített hasonló formátum. Ha többet

akarsz megtudni a TiVo stream formátumról, olvasd el a TyStudio oldalát.

6

Page 7: 14. tétel Digitális formátumok

AVI fájlok

A Microsoft által tervezett AVI (Audio Video Interleaved) egy széles körben elterjedt,

többcélú formátum, melyet jelenleg leginkább MPEG-4 (DivX és DivX4) videóknál

használnak. Rengeteg ismert hátránya és hiányossága van (például stream-elésben). Támogat

egy videó folyamot 0-99 audió folyammal, max 2 GB-ig, de van egy OpenDML kiterjesztés,

amivel ennél nagyobb fájlok is kezelhetőek. Kétfajta AVI fájl létezik:

Interleaved (átlapolt): Az audió és a videó tartalom át van lapolva, ez az

alapértelmezett, javasolt és a legtöbbször használt.

Non-interleaved (Nem-átlapolt): Először jön a teljes videó folyam, majd a teljes

audió folyam. Így rengeteg ugrásra van szükség, mely megnehezíti a hálózati és CD-

ROM-ról történő lejátszást.

7