22
DjVu 기술 백서 작성자 : 최흥식 (주)이파피루스

Dj vu 압축 포맷 소개 및 기술 백서 2012-08

Embed Size (px)

Citation preview

Page 1: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

DjVu 기술 백서

작성자 : 최흥식

(주)이파피루스

Page 2: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

1.소개

DjVu는 한마디로 정의하자면 흑백 또는 컬러 종이문서를 온라인 디지털 웹상에서도 그 품질 그대로 유지하고 검색, 배포, 압축, 저장할 수 있게 하는 새로운 압축 기술이면서 파일 포맷이다. 이 기술은 1990년대 후반에 미국 AT&T Lab에서 연구 개발된 것으로 2000년 초에 미국 시애들 소재의 리자드텍(Lizardtech.com)에서 관련 기술을 인수하면서 보급되기 시작한 솔루션이다. 현재는 일본의 셀라템(Celartem)사에서 2005년 리자드텍을 인수하면서 상업용 판권은 일본의 셀라템이 갖고 있다.

DjVu 포맷은 기술 스펙이 오픈이 되어있다.(djvu.org) 일부 압축할수 있는 모듈과 뷰어의 소스는 GPL 라이센스에 의해서 공개되어 있다. 흑백이미지 압축 모듈(jb2)과 컬러이미지를 압축하는 모듈(iw44), 뷰어 모듈들은 소스가 오픈되어 있는 상태.

상업용으로 사용할 경우는, 국내에서는 이파피루스 (epapyrus.com), 해외에서는 카미노바 (caminova.net)에서 지원을 받을 수 있다. (카미노바는 셀라템에서 분사한 회사로, DjVu core 엔진 개발 및 업그레이드. 기술지원을 전담하는 회사)

DjVu 기술이 처음 개발 되었을 떄의 기본 사상은 “Scan-to-Web’ 이었다. 그 동안 스캐닝을 통해서 디지털화되는 일반 문서나 고화질의 사진 등이 그 파일의 크기가 너무 커서 웹을 통해서 서비스가 불가능 하던 문제점을 일소에 해소하는 기술인 것이다. 최근에는 고품질의 컬러 스캐너와 디지털 카메라의 보급으로 인하여 오프라인상의 종이 문서나 책자들에 대한 디지털화 요구가 증대되고 있는 시점에서 이러한 기술은 더더욱 진가를 발휘하게 된다.

DjVu라는 단어는 불어 ‘déjà vu’ 에서 온 것으로 ‘어디서 본 듯한 느낌 또는 착각’ 이란 뜯을 갖고 있다고 한다. 우리말로는 ‘데자부’로 발음한다. DjVu는 웹 상에서 통용되는 TIFF, PDF, JPEG과 같이 문서 파일 포맷이기도 하다.

DjVu로 만들어진 파일은 확장자가 ‘djvu’ 또는 ‘djv’로 표시 된다. DjVu로 표시된 문서는 PDF문서와 마찬가지로 자유롭게 웹에서 저장, 배포, 다운로드, 이메일 전송 등이 가능하다. DjVu 문서를 읽기 위해서는 카미노바(http://www.caminova.net/en/downloads/)사 홈페이지에서 배포하는 전용 플러그인 뷰어를 무료로 다운로드 받아 설치 할 수 있다. 사용자의 브라우져에 따라서 윈도우시스템에서는 익스플로러용 리눅스/유닉스용 그리고 Mac 사용자는 Mac용 reader 기를 다운로드 받아서 사용할 수 있다.

일반적으로 1000페이지가 넘는 컬러 책자를 300DPI 해상도로 스캐닝 하여 웹에서 서비스 한다고 할 때 300DPI 해상도의 품질을 웹에서 유지 하기 위해서는 적어도 400MB (JPEG으로 페이지당 500Kbyte 정도 소요)이상의 파일 크기가 필요하게 된다. 400MB 나 되는 책자를 웹에서 서비스하는 것은 거의 불가능하다고 볼 수 있을 것이다. 특히 요즘 같이 모바일디바이스 상에서 400MB 나 되는 파일을 다운로드 받아서 보는 것은 상당한 인내심이 필요로 하다. 보통 PPT 파일 같은 경우는 배경 이미지가 많이 포함되어 있는 경유가 많아서 10MB 크기 이상 되는 파일들이 대부분이고 이를 메일 첨부문서로 전송한다는 것 조차

(주)이파피루스

Page 3: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

쉽지는 않을 것이다.

DjVu는 지금까지 발표된 각종 문서 포맷들중에서 가장 작은 크기를 갖을 수 있게 고효율 압축 방식으로 압축이 가능하다. 보통 400MB크기의 JPEG이미지는 대락 1/20로 압축하여 20MB 만들 수 있다. 아울러 DjVu만이 갖고 있는 고유 기술중에 하나인 페이지 단위의 스트리밍 기술을 적용하여 책자의 페이지수와 파일의 크기에 상관 없이 고 화질의 전자책 이나 전자문서를 일정한 검색 속도(1-2초 정도)를 보장하면서 검색할 수 있게 한다.

지도나 도면을 디지털화 할 경우 한 장의 파일 크기는 100Mbytes 또는 200Mbytes 이상 넘는 경우가 보통이다. 이정도 크기면 일반적인 방법으로 웹에서 서비스할 수 있는 정도의 크기를 넘어서게 된다. DjVu는 이러한 지도나 도면과 같이 한 장의 이미지의 크기가 큰 경우도 적절한 크기로 압축을 할 뿐만 아니라 웹에서 서비스할 경우 소위 점진적인 이미지 전송 기술을 통해서 아무리 큰 크기의 이미지라도 사용자의 화면에는 기다림 없이 이미지를 순식간에 볼 수가 있게 하여 준다.

스캐닝 또는 디지털 카메라를 통해서 만들어진 모든 디지털 자료나 사진들은 DjVu로 변환이 가능하다. 뿐만 아니라 전자문서(Word, PowerPoint, Excel, PDF)나 한글 문서(HWP), PDF문서 등등을 모두 DjVu 문서로 변환 할 수 있다. 전자문서는 대부분이 텍스트 위주로 되어 있는경우는 DjVu로 변환시 압축의 효과는 거의 없고, PPT와 같이 배경이 이미지가 많은 문서들은 DjVu변환시 많은 압축 효과를 볼수 있다.

(주)이파피루스

Page 4: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

2. DjVu 압축 방식 소개DjVu는 크게 3가지의 압축 방식을 제공한다.

- 흑백(bitonal) 이미지 압축은 표준 JBIG2의 기술을 적용한 JB2 압축 방식, 이방식은 흑백 이미지에 대하여 Lossless/Visual Lossless 방식을 모두 적용하여 압축 할 수 있다.

- 컬러 이미지 압축은 Wavelet 방식인 IW44 압축 적용. 이방식은 JPEG2000과 같은 wavelet 기술을 사용한다.

- MRC (Mixed Raster Content) 압축 방식- 이방식은 앞에서 소개 된 것과 같이 이미지 내용을 분석하여 3개의 계층으로 자동 분리하여 각각 계층에 맞는 이미지 압축 방식을 적용한다 (상업용 제품에서만 제공하는 기능)

(주)이파피루스

Page 5: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

3. 흑백 문서를 위한 TIFF 포맷과 DjVu와의 비교종이문서를 팩스기기를 통해서 전송하거나 수신하기도 한다. 팩스기기는 일반 전화선을 통해서 기껏 해야 9600bps 정도의 속도로 필요한 데이터를 송수신 한다. 따라서 이러한 낮은 속도의 전송라인을 통해서 가능 한한 많은 정보를 보내기 위해서는 전송 정보량을 최대한 줄이는 것이 관건일 것이다.

1980년에 CCITT 표준화 그룹에서는 소위 Bi-level 이미지(흑백 이미지)를 표현하기 위한 Group 3 표준 포맷을 정했다. 1984년에는 G3 표준을 좀더 향상 시킨 압축 권고안 Group 4가 발표되었다. 팩스 전송뿐만 아니라 디지털 도서관 분야에서 흑백 원문을 스캐닝 하여 이미지화하는데 가장 많이 사용하고 있는 포맷이 바로 G4 표준 압축 방식으로 표현되는 TIFF G4 타입이다.

G4 표준이 발표된 이후 1993년에 Joint Bi-level Images Experts Group (JBIG)에서는 새로운 흑백 이미지 코딩 표준을 JBIG1 이름으로 발표하였으나 G4 표준보다 좋은 압축률을 갖고 있음에도 불구하고 G4 표준만큼 널리 보급되지는 못하였다. 2000년에는 G4 표준 보다 약 3 - 4배 정도의 압축률이 좋은 JBIG2가 발표되었다. AT&T 는 당시에 JBIG2 표준에 근거하여 흑백 문서이미지 압축 포맷을 개발 하였는데 이것이 DjVu JB2이다.

DjVu JB2 포맷은 일반적으로 TIFF G4 이미지 크기 보다 약 3-5배 정도의 압축 률 갖고 있다..

TIFF G4는 단순히 흑백 이미지를 압축하는 표준 포맷일 뿐이지 그 이상도 아니다. TIFF 포맷 안에 PDF 문서와 같이 목차를 보여주는 책갈피 정보를 삽입하여 활용할 수 있게 하는 기능, 메타 데이터를 이미지 안에 삽입하여 검색 시 활용하는 기능, 원문의 본문 내용을 검색할 수 있도록 텍스트 정보를 원문이미지와 같이 표현할 수 있는 기능 등을 지원하지 않기 때문에 이러한 기능을 위해서는 별도의 응용프로그램을 만들어서 제공해야 하는 문제점들을 갖고 있다.

다른 이미지 포맷과는 다르게 여러 장의 페이지를 하나의 파일에 번들로 저장할 수 있는 Multi-TIFF 기능을 제공하기도 하지만 위에서 언급한 기능들을 위한 응용프로그램에서는 이러한 Multi-TIFF 기능과 함께 활용할 수 없기 때문에 별로 효용성이 없는 것이 되어 버렸다.

TIFF는 표준 포맷으로 인식되어 있음에도 불구하고 익스플로러와 같은 표준 브라우저에서 직접 TIFF 문서를 볼 수 없기 때문에 별도의 TIFF viewer를 설치하여 이용하여야 하는데 TIFF viewer 기능도 표준화 되어 있지 않기 때문에 서비스 하는 기관이나 업체에 따라서 그 사용법과 서로 호환이 안 되는 문제점을 갖고 있기도 하다.

(주)이파피루스

Page 6: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

비교 항목 DjVu TIFF G4/JBIG1 비고개발된 출처 미국 AT&T에서 개발 오픈 포맷으

로 공개. 상업용은 카미노바에서 국내에서는 이파피루스에서 공급

Joint Bi-level Image Experts Group에서 재정한 흑백 이미지 전용 압축 규약

JBIG1 압축기는 public domain에 source 가 공개된 S/W

지원 압축 방식 -흑백 이미지는JBIG2/JB2 압축기- 비손실/손실 압축 모두 방식 지원-컬러 이미지는 IW44 압축기 사용- DjVu는 흑백/컬러 모두 지원

-흑백 이미지 만 적용 JBIG1 방식- 비손실 방식만 지원

객관적으로 JBIG2/JB2 방식이 JBIG1 보다 2 - 4배의 압축률이 좋은 것으로 평가 되고 있음

압축 효율 -흑백 이미지 TIFF G4방식보다 20 – 40% 수준

-컬러 이미지 JPEG 보다 1/10 – 1/30 크기

- JBIG1은 흑백 이미지 TIFF G4 방식보다 60 – 80% 수준- 컬러이미지 적용 불가

문서 내용 검색 기능 - DjVu 문서 내에 OCR 된 text를 hidden text 와 XML 구조로 삽입하여 viewer 내에서 full text 검색 및 검색 결과 highlight 처리 - 외부 검색엔진과 연동하여 page 단위 검색 가능

- 불가능

멀티 페이지 지원 - 기본적으로 멀티 페이지 지원- 목차 삽입 및 display 기능

- Multi-TIFF 지원- TIFF 포맷에는 목차 처리 기능 제공하지 않음

OCR 처리 기능 - DjVu는 OCR 엔진을 기본적으로 제공

- 3rd party OCR 제품과 어플리케이션 level 로 연동

메타정보 삽입 기능 DjVu 문서 안에 메타정보 삽입 및 추출 기능

- 불가능 DjVu 문서 안에 hidden text-XML 구조로 메타정보를 삽입하고 활용하는 기능

[TIFF-G4/JBIG/JBIG2 대 DjVu 비교]

[출처 : http://digit.nkp.cz/knihcin/digit/vav/bi-level/Compression_Bi-level_Images.html ]

(주)이파피루스

Page 7: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

4. JPEG 포맷과 DjVu와의 비교

컬러 이미지를 저장하는 방식 중에 가장 보편화된 포맷이 JPEG이다. JPEG은 나름대로 압축 방식을 제공하기 때문에 컬러 이미지 파일을 표현하고 저장하는데 매우 적당한 포맷으로 인식되고 있다.

JPEG 보다 압축률을 향상 시킨 JPEG2000 표준안이 2000년에 발표가 되었다. JPEG 압축방식과 다른 Wavelet 알고리즘을 기반으로 하여 만들어진 표준안이다. 효율성이나 성능, 이미지 품질 면에서 JPEG 보다 훨씬 좋은 것으로 평가되고는 있으나 아직까지 JPEG2000이 보편하게 이용되지 않고 있는 실정이다.

JPEG은 일반적으로 한 장으로 표현되는 사진과 같은 데이터를 표현하고 저장하는데 적당하다고 할 수 있으나. 컬러 종이 문서를 컬러 스캐닝 하여 여러 장을 하나의 책으로 묶어서 저장하고 서비스하는 구조에는 잘 맞지 않은 단점이 있다. TIFF 포맷과 같이 여러 장의 이미지를 한 개의 번들로 묶을 수 있는 Multi-TIFF와 같은 방식이 지원되지 않기 때문이다.

DjVu는 컬러 이미지 압축을 위해서 JPEG2000과 같은 Wavelet 기반의 압축 방식인 IW44 방식을 이용한다. 압축률은 JPEG과 비교하여 같은 질을 보장하면서 그 크기는 JPEG보다 1/10 – 1/20 정도로 압축이 될 수 있다. [그림-3] 참조

DjVu는 JPEG 포맷과 마찬가지로 낱장 단위로 압축 저장할 수 있지만 Multi-TIFF방식과 같이 여러 장의 이미지 문서를 하나의 파일로 묶어서 저장 및 서비스를 할 수 있다.

원본의 이미지가 고해상도의 이미지 인 경우 DjVu로 압축된 이미지라고 할 지라도 파일 크기가 클 수 가 있다. 그러나 웹에서 일반 브라우져에 플러그인 된 DjVu 전용 viewer 를 통해서 보게 될 경우 TIFF나 JPEG과 같이 전체의 파일을 모두 다운로드 받은 후 디스플레이 하는 방식을 이용하지 않고 점진적인 이미지 전송 기술을 이용하기 때문에 사용자는 원하는 이미지를 지연 시간 없이 즉시 볼 수가 있게 된다.

(주)이파피루스

Page 8: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

[DjVu Photo 압축 vs. JPEG 비교]

http://djvu.org/resources/jpgvsdjvu/comparison.html

(주)이파피루스

Page 9: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

비교 항목 DjVu JPEG 비고

기본 사상 종이문서 ‘Scan-to-Web’(AT&T에서 개발된 기술)

이미지 표현 포맷의 표준(ISO 표준화 그룹에서 지정한 표준 포맷)

JPEG은 한장의 이미지를 표현하는 포맷DjVu는 문서의 개념을 갖고 있기 때문에 한 장 및 복수의 페이지의 이미지나 문서를 표현

압축 방식 하이브리드 방식-흑백이미지 :비손실/손실 JB2 압축 방식- 컬 러 이 미 지 v i s u a l lossless wavelet IW44 방식 (DjVu Photo 압축)

컬러 이미지에 대한 손실 압축이 기본비손실 압축은 JPEG-LS 포맷으로 지원

업계에서 비손실 JPEG-LS 는 거의 지원하지 않음

압축률 평균 J P E G 보 다 1/10-1/20 압축률

DjVu 보다 10배 20배정도 큼

JPEG과 DjVu 와 같은 크기의 이미지를 비교할 때 D j V u 이 미 지 가 훨씬 quality 가 우수

Multi page 지원 Single Page/Multi-page 포맷 지원

Single page 방식 JPEG은 여러 장의 이미지를 하나의 file로 bundle 하여 배포하거나 서비스 할 수 없음. JPEG은 낱장 단위 포맷

메타 데이터 삽입 XML 기반의 메타데이터를 DjVu 포맷 안에 삽입 및 추출할 수 있는 기능 제공

불가 JPEG 포맷 안에 텍스트나 기타 다른 메타 정보를 삽입 하거나 활용할 수 없음

텍스트 검색 기능 컨텐츠 내에서 텍스트 검색 및 검색된 키워드에 대한 하이라이트 기능 제공

불가 JPEG은 이미지를 표현하는 수단으로 컨텐츠 내의 내용을 처리할 수 있능이 없음

Progressive Display 지원

기본 기능 지원 JPEG도 Progress i ve display방식을 지원하고 있으나 거의 활용되지 못하고 있는 실정

페이지 단위 스트리밍 제공 불가 페이지 단위 스트리밍은 많은 페이지로 구성된 이미지나 원문 문서들에 대해서 웹을 통해서 서비스 할 때 매우 유용한 기능

One-source, Multiple extraction 기능

제 공 ( S e l e c t i v e D e c o m p r e s s i o n Extraction 기술 활용). DjVu Page Streaming 기능에서 자세히 언급

불가능(별도의 썸네일 이미지, 중간 크기 이미지, 크게 보기 이미지와 같이 서비스 유형별 이미지를 여러 벌 갖고 있어야 함)

이 기능은 한 벌의 이미지만 갖고 있고 서비스 할 때 실시간으로 원하는 크기의 이미지 및 이미지내의 부분 영역 만을 추출 하게 하는 기능

S e l e c t i v e Decompression 기능

지원 불가능 크기가 큰 대형 이미지를 웹을 통해서 배포 할 때 유용한 기술(화면에 보이는 특정 영역 부분만 실시간으로 축소/확대/이동하게 하는 기능)

전용 viewer plug-in 지원

-표준 웹 브라 우져용 plug-in 제공-OCX 모듈 제공으로 C/S 용으로 이용 가능-전용 viewer 커스터마이즈 기능 가능

-plug-in 없이 웹 브라우져를 이용-viewer를 위한 커스터마이즈 기능 물가(third party tool 이용)

JPEG은 웹 브라우져안에서 원하는 크기로 축소/확대/PAN 할 수 없고. 90도 회전 기능, 썸네일 보기 기능등이 제공되지 않음

(주)이파피루스

Page 10: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

5. DjVu 와 JPEG2000의 비교

5.1 칼라 이미지 quality 비교

다음은 동일한 원본 이미지를 jpeg2000과 DjVu로 각각 파일 크기가 1.5 KByte가 되도록 압축했을 때의 압축된 이미지 이다.

원본 이미지 (901KB BMP) 1.5KB DjVu (IW44) 이미지 1.5KB JPEG2000 이미지

5.2 흑백 이미지 비교

흑백 이미지를 압축할 경우 Jpeg2000은 기본적으로 Run Length Coding 방식 또는 그와 유사한 방식이지만 DjVu는 Run Length Coding 외에 Shape Dictionary 방식을 더 사용한다. 여기서 Shape Dictionary는 한 이미지에서 반복되는 동일 형태(예를 들어서 문서 이미지의 글자)를 한번만 압축해서 저장하고 나머지 경우는 그 형태의 위치 정보만 수록하는 방식으로 반복되는 수가 많을수록 압축효율이 증가한다. DjVu 의 파일 포맷 중 한 파일에서 여러 페이지의 이미지를 수록하는 방식(bundled 포맷)에서는 여러 페이지에서 하나의 공통의 Shape Dictionary를 참조할 경우 압축률은 상당히 향상된다.

다음은 동일한 흑백 문서 이미지의 이미지 종류별 파일 크기의 비교 자료이다.KBytes

이미지 포맷 BMP TIF (G4) JP2000 DjVu

카드 신청서이미지(표와 글자)

466 65 64 44

잡지 기사 문서이미지(글자)

960 584 99 35

5.3 파일 포맷

DjVu 는 한 개의 파일 안에 여러 페이지 이미지를 포함하는 bundled 포맷과 한 파일에서 다른 파일로 연결되는 link가 있는 indirect 포맷도 지원한다. DjVu는 여러 페이지를 하나로 묶어서(bundle) 저장 및 전송이 가능하고, 전체 페이지의 정보를 갖고 있으면서 웹 서비스 시 페이지 단위로 캐싱 및 검색이 가능

JPEG2000은 모든 이미지를 낱장으로 표현. 여러 페이지로 구성된 문서를 bundle로 묶는 개념이 없음.

(주)이파피루스

Page 11: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

5.4 압축 속도

다음은 10 MB true colour BMP 파일의 인코딩 속도의 비교 그래프이다.

5.5. 화면 표시 속도

다음은 동일한 파일을 압축한 것을 화면에 표시하는데 걸리는 시간을 비교한 그래프이다.

(주)이파피루스

Page 12: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

비교 항목 DjVu JPEG2000 비고

기본 사상 종이문서 ‘Scan- to-Web’

포토 이미지 표현 포맷 JPEG2000은 한장의 이미지를 표현하는 포맷DjVu는 문서의 개념을 갖고 있기 때문에 한 장 및 복수의 페이지의 이미지나 문서를 표현

압축 방식 하이브리드 방식-흑백이미지:비손실 JB2 압축 방식- 컬 러 이 미 지 v i s u a l lossless wavelet IW44 방식- MRC(Mixed Raster Content) 압축 방식

Wavelet 압축 방식 JPEG2000은 컬러 이미지 전용 압축 방식으로 흑백 이미지 문서 압축시 비손실 압축은 지원 않함

압축률 1.번 항목 컬러이미지 quality 참조

1 .번 항목 컬 러 이 미 지 quality 참조

JPEG2000과 DjVu 와 같은 크기의 이미지를 비교할 때 DjVu 이미지가 훨씬 quality 가 우수

Multi page 지원 Single Page/Multi-page 포맷 지원

Single page 방식 JPEG2000 은 여러 장의 이미 지 를 하 나 의 f i l e 로 bundle 하여 배포하거나 서비 스 할 수 없음 . JPEG2000은 낱장 단위 포맷

메타 데이터 삽입 XML 기반의 메타데이터를 DjVu 포맷 안에 삽입 및 추출할 수 있는 기능 제공

불가 JPEG2000 포맷 안에 텍스트나 기타 다른 메타 정보를 삽입 하거나 활용할 수 없음

텍스트 검색 기능 컨텐츠 내에서 텍스트 검색 및 검색된 키워드에 대한 하이라이트 기능 제공

불가 JPEG2000은 이미지를 표현하는 수단으로 컨텐츠 내의 내용을 처리할 수 있능이 없음

Progressive Display 지원

지원 지원

페이지 단위 스트리밍 제공 불가 페이지 단위 스트리밍은 많은 페이지로 구성된 이미지나 원문 문서들에 대해서 웹을 통해서 서비스 할 때 매우 유용한 기능

One-source, Multiple extraction 기능

제공 - DPSS(DjVu Page Streaming Server) 적용하여 페이지단위/픽셀단위 스트리밍 가능

J P I P ( J P E G 2 0 0 0 Interactive Protocol) 사용하여 픽셀스트리밍 구현

이 기능은 한 벌의 이미지만 갖고 있고 서비스 할 때 실시간으로 원하는 크기의 이미지 및 이미지내의 부분 영역 만을 추출 하게 하는 기능

S e l e c t i v e Decompression 기능

지원 지원 크기가 큰 대형 이미지를 웹을 통해서 배포 할 때 유용한 기술(화면에 보이는 특정 영역 부분만 실시간으로 축소/확대/이동하게 하는 기능)

전용 viewer plug-in 지원

-표준 웹 브라우져용 plug-in 제공-OCX 모듈 제공으로 C/S 용으로 이용 가능-전용 viewer 커스터마이즈 기능 가능

-표준 브라우저에서 아직 JPEG2000을 지원하지 않음. 별도의 뷰어 설치 필요-viewer를 위한 커스터마이즈 기능 물가(third party tool 이용)

JPEG2000은 웹 브라우져안에서 원하는 크기로 축소/확대/PAN 할 수 없고. 90도 회전 기능, 썸네일 보기 기능등이 제공되지 않음

(주)이파피루스

Page 13: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

6. DjVu 와 PDF 비교PDF 포맷은 본래 개발당시의 사상은 디지털 문서들을 고품질로 출력하기 위한 포터블 포맷으로 개발된 기술. 워드나 아래아한글, 매킨토시용 쿽익스프레스등으로 작성된 텍스트 기반의 문서를을 프린터의 종류에 상관없이 고품질 종이로 출력하기 위해서는 PDF 포맷만큼 좋은 툴은 없을 것이다.

뿐만 아니라 PDF 문서는 내부 문서를 수정할 수 없고 읽을 수 만 있게 되어 있기 때문에 더더욱 문서 배포용으로는 매우 적당한 포맷일 것이다.

PDF 는 Adobe 사에서 배표하는 전용 Acrobat Reader를 무료로 사용하면서 누구나 쉽게 PDF 문서를 읽을 수 있고 출력할 수 있는 장점을 갖고 있다.

국내에서는 (주)이파피루스에서는 PDF문서 생성기 및 편집기, 리더기를 개인들에게는 무료로 사용할 수 있는 PDF-Pro 5를 출시하여 공급하고 있다. 개인들은 편리하게 각종 문서들을 쉽게 PDF로 변환하여 사용할 수 있다.

스캐닝 한 이미지 문서를 PDF 포맷으로 저장하고 배포하는 데는 그 한계점을 갖고 있다. 스캐닝 한 문서는 그 자체가 이미지 포맷으로 디지털화된 텍스트 문서 보다는 파일 크기가 몇 배나 클 수 밖에 없다. PDF는 기본적으로 압축을 기반으로 하지 않고 있기 때문에 스캐닝 된 이미지 문서를 PDF로 담기 위해서는 그 크기 이상의 파일을 요구하게 된다.

최근에는 스캔이미지를 고효율 압축하여 PDF에 저장하는 기술들이 개발이 되어서 (이파피루스의 HiFi PDF) 예전과 같이 스캔문서를 PDF에 저장시 파일크기가 큰문제는 발생하지는 않고는 있다.

그러나 PDF는 DjVu와 비교하여 상대적으로 보면 PDF는 디지털문서를 고품질 출력을 위해서 만들어진 포맷이 발전을 해서 스캔문서나 이미지도 저장할 수 있도록 통합화된 포맷이고. DjVu는 본래부터 스캔문서를 고효율 압축하여 웹 퍼플리싱을 빠르게 하기 위해서 개발된 포맷이 발전을 하여 디지털 문서도 저장하는 통합 포맷으로 알려진 기술.

PDF는 DjVu와 비교할떄는 늘 적용되는 분야에 따라서 상호 보완적이거나 장담점을 갖고 있는 포맷이라고 할 수 있다.

(주)이파피루스

Page 14: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

비교 항목 DjVu PDF 설명

기본사상 종이문서 'scan-to-web'전자문서-to-종이문서 출력

DjVu는 종이문서를 디지털 화하여 웹 서비스 하기위한 솔루션으로 탄생된 기술

가장 적합한 분야

많은 양의 종이문서를 흑백/컬러 스캐닝 하여 저장 및 웹 검색 서비스하는 분야에 적합-흑백 원문 문서 50페이지 이상의 서비스에 적합 - 원문이 고해상도의 컬러를 포함하고 한 페이지의 파일 크기가 큰 경우에 적합 - 향후 컬러 원문 서비스 시에는 더욱 진가를 발휘-CAD 데이터나 엔지니어링 매뉴얼, Parts Book 등을 배포하고자 하는 제조분야

전자문서(hwp,워드,GUL)를 배포 및 종이문서로 출력하는 분야에 적합

서식화된 양식문서를 저장하고 배포하는 용도에 적합

PDF는 전자문서를 종이문서로 프린트하고 배포하기 위한 솔루션으로 탄생된 기술현재는 DjVu 도 종이문서 뿐만 아니라 디지털 문서(오피스 문서)도 DjVu 로 변환하여 PDF 보다 경량화 하여 배포가 가능

사용자의 측면에서 성능

전체 페이지수와 파일 크기와 상관없이 1초 미만 검색 및 디스플레이

전체 페이지수와 파일크기가 클수록 검색 및 디스플레이 시간 이 증대됨

DjVu에서는 DPSS(DjVu Page Streaming Server)기술을 통해서 페이지 단위 스트리밍 검색이 가능. PDF는 표준화된 페이지단위 스트리밍 기능은 없으나 이파피루스에서 자체 개발한 JetStreaming 솔루션을 통해서 PDF도 페이지 단위 스트리밍 실현.

서비스 기관에서의 소요 되는 자원(5000만 페이지 흑백문서 원문 저장시)

약 0.75 TeraBytes 소요 약 3 TeraBytes 소요DjVu가 PDF 보다 평균 1/4 정도 자원 소요

통합 viewer 기능 제공 가능 가능사용자는 한개의 viewer에서 TIFF/ DjVu/ PDF/ JPEG 모두를 검색할 수 있는 기능

전용 viewer 없이 검색 할 수 있는 기능

DjVu Page Streaming Server 기능-인터넷 접속이 가능한 모든 디바이스에서 검색 가능

불가능

전용 viewer 설치 없이도 DjVu문서나 이미지를 디스플레이/부분확대/축소/출력/다음페이지/이전페이지/페이지 이동 기능 제공

(주)이파피루스

Page 15: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

비교 항목 DjVu PDF 설명

웹 서비스 방식

페이지 단위 웹 스트리밍 기능 (indirect 기능) 및 전체 문서 단위(bundle 기능) 모두 제공- Byte streaming 이나 Fast Web 방식이 아닌 DjVu만의 고유한 페이지 스트리밍 기술)

Bundle 방식 만 제공

DjVu DPSS 방식을 이용하여 페이지 단위 스트리밍 제공P D F는 이 파 피 루 스 JetStreaming 솔루션을 통해서 유일하게 실현

전용 viewer 의 크기

900KB <17MDjVu viewer 설치시간 5-10초Acrobat Reader 설치 시간 약 5-10분

원문 이미지 압축 지원 및 방식

L o s s l e s s / V i s u a l Lossless 방식 모두 지원

PDF문서내의 부분 객체들만 일부 지원스캔문 서 압 축 시 JPEG2000과 JBIG2 코덱을 사용

전체 문서 대상으로 압축 및 복원은 DjVu 만 지원DjVu압축방식은 비손실/손실 압축 모두 지원

압축 원문 이미지 문서 복원 기능

모든 압축 원문 이미지 문서는 원본으로 복귀 가능

부분적DjVu는 압축기와 복원기를 제공

고해상도 컬러 원문 이미지 검색 및 배포 기능

유선/무선/전용viewer /no-viewer 모두에게 픽셀 스트리밍 기술 적용하여 액세스 가능

불가능예-한 개의 이미지 파일이 10M이상 (고지도/고문헌/고문서) 될 경우 PDF는 서비스 불가능

확장성

- 모든 전자문서(PDF,아래아 한글 포함) DjVu 변환기능 제공- 모든 흑백 및 컬러 원문 이미지 문서 DjVu 변환 기능- 유/무선 통합 기능

- 전자문서 변환기능- 멀티미디어 삽입 기능

 DjVu도 모든 디지털문서를 압축 변환할 수 있는 툴 제공

메타데이터 삽입XML 기반의 메타데이터 삽입 기능 제공

지원DjVu 문서의 Hidden text로 삽입하는 기능

페이지 단위 검색 지원 불지원  

XML 연동 기본 기능 지원DjVu는 모든 텍스트 정보는 XML 기반으로 되어 있음

하이퍼링크 자동 삽입

- 지원 -불가

- 자동삽입 툴에 의하여 문서 내용안에 원하는 패턴만을 골라서 자동으로 하이퍼링크 정보 삽입 하는 기능

고해상도 이미지 서비스 방식

점진적인(Progressive) 디스플레이 

전체 이미지 모두 다운로드후 디스플레이

PDF는 전체 이미지를 모두 다운로드 받은 후 디스플레이 하는 방식으로 시간이 많이 걸림

(주)이파피루스

Page 16: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

7. 본문 내용 검색 (페이지 단위 검색)을 위한 기술

7.1 Notes

- DjVu 는 문서내에 OCR 처리된 텍스트 와 Office 문서에서 변환된 텍스트들은 모두 Djvu 문서내에 hidden text 로 존재 (hidden text는 XML 또는 plain text로 export 할 수 있음)

- hidden text는 word 단위 (영어/한글과 같이 white space 로 묶여 있는 문자열을 위한 것) 또는 char 단위 (중국어/일본어와 같이 띄어 쓰기가 없는 문자열을 위한 것)의 문자와 위 치정보를 갖고 있음.

-DjVu로 변환시 옵션에 의해서 word 단위로 할 것인지 아니면 char 단위로 할 것인지 결 정 해야 함.

- Djvu문서는 기본적으로 hidden text들은 DjVu active/x plug-in viewer에 의하여 하이라 이트 처리 및 표시가 됩니다. (자세한 사항은 아래 내용 참조)

- DjVu 뷰어에서는 검색엔진과 같은 검색기능은 제공하지는 않으며, PDF의 Acrobat reader 에서와 같이 뷰어 내에서의 검색은 텍스트 단위의 패턴 매칭에 의해서 sequential 하 게 찾아가는 형태로 동작

7.2. Hidden text 구조 설명

- 원문 텍스트 sample:

"스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안 기술"

1). word-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우- DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기

술" 와 같이 추출 (단어와 단어 사이에 공백이 없는 상태) - DjVuToXml 로 추출하면 :

<LINE><WORD coords="849,690,1464,611">스캔문서/대용량</WORD> <WORD coords="1497,690,1819,611">이미지의</WORD>

</LINE> <LINE>

<WORD coords="721,788,967,713">고효율</WORD> <WORD coords="1000,790,1362,711">압축/고속</WORD> <WORD coords="1393,790,1757,711">전송/보안</WORD> <WORD coords="1791,790,1953,711">기술</WORD>

</LINE>- DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율

압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색= 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/

보안기술= 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전

송/보안기술"= 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/

보안기술"= 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/

(주)이파피루스

Page 17: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

보안 기술"= 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전송/보안"= 키워드 "의고" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속 전송/보안"

2). word-공백(space) 옵션으로 텍스트가 삽입된 경우- DjVutoText로 추출 하면 : 원문텍스트와 동일 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안 기술" (단어 사이에 공백이 있음)

- DjVuToXML로 추출 하면 : 1)번의 XML 과 동일 - DjVu plug-in 뷰어에서 검색시 하이라이트

= 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술"

= 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술"

= 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전송/ 보안 기술"

= 키워드 "보안기" -> 결과 없음 =키워드"속전" ->결과없음 =키워드"의고" ->결과없음

3). char-공백없음(nospace) 옵션으로 텍스트가 삽입된 경우- DjVutoText 로 추출하면 : "스캔문서/대용량이미지의고효율압축/고속전송/보안기술"

와 같이 추출 (단어 사이에 공백이 없음) - DjVuToXml 로 추출하면 :

<LINE> <WORD>

<CHAR coords="849,680,928,615">스</CHAR> <CHAR coords="934,688,1009,613">캔</CHAR> <CHAR coords="1016,688,1095,613">문</CHAR> <CHAR coords="1098,690,1174,611">서</CHAR> <CHAR coords="1181,688,1213,611">/</CHAR> <CHAR coords="1222,690,1295,611">대</CHAR> <CHAR coords="1301,690,1380,613">용</CHAR> <CHAR coords="1390,690,1464,613">량</CHAR>

</WORD> <WORD>

<CHAR coords="1497,690,1568,611">이</CHAR> <CHAR coords="1583,690,1652,611">미</CHAR> <CHAR coords="1662,690,1736,611">지</CHAR> <CHAR coords="1746,690,1819,611">의</CHAR>

</WORD> </LINE> <LINE>

<WORD><CHAR coords="721,780,800,717">고</CHAR> <CHAR coords="804,782,883,713">효</CHAR> <CHAR coords="888,788,967,713">율</CHAR>

</WORD> <WORD>

<CHAR coords="1000,790,1076,711">압</CHAR> <CHAR coords="1081,790,1160,711">축</CHAR> <CHAR coords="1163,788,1195,711">/</CHAR> <CHAR coords="1199,780,1278,717">고</CHAR> <CHAR coords="1283,790,1362,711">속</CHAR>

</WORD> -<WORD>

(주)이파피루스

Page 18: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

<CHAR coords="1393,788,1467,711">전</CHAR> <CHAR coords="1477,790,1556,713">송</CHAR> <CHAR coords="1559,788,1591,711">/</CHAR> <CHAR coords="1596,780,1675,717">보</CHAR>

<CHAR coords="1596,780,1675,717">보</CHAR>

<CHAR coords="1681,788,1757,713">안</CHAR> </WORD>

<WORD><CHAR coords="1791,790,1863,711">기</CHAR> <CHAR coords="1874,788,1953,711">술</CHAR>

</WORD> </LINE>

- DjVu plug-in 뷰어에서 검색시 하이라이트: 뷰어는 "스캔문서/대용량이미지의고효율 압축/고속전송/보안기술" hidden text에 대해서 pattern matching 검색

= 키워드 "고효율" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/ 보안기술

= 키워드 "압축" -> 하이라이트 "스캔문서/대용량이미지의고효율"압축/고속전 송/보안기술"

= 키워드 "보안" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전 송/보안기술"

= 키워드 "보안기" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전 송/보안기술"

= 키워드 "속전" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/

= 키워드 "의고" -> 하이라이트 "스캔문서/대용량이미지의고효율압축/고속전송/

4). char-공백(space) 옵션으로 텍스트가 삽입된 경우

- DjVutoText 로 추출하면 : "스캔문서/대용량 이미지의 고효율 압축/고속 전송/보안 기술" (단어 사이에 공백이 있음)

-DjVuToXml로추출하면: 3)번과동일- DjVu plug-in 뷰어에서 검색시 하이라이트:

= 키워드 "고효율" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술

= 키워드 "압축" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술"

= 키워드 "보안" -> 하이라이트 "스캔문서/대용량 이미지의 고효율 압축/고속 전 송/보안 기술"

= 키워드 "보안기" -> 결과없음 =키워드"속전" ->결과없음 =키워드"의고" ->결과없음

7.3 DjVu Active/X plug-in 뷰어에서의 하이라이트 처리

- DjVu viewer active/x componet 는 내부 method 로 아래와 같은 함수를 제공합니다. = HighlightTerm(exp, bMatchCase, bMatchWord, bAllMatches, color) : 현재 페이지 상

의 exp 문자열 표현식에 매칭되는 첫번째 또는 모든 텍스트를 지정된 컬러로 하이라이트 시 킵니다.

(주)이파피루스

Page 19: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

= (VB6, JScript) 예myDjVu.HighlightTerm("압축", 0, 0, 1, 0x0000FF); /* VB나 JScript 에서 뷰어를 이

함수로 호출을 하면 해당 되는 페이지에 '압축' 텍스트 위치하는 모든 텍스트는 color (0x0000FF)로 하이라이트 됨

- 하이라이트 처리되는 형태는 위에서 언급한 Hidden text 구조에 의해서 결정됨

8. DjVu Page Streaming Server 기능

DjVu는 다른 유사 포맷들과는 다르게 유일하게 DjVu 문서를 대상으로 웹기반의 페이지 스트 리밍 기능을 제공하고 있다.

페이지 스트리밍은 크게 두가지 기능을 갖고 있다.

첫째 기능, 한통으로 되어 있는 파일 (DjVu는 bundle 이라고 지칭을 하고 있음. 즉, 여러 페이지가 하나의 파일로 저장되어 있는 형태. 대부분의 문서포맷들이 저장하는 형태)을 웹상에서 전제 파일을 모두 다운로드 하지 않고, 원하는 페이지만 선택적으로 검색을 하는 기술.

두번째 기능, DjVu문서내의 모든 페이지는 스트리밍으로 전송이 가능하고 또한 각 페이지는 표준이미지로 원하는 크기를 지정하여 실시간으로 추출이 가능. 이 기능을 통해서 브라우져나 디바이스와 상관없이 DjVu 문서를 보는 것이 가능

대부분 동영상을 웹상에서 전송하기 위한 동영상 스트리밍 기술은 알려져 있지만, 문서를 대 상으로 스트리밍을 할 수 있는 기술은 생소할 것이다.

DjVu는 압축된 문서의 파일크기 및 페이지 수와 상관 없이도, 웹 상에서 대용량 이미지 문서 및 스캔된 컨텐트를 대상으로 고속 전송 및 빠른 검색을 위한 문서의 페이지 단위 스트리밍 기능을 제공하고 있다.

예들들어 5000장의 고화질 사진을 DjVu 로 압축 하여 한개의 문서 파일로 만들 경우에도 한개 의 파일 크기가 약 100M 이상 될 수가 있고 이를 웹에서 기존의 방식으로 배포하려면 꽤 시간 이 걸릴 것이나, DPSS 기능을 이용하게 되면 전체 페이지를 모두 다운로드 받을 때 까지 기 다리지 않고 원하는 페이지를 직접 검색 하여 해당되는 페이지로 자유롭게 이동이 가능하여 문서단위 뿐만 아니라 페이지 단위 검색을 하여 고속으로 검색 및 뷰잉이 가능한 것이 DjVu 만이 갖는 유일한 기술이기도 하다

아래 데모사이트는 미국에서 911 테러 발생하였을때 아마추어 사진사들이 찍은 사진 5248장 을 DjVu 로 압축하여 하나의 DjVu 파일 형태로 해서 DPSS 를 적용하여 퍼블리싱한 사이트 입 니다.

http://211.174.156.112/dpss/dpsserv.dll/demo/911.djvu/index

국내에서는 대법원의 도서관에서 제공하는 법원사 자료중에서 1390 페이지를 스캔하여 웹을 통해서 서비스를 하고 있기도 하다. 1000페이지가 넘는 스캐닝 문서인데도 불구하고 웹상에 서

매우 빠른 검색 속도를 볼 수 가 있다.

http://211.174.156.112/dpss/dpsserv.dll/demo/scout.djvu/index

(주)이파피루스

Page 20: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

페이지별 실시간 이미지 추출 기능

http://211.174.156.112/dpss/dpsserv.dll/demo/911.djvu/page=50;w=500;jpeg(** 50페이지를 Width 500 pixel JPEG 이미지 추출 **)

http://211.174.156.112/dpss/dpsserv.dll/demo/911.djvu/page=50;w=300;jpeg(** 50페이지를 width 300 pixel JPEG 이미지로 추출 **)

(주)이파피루스

Page 21: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

9. 모바일 지원

DjVu 포맷만큼 모바일 환경에 적합한 포맷은 없을 것이다. DjVu 뷰어는 메모리 리소스를 가장 적게 차지하면서 고화질의 압축된 이미지나 문서를 빠르게 확대/축소 렌더링을 가능하게 한다.

오픈소스그룹에서는 이미 오래전 PDA 단말기 보급되던 시절 부터 오픈소스 기반의 다양한 형태의 모바일용 DjVu뷰어 개발 공개 된 적이 있다. 지금은, iOS계열과 안드로이드 계열의 양대 디바이스로 정리가 되었기 때문에 DjVu도 이에따라서 두 모바일 OS게열을 지원하는 다양한 뷰어들이 개발 보급되고 있다.

iOS계열에서는 앱스토에서 ‘djvu’ 로 검색을 하면 주로 유료앱들이 개발 판매 되고 있으나, 이중에서 DjVu 코어 엔진을 개발 공급하는 회사인 Caminova 에서 개발 올린 ‘DjVu Viewer’ 도 있다.

Android 계열에서는 Play 스토어에서 ‘djvu’ 로 검색을 하면 많은 결과가 나오나, 대부분이 무료 앱이고, 이중에서 대표적인 뷰어로는 VuDroid, DjVuDroid 가 있고 이들 모두 GPL 기반의 오픈소스 뷰어. 특이한 것은 이들 뷰어들은 DjVu 와 PDF 문서를 같이 지원하고 있다는 사실

현재 iOS계열에서 유료로 판매되고 있던 Android 계열에서 무료로 배포되고 있던 대부분의 DjVu 뷰어들은 기본기능만을 제공하고 있다. 검색기능, 주석 표시 기능,페이지 스트리밍 연결 기능, 북마크(DjVu에서는 outline 기능), 썸네일 표시 기능등과 같이 필수 기능이 될만한 것들은 아직은 제공되고 있는 제품은 없음

곧 상업용 제품으로 기본기능외에도 위에서 나열한 필수 기능들에 대한 뷰어가 출시 될거라 기대 하고 있다.

기업에서는 대부분은 보안이 이슈라, 모바일 디바이스에서 문서를 빠르게 보고 검색을 하고자 하지만 문서를 다운로드해야만 볼수 있는 기능에 대해서는 문서 유출 보안이 주요 문제가 되고

(주)이파피루스

Page 22: Dj vu 압축 포맷 소개 및 기술 백서 2012-08

있기 때문에, DjVu와 같이 문서 스트리밍 기능을 이용하여 전체 문서를 다운로드 받지 않고 원하는 페이지만 보는 기능을 주로 요구하고 있는 실정

따라서, DjVu 뷰어/리더기가 개인용이 아닌 기업용으로 성공하기 위해서는 이와 같은 기능들을 갖고 제품출시가 되어야 할 것으로 보임

(주)이파피루스에서는 기업용 DjVu 뷰어를 개발 완료하여 출시를 기다리고 있다는 소식이, 위에서 언급한 기능들을 대부분은 제공하는 새로운 모바일 뷰어가 될 것으로 기대.

(주)이파피루스