23
1 멀멀멀멀멀 멀멀멀 멀멀멀멀멀 멀멀멀 : : 멀멀멀 멀멀멀 (Text) (Text) Lecture #2 Lecture #2

멀티미디어 데이터 : 텍스트 (Text)

  • Upload
    gayora

  • View
    114

  • Download
    0

Embed Size (px)

DESCRIPTION

멀티미디어 데이터 : 텍스트 (Text). Lecture #2. 멀티미디어 구성 요소. 멀티미디어 구성 요소 : 텍스트 그래픽 & 이미지 사운드 비디오 & 애니메이션. 미디어 접근법 : 특징 : 정보표현 능력 vs 비용 등 컴퓨터 내부 표현 방식 파일 저장 방식 정보 처리 방식. 텍스트 (1). 멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어 기본적으로 가장 많이 사용하는 매체 전통적이고 전형적인 매체 적은 저장 공간 비용으로 많은 정보를 표현 - PowerPoint PPT Presentation

Citation preview

Page 1: 멀티미디어 데이터  : 텍스트 (Text)

1

멀티미디어 데이터 멀티미디어 데이터 ::텍스트텍스트 (Text)(Text)

Lecture #2Lecture #2

Page 2: 멀티미디어 데이터  : 텍스트 (Text)

2

멀티미디어 구성 요소멀티미디어 구성 요소 멀티미디어 구성 요소 :

1) 텍스트2) 그래픽 & 이미지3) 사운드4) 비디오 & 애니메이션

미디어 접근법 :1) 특징 : 정보표현 능력 vs 비용 등2) 컴퓨터 내부 표현 방식3) 파일 저장 방식4) 정보 처리 방식

Page 3: 멀티미디어 데이터  : 텍스트 (Text)

3

텍스트텍스트 (1)(1)

멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어

기본적으로 가장 많이 사용하는 매체 전통적이고 전형적인 매체 적은 저장 공간 비용으로 많은 정보를 표현 데이터의 입력은 키보드 , 스캐너를 사용 정보 전달의 효율성이 낮다

Page 4: 멀티미디어 데이터  : 텍스트 (Text)

4

텍스트텍스트 (2)(2)

텍스트의 표현 문자 코드 (Code) 사용 텍스트 데이터 ( 문자 또는 숫자 ) 를 2 진수의 코드로

정보를 표현 (encoding) 코드 체계 :

ASCII, 한글코드 ( 완성형 / 조합형 코드 ), 유니코드 (unicode) 등

마크업 텍스트 (Markup Text) Postscript, HTML, SGML, XML 등

이미지 텍스트 : 텍스트 스캔 (Text Scan) 문서의 이미지 데이터 문서 인식 프로그램

Page 5: 멀티미디어 데이터  : 텍스트 (Text)

5

텍스트텍스트 (3) – (3) – 문자 코드문자 코드 문자 코드

모든 문자는 이진법을 사용하는 코드로 표시 언어에 따라 알파벳 사용권에서는 대개 8 비트 코드를

사용하고 , 한자를 사용하는 동양권에서는 16 비트 코드를 사용

같은 8 비트를 사용하는 경우에도 사용하는 코드에 따라 다소 차이점이 있다

문자 코드 종류 ASCII 코드 EBCDIC 코드 한글코드 ( 완성형 / 조합형 코드 ) 유니코드 (unicode) 등

Page 6: 멀티미디어 데이터  : 텍스트 (Text)

6

텍스트텍스트 (4) – (4) – 문자 코드문자 코드 ASCII 코드

세계적으로 가장 널리 사용되는 코드 기본적으로 8 비트를 사용하여 256 개의 문자를 표현 8 비트 중 가장 위의 1 비트 (MSB) 를 제외한 7

비트만을 사용하여 128 개의 문자를 표현하고 제일 위의 비트는 오류 확인 목적으로 사용

독일어 , 불어 등 영어의 알파벳 외의 별도의 알파벳을 사용하는 언어를 표현하기 위해서는 8 비트 모두를 사용하여 특수문자나 기호를 표현

IBM 확장 ASCII 처럼 최초의 128 ANSI 코드는 ASCII

코드와 같았으나 나머지 128 개는 Windows 응용 프로그램의 요구를 충족시키기 위해 정의 되었다

Page 7: 멀티미디어 데이터  : 텍스트 (Text)

7

텍스트텍스트 (5) – (5) – 문자 코드문자 코드 EBCDIC 코드

EBCDIC 코드는 IBM 사의 중형 컴퓨터인 IBM360/370/390

시스템에 사용하기 위해 개발된 코드 체계 8 비트로 나타낼 수 있는 256 개의 코드를 모두 사용하지 않고

약 150 개 정도의 코드만을 사용

Page 8: 멀티미디어 데이터  : 텍스트 (Text)

8

텍스트텍스트 (6) – (6) – 문자 코드문자 코드 유니코드

컴퓨터와 인터넷의 대중화로 전세계에서 공통으로 사용할 수 있는 코드 체계가 필요

ISO 에서 모든 언어를 표현할 수 있는 유니코드 (UNICODE) 를 국제표준으로 정하여 전세계에 보급

전세계에 알려진 모든 문자를 포함하고 있으며 8 비트 단위인 옥텟 (Octet) 으로 표현

두 개의 옥텟 만을 사용하는 코드에 따르면 한글은 기존의 완성형 코드를 모두 수용하고 최대 11,172 자를 표현할 수 있도록 한글 표시영역을 확장하여 기존의 문제점을 해소

유니코드는 Microsoft 사에서 지원하고 있어 개인용 컴퓨터 환경에서 국제적인 표준으로 등장

WindowsNT, Windows2000 에서 지원

Page 9: 멀티미디어 데이터  : 텍스트 (Text)

9

텍스트텍스트 (7) – (7) – 문자 코드문자 코드 한글 코드

한글 코드는 크게 완성형과 조합형의 두 종류가 존재 현재 완성형 한글 코드를 주로 사용

조합형 한글 코드 초성 , 중성 , 종성에 각각 특정한 코드를 부여하고 이를 서로

조합하는 형태로 사용하는 코드체계 자음과 모음에 대해 코드를 부여해 두고 한글의 조합 원리에 따라

순서대로 표현하는 방식 완성형 한글 코드

2 바이트 (16 비트 ) 를 사용하여 일상생활에서 사용되는 빈도가 높은 한글과 한자를 포함하여 코드를 지정한 경우

완성형은 한글 글자 하나하나에 코드를 부여하는 코딩 방식

Page 10: 멀티미디어 데이터  : 텍스트 (Text)

10

텍스트텍스트 (8) – (8) – 문자 코드문자 코드 한글 코드

조합형 코드의 경우 조선시대에 사용되던 고어를 포함한 모든 문자를 표현할 수 있다는 장점이 있으나 컴퓨터 통신상에서 한글 전송 시에 글자가 깨어진 채 전송되는 문제점이 있다

완성형 코드의 경우에는 모든 한글을 표시할 수 없다는 단점이 있으나 컴퓨터 통신에서 사용하기에 문제가 적게 발생한다는 장점이 있어 현재 국가 표준으로 지정

조합형을 사용할 경우 모든 가능한 형태의 글자 표현이 가능하지만 , 완성형의 경우는 코드 내에 포함되어 있지 않은 글자들은 표현할 수 없다

Page 11: 멀티미디어 데이터  : 텍스트 (Text)

11

텍스트텍스트 (9) – (9) – 폰트폰트 (( 글자체글자체 ))

텍스트 데이터 처리 : 문서 디스플레이 & 출력 폰트 사용

A. 비트맵 폰트B. 벡터 폰트 - True Type Font(TTF)

Page 12: 멀티미디어 데이터  : 텍스트 (Text)

12

텍스트텍스트 (10) – (10) – 폰트폰트 (( 글자체글자체 ))

[ 참고 ] 비트맵 폰트 & 벡터 폰트 비교 :

I am VECTOR Font

Page 13: 멀티미디어 데이터  : 텍스트 (Text)

13

텍스트텍스트 (11) – (11) – 폰트폰트 (( 글자체글자체 ))

Windows 에서 일반적으로 사용하는 (a) 한글 폰트와 (b) 영문폰트

Page 14: 멀티미디어 데이터  : 텍스트 (Text)

14

텍스트텍스트 (12)(12)

파일 저장 방식 TXT

RTF(Rich Text Format) : 서식 파일 등

문서 작성 프로그램의 파일 저장 방식 : DOC, HWP 등

( 예제 ) 아래아 한글에서 문서작성 후에 각각 TXT 포맷과 HW

P 포맷으로 저장한 다음 , 다시 읽기를 한다 .

Page 15: 멀티미디어 데이터  : 텍스트 (Text)

15

텍스트텍스트 (13)(13)

TXT TXT 포맷으로 운영체제에서 기본적으로 제공하는 텍스트

편집기를 사용하여 만들어진 파일 형식 ASCII 코드 또는 KS 한글 코드만으로 구성 모든 텍스트 편집기나 워드프로세서에서 읽을 수 있다 단순한 텍스트 정보를 교환하기 위한 파일 포맷이므로 그래프나

수식 등을 제공하지 않는다

Page 16: 멀티미디어 데이터  : 텍스트 (Text)

16

텍스트텍스트 (14)(14)

DOC DOC(Document) 는 마이크로소프트사 (MS) 의 워드를

사용하여 작성된 문서 포맷

그래픽 효과 , 그림 및 특수 기호 , 서식 정보 , 탭 , 줄 간격 등 워드에서 필요한 모든 정보를 포함하고 있다

같은 *.doc 이라는 확장자를 사용하더라도 상위 버전에서 만들어진 파일은 하위 버전에서 읽을 수 없을 수 없다

같은 포맷으로 Digital Equipment Corporation (DEC)

에서 Decwrite 라는 워드에디터가 있으며 같은 *.doc

이라는 확장자를 사용하나 서로간의 호환성은 없다

Page 17: 멀티미디어 데이터  : 텍스트 (Text)

17

텍스트텍스트 (15)(15)

HWP

HWP 는 한글 워드 프로세서에서 사용하는 문서 포맷

다른 워드 프로세서의 경우 완성형 코드를 사용하는데 비해 조합형 코드를 사용하고 있는 특징이 있다

그래픽 정보 , 수식 정보 , 특수문자 등 워드프로세서에 필요한 모든 정보를 포한다

Page 18: 멀티미디어 데이터  : 텍스트 (Text)

18

텍스트텍스트 (16)(16)

RTF RTF 는 서로 다른 운영 체제 시스템과 서로 다른 워드프로세서

사이에서도 텍스트 파일을 교환 할 수 있도록 위해 사용되는 문서형식

문서의 구조에 관련된 정보 역시 화면에서 읽을 수 있는 텍스트로 표시

표나 방정식과 같은 복잡한 기능을 사용하지 않는 경우 워드프로세서 사이에 문서를 교환할 수 있는 방법

파일 크기가 워드 프로세서 파일에 비해 수 배 이상 커지며 처리에 많은 시간이 걸리기 때문에 서로 다른 워드 프로세서 사이의 교환에만 사용하는 것이 바람직하다

Page 19: 멀티미디어 데이터  : 텍스트 (Text)

19

텍스트텍스트 (17)(17)

HTML HTML 형식은 일반 TXT 형식으로 되어 있어서 , 일반 TXT

를 편집할 수 있는 편집기라면 조작이 가능 형식은 앞장에서 언급하였듯이 인터넷 웹 문서의 표준

형식으로 단순한 텍스트 파일 형식으로 보기에는 적절하지 않을 수 있다

RTF 형식보다 호환성이 높은 텍스트 문서 포맷으로 등장

Page 20: 멀티미디어 데이터  : 텍스트 (Text)

20

텍스트텍스트 (18)(18)

XML XML 은 1996 년 W3C 에서 제안한 것 웹 상에서 구조화된 문서를 전송 가능하도록 설계된

표준화된 텍스트 형식 SGML 에서 꼭 필요한 핵심 기능만을 수용 XML 과 SGML 간의 변환이 용이 HTML 의 측면에서 보면 기존의 HTML 을 확장 , 보완

하였기 때문에 지금보다 더욱 복잡한 문서의 생성이 가능하고 구조적인 정보도 포한다

Page 21: 멀티미디어 데이터  : 텍스트 (Text)

21

텍스트텍스트 (19)(19)

XML 의 장점 서로 다른 소스로부터 뽑아낸 데이터를 비슷한 것끼리 묶어서

구조화한 데이터를 사용자 인터페이스와 분리가 가능 예를 들면 , 고객 정보 , 구매 주문 , 검색 결과 , 계산서 지불 ,

의학 기록 , 카탈로그 데이터 및 기타 정보가 XML 로 변환되어 HTML 페이지에 데이터를 기록하듯이 쉽게 데이터를 온라인 상에서 교환할 수 있다

데이터가 클라이언트에 전달되면 다시 서버로 되돌아가지 않고도 데이터를 조작 , 편집이 가능하여 서버의 계산 부하나 대역폭 부하가 낮아진다

서로 다른 데이터 소스의 데이터를 XML 포맷으로 바꾸면 이들 데이터를 통합하는 일이 용이

Page 22: 멀티미디어 데이터  : 텍스트 (Text)

22

텍스트텍스트 (20)(20)

텍스트 데이터 처리 : 문서 편집 기본 편집 연산 : 삽입 , 지우기 , 복사 , 옮기기 등

문서 포맷 작업 :

A. WYSIWYG 방식 : 아래아한글 , MS-Word 등

B. 오프라인 방식 : Tex, Latex 등

Page 23: 멀티미디어 데이터  : 텍스트 (Text)

23

Report #1Report #1

다음의 기능을 수행하는 프로그램을 작성하여라1. ASCII 코드 테이블을 출력한다

2. 영문 텍스트 파일을 입력받아 ASCII 코드 별로 빈도수를 계산하여 출력한다