19
제2장. 정보의 특성과 문헌파일 정보검색 INFORMATION RETRIEVAL 강의: 정창용 ([email protected]) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.

제2장 정보의 특성과 문헌파일

Embed Size (px)

Citation preview

Page 1: 제2장 정보의 특성과 문헌파일

제2장

정보의 특성과 문헌파일

정보검색 INFORMATION RETRIEVAL

강의 정창용 (timothy97gmailcom) httpwwwfacebookcomhhuIR

Korea Maritime University Navis Control Inc

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

벤더 시스템의 구성

외부의 DB 생성기관이 생산한 다양

한 문헌 DB를 가져와 벤더시스템에

적합한 형식으로 수정 탐색을 제공

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OUTLINE

LC OPAC

구조화된(structured) 텍스트

서지정보 + 소장정보

ERIC 학술정보검색 시스템

구조화된 텍스트

서지사항 + 초록 + 본문

Google

비구조화된(unstructured) 텍스트

ltbodygt 태그 내에 포함된 free text

저자명 본문내용 등으로 한정하여 검색할 수 없음

XML로 표현된 웹 페이지

부분 구조화된(semi-structured) 텍스트

문헌파일의 구조

LC Library of Congress (미국 의회도서관)

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 2: 제2장 정보의 특성과 문헌파일

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

벤더 시스템의 구성

외부의 DB 생성기관이 생산한 다양

한 문헌 DB를 가져와 벤더시스템에

적합한 형식으로 수정 탐색을 제공

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OUTLINE

LC OPAC

구조화된(structured) 텍스트

서지정보 + 소장정보

ERIC 학술정보검색 시스템

구조화된 텍스트

서지사항 + 초록 + 본문

Google

비구조화된(unstructured) 텍스트

ltbodygt 태그 내에 포함된 free text

저자명 본문내용 등으로 한정하여 검색할 수 없음

XML로 표현된 웹 페이지

부분 구조화된(semi-structured) 텍스트

문헌파일의 구조

LC Library of Congress (미국 의회도서관)

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 3: 제2장 정보의 특성과 문헌파일

벤더 시스템의 구성

외부의 DB 생성기관이 생산한 다양

한 문헌 DB를 가져와 벤더시스템에

적합한 형식으로 수정 탐색을 제공

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OUTLINE

LC OPAC

구조화된(structured) 텍스트

서지정보 + 소장정보

ERIC 학술정보검색 시스템

구조화된 텍스트

서지사항 + 초록 + 본문

Google

비구조화된(unstructured) 텍스트

ltbodygt 태그 내에 포함된 free text

저자명 본문내용 등으로 한정하여 검색할 수 없음

XML로 표현된 웹 페이지

부분 구조화된(semi-structured) 텍스트

문헌파일의 구조

LC Library of Congress (미국 의회도서관)

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 4: 제2장 정보의 특성과 문헌파일

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OUTLINE

LC OPAC

구조화된(structured) 텍스트

서지정보 + 소장정보

ERIC 학술정보검색 시스템

구조화된 텍스트

서지사항 + 초록 + 본문

Google

비구조화된(unstructured) 텍스트

ltbodygt 태그 내에 포함된 free text

저자명 본문내용 등으로 한정하여 검색할 수 없음

XML로 표현된 웹 페이지

부분 구조화된(semi-structured) 텍스트

문헌파일의 구조

LC Library of Congress (미국 의회도서관)

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 5: 제2장 정보의 특성과 문헌파일

LC OPAC

구조화된(structured) 텍스트

서지정보 + 소장정보

ERIC 학술정보검색 시스템

구조화된 텍스트

서지사항 + 초록 + 본문

Google

비구조화된(unstructured) 텍스트

ltbodygt 태그 내에 포함된 free text

저자명 본문내용 등으로 한정하여 검색할 수 없음

XML로 표현된 웹 페이지

부분 구조화된(semi-structured) 텍스트

문헌파일의 구조

LC Library of Congress (미국 의회도서관)

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 6: 제2장 정보의 특성과 문헌파일

문헌파일의 구조 - MARC tag

【MARC 필드 정보】 - httpcataloglocgov or httpcatalog2locgov

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 7: 제2장 정보의 특성과 문헌파일

문헌파일의 구조 - Dialog

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 8: 제2장 정보의 특성과 문헌파일

문헌파일의 구조 ndash WWWNYTIMESCOM

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 9: 제2장 정보의 특성과 문헌파일

LC에서의 검색결과

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 10: 제2장 정보의 특성과 문헌파일

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 11: 제2장 정보의 특성과 문헌파일

필드로 구조화된 텍스트

외적인 속성

정보가 발생할 때 가지고 있는 값

ex) 문헌제목 저자명 등

통일된 입력 방식이 필요

내적인 속성

DB 생산자가 색인어를 결정해야 하는 값

ex) 문헌의 주제 등

정보의 속성과 속성값

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 12: 제2장 정보의 특성과 문헌파일

DB 이름 입력되는 저자 수 표현방식 예

BIOSIS 9명 et al 성 이름(I) 둘째 이름(I) Cochrane P A

MEDLINE 10명 et al 성 이름(I) Cochrane PA

EMBASE 성 이름(I) 둘째 이름(I) Cochrane PA

FSTA 성 이름(I) 둘째 이름(I) Cochrane PA

Dissertation Abstracts

성 이름(F) 둘째 이름(F) Cochrane Pauline Atherton

Compendex 16명

성 이름

Cochrane Pauline Atherton Cochrane Pauline A

Cochrane P Cochrane P A

ERIC 2명 And Others

NTIS 5명

데이터베이스별 저자명 표현방식

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 13: 제2장 정보의 특성과 문헌파일

DB 이름 정보원 표현 형식

Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238

ERIC 완전서명 v2 n3 p221-238 Sep 1990

FSTA 완전서명 1990 2 (2) 221-238

MLA Bibliography 완전서명 출판지 1990 Sept 2(3) 221-238

TampIASAP 완전서명 v2 p221(18)

BIOSIS 완전서명 2 (3) 1990 221-238

Zoological Record 간략서명 2(3) 1990 221-238

MEDLINE 간략서명 Sep 1990 2 (3) p 221-38

데이터베이스별 정보원 형식 비교

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 14: 제2장 정보의 특성과 문헌파일

문헌파일의 구조

정보의 속성과 속성값

서비스기관에서 문헌파일의 재조직

색인할 문헌단위

탐색의 접근점과 제한점

접근 필드의 단어단위구단위 색인

OVERVIEW

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 15: 제2장 정보의 특성과 문헌파일

문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환

ASCII 코드 EBCDIC 코드

UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용)

HTML XML에서 바이트열을 문자열로 변환

Ex) ampamp rArr amp

Markup 언어에서 Tag 처리

DB 생산자의 차이에 따른 레코드 구조 변경

문헌파일의 재조직

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 16: 제2장 정보의 특성과 문헌파일

색인할 문헌단위 결정

복합문헌을 분리하여 색인할 것인가 (첨부된 e-메일)

문서전체 혹은 장(chapter) 단락으로 문헌을 나눌 것인가

Dialog 문단 단위 색인

OVID 문장 단위 색인

본문(fulltext) 전체 혹은 일부분만을 색인할 것인가

Google 전반부 520 KB

Yahoo 210 KB

Microsoft 1020 KB

색인할 문헌단위

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 17: 제2장 정보의 특성과 문헌파일

색인 대상 필드

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 18: 제2장 정보의 특성과 문헌파일

탐색의 접근점과 제한점 결정

탐색에 사용할 필드를 결정

접근점으로 사용하는 필드에 대해서 색인

LC OPAC 저자명 서명 주제명 LCCN ISBN ISSB 필드 사용

Dialog DB의 거의 모든 필드 사용

탐색 접근점과 제한점

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인

Page 19: 제2장 정보의 특성과 문헌파일

접근 필드의 단어(word)단위구(phrase)단위 색인

색인을 필드 값 그대로 할 것인지(구단위) 단어단위로 할 것인지 결정

초록 본문 단어단위

서명 구단위(LC)

학술논문명 단어단위(Dialog)

탐색 접근점과 제한점 ndash CONT

LC ERIC Dialog ERIC

저자명 구단위 단어단위 색인 단어단위 구단위

서명 구단위 단어단위 색인 단어단위 색인