제1장 정보검색소개

제1장.

Introduction 정보검색

INFORMATION RETRIEVAL

강의: 정창용 ([email protected]) http://www.facebook.com/hhuIR

Korea Maritime University Navis Control Inc.

mailto:[email protected]

http://www.facebook.com/hhuIR

주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)

부교재 : 최신 정보검색론 (안동언 외, 교보문고)

성적

중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%

과제의 평가

기한 후 1주 내 제출 시: 0~30% 감점 (순차적)

기한 후 2주 내 제출 시: 40% 감점

그 후 제출 시: 60% 감점

강의 페이지 : http://www.facebook.com/hhuIR

강의소개

정보검색이란?

정보원 정보검색 이용자 검색 / 결과

Goal

대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것

유사점

대용량

소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가능함

차이점 (정보검색시스템의 특징)

확률론적

검색 결과가 사용자의 요구에 맞는지 확신할 수 없음

비정형 데이터(unstructured data)

구조화되어 있지 않음

동일한 크기, 일정한 크기 아님

SQL 같은 정규화된 쿼리를 사용할 수 없음

정형 데이터에 비해 검색속도 느림

색인을 위한 다량의 데이터 저장공간 필요

정보검색시스템과 DBMS의 비교

1. 문자열 일치(string matching) 검색

모든 문헌의 문자열을 연속적으로 비교/검색

느림

성능향상의 어려움

Ex) 리룩스 명령어 grep

2. 색인(indexing) 검색

빠름

성능 개선에 유연함

정보검색을 위한 가능한 방법

색인기반(Indexing-based) 검색

구성

Crawler(수집기): 대상 데이터의 수집

Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화

Searcher(검색기): 요구에 적합한 정보 검색

고려사항

검색 대상 폭발적으로 증가하는 컨텐츠 수

검색 조건 사용자 질의에 대한 빠른 응답시간

정보검색시스템 구성

정보검색 과정

정보의 구조 분석

정보의 조직

파일의 조직

색인파일 문헌파일

탐 색

질 의 처 리

질 의 작 성

정보요구분석

정 렬

분 류

클러스터링

요 약

평 가

적 합 성

색인되는 자료의 물리적 특성에 따라

텍스트 정보검색

웹 정보검색

이미지 정보검색

소리 정보검색

동영상 정보검색

내용기반 정보검색 (Content-based IR)

그림의 색상, 형태

노래(소리), 악보 그림

텍스트 정보검색

텍스트 문헌

멀티미디어 데이터에 수동으로 입력된 데이터

제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등

정보검색 시스템의 종류

용어의 상호의존성 여부에 따라 모델 구분

용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?

완전 일치(exact matching)

완전하게 일치하는 데이터만 검색

불리언 모델

부분 일치(partial matching)

질의와 조금이라도 일치하는 데이터 모두 검색

일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐

대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델

확률이론: 이진 독립 모델, 언어 모델, 추론망 모델

정보검색 모델

수학적 기반 용어 상호의존성

without with

집합이론

대수이론

확률이론

정보검색 모델 – CONT.

불리언모델

벡터공간 모델

2진독립 모델

추론네트워크

확장된 불리언

정규화된 벡터공간

잠재의미 신경망모델

언어 모델

퍼지집합

질의 문헌DB

Ad hoc 동적 정적

Routing (Filtering) 정적 동적

Ad hoc 검색과 필터링

이용자들의 요구

신착문서

라우팅 시스템

이용자1

이용자1

이용자1

[라우팅 시스템]

Naver와 DAUM을 이용하여 특정 검색어의 검색 결과를 RSS로 구독하라 .

IT와 관련된 서로 다른 4개의 검색어를 두 개는 Naver를 이용하고 , 나머지 2개는 DAUM을 이용하여 검색하고 그 결과를 RSS로 구독한다 .

단 , RSS Reader는 Google reader를 사용하고 , 검색어 중 1개는 IT가 이외의 분야도 허용함 .

제출내용

① google reader 상에 해당 RSS가 등록되어 있는 화면을 캡쳐한 것 ( jpg or png 파일 )

② RSS feed 목록을 내보내기 한 opml 파일 (subscr ipt ions .xml )

제출기한 : 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함 )

<참고>

* http : //www.codeordie .org/agent/news2rss/

* Naver => http ://newssearch .naver.com/search.naver?where=rss&query={keyword}

* DAUM => http://www.daum.net

* Google reader => http://reader.google .com

* opml 파일은 google reader의 설정화면에서 가져오기/내보내기 메뉴를 이용하면 됨 .

과제#1) Filtering (Routing) 검색 활용

http://newssearch.naver.com/search.naver?where=rss&query=%B1%B8%B1%DB



http://www.daum.net/

http://reader.google.com/

1950년대

1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템

1964년 미국 국립의학도서관(NLM)서 대규모 도입

1960년대

Protosynthex (SDC 개발)

On-line 시스템.

Golden Book Encyclopedia 내용을 탐색.

1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험

CONVERSE (Lockheed 개발)

자체 도서관 목록검색

전국 NASA 기관에 설치된 24개의 터미널에 연결

유럽 최초의 온라인 탐색서비스에 사용됨

현재 온라인 벤더시스템 Dialog로 발전

정보검색의 발전 과정

http://www.dialog.com/

도서관에서의 정보 검색 활용 (1950년대) ISBN: 0-201-12227-8

Author: Salton, Gerard

Title: Automatic text processing: the transformation,

analysis, and retrieval of information by computer

Editor: Addison-Wesley

Date: 1989

Content: <Text>

정보검색의 발전 과정 – CONT.

1970년대 일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환

1980년대 인접연산자를 사용한 본문 검색시스템으로의 전환

사용자(end-user) 인터페이스 등장

오프라인 검색 서비스 판매 상업용 서지 CD-ROM

1990년대 인터넷과 웹(World Wide Web) 등장

텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색

2000년대 웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨

정보검색의 발전 과정 – CONT.

문헌과 질의 색인

최적의 색인 방법은 무엇인가?

질의 평가 (검색 실행)

문헌과 질의가 얼마나 유사한가?

시스템 평가

얼마나 좋은 시스템인가?

검색한 문헌이 적합(relevant)한가? (정확률; precision)

모든 적합 문헌을 검색했는가? (재현률; recall)

정보검색의 주요 관심

색인어 추출과 언어학적 처리

불리언 검색과 비불리언 검색

사전파일

인용색인

정보검색 성능평가

질의확장

문헌 클러스터링

텍스트 범주화

텍스트 요약

웹 문서 검색

내용기반 검색

무엇을 배우는가?

Education

제1장 정보검색소개