Upload
chang-yong-jung
View
1.140
Download
0
Embed Size (px)
DESCRIPTION
Citation preview
제1장.
Introduction 정보검색
INFORMATION RETRIEVAL
강의: 정창용 ([email protected]) http://www.facebook.com/hhuIR
Korea Maritime University Navis Control Inc.
주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)
부교재 : 최신 정보검색론 (안동언 외, 교보문고)
성적
중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%
과제의 평가
기한 후 1주 내 제출 시: 0~30% 감점 (순차적)
기한 후 2주 내 제출 시: 40% 감점
그 후 제출 시: 60% 감점
강의 페이지 : http://www.facebook.com/hhuIR
강의소개
정보검색이란?
정보원 정보검색 이용자 검색 / 결과
Goal
대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것
유사점
대용량
소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가능함
차이점 (정보검색시스템의 특징)
확률론적
검색 결과가 사용자의 요구에 맞는지 확신할 수 없음
비정형 데이터(unstructured data)
구조화되어 있지 않음
동일한 크기, 일정한 크기 아님
SQL 같은 정규화된 쿼리를 사용할 수 없음
정형 데이터에 비해 검색속도 느림
색인을 위한 다량의 데이터 저장공간 필요
정보검색시스템과 DBMS의 비교
1. 문자열 일치(string matching) 검색
모든 문헌의 문자열을 연속적으로 비교/검색
느림
성능향상의 어려움
Ex) 리룩스 명령어 grep
2. 색인(indexing) 검색
빠름
성능 개선에 유연함
정보검색을 위한 가능한 방법
색인기반(Indexing-based) 검색
구성
Crawler(수집기): 대상 데이터의 수집
Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화
Searcher(검색기): 요구에 적합한 정보 검색
고려사항
검색 대상 폭발적으로 증가하는 컨텐츠 수
검색 조건 사용자 질의에 대한 빠른 응답시간
정보검색시스템 구성
정보검색 과정
정보의 구조 분석
정보의 조직
파일의 조직
색인파일 문헌파일
탐 색
질 의 처 리
질 의 작 성
정보요구분석
정 렬
분 류
클러스터링
요 약
평 가
적 합 성
색인되는 자료의 물리적 특성에 따라
텍스트 정보검색
웹 정보검색
이미지 정보검색
소리 정보검색
동영상 정보검색
내용기반 정보검색 (Content-based IR)
그림의 색상, 형태
노래(소리), 악보 그림
텍스트 정보검색
텍스트 문헌
멀티미디어 데이터에 수동으로 입력된 데이터
제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등
정보검색 시스템의 종류
용어의 상호의존성 여부에 따라 모델 구분
용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?
완전 일치(exact matching)
완전하게 일치하는 데이터만 검색
불리언 모델
부분 일치(partial matching)
질의와 조금이라도 일치하는 데이터 모두 검색
일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐
대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델
확률이론: 이진 독립 모델, 언어 모델, 추론망 모델
정보검색 모델
수학적 기반 용어 상호의존성
without with
집합이론
대수이론
확률이론
정보검색 모델 – CONT.
불리언모델
벡터공간 모델
2진독립 모델
추론네트워크
확장된 불리언
정규화된 벡터공간
잠재의미 신경망모델
언어 모델
퍼지집합
질의 문헌DB
Ad hoc 동적 정적
Routing (Filtering) 정적 동적
Ad hoc 검색과 필터링
이용자들의 요구
신착문서
라우팅 시스템
이용자1
이용자1
이용자1
[라우팅 시스템]
Naver와 DAUM을 이용하여 특정 검색어의 검색 결과를 RSS로 구독하라 .
IT와 관련된 서로 다른 4개의 검색어를 두 개는 Naver를 이용하고 , 나머지 2개는 DAUM을 이용하여 검색하고 그 결과를 RSS로 구독한다 .
단 , RSS Reader는 Google reader를 사용하고 , 검색어 중 1개는 IT가 이외의 분야도 허용함 .
제출내용
① google reader 상에 해당 RSS가 등록되어 있는 화면을 캡쳐한 것 ( jpg or png 파일 )
② RSS feed 목록을 내보내기 한 opml 파일 (subscr ipt ions .xml )
제출기한 : 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함 )
<참고>
* http : //www.codeordie .org/agent/news2rss/
* Naver => http ://newssearch .naver.com/search.naver?where=rss&query={keyword}
* DAUM => http://www.daum.net
* Google reader => http://reader.google .com
* opml 파일은 google reader의 설정화면에서 가져오기/내보내기 메뉴를 이용하면 됨 .
과제#1) Filtering (Routing) 검색 활용
1950년대
1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템
1964년 미국 국립의학도서관(NLM)서 대규모 도입
1960년대
Protosynthex (SDC 개발)
On-line 시스템.
Golden Book Encyclopedia 내용을 탐색.
1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험
CONVERSE (Lockheed 개발)
자체 도서관 목록검색
전국 NASA 기관에 설치된 24개의 터미널에 연결
유럽 최초의 온라인 탐색서비스에 사용됨
현재 온라인 벤더시스템 Dialog로 발전
정보검색의 발전 과정
도서관에서의 정보 검색 활용 (1950년대) ISBN: 0-201-12227-8
Author: Salton, Gerard
Title: Automatic text processing: the transformation,
analysis, and retrieval of information by computer
Editor: Addison-Wesley
Date: 1989
Content: <Text>
정보검색의 발전 과정 – CONT.
1970년대 일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환
1980년대 인접연산자를 사용한 본문 검색시스템으로의 전환
사용자(end-user) 인터페이스 등장
오프라인 검색 서비스 판매 상업용 서지 CD-ROM
1990년대 인터넷과 웹(World Wide Web) 등장
텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색
2000년대 웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨
정보검색의 발전 과정 – CONT.
문헌과 질의 색인
최적의 색인 방법은 무엇인가?
질의 평가 (검색 실행)
문헌과 질의가 얼마나 유사한가?
시스템 평가
얼마나 좋은 시스템인가?
검색한 문헌이 적합(relevant)한가? (정확률; precision)
모든 적합 문헌을 검색했는가? (재현률; recall)
정보검색의 주요 관심
색인어 추출과 언어학적 처리
불리언 검색과 비불리언 검색
사전파일
인용색인
정보검색 성능평가
질의확장
문헌 클러스터링
텍스트 범주화
텍스트 요약
웹 문서 검색
내용기반 검색
무엇을 배우는가?