29
WEB CRAWLER 전북대학교 200924031 김윤섭

웹크롤러 조사

Embed Size (px)

Citation preview

Page 1: 웹크롤러 조사

WEB CRAWLER전북대학교����������� ������������������  

200924031����������� ������������������  김윤섭

Page 2: 웹크롤러 조사

Focus1.����������� ������������������  웹����������� ������������������  크롤러?����������� ������������������  

2.����������� ������������������  응용����������� ������������������  방향����������� ������������������  

3.����������� ������������������  검색����������� ������������������  엔진용����������� ������������������  크롤러����������� ������������������  정책����������� ������������������  

4.����������� ������������������  기타����������� ������������������  이슈

Page 3: 웹크롤러 조사

1.����������� ������������������  웹����������� ������������������  크롤러?

웹����������� ������������������  크롤러의����������� ������������������  소개

Page 4: 웹크롤러 조사

1.1What is Crawler?

자동으로����������� ������������������  웹����������� ������������������  페이지를����������� ������������������  수집하는����������� ������������������  프로그램����������� ������������������  

수집한����������� ������������������  페이지의����������� ������������������  url으로����������� ������������������  이동하며����������� ������������������  범위를����������� ������������������  넓혀감

Page 5: 웹크롤러 조사

크롤링의����������� ������������������  핵심����������� ������������������  

정보����������� ������������������  수집����������� ������������������  

ex)����������� ������������������  주커버그의����������� ������������������  예쁜여자����������� ������������������  찾기����������� ������������������  ����������� ������������������  

~����������� ������������������  검색엔진의����������� ������������������  기반

1.1What is Crawler?

Page 6: 웹크롤러 조사

1.2 web crawler

자동으로����������� ������������������  웹����������� ������������������  페이지를����������� ������������������  수집하는����������� ������������������  프로그램����������� ������������������  

수집한����������� ������������������  페이지의����������� ������������������  url으로����������� ������������������  이동하며����������� ������������������  범위를����������� ������������������  넓혀감

Page 7: 웹크롤러 조사

2.����������� ������������������  응용해보기

남의����������� ������������������  기술로����������� ������������������  훌륭한����������� ������������������  서비스����������� ������������������  만들기����������� ������������������  

DDOS����������� ������������������  

데이터����������� ������������������  마이닝(트렌드����������� ������������������  분석,����������� ������������������  게시글����������� ������������������  성향����������� ������������������  분석����������� ������������������  등)

Page 8: 웹크롤러 조사

2.1����������� ������������������  남의����������� ������������������  기술로����������� ������������������  서비스����������� ������������������  만들기

크롤링을����������� ������������������  통해����������� ������������������  수집한����������� ������������������  데이터를����������� ������������������  토대로����������� ������������������  또����������� ������������������  다른����������� ������������������  서비스����������� ������������������  제작����������� ������������������  

뉴스,����������� ������������������  블로그����������� ������������������  글����������� ������������������  모아보기����������� ������������������  등����������� ������������������  

ex)����������� ������������������  최저가����������� ������������������  사이트를����������� ������������������  모아,����������� ������������������  그����������� ������������������  중의����������� ������������������  최저가를����������� ������������������  다시����������� ������������������  보여주는����������� ������������������  쿠챠����������� ������������������  같은..

Page 9: 웹크롤러 조사

특정����������� ������������������  서버에게����������� ������������������  수많은����������� ������������������  접속����������� ������������������  시도를����������� ������������������  만들어����������� ������������������  다른����������� ������������������  이용자가����������� ������������������  정상적으로����������� ������������������  서비스����������� ������������������  이용을����������� ������������������  하지����������� ������������������  못하게����������� ������������������  하거나,����������� ������������������  서버의����������� ������������������  TCP����������� ������������������  연결을����������� ������������������  바닥내는����������� ������������������  등의����������� ������������������  공격이����������� ������������������  이����������� ������������������  범위에����������� ������������������  포함된다.

2.2 DDOS

Page 10: 웹크롤러 조사

페이지의����������� ������������������  정보����������� ������������������  취득보다����������� ������������������  접근으로����������� ������������������  서버에����������� ������������������  부하를����������� ������������������  주는����������� ������������������  것이����������� ������������������  목적.����������� ������������������  

ex)����������� ������������������  우리����������� ������������������  학교����������� ������������������  기관����������� ������������������  검색을����������� ������������������  thread����������� ������������������  로����������� ������������������  다중����������� ������������������  접근하면����������� ������������������  금방����������� ������������������  서버가����������� ������������������  마비됩니다..

2.2 DDOS

Page 11: 웹크롤러 조사

2.3 mining

Page 12: 웹크롤러 조사

3. Crawler for Search

검색엔진용����������� ������������������  크롤러����������� ������������������  정책

Page 13: 웹크롤러 조사

3.1����������� ������������������  크롤러����������� ������������������  정책

크롤러의����������� ������������������  활용도는����������� ������������������  다양����������� ������������������  

그����������� ������������������  중����������� ������������������  가장����������� ������������������  정석이����������� ������������������  되는����������� ������������������  검색엔진용����������� ������������������  크롤러����������� ������������������  정책

Page 14: 웹크롤러 조사

3.1.1����������� ������������������  선택정책

저장할����������� ������������������  페이지를����������� ������������������  선별하여����������� ������������������  담는다.

Page 15: 웹크롤러 조사

3.1.1����������� ������������������  선택정책-세부

탐색����������� ������������������  링크����������� ������������������  제한����������� ������������������  

html형식의����������� ������������������  링크만����������� ������������������  탐색����������� ������������������  

MIME(멀티미디어)����������� ������������������  링크는����������� ������������������  제외

Page 16: 웹크롤러 조사

3.1.1����������� ������������������  선택정책-세부

URL����������� ������������������  정규화����������� ������������������  

url����������� ������������������  작성의����������� ������������������  차이로����������� ������������������  동일����������� ������������������  페이지에����������� ������������������  접근을����������� ������������������  막는다.

Page 17: 웹크롤러 조사

3.1.1����������� ������������������  선택정책-세부

경로����������� ������������������  상승����������� ������������������  필터링����������� ������������������  

seed가����������� ������������������  되는����������� ������������������  url에서����������� ������������������  전혀����������� ������������������  다른����������� ������������������  가지로����������� ������������������  뻗어나가����������� ������������������  탐색����������� ������������������  범위를����������� ������������������  넓힘����������� ������������������  

abc.com/monkey����������� ������������������  ->����������� ������������������  abc.com/rabbit,����������� ������������������  /tiger..

Page 18: 웹크롤러 조사

3.1.1����������� ������������������  선택정책-세부

집중����������� ������������������  크롤링����������� ������������������  

화제가����������� ������������������  되는����������� ������������������  주제에����������� ������������������  관련된����������� ������������������  페이지를����������� ������������������  우선����������� ������������������  

페이지����������� ������������������  수집의����������� ������������������  정확도����������� ������������������  향상����������� ������������������  목표

Page 19: 웹크롤러 조사

3.1.2����������� ������������������  재방문����������� ������������������  정책

페이지의����������� ������������������  변화를����������� ������������������  감지하여����������� ������������������  재방문����������� ������������������  여부를����������� ������������������  정함

Page 20: 웹크롤러 조사

3.1.2����������� ������������������  재방문����������� ������������������  정책

정의����������� ������������������  

페이지의����������� ������������������  변화를����������� ������������������  감지하여����������� ������������������  재방문����������� ������������������  여부를����������� ������������������  정함����������� ������������������  

웹은����������� ������������������  매우����������� ������������������  역동적,����������� ������������������  주기적으로����������� ������������������  정보����������� ������������������  수집����������� ������������������  여부를����������� ������������������  조사해야함.����������� ������������������  

수집시,����������� ������������������  추가/변화를����������� ������������������  보관하여����������� ������������������  재방문의����������� ������������������  조건으로����������� ������������������  사용

Page 21: 웹크롤러 조사

3.1.2����������� ������������������  재방문����������� ������������������  정책

본����������� ������������������  정책의����������� ������������������  최대����������� ������������������  가중치����������� ������������������  요소����������� ������������������  

ㄴ����������� ������������������  신선도,����������� ������������������  최신여부

Page 22: 웹크롤러 조사

3.1.2����������� ������������������  재방문����������� ������������������  정책-세부

균일����������� ������������������  정책����������� ������������������  

모든����������� ������������������  재방문����������� ������������������  가중치는����������� ������������������  똑같은����������� ������������������  조건으로����������� ������������������  수행

Page 23: 웹크롤러 조사

3.1.2����������� ������������������  재방문����������� ������������������  정책-세부

비례����������� ������������������  정책����������� ������������������  

재방문률은����������� ������������������  가중치에����������� ������������������  비례����������� ������������������  

신선도,����������� ������������������  최신순����������� ������������������  어느����������� ������������������  하나도����������� ������������������  따르지����������� ������������������  않는다면����������� ������������������  최악의����������� ������������������  재방문����������� ������������������  정책.

Page 24: 웹크롤러 조사

3.1.3����������� ������������������  공손정책

정의����������� ������������������  

서버에����������� ������������������  무리가����������� ������������������  가는����������� ������������������  접근은����������� ������������������  피한다����������� ������������������  

부분적����������� ������������������  해결법으로����������� ������������������  robot����������� ������������������  제외����������� ������������������  프로토콜����������� ������������������  사용

Page 25: 웹크롤러 조사

3.1.4����������� ������������������  병렬화����������� ������������������  정책

정의����������� ������������������  

분산����������� ������������������  웹����������� ������������������  크롤러를����������� ������������������  조정한다.����������� ������������������  

동일����������� ������������������  페이지����������� ������������������  중복����������� ������������������  저장을����������� ������������������  피하기����������� ������������������  위함����������� ������������������  

동일����������� ������������������  도메인에����������� ������������������  분산����������� ������������������  크롤링을����������� ������������������  피하되,����������� ������������������  불가피����������� ������������������  하다면����������� ������������������  회피����������� ������������������  정책이����������� ������������������  추가����������� ������������������  필요

Page 26: 웹크롤러 조사

3. ETC.. but, Fun.

ajax에����������� ������������������  의해����������� ������������������  생긴����������� ������������������  동적����������� ������������������  페이지����������� ������������������  크롤링����������� ������������������  

모바일의����������� ������������������  증가에����������� ������������������  따른����������� ������������������  크롤����������� ������������������  데이터����������� ������������������  감소

Page 27: 웹크롤러 조사

3.1 ajax

ajax����������� ������������������  때문에����������� ������������������  생긴����������� ������������������  이슈����������� ������������������  

웹페이지����������� ������������������  자체에����������� ������������������  ajax데이터의����������� ������������������  크롤링을����������� ������������������  허가����������� ������������������  해주는����������� ������������������  방법����������� ������������������  

크롤링����������� ������������������  규칙이����������� ������������������  정해져����������� ������������������  있다면,����������� ������������������  url접근����������� ������������������  정도에����������� ������������������  따라����������� ������������������  가능.

Page 28: 웹크롤러 조사

3.1 mobile Data

모바일����������� ������������������  기반����������� ������������������  서비스의����������� ������������������  증가.����������� ������������������  

폐쇄형����������� ������������������  데이터����������� ������������������  보관으로����������� ������������������  인해����������� ������������������  크롤러����������� ������������������  접근����������� ������������������  불가����������� ������������������  

최근,����������� ������������������  기업의����������� ������������������  협력등을����������� ������������������  통한����������� ������������������  데이터����������� ������������������  교류로����������� ������������������  해소한다고����������� ������������������  함.����������� ������������������  

Page 29: 웹크롤러 조사

Thanks