45
Методы автоматического сбора данных Владимир Батыгин Разработчик Я.Субботник, СанктПетербург, 3 декабря

Владимир Батыгин "Методы автоматического сбора данных"

  • Upload
    yandex

  • View
    772

  • Download
    1

Embed Size (px)

DESCRIPTION

Владимир Батыгин "Методы автоматического сбора данных" Я.Субботник в Санкт-Петербурге О докладе: В настоящее время в интернете наблюдается стремительный рост количества полезной для пользователей информации. Чтобы в ней хорошо ориентироваться, нужны все более умные поисковые системы, собирающие не просто тексты, а структурированную информацию. За её сбор отвечает направление web content mining. В докладе будет рассказано об этом направлении, а также будет дан обзор методов ведущих специалистов в этой области.

Citation preview

Page 1: Владимир Батыгин "Методы автоматического сбора данных"

Методы  автоматического  сбора  данных    Владимир  Батыгин  Разработчик            Я.Субботник,  Санкт-­‐Петербург,  3  декабря  

Page 2: Владимир Батыгин "Методы автоматического сбора данных"

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

2

Page 3: Владимир Батыгин "Методы автоматического сбора данных"

1996 Web Mining

3

«The World-Wide Web: quagmire or gold mine?» Professor Oren Etzioni Director of the Turing Center

Page 4: Владимир Батыгин "Методы автоматического сбора данных"

Интернет    

•  2003 год: в рунете 200 тысяч сайтов

•  Сейчас: в рунете 3,5 миллионов сайтов

4

Page 5: Владимир Батыгин "Методы автоматического сбора данных"

Использование  в  сервисах  

Page 6: Владимир Батыгин "Методы автоматического сбора данных"

Использование  в  сервисах  

6

Page 7: Владимир Батыгин "Методы автоматического сбора данных"

Использование  в  сниппетах  

7

Page 8: Владимир Батыгин "Методы автоматического сбора данных"

Использование  в  сниппетах  

8

Page 9: Владимир Батыгин "Методы автоматического сбора данных"

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

9

Page 10: Владимир Батыгин "Методы автоматического сбора данных"

Wrapper Induction

System

Составные  части  систем  [Chang2006]  

10

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Page 11: Владимир Батыгин "Методы автоматического сбора данных"

Manual | Supervised | Semi-supervised | Un-supervised

Классификация  методов  [Chang2006]  

11

Wrapper

Extracted Data

Test Page

Manual

Page 12: Владимир Батыгин "Методы автоматического сбора данных"

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

12

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Supervised

Labeled Web Pages

Page 13: Владимир Батыгин "Методы автоматического сбора данных"

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

13

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Semi-supervised

Page 14: Владимир Батыгин "Методы автоматического сбора данных"

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

14

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Unsupervised

Page 15: Владимир Батыгин "Методы автоматического сбора данных"

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

15

Page 16: Владимир Батыгин "Методы автоматического сбора данных"

Существующие  подходы  Manual Supervised Semi-supervised Unsupervised TSIMMIS [Hammer1997]

Minerva [Crescenzi1998] WebQOL [Arocena1998] XWRAP [Liu2000] W4F [Saiiuguet2001]

WIEN [Kushmerick1997] SRV [Freitag1998] RAPIER [Califf1998] NoDoSe [Adelberg1998] SoftMealy [Hsu1998]

WHISK [Soderland1999] STALKER [Muslea1999]

DEByE [Laender2002]

IEPAD [Chang2001] OLERA [Chang2004] Thresher [Hogue2005] IDE [Zhai2005]

RoadRunner [Crescenzi2001] DeLa [Wang2002] EXALG [Arasu2003] DEPTA [Znai2005] NET [Zhai2005] IEKA [Wong2007] ViDE [Liu2010]

16

Page 17: Владимир Батыгин "Методы автоматического сбора данных"

Примеры  существующих  подходов  и  систем  

•  Manual o Supervised и Semi-supervised o Unsupervised o Гибридные методы

17

Page 18: Владимир Батыгин "Методы автоматического сбора данных"

Manual  

Особенности:

•  Парсеры пишутся вручную;

•  Для разбора используют

– Xpath; – RegExp.

18

Page 19: Владимир Батыгин "Методы автоматического сбора данных"

WebHarvest:  Easy  Web  Scraping  from  Java  

19 http://web-harvest.sourceforge.net/

Page 20: Владимир Батыгин "Методы автоматического сбора данных"

Таких  инструментов  много    

20

30 Digits Web Extractor Software

Djuggler Happy Harvester Irobot Soft ListGrabber

http://www.theeasybee.com/

Page 21: Владимир Батыгин "Методы автоматического сбора данных"

Проблема  

•  Высокая стоимость разарботки

•  Высокая стоимость поддержки

21

Page 22: Владимир Батыгин "Методы автоматического сбора данных"

Примеры  существующих  подходов  и  систем  

ü Manual •  Supervised и Semi-supervised o Unsupervised o Гибридные методы

22

Page 23: Владимир Батыгин "Методы автоматического сбора данных"

Supervised  и  Semi-­‐supervised  

Особенность:

•  Правила извлечения генерируются автоматически или под контролем пользователя.

23

Page 24: Владимир Батыгин "Методы автоматического сбора данных"

24

Page 25: Владимир Батыгин "Методы автоматического сбора данных"

Инструменты  

25

http://www.visualwebripper.com/

http://www.lixto.com/

http://www.denodo.com

Page 26: Владимир Батыгин "Методы автоматического сбора данных"

Проблема  

•  Высокая стоимость поддержки для большого количества сайтов

26

Page 27: Владимир Батыгин "Методы автоматического сбора данных"

Примеры  существующих  подходов  и  систем  

ü  Manual ü  Supervised и Semi-supervised ü  Unsupervised o  Гибридные методы

27

Page 28: Владимир Батыгин "Методы автоматического сбора данных"

Unsupervised  

Особенности:

Полностью автоматические. Не требуют контроля со стороны пользователя.

28

Page 29: Владимир Батыгин "Методы автоматического сбора данных"

Исследовательские  центры  на  карте  мира  

29

University of Illinois at Chicago

Università di Roma Tre Università della Basilicata

Microsoft Research Asia

Page 30: Владимир Батыгин "Методы автоматического сбора данных"

Crescenzi    et  al:  RoadRunner  

•  Дано множество «хороших» страниц;

•  Строится wrapper в форме RegExp.

Подход

•  Wrapper строится на основании сравнения двух страниц одинаковой структуры.

30

Page 31: Владимир Батыгин "Методы автоматического сбора данных"

31

Page 32: Владимир Батыгин "Методы автоматического сбора данных"

32

Page 33: Владимир Батыгин "Методы автоматического сбора данных"

33

Page 34: Владимир Батыгин "Методы автоматического сбора данных"

34

Page 35: Владимир Батыгин "Методы автоматического сбора данных"

Crescenzi    et  al:  RoadRunner.  Пример  

A B C D E F G H I Albania

Football Association of Albania

1930 1954 1932 PAPADHOPULLI Dhimiter

STAROVA Sulejman

None*

ZHEGA Medin

35

Page 36: Владимир Батыгин "Методы автоматического сбора данных"

Проблема  

•  Низкая полнота и точность

•  Невозможно настроить под любой сайт

36

Page 37: Владимир Батыгин "Методы автоматического сбора данных"

Примеры  существующих  подходов  и  систем  

ü  Manual ü  Supervised и Semi-supervised ü  Unsupervised o  Гибридные методы

37

Page 38: Владимир Батыгин "Методы автоматического сбора данных"

Исследовательские  центры  

38

University of Illinois at Chicago

Università di Roma Tre Università della Basilicata

Microsoft Research Asia

Page 39: Владимир Батыгин "Методы автоматического сбора данных"

From  one  tree  to  a  forest  

•  Размечается несколько начальных сайтов

•  Система настраиватется для всех сайтов с вертикали

39 [Qiang Hao et. al. 2011]

Page 40: Владимир Батыгин "Методы автоматического сбора данных"

From  one  tree  to  a  forest  

40 [Qiang Hao et. al. 2011]

Page 41: Владимир Батыгин "Методы автоматического сбора данных"

Оценка  

41 [Qiang Hao et. al. 2011]

Page 42: Владимир Батыгин "Методы автоматического сбора данных"

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

42

Page 43: Владимир Батыгин "Методы автоматического сбора данных"

Заключение  

•  Manual

– Когда надо собрать мало данных

•  Supervised, Semi-supervised

– Когда важна точность

•  Unsupervised

– Когда важна полнота

43

Page 44: Владимир Батыгин "Методы автоматического сбора данных"

Спасибо  за  внимание!  

Вопросы?

44

Page 45: Владимир Батыгин "Методы автоматического сбора данных"

Владимир  Батыгин  разработчик  vbatygin@yandex-­‐team.ru      

45