Владимир Батыгин "Методы автоматического сбора...

Preview:

DESCRIPTION

Владимир Батыгин "Методы автоматического сбора данных" Я.Субботник в Санкт-Петербурге О докладе: В настоящее время в интернете наблюдается стремительный рост количества полезной для пользователей информации. Чтобы в ней хорошо ориентироваться, нужны все более умные поисковые системы, собирающие не просто тексты, а структурированную информацию. За её сбор отвечает направление web content mining. В докладе будет рассказано об этом направлении, а также будет дан обзор методов ведущих специалистов в этой области.

Citation preview

Методы  автоматического  сбора  данных    Владимир  Батыгин  Разработчик            Я.Субботник,  Санкт-­‐Петербург,  3  декабря  

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

2

1996 Web Mining

3

«The World-Wide Web: quagmire or gold mine?» Professor Oren Etzioni Director of the Turing Center

Интернет    

•  2003 год: в рунете 200 тысяч сайтов

•  Сейчас: в рунете 3,5 миллионов сайтов

4

Использование  в  сервисах  

Использование  в  сервисах  

6

Использование  в  сниппетах  

7

Использование  в  сниппетах  

8

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

9

Wrapper Induction

System

Составные  части  систем  [Chang2006]  

10

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Manual | Supervised | Semi-supervised | Un-supervised

Классификация  методов  [Chang2006]  

11

Wrapper

Extracted Data

Test Page

Manual

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

12

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Supervised

Labeled Web Pages

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

13

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Semi-supervised

Manual | Supervised | Semi-supervised | Un-supervised

Wrapper Induction

System

Классификация  методов  [Chang2006]  

14

Wrapper

Extracted Data

Test Page

Un-labeled Web Pages

Unsupervised

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

15

Существующие  подходы  Manual Supervised Semi-supervised Unsupervised TSIMMIS [Hammer1997]

Minerva [Crescenzi1998] WebQOL [Arocena1998] XWRAP [Liu2000] W4F [Saiiuguet2001]

WIEN [Kushmerick1997] SRV [Freitag1998] RAPIER [Califf1998] NoDoSe [Adelberg1998] SoftMealy [Hsu1998]

WHISK [Soderland1999] STALKER [Muslea1999]

DEByE [Laender2002]

IEPAD [Chang2001] OLERA [Chang2004] Thresher [Hogue2005] IDE [Zhai2005]

RoadRunner [Crescenzi2001] DeLa [Wang2002] EXALG [Arasu2003] DEPTA [Znai2005] NET [Zhai2005] IEKA [Wong2007] ViDE [Liu2010]

16

Примеры  существующих  подходов  и  систем  

•  Manual o Supervised и Semi-supervised o Unsupervised o Гибридные методы

17

Manual  

Особенности:

•  Парсеры пишутся вручную;

•  Для разбора используют

– Xpath; – RegExp.

18

WebHarvest:  Easy  Web  Scraping  from  Java  

19 http://web-harvest.sourceforge.net/

Таких  инструментов  много    

20

30 Digits Web Extractor Software

Djuggler Happy Harvester Irobot Soft ListGrabber

http://www.theeasybee.com/

Проблема  

•  Высокая стоимость разарботки

•  Высокая стоимость поддержки

21

Примеры  существующих  подходов  и  систем  

ü Manual •  Supervised и Semi-supervised o Unsupervised o Гибридные методы

22

Supervised  и  Semi-­‐supervised  

Особенность:

•  Правила извлечения генерируются автоматически или под контролем пользователя.

23

24

Инструменты  

25

http://www.visualwebripper.com/

http://www.lixto.com/

http://www.denodo.com

Проблема  

•  Высокая стоимость поддержки для большого количества сайтов

26

Примеры  существующих  подходов  и  систем  

ü  Manual ü  Supervised и Semi-supervised ü  Unsupervised o  Гибридные методы

27

Unsupervised  

Особенности:

Полностью автоматические. Не требуют контроля со стороны пользователя.

28

Исследовательские  центры  на  карте  мира  

29

University of Illinois at Chicago

Università di Roma Tre Università della Basilicata

Microsoft Research Asia

Crescenzi    et  al:  RoadRunner  

•  Дано множество «хороших» страниц;

•  Строится wrapper в форме RegExp.

Подход

•  Wrapper строится на основании сравнения двух страниц одинаковой структуры.

30

31

32

33

34

Crescenzi    et  al:  RoadRunner.  Пример  

A B C D E F G H I Albania

Football Association of Albania

1930 1954 1932 PAPADHOPULLI Dhimiter

STAROVA Sulejman

None*

ZHEGA Medin

35

Проблема  

•  Низкая полнота и точность

•  Невозможно настроить под любой сайт

36

Примеры  существующих  подходов  и  систем  

ü  Manual ü  Supervised и Semi-supervised ü  Unsupervised o  Гибридные методы

37

Исследовательские  центры  

38

University of Illinois at Chicago

Università di Roma Tre Università della Basilicata

Microsoft Research Asia

From  one  tree  to  a  forest  

•  Размечается несколько начальных сайтов

•  Система настраиватется для всех сайтов с вертикали

39 [Qiang Hao et. al. 2011]

From  one  tree  to  a  forest  

40 [Qiang Hao et. al. 2011]

Оценка  

41 [Qiang Hao et. al. 2011]

План  o Мотивация o Классификация методов o Примеры существующих систем o Заключение.

42

Заключение  

•  Manual

– Когда надо собрать мало данных

•  Supervised, Semi-supervised

– Когда важна точность

•  Unsupervised

– Когда важна полнота

43

Спасибо  за  внимание!  

Вопросы?

44

Владимир  Батыгин  разработчик  vbatygin@yandex-­‐team.ru      

45

Recommended