View
919
Download
4
Category
Preview:
DESCRIPTION
Владимир Батыгин "Автоматический сбор данных по примерам" Первый Я.Субботник в Санкт-Петербурге О докладе: В настоящее время в интернете можно найти огромное количество полезной информации. Повсеместно встает проблема сбора этой информации в автоматическом режиме. Однако полностью автоматические методы извлечения информации далеко не всегда могут обеспечить необходимую полноту и точность результата. В докладе представлен новый инструмент для управляемого извлечения структурированных данных. Пользователь указывает примеры интересующей его информации на нескольких страницах сайта. Система автоматически строит шаблоны специального вида для поиска такой же информации на всех страницах сайта. Повествуем об используемых алгоритмах и проблемах, с которыми пришлось столкнуться при их реализации. Также даем обзор нерешённых задач и перспектив их развития.
Citation preview
Автоматический сбор данных по примерамВладимир БатыгинРазработчик
Я.Субботник, Санкт-Петербург, 26 февраля 2011
План
● Введение● Singlepage● Алгоритм● Итоги
2
Глава 1.Введение
3
5
6
Вёрстка
7
Вёрстка
Разнообразна
8
Вёрстка
Разнообразна Часто изменяется
9
Специализированные парсеры
На каждый сайт – свой
10
Нужна армия
11
Общие алгоритмы
Предполагают наличие на странице регулярной структуры
12
13
MDR
Требования
14
Требования
15
● Простая настройка● Простая поддержка
Требования
● Простая настройка● Простая поддержка● Высокие показатели полноты и точности
16
Глава 2.SinglePage
17
Управляемая экстракция1. Пользователь задает примеры
2. Система автоматически извлекает данные со всего сайта
18
Преимущества
● Быстрая настройка
● Не требуется разбираться в структуре страницы
● Структурированное извлечение нужной информации
● Устойчивость к изменениям вёрстки
19
Ограничения● Отдельная страница на каждый объект● Группа страниц с однотипной вёрсткой
20
Глава 3.Алгоритм
21
Взгляд внутрь1. По примерам строим шаблоны (один атрибут – один шаблон)
2. Применяем шаблоны к остальным (подходящим) страницам
22
23
Интерфейс
24
Построение шаблона
25
Построение шаблона
Для каждого атрибута строится отдельный шаблон
26
27
28
//ul/li[3]/span
29
30
//ul/li[3]/span
31
//ul/li[3]/span Size=20 quad laser...
TreePattern
32
TreePattern
Homeworld: Size: Weapon:
Corellia 26, 7 meters long quad laser cannons ...
33
Построение TreePattern
34
Построение TreePattern
35
Построение TreePattern
36
Построение TreePattern
37
38
Проблема
39
Проблема
Необязательный узел
<h1>
<span>
Driod Control Ship
?
[Target]
40
Поиск вхождений
41
Множественные вхождения
4 комбинации
Выбираем лучшую
42
Применение шаблона к сайту
43
Кластеризация
44
Применяем шаблоны
Не применяем шаблоны
Все страницы
Глава 4.Итоги
45
Статистика
Время создания < 20 мин
Полнота: 88% Точность: 92%
46
Happy End?
47
Нерешенные задачи
● Динамический контент
● Плагин для браузера
48
ЗаключениеПолуавтоматические методы:
● По качеству данных и универсальности сравнимы со сбором «в ручную»
● Сложность и время настройки минимальны
49
50
P.S. Экономьте Ваше время!
50
Вопросы
51
Батыгин ВладимирРазработчик
111033, Россия, Санкт-Петербург,Свердловская наб., д. 44.
vbatygin@yandex-team.ru
Recommended