69
Методы и средства очистки открытых данных из разнородных источников Карпов Илья [email protected] 11.12.2015 Москва

Очистка и интеграция открытых данных из разнородных источников

Embed Size (px)

Citation preview

Page 1: Очистка и интеграция открытых данных из разнородных источников

Методы и средства очистки открытых данных из

разнородных источников

Карпов Илья

[email protected]

11.12.2015

Москва

Page 2: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Введение Очистка и интеграция данных

2/69

• Получение

• Валидация

• Трансформация

• Очистка

• Консолидация (удаление дубликатов)

• Визуализация

Page 3: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Хранилища данных

3/69

• Интеграция данных из разнородных источников началась в 90–х,

когда крупными торговыми площадками разрабатывались

хранилища данных

• В среднем x2 превышение бюджета и x2 превышение сроков

• Окупаемость в течении 6 месяцев за счет более оптимальных

решений

Page 4: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Традиционный подход к ETL

4/69

• Разработка единой схемы данных

• Интеграция источника данных

– Исследование

– Маппинг структур в единую схему данных

– Методы очистки и преобразования

• Масштабирование до 25 источников

Page 5: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Хранилища данных

5/69

https://en.wikipedia.org/wiki/Data_integration

Page 6: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Проблемы интеграции данных

6/69

Page 7: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Проблемы интеграции данных

7/69

Page 8: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

8/69

http://www.xmlschema.info/images/shots/map_xml_thumb.gif

Page 9: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

9/69

https://www.informatica.com/products/data-integration/powercenter.html

Page 10: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

10/69

https://www.informatica.com/products/data-integration/powercenter.html

Page 11: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Научно-технический

задел

11/69

Page 12: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Schema mapping

12/69

https://www.informatica.com/products/data-integration/powercenter.html

Page 13: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-

процессы Примеры

13/69

• РИНЦ

– 4-е место в списке самых цитируемых специалистов по автоматике и

вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)

– 33 публикации, которые цитируются 5289 раз.

– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу

Тимошенко эмигрировавшему в США в 1922 году.

http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/

• Фокусированный анализ

– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было

включено 510 персон и 445 организаций.

– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было

включено 319.

– Страницы организаций (места работы, университеты) около 100.

https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf

Page 14: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Примеры (2)

14/69

CIT

CalTech

Cal Tech

US Senate

United States Senate

Senate of the United States of America

United States Senate Committee on

Commerce

US Senator John D. Rockefeller

Office of U.S. Senator George S. LeMieux

United States Senate - Office of Senator

Claire McCaskill

Page 15: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Традиционные ETL-процессы Примеры (3)

15/69

Объекты на карте

Page 16: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Некоторые проекты

16/69

• Paxata

• Trifacta (commercial Data Wrangler)

• Cambridge Semantics

• Data Tamer

• ClearStory

• Attivio

• Google - Refine (OpenRefine)

Page 17: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataWrangler

17/69

• Быстрая трансформация и ручная фильтрация данных

• От пользователя не требуется знаний программирования

http://vis.stanford.edu/wrangler/

Page 18: Очистка и интеграция открытых данных из разнородных источников
Page 19: Очистка и интеграция открытых данных из разнородных источников
Page 20: Очистка и интеграция открытых данных из разнородных источников
Page 21: Очистка и интеграция открытых данных из разнородных источников
Page 22: Очистка и интеграция открытых данных из разнородных источников
Page 23: Очистка и интеграция открытых данных из разнородных источников
Page 24: Очистка и интеграция открытых данных из разнородных источников
Page 25: Очистка и интеграция открытых данных из разнородных источников
Page 26: Очистка и интеграция открытых данных из разнородных источников
Page 27: Очистка и интеграция открытых данных из разнородных источников
Page 28: Очистка и интеграция открытых данных из разнородных источников
Page 29: Очистка и интеграция открытых данных из разнородных источников
Page 30: Очистка и интеграция открытых данных из разнородных источников
Page 31: Очистка и интеграция открытых данных из разнородных источников
Page 32: Очистка и интеграция открытых данных из разнородных источников
Page 33: Очистка и интеграция открытых данных из разнородных источников
Page 34: Очистка и интеграция открытых данных из разнородных источников
Page 35: Очистка и интеграция открытых данных из разнородных источников
Page 36: Очистка и интеграция открытых данных из разнородных источников
Page 37: Очистка и интеграция открытых данных из разнородных источников
Page 38: Очистка и интеграция открытых данных из разнородных источников
Page 39: Очистка и интеграция открытых данных из разнородных источников
Page 40: Очистка и интеграция открытых данных из разнородных источников
Page 41: Очистка и интеграция открытых данных из разнородных источников
Page 42: Очистка и интеграция открытых данных из разнородных источников
Page 43: Очистка и интеграция открытых данных из разнородных источников
Page 44: Очистка и интеграция открытых данных из разнородных источников
Page 45: Очистка и интеграция открытых данных из разнородных источников
Page 46: Очистка и интеграция открытых данных из разнородных источников
Page 47: Очистка и интеграция открытых данных из разнородных источников
Page 48: Очистка и интеграция открытых данных из разнородных источников
Page 49: Очистка и интеграция открытых данных из разнородных источников
Page 50: Очистка и интеграция открытых данных из разнородных источников
Page 51: Очистка и интеграция открытых данных из разнородных источников
Page 52: Очистка и интеграция открытых данных из разнородных источников
Page 53: Очистка и интеграция открытых данных из разнородных источников
Page 54: Очистка и интеграция открытых данных из разнородных источников
Page 55: Очистка и интеграция открытых данных из разнородных источников
Page 56: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer

56/69

• Обработка “длинного хвоста”

• Использование машинного обучение и статистики

• Краудсорсинг для случаев, в которых вероятность корректной

обработки невысока

Page 57: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

57/69

• Загрузка данных в хранилище:

– csv – набор записей вида атрибут-значение

– Хранение в Postgres

• Schema Integration

• Crowd Sourcing

• Deduplication

• Visualization

Page 58: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

58/69

• Загрузка данных в хранилище

• Schema Integration:

– предопределенная глобальная схема может отсутствовать

– использование шаблонов и внешних источников

– текстовый анализ названий

– статистика и машинное обучение

• Crowd Sourcing

• Deduplication

• Visualization

Page 59: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

59/69

• Загрузка данных в хранилище

• Schema Integration

• Crowd Sourcing:

– Использует иерархию экспертов

– Можно добавить специализацию

– Предложено ранжирование компетентности

• Deduplication

• Visualization

Page 60: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – этапы работы

60/69

• Загрузка данных в хранилище

• Schema Integration

• Crowd Sourcing

• Deduplication

– Исследуются связи сущности с атрибутами во всем хранилище

– Решается на основе кластеризации сущностей

• Visualization

Page 61: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

61/69

Page 62: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

62/69

Page 63: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

63/69

Page 64: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы DataTamer – Schema Integration

64/69

Page 65: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

65/69

Page 66: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

66/69

Page 67: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Нетрадиционные ETL-

процессы Кластеризация сущностей

67/69

Page 68: Очистка и интеграция открытых данных из разнородных источников

ФГУП "НИИ "Квант"

Заключение Итоги

68/69

• Практически в любой отрасли существует потребность в

интеграция большего количества источников – лучшие

аналитические выводы. Компании, освоившие технологии

интеграции имеют большее конкурентное преимущество

• Очистка данных играет значительную роль во всех отраслях

связанных с анализом данных. Качество данных и их

непротиворечивость неоднократно озвучивались как критерии

успешности раскрытия ОД.

• Активно развиваются как personal-, так и enterprise- решения по

автоматизации очистки и интеграции

Page 69: Очистка и интеграция открытых данных из разнородных источников

Спасибо за внимание

Карпов Илья

[email protected]