Методы и средства очистки открытых данных из
разнородных источников
Карпов Илья
11.12.2015
Москва
ФГУП "НИИ "Квант"
Введение Очистка и интеграция данных
2/69
• Получение
• Валидация
• Трансформация
• Очистка
• Консолидация (удаление дубликатов)
• Визуализация
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Хранилища данных
3/69
• Интеграция данных из разнородных источников началась в 90–х,
когда крупными торговыми площадками разрабатывались
хранилища данных
• В среднем x2 превышение бюджета и x2 превышение сроков
• Окупаемость в течении 6 месяцев за счет более оптимальных
решений
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Традиционный подход к ETL
4/69
• Разработка единой схемы данных
• Интеграция источника данных
– Исследование
– Маппинг структур в единую схему данных
– Методы очистки и преобразования
• Масштабирование до 25 источников
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Хранилища данных
5/69
https://en.wikipedia.org/wiki/Data_integration
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Проблемы интеграции данных
6/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Проблемы интеграции данных
7/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
8/69
http://www.xmlschema.info/images/shots/map_xml_thumb.gif
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
9/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
10/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Научно-технический
задел
11/69
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Schema mapping
12/69
https://www.informatica.com/products/data-integration/powercenter.html
ФГУП "НИИ "Квант"
Традиционные ETL-
процессы Примеры
13/69
• РИНЦ
– 4-е место в списке самых цитируемых специалистов по автоматике и
вычислительной технике Светлана Петровна Тимошенко (ИППИ РАН)
– 33 публикации, которые цитируются 5289 раз.
– При этом 23 публикации на самом деле принадлежат Степану Прокофьевичу
Тимошенко эмигрировавшему в США в 1922 году.
http://trv-science.ru/2015/09/08/risc-prodolzhaet-vrat/
• Фокусированный анализ
– Linkedln 10 000 персон и 2892 организаций. В финальную сеть было
включено 510 персон и 445 организаций.
– GoogleScolar+ - было рассмотрено 490 персон. В финальную сеть было
включено 319.
– Страницы организаций (места работы, университеты) около 100.
https://dl.dropboxusercontent.com/u/68766459/FocAn.pdf
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Примеры (2)
14/69
CIT
CalTech
Cal Tech
US Senate
United States Senate
Senate of the United States of America
United States Senate Committee on
Commerce
US Senator John D. Rockefeller
Office of U.S. Senator George S. LeMieux
United States Senate - Office of Senator
Claire McCaskill
ФГУП "НИИ "Квант"
Традиционные ETL-процессы Примеры (3)
15/69
Объекты на карте
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Некоторые проекты
16/69
• Paxata
• Trifacta (commercial Data Wrangler)
• Cambridge Semantics
• Data Tamer
• ClearStory
• Attivio
• Google - Refine (OpenRefine)
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataWrangler
17/69
• Быстрая трансформация и ручная фильтрация данных
• От пользователя не требуется знаний программирования
http://vis.stanford.edu/wrangler/
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer
56/69
• Обработка “длинного хвоста”
• Использование машинного обучение и статистики
• Краудсорсинг для случаев, в которых вероятность корректной
обработки невысока
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
57/69
• Загрузка данных в хранилище:
– csv – набор записей вида атрибут-значение
– Хранение в Postgres
• Schema Integration
• Crowd Sourcing
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
58/69
• Загрузка данных в хранилище
• Schema Integration:
– предопределенная глобальная схема может отсутствовать
– использование шаблонов и внешних источников
– текстовый анализ названий
– статистика и машинное обучение
• Crowd Sourcing
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
59/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing:
– Использует иерархию экспертов
– Можно добавить специализацию
– Предложено ранжирование компетентности
• Deduplication
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – этапы работы
60/69
• Загрузка данных в хранилище
• Schema Integration
• Crowd Sourcing
• Deduplication
– Исследуются связи сущности с атрибутами во всем хранилище
– Решается на основе кластеризации сущностей
• Visualization
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – Schema Integration
61/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – Schema Integration
62/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – Schema Integration
63/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы DataTamer – Schema Integration
64/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
65/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
66/69
ФГУП "НИИ "Квант"
Нетрадиционные ETL-
процессы Кластеризация сущностей
67/69
ФГУП "НИИ "Квант"
Заключение Итоги
68/69
• Практически в любой отрасли существует потребность в
интеграция большего количества источников – лучшие
аналитические выводы. Компании, освоившие технологии
интеграции имеют большее конкурентное преимущество
• Очистка данных играет значительную роль во всех отраслях
связанных с анализом данных. Качество данных и их
непротиворечивость неоднократно озвучивались как критерии
успешности раскрытия ОД.
• Активно развиваются как personal-, так и enterprise- решения по
автоматизации очистки и интеграции