Графовый анализ для поиска ответов в разнородных...

Preview:

Citation preview

Графовый анализ для поиска ответов в разнородных

источниках информации, на базе современных

аналитических систем

“Я не думаю, что когда-либо рассуждаю при помощи слов: я использую визуальные

диаграммы, во-первых, потому что это мой естественный внутренний язык для

размышлений, и, во-вторых, потому что я убежден, что что эта система наилучшим

образом для этого подходит”(Ч.Пирс, «Исследования значения», 1909г)

Почему графы?

• Понятия в голове человека формируются согласно сетевой (графовой) структуре.

• Представление того, как события протекают во времени интуитивно представляется в виде графов.

• Наглядное представление связей объектов между собой.

• Визуальная оценка иерархической структуры данных, группировки данных, понятная человеку.

• Объединение разнородных хранилищ, независимо функционирующих и динамически обновляемых, без необходимости дублирования их данных.

Природа данных

Социальные сети

Доски объявлений

Платежные транзакции

Справочники, внутренние БД

Новостные ленты

Геопривязанныеданные

Многое другое

Объять необъятное

Развитие семантических сетей

Социальные сети

Анализ социальных сетей на примере расследования детских суицидов

Вводные данные

• id в соц сети одного пользователя

• ФИО другого пользователя

Задача

• Обнаружение общих групп суицидальной направленности

• Обнаружение администраторов этих сообществ

• Обнаружение групп, администрируемых данными администраторами

• Нахождение общих членов этих групп, находящихся под потенциальным давлением

Результаты

Возможные эвристики для социальных сетей• Обнаружение скрытых друзей

• Обнаружение администраторов сообществ

• Обнаружение профилей в других социальных сетях

• Обнаружение скрытых сообществ пользователей

• Обнаружение скрытых данных профиля пользователя – школа, университет, год рождения

• Возможности автоматизации ограничены лишь фантазией аналитика

• Эвристики придуманные кем-то одним становятся доступны всем

Доски объявлений

• Получение информации о товарах, выставленных на продажу исследуемым

• Выделение группы подозреваемых на основе продаваемых лотов

Платежные транзакции

Банковские транзакции

Анализ транзакций Qiwi• Узловые счета позволяют

идентифицировать счета злоумышленников и проследить дальнейшее движение средств

• Терминалы, используемые для пополнения наиболее часто позволяют установить места, где можно будет обнаружить исследуемых, при пополнении своих счетов

• Одинаковые IP адреса, при заходе на разные кошельки, позволяют судить о принадлежности их одному человеку/организованной группе

Справочники

ОГРН ПаспортаТелефонные

номера

Регистрация НалогиВнутренние документы

Поиск связей между юр.лицами и их владельцами

Новостные ленты

• Нахождение корреляции между сущностями на графе и событиями

• Сбор информации о лайках и репостах в соц сетях, выявление лидеров мнений

• Выделение эмоционального окраса постов

• Оценка ситуации

Геопривязанные данные

Телефонный биллинг

Дорожные камеры

БилетыГеотэги

фотографий

Анализ биллинга

Интеграция с картографией на примере системы Следопыт

Проблемы при работе с графовыми системами

• Поиск сущностей связанных с узлом (нахождение всех связанных объъектов)

• Поиск связей между узлами (кратчайший путь между двумя объектами)

• Кластеризация сущностей (нахождение объектов по общим признакам)

• Быстрота визуализации (при большом количестве узлов)

Производительность

• Адаптивная группировка узлов (по силам связей, классам узлов, временной метке)

• Выделение существенной информации (возможность динамической фильтрации узлов, схлопывание узлов при отдалении)

• Простота работы с данными (возможность интерактивного запуска задач из графа, удобство перестроения лейаутов)

Визуализация

• Адаптеры для запросов к открытым данным

• Адаптеры для запросов к внутренним справочникам и базам данных

• Адаптеры к картографическим системам для геопривязанных данных

• Автоматизация выполнения запросов к схожим источникам данных

Интеграция

Интеграция с открытыми источниками

Сбор по времени

Интеграция выделения сущностей из документов (на примере резюме)

«Приложив все свои усилия, я научился думать диаграммами, что является гораздо лучшим

методом. Я убежден, что существует метод еще лучше, способный на чудеса; но большие

затраты на аппарат не позволяют мне освоить его. Он состоит в том, чтобы мыслить

стереокинофильмами» (22 июня 1911, из письма Пирса Келеру)

Владислав Ефремов

+7 921 9707263

vladislav@baltinfocom.ru

Recommended