Upload
cs-center
View
28
Download
4
Embed Size (px)
Citation preview
Реализация модуля анализа данных для системы
обнаружения аномалий Fraud Detection
Руководитель: Никифоров И.В.
Носов Павел
Постановка задачи
Реализовать систему, которая будет в реальном времени обнаруживать аномалии во входных
данных, используя существующую базу данных с нормальными данными.
/132
Общая схема системы
/133
Модуль анализа и обнаружения
•Модуль ответственен за принятие решения, является ли входные данные «некорректными» или «опасными»
•Модуль использует различные методы анализа в зависимости от типа данных и заданного в XML-конфигурации метода
1. Идентификация выбросов Квантильное расстояние (метод Тьюки)
2. Машинное обучение без учителяКластеризация методом k-средних (K-means)
3. Машинное обучение с учителемДерево принятия решений «Случайный лес»
4. Анализ текстовой информации и предложенийWord2Vec
/134
Анализ текстовой информации
«Кредитный рейтинг России в 2016 году достигнет рекордных
величин.» ↓
кредитный рейтинг россия год достигнуть рекордный величина
↓ -0.0066080847560257283, 0.010837619735063836, 0.04598165733661902,
0.12848637329983295, … ↓
MWU-Different: u=1360.0 p=0.675903 OK!
/135
noFRAUD
!
! Модель задаётся в конфигурации
Пример 1Входное предложение:
«У людей, страдающих гипертонией, давление может резко и сильно вырасти до критических значений, угрожающих здоровью.»
p-value = 0.454577
Текст: О влиянии кофе на артериальное давление
/136
Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.
Зелёная - распределение значений соответствия предложений текста друг другу.
Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного
предложения предложениям из текста.
p-value = 0.000000
Пример 2Входное предложение:
«Кредитный рейтинг России в 2016 году достигнет рекордных величин.»
Текст: О влиянии кофе на артериальное давление
Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.
Зелёная - распределение значений соответствия предложений текста друг другу.
Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного
предложения предложениям из текста.
/137
p-value = 0.675903
Пример 3Входное предложение:
«Кредитный рейтинг России в 2016 году достигнет рекордных величин.»
Текст: О росте объемов добычи нефти в 2016 году
/138
Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.
Зелёная - распределение значений соответствия предложений текста друг другу.
Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного
предложения предложениям из текста.
p-value = 0.000104
Пример 4Входное предложение:
«Сборная России не примет участия в Олимпийских играх.»
Текст: О росте объемов добычи нефти в 2016 году
/139
Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.
Зелёная - распределение значений соответствия предложений текста друг другу.
Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного
предложения предложениям из текста.
Реализация• Система реализована на Java
• Используются Spark, Storm, производится замена Storm на Flink
• Spark MlLib - методы машинного обучения
• Deeplearning4j - реализация Word2Vec для Java
• Java Statistical Classes
• jmorphy2/1310
Возникшие проблемы
• Word2Vec для Java
• Распределение вычислений в Spark
• Английский язык
/1311
Результаты
• Реализован работающий прототип системы
• Использование модуля анализа текста для анализа e-mail (https://github.com/nosov-pvl/jsentencedetection)
• Опыт работы в команде
/1312
Планы
• Заменить Storm на Flink
• Продолжить работу над проектом использования модуля анализа текста для анализа писем.
/1313