13
Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection Руководитель: Никифоров И.В. Носов Павел

Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Embed Size (px)

Citation preview

Page 1: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Реализация модуля анализа данных для системы

обнаружения аномалий Fraud Detection

Руководитель: Никифоров И.В.

Носов Павел

Page 2: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Постановка задачи

Реализовать систему, которая будет в реальном времени обнаруживать аномалии во входных

данных, используя существующую базу данных с нормальными данными.

/132

Page 3: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Общая схема системы

/133

Page 4: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Модуль анализа и обнаружения

•Модуль ответственен за принятие решения, является ли входные данные «некорректными» или «опасными»

•Модуль использует различные методы анализа в зависимости от типа данных и заданного в XML-конфигурации метода

1. Идентификация выбросов Квантильное расстояние (метод Тьюки)

2. Машинное обучение без учителяКластеризация методом k-средних (K-means)

3. Машинное обучение с учителемДерево принятия решений «Случайный лес»

4. Анализ текстовой информации и предложенийWord2Vec

/134

Page 5: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Анализ текстовой информации

«Кредитный рейтинг России в 2016 году достигнет рекордных

величин.» ↓

кредитный рейтинг россия год достигнуть рекордный величина

↓ -0.0066080847560257283, 0.010837619735063836, 0.04598165733661902,

0.12848637329983295, … ↓

MWU-Different: u=1360.0 p=0.675903 OK!

/135

noFRAUD

!

! Модель задаётся в конфигурации

Page 6: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Пример 1Входное предложение:

«У людей, страдающих гипертонией, давление может резко и сильно вырасти до критических значений, угрожающих здоровью.»

p-value = 0.454577

Текст: О влиянии кофе на артериальное давление

/136

Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.

Зелёная - распределение значений соответствия предложений текста друг другу.

Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного

предложения предложениям из текста.

Page 7: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

p-value = 0.000000

Пример 2Входное предложение:

«Кредитный рейтинг России в 2016 году достигнет рекордных величин.»

Текст: О влиянии кофе на артериальное давление

Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.

Зелёная - распределение значений соответствия предложений текста друг другу.

Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного

предложения предложениям из текста.

/137

Page 8: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

p-value = 0.675903

Пример 3Входное предложение:

«Кредитный рейтинг России в 2016 году достигнет рекордных величин.»

Текст: О росте объемов добычи нефти в 2016 году

/138

Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.

Зелёная - распределение значений соответствия предложений текста друг другу.

Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного

предложения предложениям из текста.

Page 9: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

p-value = 0.000104

Пример 4Входное предложение:

«Сборная России не примет участия в Олимпийских играх.»

Текст: О росте объемов добычи нефти в 2016 году

/139

Красная гистограмма - распределение значений соответствия входного предложения предложениям из текста.

Зелёная - распределение значений соответствия предложений текста друг другу.

Слева - диаграмма размаха, показывающая распределение значений соответствия предложений текста друг другу. Справа - распределение значений соответствия входного

предложения предложениям из текста.

Page 10: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Реализация• Система реализована на Java

• Используются Spark, Storm, производится замена Storm на Flink

• Spark MlLib - методы машинного обучения

• Deeplearning4j - реализация Word2Vec для Java

• Java Statistical Classes

• jmorphy2/1310

Page 11: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Возникшие проблемы

• Word2Vec для Java

• Распределение вычислений в Spark

• Английский язык

/1311

Page 12: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Результаты

• Реализован работающий прототип системы

• Использование модуля анализа текста для анализа e-mail (https://github.com/nosov-pvl/jsentencedetection)

• Опыт работы в команде

/1312

Page 13: Реализация модуля анализа данных для системы обнаружения аномалий Fraud Detection. Презентация участников

Планы

• Заменить Storm на Flink

• Продолжить работу над проектом использования модуля анализа текста для анализа писем.

/1313