12
Определение спам- изображений на основе перцептивных хешей Фефелов Алексей Андреевич, 545 группа Научный руководитель: к.ф.-м.н. , Д.Ю. Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов

Определение спам-изображений на основе перцептивных хешей

  • Upload
    trish

  • View
    92

  • Download
    11

Embed Size (px)

DESCRIPTION

Определение спам-изображений на основе перцептивных хешей. Фефелов Алексей Андреевич, 545 группа Научный руководитель : к.ф.-м.н. , Д . Ю . Бугайченко Рецензент: к.ф.-м.н. А.Т. Вахитов. Введение. Фильтрация спама Социальные сети, сайты знакомств, блоги Электронная почта Мессенджеры - PowerPoint PPT Presentation

Citation preview

Page 1: Определение спам-изображений на основе перцептивных хешей

Определение спам-изображений на основе перцептивных хешей

Фефелов Алексей Андреевич, 545 группа

Научный руководитель: к.ф.-м.н. , Д.Ю. Бугайченко

Рецензент: к.ф.-м.н. А.Т. Вахитов

Page 2: Определение спам-изображений на основе перцептивных хешей

ВведениеФильтрация спамаo Социальные сети, сайты знакомств,

блогиo Электронная почтаo Мессенджеры

Способы борьбы со спамомo Пользовательская модерацияo Статистические фильтры

Спам-изображенияo Содержат похожие, но не идентичные

фрагментыПроблема: спамеры постоянно создают

новые подложки и искажают фрагменты

Page 3: Определение спам-изображений на основе перцептивных хешей

Возможные решенияНейронные сетиo Необходимость обучения

Алгоритмы на базе детекции особенностей (SURF, SIFT и другие)o Необходимость разрешения для

использования в коммерческих целях/отсутствие зрелых библиотек

o Низкая производительностьИспользование перцептивных хешейo Можно сравнивать между собойo При вычислении применяются процессы,

имитирующие различные аспекты восприятия информации человеком

o Один из наиболее общих способов решения

Page 4: Определение спам-изображений на основе перцептивных хешей

Постановка задачиИзучить различные существующие

подходы для вычисления перцептивных хешей изображений

Реализовать несколько хеш-алгоритмов и адаптировать их для задачи поиска спам-изображений

Протестировать алгоритмы на базе данных с изображениями, проанализировать результаты их работы

Подготовить условия для введения алгоритмов в эксплуатацию

Page 5: Определение спам-изображений на основе перцептивных хешей

Используемые алгоритмыSimple Hash (128 байт)

Marr-Hildreth Operator Based Hash (64 байта)

Page 6: Определение спам-изображений на основе перцептивных хешей

Используемые алгоритмы(2)

Discrete Cosine Transform Based Hash – построение матрицы частот, избавление от высоких частот (8 байт)o Дискретное косинусное преобразование

для вектора X длины N-1: Radial Variance Based Hash –

построение вектора энергий + DCT (40 байт)

Page 7: Определение спам-изображений на основе перцептивных хешей

Схема архитектуры системы

Множество паттернов (пара спам-изображение и расположение фрагмента на нем)

Поиск подстроки, соответствующей хешу спам-фрагмента в хеше изображения

Page 8: Определение спам-изображений на основе перцептивных хешей

Характеристики работы спам-фильтраСпам-фильтр разбивает все

изображения на 3 группы: «точно спам», «возможно спам», «точно не спам» Результат проверки

изображения

На самом деле спам

На самом деле не

спам

Позитивное срабатывание(«точно спам»)

Истинно-позитивное

Ложно-позитивное

(ошибка 2 рода, FAR)

Негативное срабатывание

(«точно не спам»)

Ложно-негативное(ошибка 1 рода,FRR)

Истинно-негативное

«Возможно спам» В этой группе находится как спам, так и не спам

Page 9: Определение спам-изображений на основе перцептивных хешей

Ложные срабатывания

Рис. Ложно-позитивные(FAR) и ложно-негативные срабатывания(FRR) для алгоритма DCTBH

Page 10: Определение спам-изображений на основе перцептивных хешей

60000 изображений с музыкального сервиса социальной сети odnoklassniki.ru, из которых 700 – спам, 3 типа спама

SH DCT RV MH0%

10%

20%

30%

40%

50%

60%

70%

80%

90%Истинно-позитивное срабатываниеНеопределенное срабатывание (возможно спам)Ложно-позитивное срабатываниеЛожно-негативное срабатывание

Сравнение результатов

Page 11: Определение спам-изображений на основе перцептивных хешей

Сравнение скоростей

SH DCT RV MH SH(sub

)

MH(sub

)

0

100

200

300

400

500

600

Среднее время сравнения 100

хешей (мс.)

SH DCT RV MH0

20406080

100120140160

Среднее время обработки 1

изображения(мс.)

Intel Core i5-2430M CPU (2,40 GHz)

Page 12: Определение спам-изображений на основе перцептивных хешей

РезультатыБыли изучены различные существующие

подходы для вычисления перцептивных хешей изображений

4 перцептивных хеш-алгоритма адаптировано для задачи поиска спам-изображений

Алгоритмы протестированы на реальных данных, проанализированы результаты их работы

Создано API для введения алгоритмов в эксплуатацию, компания «Одноклассники» рассматривает возможность внедрения полученных результатов для фильтрации спама