Поиск неестественных текстов

Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский

Яндекс, Лаборатория комбинаторных и вероятностных методов

RCDL’2009

Постановка задачи

Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.

Машинная модификация

документа

• текст является результатом работы синонимайзера или иной системы уникализации контента;

• текст является результатом перевода с иностранного языка на русский.

Пример работы синонимайзера

Однако потом пришла перестройка, а за ней – капитализм.

Однако далее пришла переделывание, а после ней – господин купон.

превращается в

Фраза

Функция Cor

Пусть A и B – пара слов русского языка.

P(AB) – частота пары слов AB в русском языке, P(A) и P(B) – частоты слов A и B соответственно. Рассматриваются лишь 2000 самых частых слов.

Число Cor(A,B) измеряет характерность пары AB для языка.

)ABP()B,ACor(

Распределение пар по CorЧетыре столбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами.

1> Cor ≥ 0.1 115 92 87 76

0.1> Cor ≥ 0.01 502 350 317 309

0.01> Cor ≥ 0.001 341 291 219 290

0.001> Cor ≥ 0.0001 98 148 73 159

0.0001> Cor ≥ 0.00001 12 18 19 39

0.00001> Cor ≥ 0.000001 2 3 2 6

Cor = 0 0 0 0 2

Методы решения исходной задачи

1. Сравнение с данными из заведомо хороших текстов.

2. Машинное обучение с использованием гистограммы текста по Cor в качестве источника факторов.

Сравнение с заведомо хорошими текстами

Пусть N(T) – число редких пар в T.

Для машинно сгенерированных или модифицированных текстов N(T) больше, чем для нормальных текстов примерно той же длины.

Статистика P(T)

M(T) – среднее число редких пар в 10 ближайших к T по длине текстах T0, … , T9 из выборки хороших документов;

D(T) – дисперсия, соответствующая выборке чиселN(T0), … , N(T9).

)(/))()(()( TDTMTNTP

Параметры длины

10 близких к T текстов выбираются в трехмерном пространстве параметров (L1, L2, L3) с евклидовой метрикой, где

L1 – число всех пар слов в T, L2 – число пар слов из 10000 самых частых слов русского языка, L3 – число пар слов из 2000 самых частых слов русского языка.

Результаты – 1

P(T) было вычислено для:• 41298 текстов из базы ruscorpora, • 165 неестественных текстов.

Результаты: точность – 97.7%, полнота – 41.5%.

Критерий: P(T) ≥ 3.0.

Машинное обучение

• Алгоритм: Gradient Boosting Machine (TreeNet);

• Обучающая выборка: 2000 оригинальных и 250 неестественных текстов;

• Тестовая выборка: 500 оригинальных и 245 неестественных текстов.

• точность – 99.00%• полнота – 77.95%

Результаты – 2

Сравнение с известными подходами

• Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly “Detecting spam web pages through content analysis”

Совместные результаты

При ошибке в 1% ловится около четверти оставшегося спама

Спасибо!

Поиск неестественных текстов

Documents

Методы оценки качества текстов

РИА Новости - рекомендации по оформлению текстов

поиск клиентов

поиск 2015

Поиск объектов

Поиск продукта

Применение алгоритма BIRCH к кластеризации текстов

29 секретов продающих текстов

написание текстов

Чтение текстов интоннационно правильно

Positive Hack Days. Олексюк. Автоматический поиск уязвимостей в программах без исходных текстов

синтаксический анализ музыкальных текстов голубева

правила оформления текстов

Стратегия самопродвижения: написание текстов

Рекомендации по оформлению текстов

Аналитико-синтетическая переработка научных текстов

поиск - 2015

Информационный поиск, осень 2016: Федеративный поиск

Автоматический поиск уязвимостей в программах без исходных текстов

Правила оформления текстов