Методы оценки качества текстов

Preview:

Citation preview

Оценка качества текста

Алексей Чекушинjust-magic.org

Ostrovok.ru

Что такое качество текста?

Хороший текст: пользователи читают.

Плохой текст: пользователи не читают.

Метрики: доля прочитавших, длина сессии к длине текста.

Но не всё так просто

No user data

Почему текст может быть плохим?

• Нерелевантен.

• Тяжело читаем.

• Скучный.

Как роботу оценить текст?• Релевантность• По ключевым словам• Без ключевых слов

• Readability• Индекс читаемости• Ритмичность

• Не спам

Релевантность по ключевикам• Вхождения слов запроса

• Межсловные расстояния

• Вхождения пар слов

• Расстояние левенштейна

• Точные/Лексеммы/Синсеты

Релевантность без ключевых слов

• Векторное представление

• Метод близости векторов

• Сжатие размерности

Визуализация представления

(с) модуль «Акварель» из just-magic.org, по запросу SEO-текст

Readability

НасколькотяжелочитатьТекст?

Сложность восприятия текста

• Чем больше букв – тем сложнее слово

• Чем больше слогов – тем сложнее слово

• Чем длиннее предложения – тем сложнее текст

• Чем больше сложных слов – тем более сложен текст

Метрики

• Средняя длина предложения в словах

• Доля длинных предложений

• Средняя длина слова в слогах

• Доля сложных слов (с большим числом слогов).

Пример метрикиGunning fog index:

𝐹𝑜𝑔𝑖𝑛𝑑𝑒𝑥=0,4 [( 𝑤𝑜𝑟𝑑𝑠𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 )+100 (𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑤𝑜𝑟𝑑𝑠

𝑤𝑜𝑟𝑑𝑠 )]Complex words – слова из 3 и более слогами.

Disclaimer

• Ctrl+c – ctrl+v формул с английского в русский невозможен.

• В русском языке длинее слова, но короче предложения.

• Необходимо перевзвешивать коэффициенты.

Ритм текстаТекст должен постоянно держать читателя в тонусе. Вызывать образы. Ощущения. Вести читающего по авторской линии и делать неожиданные повороты. Захватывать его внимание.

С другой стороны, если использовать длинные сложноподчиненные предложения, деепричастные обороты и высокую долю слов с большим числом слогов, вероятно, читатель к концу предложения забудет с чего оно начиналось.

Ритм текста – метрики?Чередование предложений разной длины

Короткие: до 4 слов

Средние: 5-7 слов

Длинные: 7-10 слов

Совсем длинные предложения резко снижают читаемость текста.

Спам или не спам?

Хочешь, чтобы тебя оценили – будь Спамные тексты. Сегодня, когда во всем цивилизованном мире нелегальное распространение спамные тексты преследуется чуть ли не серьезнее, чем торговля наркотиками, по-настоящему удивительно слышать слова благодарности пиратам от... Спамные тексты. Любая подобная беседа должна начинаться с маркетинговых исследований. Помимо всего прочего, необходимо определить характеристики выбранного сегмента, в данном случае, Спамные тексты. Спамные тексты.

Примеры спам-метрик- Доля/дисперсия по частям речи

- Доля/дисперсия по длине слов (+части речи)

- Доля/дисперсия по длинам предложений

- Ципф по частям речи

- Сжимаемость текста

- LDA-based: topic diversity,

Что важно понимать

• Все метрики обладают плохой точностью и/или полнотой

• There is no silver bullet

• Оценка спам/не спам – результат ML

Что это значит?

Нужно подгонять по ципфу..

Тошнотность большая..

Дисперсию длин предложений подтянуть..

Fin

Ваши вопросы?

a.chekushin@just-magic.orga.chekushin@ostrovok.ru

Баден-баден

Что мы про него знаем?

• Это документная санкция

• Действует не на все запросы документа

• Встроена в алгоритм ранжирования

Recommended