21
Оценка качества текста Алексей Чекушин just-magic.org Ostrovok.ru

Методы оценки качества текстов

Embed Size (px)

Citation preview

Page 1: Методы оценки качества текстов

Оценка качества текста

Алексей Чекушинjust-magic.org

Ostrovok.ru

Page 2: Методы оценки качества текстов

Что такое качество текста?

Хороший текст: пользователи читают.

Плохой текст: пользователи не читают.

Метрики: доля прочитавших, длина сессии к длине текста.

Page 3: Методы оценки качества текстов

Но не всё так просто

Page 4: Методы оценки качества текстов

No user data

Почему текст может быть плохим?

• Нерелевантен.

• Тяжело читаем.

• Скучный.

Page 5: Методы оценки качества текстов

Как роботу оценить текст?• Релевантность• По ключевым словам• Без ключевых слов

• Readability• Индекс читаемости• Ритмичность

• Не спам

Page 6: Методы оценки качества текстов

Релевантность по ключевикам• Вхождения слов запроса

• Межсловные расстояния

• Вхождения пар слов

• Расстояние левенштейна

• Точные/Лексеммы/Синсеты

Page 7: Методы оценки качества текстов

Релевантность без ключевых слов

• Векторное представление

• Метод близости векторов

• Сжатие размерности

Page 8: Методы оценки качества текстов

Визуализация представления

(с) модуль «Акварель» из just-magic.org, по запросу SEO-текст

Page 9: Методы оценки качества текстов

Readability

НасколькотяжелочитатьТекст?

Page 10: Методы оценки качества текстов

Сложность восприятия текста

• Чем больше букв – тем сложнее слово

• Чем больше слогов – тем сложнее слово

• Чем длиннее предложения – тем сложнее текст

• Чем больше сложных слов – тем более сложен текст

Page 11: Методы оценки качества текстов

Метрики

• Средняя длина предложения в словах

• Доля длинных предложений

• Средняя длина слова в слогах

• Доля сложных слов (с большим числом слогов).

Page 12: Методы оценки качества текстов

Пример метрикиGunning fog index:

𝐹𝑜𝑔𝑖𝑛𝑑𝑒𝑥=0,4 [( 𝑤𝑜𝑟𝑑𝑠𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 )+100 (𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑤𝑜𝑟𝑑𝑠

𝑤𝑜𝑟𝑑𝑠 )]Complex words – слова из 3 и более слогами.

Page 13: Методы оценки качества текстов

Disclaimer

• Ctrl+c – ctrl+v формул с английского в русский невозможен.

• В русском языке длинее слова, но короче предложения.

• Необходимо перевзвешивать коэффициенты.

Page 14: Методы оценки качества текстов

Ритм текстаТекст должен постоянно держать читателя в тонусе. Вызывать образы. Ощущения. Вести читающего по авторской линии и делать неожиданные повороты. Захватывать его внимание.

С другой стороны, если использовать длинные сложноподчиненные предложения, деепричастные обороты и высокую долю слов с большим числом слогов, вероятно, читатель к концу предложения забудет с чего оно начиналось.

Page 15: Методы оценки качества текстов

Ритм текста – метрики?Чередование предложений разной длины

Короткие: до 4 слов

Средние: 5-7 слов

Длинные: 7-10 слов

Совсем длинные предложения резко снижают читаемость текста.

Page 16: Методы оценки качества текстов

Спам или не спам?

Хочешь, чтобы тебя оценили – будь Спамные тексты. Сегодня, когда во всем цивилизованном мире нелегальное распространение спамные тексты преследуется чуть ли не серьезнее, чем торговля наркотиками, по-настоящему удивительно слышать слова благодарности пиратам от... Спамные тексты. Любая подобная беседа должна начинаться с маркетинговых исследований. Помимо всего прочего, необходимо определить характеристики выбранного сегмента, в данном случае, Спамные тексты. Спамные тексты.

Page 17: Методы оценки качества текстов

Примеры спам-метрик- Доля/дисперсия по частям речи

- Доля/дисперсия по длине слов (+части речи)

- Доля/дисперсия по длинам предложений

- Ципф по частям речи

- Сжимаемость текста

- LDA-based: topic diversity,

Page 18: Методы оценки качества текстов

Что важно понимать

• Все метрики обладают плохой точностью и/или полнотой

• There is no silver bullet

• Оценка спам/не спам – результат ML

Page 19: Методы оценки качества текстов

Что это значит?

Нужно подгонять по ципфу..

Тошнотность большая..

Дисперсию длин предложений подтянуть..

Page 20: Методы оценки качества текстов

Fin

Ваши вопросы?

[email protected]@ostrovok.ru

Page 21: Методы оценки качества текстов

Баден-баден

Что мы про него знаем?

• Это документная санкция

• Действует не на все запросы документа

• Встроена в алгоритм ранжирования