Upload
alexey-chekushin
View
1.078
Download
3
Embed Size (px)
Citation preview
Оценка качества текста
Алексей Чекушинjust-magic.org
Ostrovok.ru
Что такое качество текста?
Хороший текст: пользователи читают.
Плохой текст: пользователи не читают.
Метрики: доля прочитавших, длина сессии к длине текста.
Но не всё так просто
No user data
Почему текст может быть плохим?
• Нерелевантен.
• Тяжело читаем.
• Скучный.
Как роботу оценить текст?• Релевантность• По ключевым словам• Без ключевых слов
• Readability• Индекс читаемости• Ритмичность
• Не спам
Релевантность по ключевикам• Вхождения слов запроса
• Межсловные расстояния
• Вхождения пар слов
• Расстояние левенштейна
• Точные/Лексеммы/Синсеты
Релевантность без ключевых слов
• Векторное представление
• Метод близости векторов
• Сжатие размерности
Визуализация представления
(с) модуль «Акварель» из just-magic.org, по запросу SEO-текст
Readability
НасколькотяжелочитатьТекст?
Сложность восприятия текста
• Чем больше букв – тем сложнее слово
• Чем больше слогов – тем сложнее слово
• Чем длиннее предложения – тем сложнее текст
• Чем больше сложных слов – тем более сложен текст
Метрики
• Средняя длина предложения в словах
• Доля длинных предложений
• Средняя длина слова в слогах
• Доля сложных слов (с большим числом слогов).
Пример метрикиGunning fog index:
𝐹𝑜𝑔𝑖𝑛𝑑𝑒𝑥=0,4 [( 𝑤𝑜𝑟𝑑𝑠𝑠𝑒𝑛𝑡𝑒𝑛𝑐𝑒𝑠 )+100 (𝑐𝑜𝑚𝑝𝑙𝑒𝑥𝑤𝑜𝑟𝑑𝑠
𝑤𝑜𝑟𝑑𝑠 )]Complex words – слова из 3 и более слогами.
Disclaimer
• Ctrl+c – ctrl+v формул с английского в русский невозможен.
• В русском языке длинее слова, но короче предложения.
• Необходимо перевзвешивать коэффициенты.
Ритм текстаТекст должен постоянно держать читателя в тонусе. Вызывать образы. Ощущения. Вести читающего по авторской линии и делать неожиданные повороты. Захватывать его внимание.
С другой стороны, если использовать длинные сложноподчиненные предложения, деепричастные обороты и высокую долю слов с большим числом слогов, вероятно, читатель к концу предложения забудет с чего оно начиналось.
Ритм текста – метрики?Чередование предложений разной длины
Короткие: до 4 слов
Средние: 5-7 слов
Длинные: 7-10 слов
Совсем длинные предложения резко снижают читаемость текста.
Спам или не спам?
Хочешь, чтобы тебя оценили – будь Спамные тексты. Сегодня, когда во всем цивилизованном мире нелегальное распространение спамные тексты преследуется чуть ли не серьезнее, чем торговля наркотиками, по-настоящему удивительно слышать слова благодарности пиратам от... Спамные тексты. Любая подобная беседа должна начинаться с маркетинговых исследований. Помимо всего прочего, необходимо определить характеристики выбранного сегмента, в данном случае, Спамные тексты. Спамные тексты.
Примеры спам-метрик- Доля/дисперсия по частям речи
- Доля/дисперсия по длине слов (+части речи)
- Доля/дисперсия по длинам предложений
- Ципф по частям речи
- Сжимаемость текста
- LDA-based: topic diversity,
Что важно понимать
• Все метрики обладают плохой точностью и/или полнотой
• There is no silver bullet
• Оценка спам/не спам – результат ML
Что это значит?
Нужно подгонять по ципфу..
Тошнотность большая..
Дисперсию длин предложений подтянуть..
Баден-баден
Что мы про него знаем?
• Это документная санкция
• Действует не на все запросы документа
• Встроена в алгоритм ранжирования