Upload
-
View
1.049
Download
1
Embed Size (px)
Citation preview
Сбор связанных фраз для текстов под ключевую
фразу на странице
Дмитрий Шахов Директор ГК РЕМАРКА
Докладчик на конференциях • AllInTop (Москва, 2012, 2014гг.),• SeoConference (Казань, 2014г.),
• Кинза (Москва, 2014г.), • РИФ-Воронеж (2014г.), • MAD (Санкт-Петербург, 2014г.).
Организатор конференции • BalticDigitalDays (2013, 2014гг.)
www.remarka.info www.seohowto.ru/ny2015/ www.seokaliningrad.ru
Базовые правила к тексту
• Ключ в заголовке статьи
• Вхождение ключа в первом предложении
• Точное вхождение ключа в текст
• Частичное вхождение ключа в текст
• Вхождение синонимов к ключу в текст
• Вхождение топонимов (названий региона, города, местности)
Связанные фразы
• Фотоаппарат -> Объектив, Кофр
• Генератор -> Мощность, Амперы
• Салон красоты -> Ногти, Волосы, SPA
И т.д.
Логика: поиск частоупотребительных фраз, входящих в тексты сайтов в топ10
Методика сбора связанных фраз
1. Собираем URL сайтов топ-10 по ключу
2. Выявляем релевантную страницу
3. Парсим текст
4. Лемматизируем слова в тексте
5. Группируем
6. И…
Парсим текст
• Копируем текст
• Заменяем знаки препинания на пробел
• Заменяем пробел на спуск строки
• Приводим к единому регистру
• Сохраняем в файле
Лемматизируем
• Сохраняем фразы в in.txt
• Запускаем mystem
• Открываем out.txt в Excel
• Выполняем группировку
• Откидываем слова до 3 букв
• Получаем коллекцию слов
Считать IDF?
ЧислоДок(Запрос) + ЧислоДок(Слово)
IDF = -------------------------------------------------
ЧислоДок(Запрос + Слово)
Да ну, нафиг!
• Тратим вместо кучи капч всего одну на парсинг выдачи по запросу
• Парсим тексты с других сайтов в топ10
• Получаем 10 коллекций слов
• Считаем совпадения
• Выбираем интересное для нас
Что дальше?
• Биграммы и триграммы
• Вычитание связанных фраз из текста копирайтера на предмет проверки на водность
• Для ленивых программистов: парсим сниппет, а не текст
Дмитрий Шахов
www.remarka.infobablorub.blogspot.ruSkype: remarka.reklamaE-mail: [email protected]://www.facebook.com/bablorub