Upload
stanislav-stavsky
View
355
Download
1
Embed Size (px)
Citation preview
Тренды в информационном поиске
Станислав Ставский
Современный поисковик
Робот (web crawler)
Проблематика
За год в вебе:• меняется 80% ссылок• и 50% контента
•20% страниц исчезают навсегда*
* Lew, D., Wahlig, H., Meyer-bautor, G. (2006). The freshness of web search engines databases
Робот (web crawler)
Важная задача - расставить приоритетыЗачем индексировать то что никогда не покажется в выдаче?Вводим ограничения
Смотрим на:
•Ссылки на документ•Уровень вложенности документа•Антиспам фильтры•Посещаемость
Робот (web crawler)
Focused Crawling*
Примеры самостоятельных краулеров:
•Быстроробот•Зеркальщик•ППБ
Фичи для краулинга по контенту (топикам):
•Соответствие тематике (рубрике) по контенту, ссылкам, урлу•Navigational Rank (NR)•Dynamic Personalized Page Rank DPPR
*A Survey of Focused Web Crawling Approaches (Sameendra Samarawickrama, Lakshman Jayaratne)
SERP
Направление развития
• Микроформаты• Обогащение выдачи вертикалями (колдунщики)• Вспомогательные элементы в интерфейсе
SERP
Новые вертикали
• Мобильные приложения
SERP
Новые вертикали
• Коммерческие колдунщики
SERP
Новые элементы интерфейса серпа
• Интентные подсказки
SERP
Новые элементы интерфейса серпа
• Ответы в подсказках
Антиспам
К чему пришли
•Махрового спама в выдаче мало (бредотекст, редиректы)•Объединение текста ссылки, текста страницы, текста в урле•Накрутку поведенческих срезают, но дополнительно не наказывают•Если спам попадает в сниппет – результат уходит из выдачи сам
Fighting against Web Spam: A Novel Propagation Method based on Click-through Data
Ранжирование
Новые коммерческие факторы в Ядексе!!•Классификатор коммерческости запроса
•Специальные асессоры
•Специальные факторы
Ранжирование
1) Адекватное представление о цене
•Хорошо заметная ссылка на страницу с ценами (идеально в сайтлинках)
•Собственно цены на странице с ценами, легко считываемые роботом и в удобном для восприятия пользователя виде
Ранжирование
2) Контактная информация
•Компания имеет физический адрес, есть схема проезда (идеально через API Google или Yandex карт)
•Читабельный номер телефона и адрес на всех страницах сайта
Ранжирование
3) Форма заказа
•Забота о персональных данных (отправка через https)
•Нет большого количества полей, которые вводят в заблуждение
•Конверсия зашел/отправил
Ранжирование
4) Качественная витрина
•Хорошие картинки: размер, качество, alt=
•На длинных листингах динамическая подгрузка картинок на слабых каналах
Ранжирование
5) Бонус крупным сайтам (брендам)
•Покрытие местности (количество адресов на яндекс адресах)
•Бренд трафик
•Typein, no_search трафик
Ранжирование
6) Скорость загрузки сайта
•Есть кейсы: перенесли на быстрый хостинг – выросла видимость.
Ранжирование
7) Микроформаты
•Забота о пользователе•Забота о поисковой системе
Ранжирование
СПАСИБО