18
Николай Хиврин, CEO ALTWeb Group Новые технологии в поисковом ранжировании

Новые технологии в поисковом ранжировании

Embed Size (px)

Citation preview

Николай Хиврин, CEO ALTWeb Group

Новые технологии в поисковом ранжировании

К чему все привыкли?

- Число вхождений- Переспам- TF- IDF- TF*IDF

Так ли это актуально сейчас?

Deep learning

- набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций

Применение

- распознавание изображений- распознавание смысла текста- определение коммерческих факторов- расширение запроса- подсказкии т.д.

Векторные представления слов (word embeddings)

W: words -> Rn

W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)W(“окна”) = (0.0,0.1,0.5,0.1,…)Обычно, функция определяется матрицей

Функция корректности N-грамм

Новые подходы к проверке орфографии

- обучение на текстах с высоким уровнем доверия- автоматическая подстройка алгоритма

Word2vec

- вычисление расстояний между словами

https://code.google.com/archive/p/word2vec/

Word2vec

Word2vec

GBRT (Gradient Boosted Regression Trees)

DSSM (Deep Structured Semantic Models)

DSSM, developed by the MSR Deep Learning Technology Center(DLTC), is a deep neural network (DNN) modeling technique for representing text strings (sentences, queries, predicates, entity mentions, etc.) in a continuous semantic space and modeling semantic similarity between two text strings (e.g., Sent2Vec)

RNN (Recurrent neural network)

Вид нейронных сетей, в которых имеется обратная связь. При этом под обратной связью подразумевается связь от логически более удалённого элемента к менее удалённому. Наличие обратных связей позволяет запоминать и воспроизводить целые последовательности реакций на один стимул

Векторное представление документов

Векторная модель (vector space model) представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.

Дистрибутивная семантика

- область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных- каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство

Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов tea и coffee, в котором контекстом выступает соседнее слово