21
Алексей Токарь Руководитель группы разработки в направлении медиасервисов Когда тексты – не только слова

когда тексты не только слова

Embed Size (px)

Citation preview

Page 1: когда тексты не только слова

Алексей ТокарьРуководитель группы разработки в направлении медиасервисов

Когда тексты – не только слова

Page 2: когда тексты не только слова

2

Типы повседневных задач

Алгоритмические

ТехнологическиеИнфраструктурные

Page 3: когда тексты не только слова

3

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

Page 4: когда тексты не только слова

4

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

Задача:• разметить каждый фильм в среднем десятью

тегами

Page 5: когда тексты не только слова

5

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

Задача:• разметить каждый фильм в среднем десятью

тегами

Проблема:• вручную это займет год ежедневной работы

Page 6: когда тексты не только слова

Классификация

Page 7: когда тексты не только слова

7

Популярные способы классификации

• нейронные сети

Page 8: когда тексты не только слова

8

Популярные способы классификации

• нейронные сети• генетические алгоритмы

Page 9: когда тексты не только слова

9

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений

Page 10: когда тексты не только слова

10

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор

Page 11: когда тексты не только слова

11

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор

• кластеризация

Page 12: когда тексты не только слова

12

Почему байесовский классификатор

• Элементарен, чтобы оценить нашу модель• Удобен, так как не требует эвристик в виде

черных списков• Эффективен при достаточной обученности• Отлично подходит для текстовых данных

Page 13: когда тексты не только слова

13

Наивный байесовский классификатор

Pr(T|W) — вероятность, что тег характеризует сообщение, при условии, что оно содержит это слово

Pr(W|T) — вероятность появления слова в сообщениях, отмеченных этим тегом

Pr(W|~T) — вероятность появления слова в сообщениях, если они к этому тегу не относятся

Page 14: когда тексты не только слова

14

От сайта к индексу

Crawler

Splitter Lemmer

INDEX

Page 15: когда тексты не только слова

15

Наиболее значащие слова

мультик

Смотреть с детьмидетямбелкадочьпираты

Злодеизлодейхулиганыорангутангёж

Животныеживотныебелкаобезьяна

Page 16: когда тексты не только слова

16

Page 17: когда тексты не только слова

Предложенные роботом:• животные• дружба• смотреть с детьми• цирк• злодеи• проклятия• разные страны

Не предложены:• пираты• Земля• природные катаклизмы

Ледниковый период 4

Page 18: когда тексты не только слова

Предложенные роботом:• наши дни• романтика• расследования• любовь• Франция• смотреть с девушкой

Не предложены:• криминал• флирт

Девушка из Монако

Page 19: когда тексты не только слова

19

Результаты

• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией

• Точность классификации– робот ошибается на 1-2 тега

• Время работы всего несколько часов

Page 20: когда тексты не только слова

20

Что можно сделать в будущем

• Исключение редких слов• Удаление предлогов и местоимений• Отсечение слов, составляющих шум• Распараллеливание

Page 21: когда тексты не только слова

Алексей Токарь

Руководитель группы разработки в направлении медиасервисов

[email protected]

Спасибо :)