когда тексты не только слова

Preview:

Citation preview

Алексей ТокарьРуководитель группы разработки в направлении медиасервисов

Когда тексты – не только слова

2

Типы повседневных задач

Алгоритмические

ТехнологическиеИнфраструктурные

3

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

4

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

Задача:• разметить каждый фильм в среднем десятью

тегами

5

Постановка задачи

Дано:• 1.000.000 фильмов• 250 тегов

Задача:• разметить каждый фильм в среднем десятью

тегами

Проблема:• вручную это займет год ежедневной работы

Классификация

7

Популярные способы классификации

• нейронные сети

8

Популярные способы классификации

• нейронные сети• генетические алгоритмы

9

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений

10

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор

11

Популярные способы классификации

• нейронные сети• генетические алгоритмы• деревья принятия решений• наивный байесовский классификатор

• кластеризация

12

Почему байесовский классификатор

• Элементарен, чтобы оценить нашу модель• Удобен, так как не требует эвристик в виде

черных списков• Эффективен при достаточной обученности• Отлично подходит для текстовых данных

13

Наивный байесовский классификатор

Pr(T|W) — вероятность, что тег характеризует сообщение, при условии, что оно содержит это слово

Pr(W|T) — вероятность появления слова в сообщениях, отмеченных этим тегом

Pr(W|~T) — вероятность появления слова в сообщениях, если они к этому тегу не относятся

14

От сайта к индексу

Crawler

Splitter Lemmer

INDEX

15

Наиболее значащие слова

мультик

Смотреть с детьмидетямбелкадочьпираты

Злодеизлодейхулиганыорангутангёж

Животныеживотныебелкаобезьяна

16

Предложенные роботом:• животные• дружба• смотреть с детьми• цирк• злодеи• проклятия• разные страны

Не предложены:• пираты• Земля• природные катаклизмы

Ледниковый период 4

Предложенные роботом:• наши дни• романтика• расследования• любовь• Франция• смотреть с девушкой

Не предложены:• криминал• флирт

Девушка из Монако

19

Результаты

• Полнота прогнозирования – робот пропускает 2-3 тега, предложенных редакцией

• Точность классификации– робот ошибается на 1-2 тега

• Время работы всего несколько часов

20

Что можно сделать в будущем

• Исключение редких слов• Удаление предлогов и местоимений• Отсечение слов, составляющих шум• Распараллеливание

Алексей Токарь

Руководитель группы разработки в направлении медиасервисов

azazeltap@yandex-team.ru

Спасибо :)

Recommended