20
Тематическое Моделирование 2016 Что умеет машина, распознающая «смысл» текста I Как мы ищем смысл II Как хотим ее искать III Реализация [email protected] Виктор Сафронов, EDHACK, 10 сентября 2016

Виктор Сафронов "Тематическое моделирование" - EdHack

Embed Size (px)

Citation preview

Page 1: Виктор Сафронов "Тематическое моделирование" - EdHack

Тематическое

Моделирование 2016

Что умеет машина, распознающая «смысл» текста

I Как мы ищем смысл

II Как хотим ее искать

III Реализация [email protected]

Виктор Сафронов, EDHACK, 10 сентября 2016

Page 2: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling I Как мы ищем

02Как стыковать?

В чем проблема

Как стыковать все варианты

одного и и того же

высказывания?

Как поддержать разговор

на любую тему?

Как фильтровать море информации по

теме чатботов и отслеживать нужное на автомате?

Page 3: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling I Как мы ищем

03

Детекция по словам

(entities recognition):

Поиск по словам

вводим

словарезультат

Page 4: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling II Как хотим искать

04

Детекция по теме

Поиск по теме

выделяем

маркеры

темы

результатTopic

Engine

Page 5: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling II Как хотим искать

05

Откуда берутся темы

Поиск по теме

1) из априори подходящей

коллекции текстов и диалогов

2) по накопленной базе тем с

глубокой иерархией

Page 6: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling II Как хотим искать

06

Как это работает

Как это работает

PLSA, LDA, EM-algorithm

Page 7: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

07

Кому и зачем?

What about money

Наши гипотезы:

1) Маркетинг 2) Маркетинг 3) Маркетинг

4) Answering machines (чат-боты)

5) Фарма – drug discovery

6) Ученые, Патентные ведомства

7) СМИ

8) Трейдеры

9) Техподдержка, колл-центры

Page 8: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

08

Пример: анализ СМИ

What about money

Берем 25К статей за 2 месяца (апрель-июнь) из

газет и журналов:

Page 9: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

09

Пример: анализ СМИ

What about money

Получаем вектора тем и кластеризуем,

получается интерпретируемо:кластер «Внешняя политика»

Page 10: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

10

Пример: анализ СМИ

What about money

Накладываем активность тем на временную

шкалу:

Page 11: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

11

Пример: Quid

What about money

Page 12: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

12

Пример потери

контекста при синтезе:

What about money

«Анормальный квант: основные моменты»

Интегрирование по частям поразительно. Аксиома, следовательно,

порождена временем. Жидкость оправдывает отрицательный

дедуктивный метод. Взвесь заряжает поток.

Конфликт оправдывает короткоживущий экситон. Гамма-квант,

следовательно, масштабирует неоднозначный знак. В условиях

электромагнитных помех, неизбежных при полевых измерениях, не

всегда можно опредлить, когда именно подмножество тривиально. К

тому же бозе-конденсат усиливает язык образов.

Дуализм, следовательно, мгновенно трансформирует закон

исключѐнного третьего. Вихрь возбуждает отрицательный бином ...

Page 13: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

13

ЕГЭ по чат-ботам:

What about money

A

1) Text analysis/syntesis

2) Decision Tree

3) Turing test

4) NLP, sentiment/ syntax/

distributive analysis

Page 14: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

14

ЕГЭ по чат-ботам:

What about money

B1) n-gram, word2vec, entity

recognition

2) Probabilistic latent semantic

analysis, Latent Dirichlet allocation,

Expectation maximization

3) Sparse matrix regularization

Page 15: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

15

ЕГЭ по чат-ботам:

What about money

B4) Stemming, lemmatization

5) Modality, decorrelation, term

coherense, summarizing, assessing

6) Frame, Resourse Description

Framework (RDF), semantic networkn

Framework

Page 16: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

16

ЕГЭ по чат-ботам:

What about money

C1) Long short temporal memory (LSTM),

hierarchical temporal memory (HTM)

2) Neuroplasticity

3) Variational bayesian

AutoEncode(VAE), Generational

Adversarial Network (GAN)

Page 17: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

17

ЕГЭ по чат-ботам:

What about money

D

1) Oblivious decision

trees (ODT)

2) Boosting over ODT

Page 18: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

18

Answering machine

(чат-бот):

What about money

A+B+C+D

Page 19: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling III Реализация

19

«Ядерный клуб»

Конкуренты

Google, Yandex, все уважающие себя поисковики

Академические центры (Columbia University, MIT,

UC@Berkeley, МФТИ, Tsinghua University, …)

Research Gate, Microsoft Research, Elsevier, Academia.edu

Mendeley – огромный массив научных статей,

заточенность на коллаборацию ученых.

Quid.com – сервис разведочного поиска

Page 20: Виктор Сафронов "Тематическое моделирование" - EdHack

Topic Modeling Последний слайд

20

Спасибо!

Виктор Сафронов,

кафедра «Интеллектуальные системы» МФТИ,

[email protected]

MACHINELEARNING.RU