34
Поддержка информационно- аналитической деятельности: сбор, анализ, обработка текстовой информации большого объема Карпов Илья [email protected]

Сбор, анализ, обработка текстовой информации

Embed Size (px)

DESCRIPTION

Презентация доклада на семинаре "Сетевые методы и модели в анализе текстовой информации" в ВШЭ

Citation preview

Page 1: Сбор, анализ, обработка текстовой информации

Поддержка информационно-

аналитической деятельности:

сбор, анализ, обработка

текстовой информации

большого объема

Карпов Илья

[email protected]

Page 2: Сбор, анализ, обработка текстовой информации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

Page 3: Сбор, анализ, обработка текстовой информации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Материалы интернет-

СМИ

•Livejournal.com

•Vkontakte.ru

Более 100 источников данных

интернет-СМИ

Page 4: Сбор, анализ, обработка текстовой информации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Морфология

•Разрешение

многозначности

•Синтаксический анализ

Производительность

1 000 000 слов/сек

Поиск собственных имен,

географических объектов

и организаций

Анализ тональности текста

Page 5: Сбор, анализ, обработка текстовой информации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Информационный поиск

•Фактологический поиск

•Классификация

•Кластеризация

Высокопроизводительные

средства классификации и

кластеризации

Page 6: Сбор, анализ, обработка текстовой информации

2/22

Функциональная схема системы

Карта

объектов

Текстовый

анализ

Аналитическая

обработка

Представление

результатовКлассы

Вектор

концептов

Сбор данных

Пользовательский

запрос

•Граф связей

•Географическая карта

•Временная шкала

Высокопроизводительные

средства классификации и

кластеризации

Page 7: Сбор, анализ, обработка текстовой информации

Сбор и хранение материалов

Page 8: Сбор, анализ, обработка текстовой информации

4/22

Структура агрегируемых источников

+

GE: 6 AR: 8 IL: 7 SE: 6

TR: 6 PL: 5 UA: 3 FR: 7

ES: 7 DE: 9 CHN: 5 IT: 9

Page 9: Сбор, анализ, обработка текстовой информации

5/22

Система хранения

Особенности хранения:

• Индексация на основе Apache lucene;

• Хранение материалов в hdfs;

Особенности сбора:

• Агрегация RSS-потоков;

• Извлечение информации на основе специальных

парсеров и статистической информации;

• Сбор информации из социальных сетей;

• Объединение профилей пользователей;

Page 10: Сбор, анализ, обработка текстовой информации

Текстовый анализ

Page 11: Сбор, анализ, обработка текстовой информации

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Page 12: Сбор, анализ, обработка текстовой информации

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Методы сегментации для

английского и китайского

языка

Page 13: Сбор, анализ, обработка текстовой информации

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Морфологический анализ

для английского языка

Page 14: Сбор, анализ, обработка текстовой информации

7/22

Общая схема текстового анализа

Сегментация предложений

Морфологический анализ

Разрешение многозначности

Машинное обучение

Морфологические словари

Онтологии

Токены в нормальной форме

Токены

Документы

Термы

Снятие многозначности и

объединение синонимов

на основе онтологий,

полученных из Semantic

Web

Page 15: Сбор, анализ, обработка текстовой информации

8/22

Пример текстового анализа

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

Page 16: Сбор, анализ, обработка текстовой информации

8/22

Пример текстового анализа

Поиск имен собственных:

Данные , отправленные в Кривой Рог , требуют уточнения ,

Кривой Рог

следовательно , . данные экперименты нужно повторить

Данные

Page 17: Сбор, анализ, обработка текстовой информации

8/22

Пример текстового анализа

Данный , отправить в Кривой Рог , требовать уточнение ,

Данные

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Многозначность после приведения к нормальной форме:

Page 18: Сбор, анализ, обработка текстовой информации

8/22

Пример текстового анализа

Данный , отправить в Кривой Рог , требовать уточнение ,

следовательно , . данный экперимент нужно повторить

Данные ДАННЫЙ прилагательное, мн.ч., им. п.

Данные ДАННЫЙ прилагательное, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., вин. п.

Данные ДАННЫЙ местоимение, мн.ч., им. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.

Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.

Снатие многозначности частичным синтаксическим анализом:

Page 19: Сбор, анализ, обработка текстовой информации

9/22

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Объект Мешок слов

Page 20: Сбор, анализ, обработка текстовой информации

9/22

Особенности применения онтологий на

основе семантической метаинформации

Терм – слово

Документ – отдельный текст: di = (ti1, ti2, … ,tim)

Матрица термы-на-документы: Mmxn = (d1T, d2

T, …, dnT)

Модель “мешка слов”:

Переход от модели мешка слов к модели концептов:

Page 21: Сбор, анализ, обработка текстовой информации

10/22

Влияние разрешения многозначности на качество

обработки текстовых коллекций

Следующее неразобранное слово

Слово содержится в таблице разрешения многозначности

Все слова в контекстном окне данного слова не многозначны или разрешены

Разрешение многозначности методом Леска

Создать новый терм

Добавить терм в вектор документа

нет

нет

Нормализация слов

Слово содержится в таблице заголовков

Да

Да

Остались неразобранные слова

нет

Да

Особенности обработки:

• отсутствие некоторых

терминов в Википедии;

• отсутствие одного или

нескольких значений слова на

странице разрешения

многозначности;

• в текстах попадаются слова,

которые употреблены в

переносном значении;

• на страницах разрешения

многозначности попадаются

энциклопедичные статьи;

Page 22: Сбор, анализ, обработка текстовой информации

11/22

Обработка языков, отличных от русского

Результат построения многоязыкового концепта для слова «Поезд»

Поезд

Train

Tren

Train

Межъязыковая

статья “Train”

Межъязыковая

категория

“Rail Transport”

Spanish French English Русский

Железнодорожный

транспорт

Chemin de fer

Transporte por

ferrocaril

Ferrocarril Rail transport

Page 23: Сбор, анализ, обработка текстовой информации

12/22

Оценка качества многоязыковой кластеризации

текстовых коллекций

Язык текстов F-мера

русский 0,89

английский 0,89

китайский 0,73

русский + английский 0,69

Особенности обработки:

• межъязыковые ссылки не релевантны или не заданы;

• похожие по смыслу статьи написаны в разных терминологических единицах;

• концептуальные пространства разных языков сильно отличаются;

Page 24: Сбор, анализ, обработка текстовой информации

Кластеризация

Page 25: Сбор, анализ, обработка текстовой информации

14/22

Кластеризация

Отбор

ключевых

терминов

Латентно-

семантический

анализ

Кластеризация

TF/IDF

SVD-разложение

BIRCH,K-means

Сокращенная

матрица документов

Матрица

документов

Термы

Кластеры

Page 26: Сбор, анализ, обработка текстовой информации

15/22

Кластеризация – сокращение размерности

ДАННЫЕ сущ

,

ОТПРАВИТЬ прич

В предл

КРИВОЙ РОГ сущ

ТРЕБОВАТЬ гл

УТОЧНЕНИЕ прил

СЛЕДОВАТЕЛЬНО вводн

ДАННЫЙ прил

ЭКСПЕРИМЕНТ сущ

НУЖНО нареч

ПОВТРОИТЬ инф

ДАННЫЕ сущ

КРИВОЙ РОГ сущ

ЭКСПЕРИМЕНТ сущ

Векторная модель Ограничение по части речи Веса слов

КРИВОЙ РОГ 1,25

ЭКСПЕРИМЕНТ 0,93

ДАННЫЕ 0,87

Слова упорядочиваются по убыванию дисперсии меры TF/IDF:

i

ikik

N

NTF

)||

||(

k

kD

DLogIDF

)(IDF

TFDispF

Page 27: Сбор, анализ, обработка текстовой информации

Кластеризация – Алгоритм BIRCH

Достоинства алгоритма BIRCH Недостатки алгоритма BIRCH

1. Высокая скорость (зависимость времени работы от числа точек O(n log(k)) ).

1. Сложно оценить параметр T, обеспечивающий получение требуемого количества первичных

кластеров.

2. Ошибки в ходе кластеризации,

обусловленные тем, что для добавляемой в дерево точки очень часто находится не самый близкий к ней листовой узел.

16/22

Page 28: Сбор, анализ, обработка текстовой информации

17/22

Оценка скорости кластеризации

0

50

100

150

200

250

300

350

400

450

1 000 2 000 5 000 10 000 20 000 100 000 500 000 850 000

Вр

ем

я,

сек

Размер коллекции

k-means (random)

k-means (10%)

BIRCH*

n*log(k)

Page 29: Сбор, анализ, обработка текстовой информации

Визуализация данных

Page 30: Сбор, анализ, обработка текстовой информации

19/22

Визуализация данных

Page 31: Сбор, анализ, обработка текстовой информации

19/22

Визуализация данных

Page 32: Сбор, анализ, обработка текстовой информации

Основные архитектурные компоненты

20/22

Стек технологий текстового анализа:

Классификация и

Кластеризация

Морфо-синтаксический

анализ Полнотекстовый поиск

Оценка тональности Анализ временных рядов Поиск фактов и ИС

Обработка и

хранение

больших

объемов

Apache Hadoop

RDF-Store

Онтологии

Semantic Web

DBPedia

Средства интеграции и представления данных

Page 33: Сбор, анализ, обработка текстовой информации

21/22

Запишитесь на тестирование!

http://webmining.info/

Базовый набор:

• Нормализация текстов, выявление имен собственных;

• Выгрузка и фильтрация текстов интернет-СМИ;

• Полнотекстовый поиск по коллекциям;

• Рубрикация и кластерный анализ;

Для получения тестового доступа к системе отправьте заявку по

адресу [email protected]

Page 34: Сбор, анализ, обработка текстовой информации

Благодарю за

внимание

Карпов Илья

[email protected]