Upload
ilia-karpov
View
595
Download
7
Embed Size (px)
DESCRIPTION
Презентация доклада на семинаре "Сетевые методы и модели в анализе текстовой информации" в ВШЭ
Citation preview
Поддержка информационно-
аналитической деятельности:
сбор, анализ, обработка
текстовой информации
большого объема
Карпов Илья
2/22
Функциональная схема системы
Карта
объектов
Текстовый
анализ
Аналитическая
обработка
Представление
результатовКлассы
Вектор
концептов
Сбор данных
Пользовательский
запрос
2/22
Функциональная схема системы
Карта
объектов
Текстовый
анализ
Аналитическая
обработка
Представление
результатовКлассы
Вектор
концептов
Сбор данных
Пользовательский
запрос
•Материалы интернет-
СМИ
•Livejournal.com
•Vkontakte.ru
Более 100 источников данных
интернет-СМИ
2/22
Функциональная схема системы
Карта
объектов
Текстовый
анализ
Аналитическая
обработка
Представление
результатовКлассы
Вектор
концептов
Сбор данных
Пользовательский
запрос
•Морфология
•Разрешение
многозначности
•Синтаксический анализ
Производительность
1 000 000 слов/сек
Поиск собственных имен,
географических объектов
и организаций
Анализ тональности текста
2/22
Функциональная схема системы
Карта
объектов
Текстовый
анализ
Аналитическая
обработка
Представление
результатовКлассы
Вектор
концептов
Сбор данных
Пользовательский
запрос
•Информационный поиск
•Фактологический поиск
•Классификация
•Кластеризация
Высокопроизводительные
средства классификации и
кластеризации
2/22
Функциональная схема системы
Карта
объектов
Текстовый
анализ
Аналитическая
обработка
Представление
результатовКлассы
Вектор
концептов
Сбор данных
Пользовательский
запрос
•Граф связей
•Географическая карта
•Временная шкала
Высокопроизводительные
средства классификации и
кластеризации
Сбор и хранение материалов
4/22
Структура агрегируемых источников
+
GE: 6 AR: 8 IL: 7 SE: 6
TR: 6 PL: 5 UA: 3 FR: 7
ES: 7 DE: 9 CHN: 5 IT: 9
5/22
Система хранения
Особенности хранения:
• Индексация на основе Apache lucene;
• Хранение материалов в hdfs;
Особенности сбора:
• Агрегация RSS-потоков;
• Извлечение информации на основе специальных
парсеров и статистической информации;
• Сбор информации из социальных сетей;
• Объединение профилей пользователей;
Текстовый анализ
7/22
Общая схема текстового анализа
Сегментация предложений
Морфологический анализ
Разрешение многозначности
Машинное обучение
Морфологические словари
Онтологии
Токены в нормальной форме
Токены
Документы
Термы
7/22
Общая схема текстового анализа
Сегментация предложений
Морфологический анализ
Разрешение многозначности
Машинное обучение
Морфологические словари
Онтологии
Токены в нормальной форме
Токены
Документы
Термы
Методы сегментации для
английского и китайского
языка
7/22
Общая схема текстового анализа
Сегментация предложений
Морфологический анализ
Разрешение многозначности
Машинное обучение
Морфологические словари
Онтологии
Токены в нормальной форме
Токены
Документы
Термы
Морфологический анализ
для английского языка
7/22
Общая схема текстового анализа
Сегментация предложений
Морфологический анализ
Разрешение многозначности
Машинное обучение
Морфологические словари
Онтологии
Токены в нормальной форме
Токены
Документы
Термы
Снятие многозначности и
объединение синонимов
на основе онтологий,
полученных из Semantic
Web
8/22
Пример текстового анализа
Поиск имен собственных:
Данные , отправленные в Кривой Рог , требуют уточнения ,
Кривой Рог
следовательно , . данные экперименты нужно повторить
Данные
8/22
Пример текстового анализа
Поиск имен собственных:
Данные , отправленные в Кривой Рог , требуют уточнения ,
Кривой Рог
следовательно , . данные экперименты нужно повторить
Данные
8/22
Пример текстового анализа
Данный , отправить в Кривой Рог , требовать уточнение ,
Данные
следовательно , . данный экперимент нужно повторить
Данные ДАННЫЙ прилагательное, мн.ч., им. п.
Данные ДАННЫЙ прилагательное, мн.ч., вин. п.
Данные ДАННЫЙ местоимение, мн.ч., вин. п.
Данные ДАННЫЙ местоимение, мн.ч., им. п.
Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.
Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.
Многозначность после приведения к нормальной форме:
8/22
Пример текстового анализа
Данный , отправить в Кривой Рог , требовать уточнение ,
следовательно , . данный экперимент нужно повторить
Данные ДАННЫЙ прилагательное, мн.ч., им. п.
Данные ДАННЫЙ прилагательное, мн.ч., вин. п.
Данные ДАННЫЙ местоимение, мн.ч., вин. п.
Данные ДАННЫЙ местоимение, мн.ч., им. п.
Данные ДАННЫЕ существительное, нарицательное, мн.ч., вин. п.
Данные ДАННЫЕ существительное, нарицательное, мн.ч., им. п.
Снатие многозначности частичным синтаксическим анализом:
9/22
Особенности применения онтологий на
основе семантической метаинформации
Терм – слово
Документ – отдельный текст: di = (ti1, ti2, … ,tim)
Матрица термы-на-документы: Mmxn = (d1T, d2
T, …, dnT)
Модель “мешка слов”:
Объект Мешок слов
9/22
Особенности применения онтологий на
основе семантической метаинформации
Терм – слово
Документ – отдельный текст: di = (ti1, ti2, … ,tim)
Матрица термы-на-документы: Mmxn = (d1T, d2
T, …, dnT)
Модель “мешка слов”:
Переход от модели мешка слов к модели концептов:
10/22
Влияние разрешения многозначности на качество
обработки текстовых коллекций
Следующее неразобранное слово
Слово содержится в таблице разрешения многозначности
Все слова в контекстном окне данного слова не многозначны или разрешены
Разрешение многозначности методом Леска
Создать новый терм
Добавить терм в вектор документа
нет
нет
Нормализация слов
Слово содержится в таблице заголовков
Да
Да
Остались неразобранные слова
нет
Да
Особенности обработки:
• отсутствие некоторых
терминов в Википедии;
• отсутствие одного или
нескольких значений слова на
странице разрешения
многозначности;
• в текстах попадаются слова,
которые употреблены в
переносном значении;
• на страницах разрешения
многозначности попадаются
энциклопедичные статьи;
11/22
Обработка языков, отличных от русского
Результат построения многоязыкового концепта для слова «Поезд»
Поезд
Train
Tren
Train
Межъязыковая
статья “Train”
Межъязыковая
категория
“Rail Transport”
Spanish French English Русский
Железнодорожный
транспорт
Chemin de fer
Transporte por
ferrocaril
Ferrocarril Rail transport
12/22
Оценка качества многоязыковой кластеризации
текстовых коллекций
Язык текстов F-мера
русский 0,89
английский 0,89
китайский 0,73
русский + английский 0,69
Особенности обработки:
• межъязыковые ссылки не релевантны или не заданы;
• похожие по смыслу статьи написаны в разных терминологических единицах;
• концептуальные пространства разных языков сильно отличаются;
Кластеризация
14/22
Кластеризация
Отбор
ключевых
терминов
Латентно-
семантический
анализ
Кластеризация
TF/IDF
SVD-разложение
BIRCH,K-means
Сокращенная
матрица документов
Матрица
документов
Термы
Кластеры
15/22
Кластеризация – сокращение размерности
ДАННЫЕ сущ
,
ОТПРАВИТЬ прич
В предл
КРИВОЙ РОГ сущ
ТРЕБОВАТЬ гл
УТОЧНЕНИЕ прил
СЛЕДОВАТЕЛЬНО вводн
ДАННЫЙ прил
ЭКСПЕРИМЕНТ сущ
НУЖНО нареч
ПОВТРОИТЬ инф
ДАННЫЕ сущ
КРИВОЙ РОГ сущ
ЭКСПЕРИМЕНТ сущ
Векторная модель Ограничение по части речи Веса слов
КРИВОЙ РОГ 1,25
ЭКСПЕРИМЕНТ 0,93
ДАННЫЕ 0,87
Слова упорядочиваются по убыванию дисперсии меры TF/IDF:
i
ikik
N
NTF
)||
||(
k
kD
DLogIDF
)(IDF
TFDispF
Кластеризация – Алгоритм BIRCH
Достоинства алгоритма BIRCH Недостатки алгоритма BIRCH
1. Высокая скорость (зависимость времени работы от числа точек O(n log(k)) ).
1. Сложно оценить параметр T, обеспечивающий получение требуемого количества первичных
кластеров.
2. Ошибки в ходе кластеризации,
обусловленные тем, что для добавляемой в дерево точки очень часто находится не самый близкий к ней листовой узел.
16/22
17/22
Оценка скорости кластеризации
0
50
100
150
200
250
300
350
400
450
1 000 2 000 5 000 10 000 20 000 100 000 500 000 850 000
Вр
ем
я,
сек
Размер коллекции
k-means (random)
k-means (10%)
BIRCH*
n*log(k)
Визуализация данных
19/22
Визуализация данных
19/22
Визуализация данных
Основные архитектурные компоненты
20/22
Стек технологий текстового анализа:
Классификация и
Кластеризация
Морфо-синтаксический
анализ Полнотекстовый поиск
Оценка тональности Анализ временных рядов Поиск фактов и ИС
Обработка и
хранение
больших
объемов
Apache Hadoop
RDF-Store
Онтологии
Semantic Web
DBPedia
Средства интеграции и представления данных
21/22
Запишитесь на тестирование!
http://webmining.info/
Базовый набор:
• Нормализация текстов, выявление имен собственных;
• Выгрузка и фильтрация текстов интернет-СМИ;
• Полнотекстовый поиск по коллекциям;
• Рубрикация и кластерный анализ;
Для получения тестового доступа к системе отправьте заявку по
адресу [email protected]