52
Интеллектуальный анализ текста Лидия Пивоварова Университет Хельсинки Семинар по бизнес-информатике 18 ноября 2016, Moсква

Интеллектуальный анализ текста

Embed Size (px)

Citation preview

Page 1: Интеллектуальный анализ текста

Интеллектуальный анализ текста

Лидия Пивоварова

Университет Хельсинки

Семинар по бизнес-информатике18 ноября 2016, Moсква

Page 2: Интеллектуальный анализ текста

● Бизнес-информация:– внутренняя/внешняя

– структурированная/неструктурированная

● Структурированные данные:– Количественная информация

– Развитые инструменты анализа (основанные на статистике)

● Неструктурированные данные:– Качественная информация (текст) дает ответ на вопрос

”почему?” (почему падают цены, растет оборот...)

– Все бизнес-аналитики читают новости (цифр недостаточно)

– Инструменты анализа активно развиваются – основная задача перевести данные из неструктурированной в структурированную форму

Мотивация

Page 3: Интеллектуальный анализ текста
Page 4: Интеллектуальный анализ текста

Анализ текстовых данных

КАЧЕСТВОСТОИМОСТЬ

– Google

– Yahoo!

● Бесплатно, быстро● Поверхностно● Времязатратно

– Bloomberg

– Gartner

● Высококачественно● Индивидуально● Медленно, дорого

Основная задача:

автоматический анализ с качеством ручного

Page 5: Интеллектуальный анализ текста

Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research

Page 6: Интеллектуальный анализ текста

Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research

Page 7: Интеллектуальный анализ текста

Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research

Page 8: Интеллектуальный анализ текста

Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research

Page 9: Интеллектуальный анализ текста

Технологии

● Анализ текста производится иерархически:– Токенизация

– Морфологический анализ

– Сборка единиц, эквивалентных слову (в том числе имен)

– (Частичный) синтаксис

– Семантический анализ

● Для низкоуровневых задач, как правило, используются готовые инструменты; семантический анализ, как правило, приходится делать заново

Page 10: Интеллектуальный анализ текста

Фактографический поиск

Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД)

InformationRetrieval

TextUnderstanding

InformationExtraction

Page 11: Интеллектуальный анализ текста

Основная идея

● Задача всегда предельно конкретна:– определенный тип текста– искомая информация представлена в виде

набора полей для заполнения● Текст, включающий такую информацию,

предельно шаблонный● Поиск осуществляется при помощи набора

образцов

Page 12: Интеллектуальный анализ текста

Цели

● Пополнение баз данных (и баз знаний)

● Получение входных данных для работы других систем

● Привлечение внимания эксперта к значимым аспектам информации

Page 13: Интеллектуальный анализ текста

Образцы● Состав образцов:

– Лексика, семантика– Частичный синтаксис– Близость, взаимное расположение частей

● Формат:– Зависит от формата представления текста в системе– Часто используются специальные языки (грамматики)

● Построение образцов: – Вручную– Машинное обучение (bootstrapping)– Обобщение образцов с привлечением словарных и/или

онтологических ресурсов

Page 14: Интеллектуальный анализ текста

Машинное обучение● Pro:

– не требует большого количества ручного труда по написанию правил

– система более гибкая, ее легко перенастроить

● Contra:

– требуется большой обучающий корпус, правильно и полностью размеченный

– сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»

Page 15: Интеллектуальный анализ текста

Правила● Pro:

– Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов

● Contra– Большая ручная работа, требующая

специальной квалификации– Трудно перенастраивать

● Возможны (и даже предпочтительны) гибридные подходы

Page 16: Интеллектуальный анализ текста

– выработка общих подходов к методологии и способам оценки систем извлечения информации из текста.

Год Источники Предметная область

MUC-1 1987 военные сводки военно-морские операции

MUC-2 1989 военные сводки военно-морские операции

MUC-3 1991 новости Террористическая активность

MUC-4 1992 новости Террористическая активность

MUC-5 1993 новости совместные предприятия, производство

MUC-6 1995 новости смена лидеров на рынке

MUC-7 1997 новости крушения самолетов, запуски ракет

MUC (Message Understanding Conference), 1987-1997

Page 17: Интеллектуальный анализ текста

● Named Entity recognition - выделение именованных сущностей

● Coreference resolution - разрешение кореференции

● Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR

● Template Relation construction – выявление связей между отдельными сущностями

● Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR

Дорожки MUC

Page 18: Интеллектуальный анализ текста

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Named Entity recognition:

доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед

ракета, вторник…

Сoreference resolution:

доктор Биг Хед Хедэто → ракета

Template Element construction:

Ключ Объект Цвет Светоотражательные свойства

0267 Ракета Красная Блестящая

Page 19: Интеллектуальный анализ текста

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Template Relation construction:

Scenario Template production:

Ключ Объект Цвет Светоотражательные свойства

Изобретен

0267 Ракета Красная Блестящая 7824

Ключ ФИО Степень Работает Должность

7824 Биг Хед Доктор 2345 452

Ключ Тип события Объект Дата

18 Запуск 0267 Вторник

Page 20: Интеллектуальный анализ текста

Извлечение именованных сущностей

● Named Entity: – Стандартные примеры: персоналии, географические

названия, организации…– В бизнесе: названия компаний, продуктов, брендов,

персоналии...

● Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование…

● Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями

Page 21: Интеллектуальный анализ текста

Основные подходы

● Основанный на знаниях:– список имен собственных– регулярные выражения, описывающие именованные

сущности– образцы, описывающие контекст

● Машинное обучение– обучающий корпус– определение характерных свойств– поиск по этим свойствам

Page 22: Интеллектуальный анализ текста

Извлечение отношений между понятиями

● Отношения:– Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ…– Специфические для предметной области – СТРАНА-СТОЛИЦА, КОМПАНИЯ-БРЕНД…

● В тексте определяются:– Свойствами именованных сущностей– Лексическими свойствами контекста– Синтаксическими свойствами контекста

● Извлечение:– Правила (образцы) vs. машинное обучение – Поиск: начиная с именованных сущностей vs. Начиная

с отношений

Page 23: Интеллектуальный анализ текста

Анафора и кореференция

● Извлечение информации в масштабах текста

● Кореференция: возможно использование экстралингвистической информации

● Анафора: невозможно использование экстралингвистической информации– Вокруг местоимения отыскиваются существительные-

кандидаты– Проверяется согласование– Статистики и эвристики

● Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество

Page 24: Интеллектуальный анализ текста

Recall = Ncorrect /Nall-correct

Precision = Ncorrect /(Ncorrect + Nincorrect )

F-measure = (β2+1 )*r*p/(β2 * r+p)

● Named Entity recognition F<94%● Coreference resolution F<62%● Template Element construction F<87%● Template Relation construction F<76% ● Scenario Template production F<51%

Оценка

Page 25: Интеллектуальный анализ текста

Дальнейшее развитие

● ACE (Automatic Content Extraction) 1999 – 2008

● По сравнению с MUC:– более детальная таксономия сущностей– для всех систем обязательна интерпретация

метонимических связей– требуется семантический анализ

обрабатываемого текста

● Text Analysis Conference (TAC) – настоящее время

Page 26: Интеллектуальный анализ текста

Dialog Evaluations 2016

Page 27: Интеллектуальный анализ текста
Page 28: Интеллектуальный анализ текста

Система фактографического поиска в газетных текстах

– Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю. Методы извлечения фактографической информации из текстов. Опыт разработки. // Megaling’2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007.

– Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197

Page 29: Интеллектуальный анализ текста

Система Factors

Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/

Page 30: Интеллектуальный анализ текста

Постановка задачиЗадача: извлечение из текстов СМИ

информации общественно-политической тематики.

Факторы - различные характеристики общественно-политической ситуации(около 100).

Значения факторов: ● Количественные - число пенсионеров;

средний уровень заработной платы ● Оценочные - социальная напряженность;

военные угрозы

Page 31: Интеллектуальный анализ текста

Система Factors: - интеллектуальная среда для поддержки

работы эксперта-аналитика с текстами.

Режимы работы:● Автоматический● Диалоговый

ТЕКСТЫ FACTORS

Фактор Значение

Page 32: Интеллектуальный анализ текста

Функциональность:1. Последовательное наращивание

распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой.

2. Легкость и простота редактирования и пополнения; визуальное представление информации.

3. Функциональная расширяемость и переносимость на другие проблемные и предметные области.

Page 33: Интеллектуальный анализ текста

Образцы

1. Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей)

2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное»)

3. Смешанные

Page 34: Интеллектуальный анализ текста

Образцы

Фактор + значениеВ основном для оценочных факторов социальная напряженность → стихийный митинг

Только фактор Для количественных факторов:

уровень инфляции →инфляция составила 4%

Page 35: Интеллектуальный анализ текста

Поиск образцов в тексте

население ... право на труд ... ограничение

1) Поиск опорного элементанаселение ... право на труд ... ограничение

2) Поиск в окрестности других элементовнаселение ... право на труд ... ограничение

Для концептов образца – учет синонимовограничение = ограниченный, ограничить, ущемление

Параметры поиска предполагают отладку и настройку

Page 36: Интеллектуальный анализ текста

Только фактор: поиск значения

Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?»

Уровень зарплаты → заработная платаТранспортные издержки → тратыЧисло пенсионеров → пенсионеры

Онтология: собственный признак ↔ единица измерениязаработная плата ↔ денежная единицапенсионеры ↔ без единиц

Page 37: Интеллектуальный анализ текста

Общий алгоритм поиска

1) Поиск образца2) Определение собственного признака и

единиц измерения3) Поиск числа с единицей измерения4) Проверка соответствия единиц измерения5) Если число не найдено – поиск слов

большой, маленький, растет, падает и их синонимов

6) Определение достоверности

В.Ш. Рубашкин Онтологическая семантика

Page 38: Интеллектуальный анализ текста

Анализ тональности сообщений

● Opinion Mining – извлечение мнений, а не фактов:– Поиск отзывов о товарах и услугах (как потребителями, так и

производителями)– Анализ мнений для маркетинговых, политологических,

социологических и др. исследований

● Sentiment analysis

● Другие приложения:– Рекомендательные системы– Извлечение информации– Вопросно-ответный поиск

Page 39: Интеллектуальный анализ текста

Общая схема

● Объект O имеет (иерархический) набор свойств fi

● Каждое свойство может выражаться набором слов/словосочетаний wi - синонимов

● Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах

Page 40: Интеллектуальный анализ текста

Основные задачиНа уровне документа:

● Классификация тональности

– Классы: позитивный, негативный, нейтральный

– Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субьекта

На уровне предложения:

● Идентификация предложений, содержащих мнения

● Определение тональности предложения

– Предполагается, что каждое предложение содержит только одно мнение

На уровне свойств:

● Определение свойств, которые оценивает субъект

● Сгруппировать синонимы (если они неизвестны)● Идентифицировать тональность оценки

Page 41: Интеллектуальный анализ текста

Классификация документов

● Классификация – классическая задача машинного обучения

● Различия с тематической классификацией только в используемых свойствах– Наличие терминов и их частота (часто взвешенная)– Части речи – для определения тональности принципиально

важны прилагательные и наречия– Оценочные слова и словосочетания (словарь или более

сложная структура типа WordNet)– Синтаксические зависимости – позволяют делать

предположения о семантических отношениях между оценочными и тематическими словами

– Отрицания – могут изменить мнение на противоположное

Page 42: Интеллектуальный анализ текста

Уровень документа и предложения

● Документ может быть очень противоречивым● Требуется переход на уровень предложений● Классификация предложений:

– Объективные/субъективные– И затем негативные/позитивные

● Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa)

● Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств

Page 43: Интеллектуальный анализ текста

Оценка свойств● Идентификация свойств● Группировка синонимов● Определение оценок

● Подходы очень похожи на Information Extraction:– (Named) Entity Recognition + установление

фактов (оценок)– Словари, образцы, машинное обучение

Page 44: Интеллектуальный анализ текста

Построение словарей

● Вручную● На основе существующих словарей и

тезаурусов (WordNet)● Автоматически

– Bootstrapping– Шаблоны– Возможно построение доменно-

ориентированных словарей

Page 45: Интеллектуальный анализ текста

Dialog Evaluations 2012

Page 46: Интеллектуальный анализ текста
Page 47: Интеллектуальный анализ текста
Page 48: Интеллектуальный анализ текста

Dialog Evaluations 2015

Page 49: Интеллектуальный анализ текста
Page 50: Интеллектуальный анализ текста

s

Page 51: Интеллектуальный анализ текста

Литература● Fisher, Ingrid E., Margaret R. Garnsey, and Mark E. Hughes. "Natural Language Processing in

Accounting, Auditing and Finance: A Synthesis of the Literature with a Roadmap for Future Research." Intelligent Systems in Accounting, Finance and Management (2016).

● Curtis, Asher, Vernon J. Richardson, and Roy Schmardebeck. "Investor attention and the pricing of earnings news." Available at SSRN 2467243 (2014).

● Saggion, Horacio, and Adam Funk. "Extracting opinions and facts for business intelligence." RNTI Journal, E (17) 119 (2009): 146.

● Sakai, Hiroyuki, and Shigeru Masuyama. "Polarity Assignment to Causal Information Extracted from Financial Articles Concerning Business Performance of Companies." Research and Development in Intelligent Systems XXV. Springer London, 2009. 307-320.

● Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." The Journal of Finance 66.1 (2011): 35-65.

● Bodnaruk, Andriy, Tim Loughran, and Bill McDonald. "Using 10-k text to gauge financial constraints." Journal of Financial and Quantitative Analysis 50.04 (2015): 623-646.

● Moore, Andrew, Paul Edward Rayson, and Steven Eric Young. "Domain adaptation using stock market prices to refine sentiment dictionaries." (2016).

● Boudoukh, Jacob, et al. Which news moves stock prices? a textual analysis. No. w18725. National Bureau of Economic Research, 2013.

● Tsai, Ming-Feng, Chuan-Ju Wang, and Po-Chuan Chien. "Discovering Finance Keywords via Continuous-Space Language Models." ACM Transactions on Management Information Systems (TMIS) 7.3 (2016): 7.

● Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.

Page 52: Интеллектуальный анализ текста

Извлечение информации● Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval -

http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf

● Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf

● Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172

● Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007

● Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/

● Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/

● Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32

Определение тональности● Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition

Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666

● Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – http://www.cs.uic.edu/~liub/WebMiningBook.html

● Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining-sentiment-analysis.pdf

● Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html