Интеллектуальный анализ текста

Интеллектуальный анализ текста

Лидия Пивоварова

Университет Хельсинки

Семинар по бизнес-информатике18 ноября 2016, Moсква

● Бизнес-информация:– внутренняя/внешняя

– структурированная/неструктурированная

● Структурированные данные:– Количественная информация

– Развитые инструменты анализа (основанные на статистике)

● Неструктурированные данные:– Качественная информация (текст) дает ответ на вопрос

”почему?” (почему падают цены, растет оборот...)

– Все бизнес-аналитики читают новости (цифр недостаточно)

– Инструменты анализа активно развиваются – основная задача перевести данные из неструктурированной в структурированную форму

Мотивация

Анализ текстовых данных

КАЧЕСТВОСТОИМОСТЬ

– Google

– Yahoo!

● Бесплатно, быстро● Поверхностно● Времязатратно

– Bloomberg

– Gartner

● Высококачественно● Индивидуально● Медленно, дорого

Основная задача:

автоматический анализ с качеством ручного

Fisher, Garnsey and Hughes (2016) Natural Language Processing in Accounting, Auditing and Finance: a Synthesis of the Literature with a Roadmap for Future Research




Технологии

● Анализ текста производится иерархически:– Токенизация

– Морфологический анализ

– Сборка единиц, эквивалентных слову (в том числе имен)

– (Частичный) синтаксис

– Семантический анализ

● Для низкоуровневых задач, как правило, используются готовые инструменты; семантический анализ, как правило, приходится делать заново

Фактографический поиск

Information Extraction – извлечение из текста информации определенного типа и представление ее в заданном формате (чаще всего БД)

InformationRetrieval

TextUnderstanding

InformationExtraction

Основная идея

● Задача всегда предельно конкретна:– определенный тип текста– искомая информация представлена в виде

набора полей для заполнения● Текст, включающий такую информацию,

предельно шаблонный● Поиск осуществляется при помощи набора

образцов

Цели

● Пополнение баз данных (и баз знаний)

● Получение входных данных для работы других систем

● Привлечение внимания эксперта к значимым аспектам информации

Образцы● Состав образцов:

– Лексика, семантика– Частичный синтаксис– Близость, взаимное расположение частей

● Формат:– Зависит от формата представления текста в системе– Часто используются специальные языки (грамматики)

● Построение образцов: – Вручную– Машинное обучение (bootstrapping)– Обобщение образцов с привлечением словарных и/или

онтологических ресурсов

Машинное обучение● Pro:

– не требует большого количества ручного труда по написанию правил

– система более гибкая, ее легко перенастроить

● Contra:

– требуется большой обучающий корпус, правильно и полностью размеченный

– сложно отследить в каком именно месте возникла ошибка и исправить ее «точечно»

Правила● Pro:

– Может быть предпочтительна в случае сложной предметной области и/или отсутствия лингвистических ресурсов

● Contra– Большая ручная работа, требующая

специальной квалификации– Трудно перенастраивать

● Возможны (и даже предпочтительны) гибридные подходы

– выработка общих подходов к методологии и способам оценки систем извлечения информации из текста.

Год Источники Предметная область

MUC-1 1987 военные сводки военно-морские операции

MUC-2 1989 военные сводки военно-морские операции

MUC-3 1991 новости Террористическая активность

MUC-4 1992 новости Террористическая активность

MUC-5 1993 новости совместные предприятия, производство

MUC-6 1995 новости смена лидеров на рынке

MUC-7 1997 новости крушения самолетов, запуски ракет

MUC (Message Understanding Conference), 1987-1997

● Named Entity recognition - выделение именованных сущностей

● Coreference resolution - разрешение кореференции

● Template Element construction - добавление атрибутов к сущностям, найденным на этапе NE, с использованием CR

● Template Relation construction – выявление связей между отдельными сущностями

● Scenario Template production – построение полного описания события (факта) путем объединения результатов TE и TR

Дорожки MUC

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Named Entity recognition:

доктор Биг Хед, Хед, Билд Рокет Инкорпорейтед

ракета, вторник…

Сoreference resolution:

доктор Биг Хед Хедэто → ракета

Template Element construction:

Ключ Объект Цвет Светоотражательные свойства

0267 Ракета Красная Блестящая

Блестящая красная ракета была запущена во вторник. Это изобретение доктора Биг Хеда. Хед - штатный научный сотрудник Билд Рокет Инкорпорейтед.

Template Relation construction:

Scenario Template production:

Ключ Объект Цвет Светоотражательные свойства

Изобретен

0267 Ракета Красная Блестящая 7824

Ключ ФИО Степень Работает Должность

7824 Биг Хед Доктор 2345 452

Ключ Тип события Объект Дата

18 Запуск 0267 Вторник

Извлечение именованных сущностей

● Named Entity: – Стандартные примеры: персоналии, географические

названия, организации…– В бизнесе: названия компаний, продуктов, брендов,

персоналии...

● Не только для Information Extraction: ответы на вопросы, извлечение мнений, реферирование…

● Named Entity Recognition: Information Extraction в миниатюре; проще, потому что не нужно извлекать связи между понятиями

Основные подходы

● Основанный на знаниях:– список имен собственных– регулярные выражения, описывающие именованные

сущности– образцы, описывающие контекст

● Машинное обучение– обучающий корпус– определение характерных свойств– поиск по этим свойствам

Извлечение отношений между понятиями

● Отношения:– Таксономические – РОД-ВИД, ЧАСТЬ-ЦЕЛОЕ…– Специфические для предметной области – СТРАНА-СТОЛИЦА, КОМПАНИЯ-БРЕНД…

● В тексте определяются:– Свойствами именованных сущностей– Лексическими свойствами контекста– Синтаксическими свойствами контекста

● Извлечение:– Правила (образцы) vs. машинное обучение – Поиск: начиная с именованных сущностей vs. Начиная

с отношений

Анафора и кореференция

● Извлечение информации в масштабах текста

● Кореференция: возможно использование экстралингвистической информации

● Анафора: невозможно использование экстралингвистической информации– Вокруг местоимения отыскиваются существительные-

кандидаты– Проверяется согласование– Статистики и эвристики

● Во многих систем не разрешается ни анафора, ни даже кореференция – трудоемкие алгоритмы, низкое качество

Recall = Ncorrect /Nall-correct

Precision = Ncorrect /(Ncorrect + Nincorrect )

F-measure = (β2+1 )*r*p/(β2 * r+p)

● Named Entity recognition F<94%● Coreference resolution F<62%● Template Element construction F<87%● Template Relation construction F<76% ● Scenario Template production F<51%

Оценка

Дальнейшее развитие

● ACE (Automatic Content Extraction) 1999 – 2008

● По сравнению с MUC:– более детальная таксономия сущностей– для всех систем обязательна интерпретация

метонимических связей– требуется семантический анализ

обрабатываемого текста

● Text Analysis Conference (TAC) – настоящее время

Dialog Evaluations 2016

Система фактографического поиска в газетных текстах

– Рубашкин В. Ш., Капустин В. А., Пивоварова Л. М., Чуприн Б. Ю. Методы извлечения фактографической информации из текстов. Опыт разработки. // Megaling’2007 Горизонты прикладной лингвистики и лингвистических технологий– Симферополь: Изд-во ДиАйПи, 2007.

– Пивоварова Л.М. Фактографический анализ текста в системе поддержки принятия решений // Вестник Санкт-Петербургского университета Сер. Филология, востоковедение, журналистика. 2010. Вып. 4 - 190-197

Система Factors

Система, основанная на знаниях – используется онтология IntTez - http://inttez.ru/

http://inttez.ru/

http://inttez.ru/

http://inttez.ru/

Постановка задачиЗадача: извлечение из текстов СМИ

информации общественно-политической тематики.

Факторы - различные характеристики общественно-политической ситуации(около 100).

Значения факторов: ● Количественные - число пенсионеров;

средний уровень заработной платы ● Оценочные - социальная напряженность;

военные угрозы

Система Factors: - интеллектуальная среда для поддержки

работы эксперта-аналитика с текстами.

Режимы работы:● Автоматический● Диалоговый

ТЕКСТЫ FACTORS

Фактор Значение

Функциональность:1. Последовательное наращивание

распознаваемых аспектов содержания в процессе работы эксперта-аналитика с системой.

2. Легкость и простота редактирования и пополнения; визуальное представление информации.

3. Функциональная расширяемость и переносимость на другие проблемные и предметные области.

Образцы

1. Текстовые – выделение в тексте релевантных фрагментов (при анализе может проверяться совпадение синтаксических связей)

2. Концептуальные – сборка образца из концептов онтологии (при анализе осуществляется поиск с учетом отношения «общее-частное»)

3. Смешанные

Образцы

Фактор + значениеВ основном для оценочных факторов социальная напряженность → стихийный митинг

Только фактор Для количественных факторов:

уровень инфляции →инфляция составила 4%

Поиск образцов в тексте

население ... право на труд ... ограничение

1) Поиск опорного элементанаселение ... право на труд ... ограничение

2) Поиск в окрестности других элементовнаселение ... право на труд ... ограничение

Для концептов образца – учет синонимовограничение = ограниченный, ограничить, ущемление

Параметры поиска предполагают отладку и настройку

Только фактор: поиск значения

Собственный признак фактора – концепт, отвечающий на вопрос «количество (величина) чего?»

Уровень зарплаты → заработная платаТранспортные издержки → тратыЧисло пенсионеров → пенсионеры

Онтология: собственный признак ↔ единица измерениязаработная плата ↔ денежная единицапенсионеры ↔ без единиц

Общий алгоритм поиска

1) Поиск образца2) Определение собственного признака и

единиц измерения3) Поиск числа с единицей измерения4) Проверка соответствия единиц измерения5) Если число не найдено – поиск слов

большой, маленький, растет, падает и их синонимов

6) Определение достоверности

В.Ш. Рубашкин Онтологическая семантика

Анализ тональности сообщений

● Opinion Mining – извлечение мнений, а не фактов:– Поиск отзывов о товарах и услугах (как потребителями, так и

производителями)– Анализ мнений для маркетинговых, политологических,

социологических и др. исследований

● Sentiment analysis

● Другие приложения:– Рекомендательные системы– Извлечение информации– Вопросно-ответный поиск

Общая схема

● Объект O имеет (иерархический) набор свойств fi

● Каждое свойство может выражаться набором слов/словосочетаний wi - синонимов

● Субъект (opinion holder) высказывает свое мнение об O или о каких-то его свойствах

Основные задачиНа уровне документа:

● Классификация тональности

– Классы: позитивный, негативный, нейтральный

– Предполагается, что каждый документ содержит мнение только об одном объекте и только одного субьекта

На уровне предложения:

● Идентификация предложений, содержащих мнения

● Определение тональности предложения

– Предполагается, что каждое предложение содержит только одно мнение

На уровне свойств:

● Определение свойств, которые оценивает субъект

● Сгруппировать синонимы (если они неизвестны)● Идентифицировать тональность оценки

Классификация документов

● Классификация – классическая задача машинного обучения

● Различия с тематической классификацией только в используемых свойствах– Наличие терминов и их частота (часто взвешенная)– Части речи – для определения тональности принципиально

важны прилагательные и наречия– Оценочные слова и словосочетания (словарь или более

сложная структура типа WordNet)– Синтаксические зависимости – позволяют делать

предположения о семантических отношениях между оценочными и тематическими словами

– Отрицания – могут изменить мнение на противоположное

Уровень документа и предложения

● Документ может быть очень противоречивым● Требуется переход на уровень предложений● Классификация предложений:

– Объективные/субъективные– И затем негативные/позитивные

● Но: позитивная оценка объекта не означает позитивной оценки всех его свойств (и vice versa)

● Предложения могут быть очень сложными – нужно переходить на уровень отдельных свойств

Оценка свойств● Идентификация свойств● Группировка синонимов● Определение оценок

● Подходы очень похожи на Information Extraction:– (Named) Entity Recognition + установление

фактов (оценок)– Словари, образцы, машинное обучение

Построение словарей

● Вручную● На основе существующих словарей и

тезаурусов (WordNet)● Автоматически

– Bootstrapping– Шаблоны– Возможно построение доменно-

ориентированных словарей



s

Литература● Fisher, Ingrid E., Margaret R. Garnsey, and Mark E. Hughes. "Natural Language Processing in

Accounting, Auditing and Finance: A Synthesis of the Literature with a Roadmap for Future Research." Intelligent Systems in Accounting, Finance and Management (2016).

● Curtis, Asher, Vernon J. Richardson, and Roy Schmardebeck. "Investor attention and the pricing of earnings news." Available at SSRN 2467243 (2014).

● Saggion, Horacio, and Adam Funk. "Extracting opinions and facts for business intelligence." RNTI Journal, E (17) 119 (2009): 146.

● Sakai, Hiroyuki, and Shigeru Masuyama. "Polarity Assignment to Causal Information Extracted from Financial Articles Concerning Business Performance of Companies." Research and Development in Intelligent Systems XXV. Springer London, 2009. 307-320.

● Loughran, Tim, and Bill McDonald. "When is a liability not a liability? Textual analysis, dictionaries, and 10‐Ks." The Journal of Finance 66.1 (2011): 35-65.

● Bodnaruk, Andriy, Tim Loughran, and Bill McDonald. "Using 10-k text to gauge financial constraints." Journal of Financial and Quantitative Analysis 50.04 (2015): 623-646.

● Moore, Andrew, Paul Edward Rayson, and Steven Eric Young. "Domain adaptation using stock market prices to refine sentiment dictionaries." (2016).

● Boudoukh, Jacob, et al. Which news moves stock prices? a textual analysis. No. w18725. National Bureau of Economic Research, 2013.

● Tsai, Ming-Feng, Chuan-Ju Wang, and Po-Chuan Chien. "Discovering Finance Keywords via Continuous-Space Language Models." ACM Transactions on Management Information Systems (TMIS) 7.3 (2016): 7.

● Malo, Pekka, et al. "Good debt or bad debt: Detecting semantic orientations in economic texts." Journal of the Association for Information Science and Technology 65.4 (2014): 782-796.

Извлечение информации● Gaizauskas, R., Wilks, Y., 1998. Information Extraction: Beyond Document Retrieval -

http://www.aclclp.org.tw/clclp/v3n2/v3n2a2.pdf

● Cunningham, H. Information Extraction, Automatic - http://gate.ac.uk/sale/ell2/ie/main.pdf

● Appelt D. Introduction to information extraction - AI Communications 12 (1999) 161–172

● Feldman R., Sanger J. The Text MiningHandbook – Cambridge University Press, 2007

● Dan Jurafsky From Languages to Information. Lecture 15: Relation Extraction - http://www.stanford.edu/class/cs124/

● Dan Jurafsky From Languages to Information. Lecture 7: Named Entity Tagging - http://www.stanford.edu/class/cs124/

● Татьяна Ландо Автоматическое извлечение фактов из текста на примере сервиса Яндекс.Пресс-портреты – http://mathlingvo.ru/nlpseminar/archive/s_32

Определение тональности● Liu B. Sentiment Analysis and Subjectivity // Handbook of natural language processing, Second Edition

Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-666

● Bing Liu Web Data Mining. Lecture Slides, Chapter 11 – http://www.cs.uic.edu/~liub/WebMiningBook.html

● Bing Liu Opinion Mining and Summarization, tutorial - http://www.cs.uic.edu/~liub/FBS/opinion-mining-sentiment-analysis.pdf

● Bo Pang and Lillian Lee Opinion mining and sentiment analysis // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008. – http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html