Transcript
Page 1: 05 анализ тональности сообщений

Анализ Анализ тональности тональности сообщенийсообщений

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 05 анализ тональности сообщений

ВведениеВведение

Opinion Mining Opinion Mining –– извлечение извлечение мнениймнений, а , а не фактов:не фактов: Поиск отзывов о товарах и услугах (как Поиск отзывов о товарах и услугах (как

потребителями, так и производителями)потребителями, так и производителями) Анализ мнений для политологических, Анализ мнений для политологических,

социологических и др. исследованийсоциологических и др. исследований Другие приложения:Другие приложения:

Рекомендательные системыРекомендательные системы Извлечение информацииИзвлечение информации Вопросно-ответный поискВопросно-ответный поиск

Page 3: 05 анализ тональности сообщений

Общая схемаОбщая схема

Объект Объект O O имеет (иерархический) имеет (иерархический) набор свойств набор свойств ffii

Каждое свойство может выражаться Каждое свойство может выражаться набором слов/словосочетаний набором слов/словосочетаний wwii - - синонимовсинонимов

Субъект Субъект (opinion holder) (opinion holder) высказывает свое мнение об высказывает свое мнение об OO или или о о каких-то его свойствахкаких-то его свойствах

Page 4: 05 анализ тональности сообщений

Основные задачиОсновные задачиНа уровне документаНа уровне документа:: Классификация тональностиКлассификация тональности

Классы: позитивный, негативный, нейтральныйКлассы: позитивный, негативный, нейтральный Предполагается, что каждый документ содержит Предполагается, что каждый документ содержит

мнение только об одном объекте и только одного мнение только об одном объекте и только одного субьектасубьекта

На уровне предложения:На уровне предложения: Идентификация предложений, содержащих Идентификация предложений, содержащих

мнениямнения Определение тональности предложенияОпределение тональности предложения

Предполагается, что каждое предложение содержит Предполагается, что каждое предложение содержит только одно мнениетолько одно мнение

На уровне свойств:На уровне свойств: Определение свойств, которые оценивает субъектОпределение свойств, которые оценивает субъект Сгруппировать синонимы Сгруппировать синонимы (если они неизвестны)(если они неизвестны) Идентифицировать тональность оценкиИдентифицировать тональность оценки

Page 5: 05 анализ тональности сообщений

Классификация Классификация документовдокументов

Классификация – классическая задача Классификация – классическая задача машинного обучениямашинного обучения

Различия с тематической классификацией Различия с тематической классификацией только в используемых свойствахтолько в используемых свойствах Наличие терминов и их частота (часто Наличие терминов и их частота (часто

взвешенная)взвешенная) Части речи – для определения тональности Части речи – для определения тональности

принципиально важны прилагательные и наречияпринципиально важны прилагательные и наречия Оценочные слова и словосочетания (словарь или Оценочные слова и словосочетания (словарь или

более сложная структура типа более сложная структура типа WordNet)WordNet) Синтаксические зависимости – позволяют делать Синтаксические зависимости – позволяют делать

предположения о семантических отношениях предположения о семантических отношениях между оценочными и тематическими словамимежду оценочными и тематическими словами

Отрицания – могут изменить мнение на Отрицания – могут изменить мнение на противоположноепротивоположное

Page 6: 05 анализ тональности сообщений

Категоризация Категоризация документовдокументов

Список оценочной лексики (прилагательные Список оценочной лексики (прилагательные и наречия)и наречия)

Для всех упоминаний объекта и/или его Для всех упоминаний объекта и/или его свойств рядом с оценочной лексикой, свойств рядом с оценочной лексикой, подсчитывается коэффициент взаимной подсчитывается коэффициент взаимной информации:информации:

Итоговая оценка для данного упоминания:Итоговая оценка для данного упоминания:

Оценка суммируется для документа в целомОценка суммируется для документа в целом

Page 7: 05 анализ тональности сообщений

Уровень документа и Уровень документа и предложенияпредложения

Документ может быть очень Документ может быть очень противоречивымпротиворечивым

Требуется переход на Требуется переход на уровень уровень предложенийпредложений

Классификация предложений:Классификация предложений: ОбъективныеОбъективные//субъективныесубъективные И затем негативные/позитивныеИ затем негативные/позитивные

Но: позитивная оценка объекта не Но: позитивная оценка объекта не означает позитивной оценки всех его означает позитивной оценки всех его свойств (и свойств (и vice versa)vice versa)

Предложения могут быть очень Предложения могут быть очень сложными – нужно переходить на сложными – нужно переходить на уровень отдельных свойств уровень отдельных свойств

Page 8: 05 анализ тональности сообщений

Оценка свойствОценка свойств Идентификация свойствИдентификация свойств Группировка синонимовГруппировка синонимов Определение оценокОпределение оценок

Подходы очень похожи на Подходы очень похожи на Information Extraction:Information Extraction: (Named) Entity Recognition(Named) Entity Recognition + +

установление фактов (оценок)установление фактов (оценок) Словари, образцы, машинное Словари, образцы, машинное

обучениеобучение

Page 9: 05 анализ тональности сообщений

СравненияСравнения Два вида оценок:Два вида оценок:

X X хороший (плохой, тяжелый, легкий, хороший (плохой, тяжелый, легкий, звонкий…)звонкий…)

X X лучше (хуже, выше, ниже, толще, мощнее…) лучше (хуже, выше, ниже, толще, мощнее…) чем чем YY

Требуют более детальной обработкиТребуют более детальной обработки Типы сравнений:Типы сравнений:

ГрадацииГрадации A A лучше лучше BB А такой же как А такой же как BB A A лучше всехлучше всех

Сравнения по свойствамСравнения по свойствам У У A A есть характеристики, которых нет у есть характеристики, которых нет у BB У А одни свойства, у В другиеУ А одни свойства, у В другие А похож на В не считая некоторых свойствА похож на В не считая некоторых свойств

Page 10: 05 анализ тональности сообщений

Примеры сравненийПримеры сравнений

Page 11: 05 анализ тональности сообщений

Построение словарейПостроение словарей

ВручнуюВручную На основе существующих словарей На основе существующих словарей

и тезаурусов (и тезаурусов (WordNet)WordNet) АвтоматическиАвтоматически

BootstrappingBootstrapping Она умная Она умная ии красивая красивая vs. vs. Она умная, Она умная,

но но вреднаявредная Возможно построение доменно-Возможно построение доменно-

ориентированных словарейориентированных словарей

Page 12: 05 анализ тональности сообщений

ИсточникиИсточники Liu Liu B. Sentiment Analysis and Subjectivity // B. Sentiment Analysis and Subjectivity //

Handbook of natural language processing, Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp. 627-6662010 – pp. 627-666

Bing Liu Bing Liu Web Data MiningWeb Data Mining. . Lecture SlidesLecture Slides, , Chapter 11 Chapter 11 –– http://www.cs.uic.edu/~liub/WebMiningBook.hthttp://www.cs.uic.edu/~liub/WebMiningBook.htmlml

Bing Liu Bing Liu Opinion Mining and SummarizationOpinion Mining and Summarization,, tutorialtutorial - - http://www.cs.uic.edu/~liub/FBS/opinion-mininghttp://www.cs.uic.edu/~liub/FBS/opinion-mining-sentiment-analysis.pdf-sentiment-analysis.pdf

Bo Pang and Lillian LeeBo Pang and Lillian Lee Opinion mining and Opinion mining and sentiment analysissentiment analysis // Foundations and Trends in // Foundations and Trends in Information Retrieval 2(1-2), pp. 1–135, 2008.Information Retrieval 2(1-2), pp. 1–135, 2008. – – http://www.cs.cornell.edu/home/llee/opinion-minhttp://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.htmling-sentiment-analysis-survey.html


Recommended