12
Автоматизированное формирование базы знаний для задачи анализа мнений Четвёркин И.И. 524 гр. Научный руководитель: к.ф.-м.н. Лукашевич Н.В. Дипломная работа

Автоматическое формирование базы знаний для задачи анализа мнений

  • Upload
    -

  • View
    301

  • Download
    10

Embed Size (px)

Citation preview

Page 1: Автоматическое формирование базы знаний для задачи анализа мнений

Автоматизированное формирование базы знаний для задачи анализа

мнений

Четвёркин И.И. 524 гр.

Научный руководитель:

к.ф.-м.н. Лукашевич Н.В.

Дипломная работа

Page 2: Автоматическое формирование базы знаний для задачи анализа мнений

Задача анализа мнений

• Огромное количество отзывов о товарах и услугах в интернете

• Неожиданная развязка и новые герои делают этот фильм непохожим на предшественника.

• Для решения задачи анализа мнений необходимы дополнительные знания– Объекты обзоров– Атрибуты объекта– Оценочные слова и выражения

• Совокупность оценочных слов и выражений –важнейшая компонента базы знаний

Page 3: Автоматическое формирование базы знаний для задачи анализа мнений

Постановка задачи

• Выявить набор характеристик, позволяющих выделять оценочные слова из текстов мнений заданной предметной области

• Провести эксперименты по применению методов машинного обучения, на основании полученных характеристик, для классификации слов предметной области на оценочные и неоценочные слова

• Создать программную систему извлечения оценочных слов, по заданной коллекции мнений

Page 4: Автоматическое формирование базы знаний для задачи анализа мнений

Данные

• Для решения задачи выделения оценочных слов было подготовлено 4 корпуса– Корпус мнений (30 тысяч отзывов с

пользовательскими оценками от 1 до 10)– Корпус описаний (20 тысяч описаний объектов)– Новостной корпус (1 млн. документов)– Малый корпус (составлен из частей корпуса

мнений)

• Предварительная морфологическая обработка всех данных

• Слова разделяются на прилагательные и неприлагательные

Page 5: Автоматическое формирование базы знаний для задачи анализа мнений

Малый корпус

• Составные части– Предложения, заканчивающиеся на «!»

– Предложения, заканчивающиеся на «…»

– Короткие предложения не более, чем из 7 слов

– Предложения, содержащие слово «фильм», без других существительных

– Короткие отзывы, состоящие из одного предложения

• Размер малого корпуса примерно в 2.5 раза меньше, чем у корпуса мнений

Page 6: Автоматическое формирование базы знаний для задачи анализа мнений

Характеристики

• Для каждого слова вычисляется 18 характеристик– Частотные (6 характеристик)

• Частота слова во всем корпусе

• Количество документов (отзывов), в которых встречается слово

• Частота слов с большой буквы

– По парам корпусов (10 характеристик)• TFIDF

• «Странность»

– Отклонение от средней оценки по корпусу

– Существительные, связанные с «оценочными» прилагательными – потенциальные сущности и атрибуты

Page 7: Автоматическое формирование базы знаний для задачи анализа мнений

Оценка характеристик

• Лучшие показатели по количеству оценочных слов в первой тысяче по группам

– Прилагательные

• Частотные: 58.7%

• По двум корпусам: 64%

• Отклонение от средней оценки: 56.3%

– Неприлагательные

• Частотные: 21.4%

• По двум корпусам: 41.7%

• Отклонение от средней оценки: 30.6%

Page 8: Автоматическое формирование базы знаний для задачи анализа мнений

Машинное обучение• Алгоритмы машинного обучения

– Метод k ближайших соседей– «Наивный» Байесовский алгоритм– Нейронные сети (1,2,3 слоя)– Логистическая регрессия– Метод опорных векторов (скалярное и радиальное

ядра)

• Оценка работы алгоритмов– F-мера– Количество оценочных слов, попавших в первую

1000 слов, упорядоченных по байесовской «вероятности»

Page 9: Автоматическое формирование базы знаний для задачи анализа мнений

Сравнение методов

• Рост качества для прилагательных – на 8.28%, для неприлагательных – на 20.6%,по точности на первой тысяче слов (по сравнению со списками по характеристикам)

Алгоритм Прилагательные Неприлагательные

F P1000 F P1000

kNN 67.17 66.3 34.59 36.6

Наивный Байес 32.29 63.3 46.77 37.6

Неиронная сеть 71.08 67.9 50.83 50.9

Логистическая 68.09 69.1 49.58 49.6

SVM 67.54 67.6 43.04 37.5

Page 10: Автоматическое формирование базы знаний для задачи анализа мнений

Архитектура системы

Page 11: Автоматическое формирование базы знаний для задачи анализа мнений

Выдача системы

добрый

замечательный

великолепный

потрясающий

красивый

смешной

любимый

отличный

трогательный

прекрасный

понравиться

пересматривать

зацепить

однозначно

смешно

посмотреть

досмотреть

нравится

затянутый

цеплять

Page 12: Автоматическое формирование базы знаний для задачи анализа мнений

Основные результаты• Предложен набор из 18 характеристик,

позволяющий выделять оценочные слова из текстов мнений заданной предметной области

• Проведены эксперименты по применению методов машинного обучения и выбраны алгоритмы логистической регрессии и нейронные сети для классификации слов

• Реализована программная система извлечения оценочных слов, по заданной коллекции мнений, на языке Питон

• Публикации:• Статья в Трудах Международной конференции по компьютерной

лингвистикеи интеллектуальным технологиям «Диалог-2010»

• Тезисы в Трудах Международной конференции «Ломоносов-2010»