15
Автоматическое Автоматическое определение определение авторства авторства Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

09 автоматическое определение авторства

Embed Size (px)

DESCRIPTION

Презентация к курсу "Системы понимания текста" - http://mathlingvo.ru/courses/ponimanie

Citation preview

Page 1: 09 автоматическое определение авторства

Автоматическое Автоматическое определение определение

авторстваавторстваЛидия Михайловна Лидия Михайловна

ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 09 автоматическое определение авторства

ВведениеВведение Определение авторства – определение Определение авторства – определение

одного автора из нескольких возможныходного автора из нескольких возможных Верификация автора – установление, Верификация автора – установление,

принадлежит ли данный текст данному принадлежит ли данный текст данному авторуавтору

Определение плагиата – поиск сходства Определение плагиата – поиск сходства между двумя текстамимежду двумя текстами

Построение авторского профиля – т.е. Построение авторского профиля – т.е. установление пола, возраста, образования установление пола, возраста, образования и т.п. автора конкретного текстаи т.п. автора конкретного текста

Установления стилистической Установления стилистической непоследовательности текста (что может непоследовательности текста (что может означать, что работало несколько авторов)означать, что работало несколько авторов)

Page 3: 09 автоматическое определение авторства

СодержаниеСодержание

Определение автора как задача Определение автора как задача классификацииклассификации

Методы атрибуцииМетоды атрибуции

Page 4: 09 автоматическое определение авторства

Определение авторства Определение авторства как задача как задача

классификацииклассификации Дано: Дано:

текст неизвестного авторатекст неизвестного автора набор возможных авторовнабор возможных авторов примеры текстов для каждого из примеры текстов для каждого из

возможных автороввозможных авторов Задача:Задача:

отнести изучаемый текст к одной из отнести изучаемый текст к одной из представленных групппредставленных групп

Вопрос в том, какие свойства Вопрос в том, какие свойства использовать для классификациииспользовать для классификации

Page 5: 09 автоматическое определение авторства

Стилистические Стилистические свойствасвойства

СимвольныеСимвольные ЛексическиеЛексические СинтаксическиеСинтаксические СемантическиеСемантические ТематическиеТематические

Page 6: 09 автоматическое определение авторства

Лексические свойства Лексические свойства текстовтекстов

Словарный запас Словарный запас – – зависит от объема текста, не может использоваться в зависит от объема текста, не может использоваться в

одиночкуодиночку Частотные распределения словЧастотные распределения слов

– – текст как вектор (текст как вектор (bag of words)bag of words)

– – служебные слова (предлоги, союзы, артикли) более служебные слова (предлоги, союзы, артикли) более важны, чем значимая лексика: они используются важны, чем значимая лексика: они используются бессознательно, их распределения сохраняются для бессознательно, их распределения сохраняются для разных тем и жанровразных тем и жанров

– – размерность пространства классификации сильно размерность пространства классификации сильно ниже, чем в тематической классификацииниже, чем в тематической классификации

N-N-граммы (сочетания слов)граммы (сочетания слов)– – не всегда улучшают качествоне всегда улучшают качество

– – для их использования нужны большие объемы для их использования нужны большие объемы корпусовкорпусов

Page 7: 09 автоматическое определение авторства

Символьные свойства Символьные свойства текстатекста

Частотные распределения букв, цифр, Частотные распределения букв, цифр, верхнего и нижнего регистра, знаков верхнего и нижнего регистра, знаков препинанияпрепинания

NN-граммы – сочетания букв-граммы – сочетания букв– – более устойчивы к шумам (например, более устойчивы к шумам (например,

опечаткам), чем лексические свойстваопечаткам), чем лексические свойства– – выбор выбор N N зависит от языка; чем больше зависит от языка; чем больше NN, ,

тем больше размерность пространства тем больше размерность пространства классификации, тем большие нужен классификации, тем большие нужен корпус; маленькие корпус; маленькие NN (2-4) (2-4) – – свойства типа свойства типа слоговслогов

Модели сжатияМодели сжатия– – чувствительны к тематике текстовчувствительны к тематике текстов

Page 8: 09 автоматическое определение авторства

Синтаксические Синтаксические свойствасвойства

Автор использует набор синтаксических Автор использует набор синтаксических паттернов, которые хуже осознаются, чем паттернов, которые хуже осознаются, чем лексикалексика

Требуется синтаксический разбор текста – Требуется синтаксический разбор текста – такой метод уже не может быть языково-такой метод уже не может быть языково-независимымнезависимым

Данные всегда зашумлены (из-за Данные всегда зашумлены (из-за несовершенства синтаксического анализа)несовершенства синтаксического анализа)

Уровень анализа может быть разным:Уровень анализа может быть разным: Частотные распределения частей речиЧастотные распределения частей речи Локальный синтаксисЛокальный синтаксис Глобальная структура предложенияГлобальная структура предложения Словосочетания определенного типаСловосочетания определенного типа

Page 9: 09 автоматическое определение авторства

Семантические Семантические свойствасвойства

Семантический анализ сам по себе Семантический анализ сам по себе менее развит, семантическая менее развит, семантическая разметка дает большее число ошибок разметка дает большее число ошибок – как следствие, точность анализа – как следствие, точность анализа снижаетсяснижается

Было несколько попыток использовать Было несколько попыток использовать семантические классы слов (семантические классы слов (WordNet) WordNet) для определения авторства, однако для определения авторства, однако неочевидно, что это дает неочевидно, что это дает преимущество по сравнению с преимущество по сравнению с другими методамидругими методами

Page 10: 09 автоматическое определение авторства

Тематические свойстваТематические свойства

Если тематика сообщений заранее Если тематика сообщений заранее известна (например, речь идет об известна (например, речь идет об анонимном сообщении на тематическом анонимном сообщении на тематическом интернет-форуме), то можно интернет-форуме), то можно использовать авторские предпочтения в использовать авторские предпочтения в выборе тех или иных слов, характерных выборе тех или иных слов, характерных для этой предметной области (доменных для этой предметной области (доменных синонимов)синонимов)

Однако этот метод очень трудно Однако этот метод очень трудно автоматизировать – и, как следствие, автоматизировать – и, как следствие, переносить с одной задачи на другуюпереносить с одной задачи на другую

Page 11: 09 автоматическое определение авторства

Выбор свойствВыбор свойств В определении авторства лучше всего В определении авторства лучше всего

работает не одно какое-то свойство, а их работает не одно какое-то свойство, а их сочетаниесочетание

Обычно набор свойств сначала Обычно набор свойств сначала проверяют на обучающей выборке и проверяют на обучающей выборке и выбирают наиболее дискриминирующиевыбирают наиболее дискриминирующие

Дискриминирующие свойстваДискриминирующие свойства наиболее частотны наиболее частотны наименее стабильны (т.е. имеют большое наименее стабильны (т.е. имеют большое

число синонимов)число синонимов) Можно использовать методы снижения Можно использовать методы снижения

размерности в пространстве словразмерности в пространстве слов

Page 12: 09 автоматическое определение авторства

СодержаниеСодержание

Определение автора как задача Определение автора как задача классификацииклассификации

Методы атрибуцииМетоды атрибуции

Page 13: 09 автоматическое определение авторства

Ориентированные на Ориентированные на автораавтора

Page 14: 09 автоматическое определение авторства

Ориентированные на Ориентированные на тексттекст

Page 15: 09 автоматическое определение авторства

ИсточникиИсточники

Efstathios Stamatatos Efstathios Stamatatos A Survey of A Survey of Modern Authorship Attribution Modern Authorship Attribution MethodsMethods // // Journal of the American Journal of the American Society for Information Science and Society for Information Science and TechnologyTechnology Volume 60, Issue 3, Volume 60, Issue 3, pages 538–556, March 2009pages 538–556, March 2009 - - http://www.clips.ua.ac.be/stylometryhttp://www.clips.ua.ac.be/stylometry/Lit/Stamatatos_survey2009.pdf/Lit/Stamatatos_survey2009.pdf