21
Автоматическое Автоматическое реферирование реферирование Лидия Михайловна Лидия Михайловна Пивоварова Пивоварова Системы понимания текста Системы понимания текста

07 автоматическое реферирование

Embed Size (px)

DESCRIPTION

Пре

Citation preview

Page 1: 07 автоматическое реферирование

Автоматическое Автоматическое реферированиереферирование

Лидия Михайловна Лидия Михайловна ПивовароваПивоварова

Системы понимания Системы понимания текстатекста

Page 2: 07 автоматическое реферирование

ВведениеВведение

Реферат – текст, Реферат – текст, составленный на основе составленный на основе одного или нескольких одного или нескольких документов, который документов, который содержит важнейшую содержит важнейшую информацию из информацию из исходных текстов и по исходных текстов и по объему не превосходит объему не превосходит половины исходных половины исходных текстов.текстов.

Page 3: 07 автоматическое реферирование

РеферированиеРеферирование ОписательноеОписательное vsvs. . содержательное содержательное vsvs. . оценочноеоценочное

......используется для быстрой категоризациииспользуется для быстрой категоризации vs. vs. представления информации представления информации vs. vs. оценки содержания оценки содержания документадокумента

ИзвлечениеИзвлечение vsvs. . абстракцияабстракция......фрагменты текстафрагменты текста vs. vs. связный перифраз смысласвязный перифраз смысла

УниверсальноеУниверсальное vsvs. . запросно-ориентированное запросно-ориентированное vsvs. . пользовательскоепользовательское... ... суммируется авторская точка зрения суммируется авторская точка зрения vs.vs. реферат реферат

основывается на запросеосновывается на запросе vs. vs. отражаются интересы отражаются интересы пользователяпользователя

Background Background vsvs. just-the-news. just-the-news......предполагает, что предварительные знания читателя предполагает, что предварительные знания читателя

малымалы vs. vs. полныполны

Основанное на одномОснованное на одном vsvs. . множестве документовмножестве документов

Page 4: 07 автоматическое реферирование

The Modules of the Summarization The Modules of the Summarization MachineMachine

EXTRACTION

INTERPRETATION

EXTRACTS

ABSTRACTS

?

CASE FRAMESTEMPLATESCORE CONCEPTSCORE EVENTSRELATIONSHIPSCLAUSE FRAGMENTSINDEX TERMS

MULTIDOC

EXTRACTS

GENERATION

FILTERING

DOCEXTRACTS

Page 5: 07 автоматическое реферирование

СодержаниеСодержание

1.1. ИзвлечИзвлечеение (ние (extraction)extraction)

2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)

3.3. ПорождениеПорождение т текста рефератаекста реферата

4.4. ОценкаОценка

Page 6: 07 автоматическое реферирование

Опорные свойства Опорные свойства текстатекста Структура текстаСтруктура текста

позиция информации в текстепозиция информации в тексте заголовки, абзацызаголовки, абзацы,, … …

Ключевые слова (словочетания)Ключевые слова (словочетания) Частота слов в текстеЧастота слов в тексте Когезия Когезия

совместная встречаемостьсовместная встречаемость кореференциякореференция ллексические связиексические связи

Дискурсивная структура текстаДискурсивная структура текста

Page 7: 07 автоматическое реферирование

Структура текстаСтруктура текста

Важнейшие предложеВажнейшие предложенния расположены ия расположены в начале и/или конце текстав начале и/или конце текста

Основной методОсновной метод: : просто взять первое просто взять первое (первые) предложение(я)(первые) предложение(я) На самом деле расположение На самом деле расположение

информатиинформативвных предложений зависит от ных предложений зависит от жанра текстажанра текста

Слова, которые встречаются в названии Слова, которые встречаются в названии и заголовках релевантны для рефератаи заголовках релевантны для реферата

Page 8: 07 автоматическое реферирование

Ключевые слова Ключевые слова (словочетания)(словочетания)

Важные предложения содержатВажные предложения содержат ‘bonus phrases’‘bonus phrases’:: significantly, In this significantly, In this paper we show, In conclusionpaper we show, In conclusion, , ……

ННеважные предложения содержатеважные предложения содержат ‘stigma phrases’‘stigma phrases’: : hardly,hardly, impossibleimpossible, , … …

Вес предложения рассчитывается Вес предложения рассчитывается с учетом с учетом ттаких фразаких фраз

Page 9: 07 автоматическое реферирование

Частота Частота Важные предложения Важные предложения

содержат наиболее содержат наиболее частотную лексикучастотную лексику

Частота слов Частота слов учитывается в весе учитывается в весе документовдокументов

Можно использовать Можно использовать unsupervised unsupervised меметтодыоды

Этот поЭтот подхдход может од может снижать качество снижать качество работы системыработы системы

words

Wordfrequency

The resolving power of words

(Luhn, 59)

Page 10: 07 автоматическое реферирование

Когерентность и Когерентность и когезиякогезия

Когерентность – глобальная Когерентность – глобальная структура текста, структура текста, высокоуровневые связи между высокоуровневые связи между предложениямипредложениями

Когезия – локальная структура Когезия – локальная структура текста, связи между словамитекста, связи между словами

Идеальный реферат (как любой Идеальный реферат (как любой естественно-языковый текст) естественно-языковый текст) должен совмещать оба свойствадолжен совмещать оба свойства

Page 11: 07 автоматическое реферирование

Когерентность и Когерентность и когезиякогезияJohn enjoys playing the piano. John wants to

become a famous piano player. John works hard and works hard every day. Working hard is necessary to become a famous piano player.

John enjoys playing the piano. However, he woke up early yesterday. But the day before yesterday the weather was wonderful, because rain and snow started immediately and continued the whole day through. By the way, his teacher did the same.

John enjoys playing the piano and wants to become famous.He works hard and does it every day because it is necessary for his goal.

Page 12: 07 автоматическое реферирование

Когерентность в Когерентность в реферированииреферировании

Текст представляется в виде Текст представляется в виде графа; узлы – предложения, графа; узлы – предложения, связь – мера близости (связь – мера близости (bag of bag of words similarity)words similarity)

Используется порог Используется порог отсечения по мере близостиотсечения по мере близости

Наиболее существенные узлы: Наиболее существенные узлы: те, которые имеют те, которые имеют наибольшее число связейнаибольшее число связей

Для определения этих узлов Для определения этих узлов можно использовать алгоритм можно использовать алгоритм типа типа PageRankPageRank

Page 13: 07 автоматическое реферирование

СодержаниеСодержание

1.1. ИзвлечИзвлечеение (ние (extraction)extraction)

2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)

3.3. ПорождениеПорождение т текста рефератаекста реферата

4.4. ОценкаОценка

Page 14: 07 автоматическое реферирование

АбстракцияАбстракция ООббобщение концептовобщение концептов::

Sue ate apples, pears, and bananas Sue ate apples, pears, and bananas Sue ate Sue ate fruitfruit

Замещение меронимииЗамещение меронимии::Both wheels, the pedals, saddle, chain… Both wheels, the pedals, saddle, chain… the the

bikebike Идентификация сценарияИдентификация сценария

He sat down, read the menu, ordered, ate, paid, He sat down, read the menu, ordered, ate, paid, and left and left He ate at the restaurant He ate at the restaurant

МетонимияМетонимия::A spokesperson for the US Government announced A spokesperson for the US Government announced

that… that… Washington announced that... Washington announced that...

Page 15: 07 автоматическое реферирование

АбстракцияАбстракция ИнтерпретацИнтерпретациия происходит на я происходит на

концептуальном уровне, требует концептуальном уровне, требует привлечения семантической привлечения семантической информацииинформации

В настоящее время большинство В настоящее время большинство систем используют извлечение систем используют извлечение ((extraction)extraction), а не абстрацию, а не абстрацию

Приложимы методы Приложимы методы Information Information ExtractionExtraction: заполнение шаблонов на : заполнение шаблонов на основе текста, затем генерация основе текста, затем генерация реферата по заполненным шаблонамреферата по заполненным шаблонам

Page 16: 07 автоматическое реферирование

Суммаризация Суммаризация нескольких документовнескольких документов

Основной фокус – на снижении Основной фокус – на снижении избыточности избыточности Невозможно просто брать предложения из Невозможно просто брать предложения из

текстов без постобработкитекстов без постобработки Неочевидно, в каком порядке брать Неочевидно, в каком порядке брать

предложенияпредложения когерентностькогерентность когезиякогезия хронологический порядокхронологический порядок кореференциякореференция

Page 17: 07 автоматическое реферирование

СодержаниеСодержание

1.1. ИзвлечИзвлечеение (ние (extraction)extraction)

2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)

3.3. ПорождениеПорождение т текста рефератаекста реферата

4.4. ОценкаОценка

Page 18: 07 автоматическое реферирование

Порождение текста Порождение текста рреефератаферата

Уровень 1Уровень 1: с: специальная пециальная процедура отсутствуетпроцедура отсутствует ИИзвлеченные из текста фрагменты звлеченные из текста фрагменты

используются буквальноиспользуются буквально. .

УровеньУровень 2: 2: простые предложенияпростые предложения Монтирование извлеченных фрагментовМонтирование извлеченных фрагментов

Уровень Уровень 3: 3: полноценное полноценное ппоорождение текстоврождение текстов ккомпрессия омпрессия исисходных текстовходных текстов

Page 19: 07 автоматическое реферирование

СодержаниеСодержание

1.1. ИзвлечИзвлечеение (ние (extraction)extraction)

2.2. ИнтерпретацияИнтерпретация (abstraction) (abstraction)

3.3. ПорождениеПорождение т текста рефератаекста реферата

4.4. ОценкаОценка

Page 20: 07 автоматическое реферирование

ОценкаОценка При наличии составленных вручную При наличии составленных вручную

рефератов оценку можно проводить рефератов оценку можно проводить автоматически – через меру близости автоматически – через меру близости между рефератами, составленным между рефератами, составленным человеком и системойчеловеком и системой (ROUGE (ROUGE аналогичный аналогичный BLEU)BLEU)

DUC - Document Understanding Conferences (2000-2007), с 2008-го вошло отдельной дорожкой в Text Analysis Conference (TAC) помимо автоматической оценки – ручная помимо автоматической оценки – ручная

экспертизаэкспертиза

Page 21: 07 автоматическое реферирование

ИсточникиИсточники

Eduard Hovy and Daniel MarcuEduard Hovy and Daniel Marcu Automated Text Automated Text summarizationsummarization. . Tutorial — COLING/ACL’98 Tutorial — COLING/ACL’98 – – www.isi.edu/~marcu/acl-tutorial.pptwww.isi.edu/~marcu/acl-tutorial.ppt

Екатерина Филиппова Современные Екатерина Филиппова Современные подходы к автоматическому подходы к автоматическому составлению рефератов - составлению рефератов - http://mathlingvo.ru/nlpseminar/archive/shttp://mathlingvo.ru/nlpseminar/archive/s_19_19

D. Jurafsky, J. H. Martin Speech and D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 23Language Processing – 2009 – Chapter 23